Семантика


О лексико-семантической информации в Корпусе

В настоящее время в Корпусе реализована система поиска по лексико-семантическим признакам, основанная на частичной семантической разметке текстов.

При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т.п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов. На первом этапе поиск осуществляется по части имеющихся в словаре признаков.

Разметка текстов осуществляется автоматически с помощью программы Semmarkup (автор А. Е. Поляков) в соответствии с Семантическим словарем Корпуса. Поскольку ручная обработка семантически размеченных текстов очень трудоемка, семантическая омонимия в Корпусе не снимается: многозначным словам приписывается несколько альтернативных наборов семантических признаков.

В основу семантической разметки положена система классификации русской лексики, принятая в базе данных "Лексикограф", которая разрабатывалась с 1992 г. в Отделе лингвистических исследований ВИНИТИ РАН под рук. Е. В. Падучевой и Е. В. Рахилиной. Для нужд Корпуса был существенно увеличен словник, расширен состав и усовершенствована структура семантических классов, добавлены словообразовательные признаки.

Словник семантического словаря базируется на морфологическом словаре системы DIALING (общим объемом порядка 120 тыс. слов), представляющим собой расширение Грамматического словаря русского языка А. А. Зализняка. Текущая версия семантического словаря включает слова знаменательных частей речи: существительные, прилагательные, числительные, местоимения, глаголы и наречия.

При работе над семантической разметкой использовались сведения о значении слов и структуре семантических классов из следующих источников:

    Словарь русского языка под ред. С. И. Ожегова
    Словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой
    Словарь русского языка в 4-х тт. под ред. А. П. Евгеньевой (МАС)
    Словарь русского языка в 17-ти тт. (БАС)
    Толковый словарь русского языка Д. Н. Ушакова
    Русский семантический словарь под ред. Н. Ю. Шведовой, тт. 1-3
    Толковый словарь русских глаголов под ред. Л. Г. Бабенко
    Системный семантический словарь русского языка Л. М. Васильева
    Новый объяснительный словарь синонимов русского языка под общим рук. акад. Ю. Д. Апресяна (НОСС)

Структура лексико-семантической информации

Лексико-семантическая информация, приписываемая произвольному слову в тексте, состоит из трех групп помет:

  1. разряд (например, имя собственное, возвратное местоимение);

  2. собственно лексико-семантические характеристики (например, тематический класс лексемы, признаки каузативности, оценки);

  3. деривационные (словообразовательные) характеристики (например, «диминутив», «отадъективное наречие»).

Лексико-семантическая информация имеет различную структуру для разных частей речи. Кроме того, каждый из разрядов существительных - имена предметные, непредметные и собственные - имеет свою структуру помет.

Собственно лексико-семантические пометы сгруппированы по следующим полям:

  1. таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий;
  2. мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;
  3. топология (топологический статус обозначаемого объекта) — для предметных имен;
  4. каузация — для глаголов;
  5. служебный статус — для глаголов;
  6. оценка — для предметных и непредметных имен, прилагательных и наречий.

Словообразовательные характеристики включают несколько типов:

  1. морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»);
  2. разряд производящего слова (например, отглагольное существительное или отадъективное наречие);
  3. лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);
  4. морфологический тип словообразования (субстантивация, сложное слово).

В основу метаязыка лексико-семантических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе англоязычной нотации. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «семантические признаки»). Ниже приводится инвентарь всех доступных в настоящее время для поиска в Корпусе семантических помет. Для пояснения в скобках даются примеры.

Имена существительные (S)

Разряды

r:concr — предметные имена (девочка, стол, молоко)
r:abstr — непредметные имена (вождение, яркость, время)
r:propn — имена собственные (Иван, Эйнштейн, Петроград)

Предметные имена

Лексико-семантические пометы

Таксономия:

t:hum — лица (человек, учитель)
t:hum:etn — этнонимы (эфиоп, итальянка)
t:hum:kin — имена родства (брат, бабушка)
t:hum:supernat — сверхъестественные существа (русалка, инопланетянин)
t:animal — животные (корова, жираф, сорока, ящерица, муравей)
t:plant — растения (береза, роза, трава)
t:stuff — вещества и материалы (вода, песок, тесто, жесть, шелк)
t:space — пространство и место (космос, город, тайга, овраг, вход)
t:constr — здания и сооружения (дом, шалаш, мост)
t:tool — инструменты и приспособления (молоток, палка, пуговица, машина)
t:tool:instr — инструменты (молоток, штопор, игла, карандаш)
t:tool:device — механизмы и приборы (телефон, сеялка, градусник)
t:tool:transp — транспортные средства (автобус, поезд, сани)
t:tool:weapon — оружие (сабля, пистолет, гаубица)
t:tool:mus — музыкальные инструменты (рояль, скрипка, колокол)
t:tool:furn — мебель (стол, диван, шкаф)
t:tool:dish — посуда (чашка, кастрюля, фляжка)
t:tool:cloth — одежда и обувь (платье, шляпа, ботинки)
t:food — еда и напитки (пирог, каша, молоко)
t:text — тексты (рассказ, книга, афиша)

Мереология:

pt:part — части (верхушка, кончик, половина)
pt:partb & pc:hum — части тела и органы человека (голова, сердце, ноготь)
pt:partb & pc:animal — части тела и органы животных (хвост, жало)
pt:part & pc:plant — части растений (лист, ветка, корень)
pt:part & pc:constr — части зданий и сооружений (комната, дверь, арка)
pt:part & pc:tool — части приспособлений (деталь, лопасть, крышка)
pt:part & pc:tool:instr — части инструментов (топорище, лезвие)
pt:part & pc:tool:device — части механизмов и приборов (дисплей, корпус, кнопка)
pt:part & pc:tool:transp — части транспортных средств (руль, колесо, капот)
pt:part & pc:tool:weapon — части оружия (дуло, курок, эфес)
pt:part & pc:tool:mus — части музыкальных инструментов (струна, гриф)
pt:part & pc:tool:furn — части предметов мебели (сиденье, подлокотник)
pt:part & pc:tool:dish — части предметов посуды (носик, горлышко)
pt:part & pc:tool:cloth — части одежды и обуви (рукав, каблук)
pt:qtm — кванты и порции вещества (капля, комок, порция)
pt:set | pt:aggr — множества и совокупности объектов (набор, букет, мебель, человечество)
hi:class — имена классов (животное, ягода, инструмент)

Топология:

top:contain — вместилища (кошелек, комната, озеро, ниша)
top:horiz — горизонтальные поверхности (пол, площадка)

Оценка:

ev — оценка (неопределенная по признаку «положительная/отрицательная») (озорник, махина)
ev:posit — положительная (умница, светило)
ev:neg — отрицательная (негодяй, вертихвостка)

Словообразовательные пометы

d:dim — диминутивы (зайчик, коробочка)
d:aug — аугментативы (детина, домище)
d:sing — сингулятивы (пылинка, изюминка)
d:nag — nomina agentis (писатель, создатель, докладчик)
d:fem — nomina feminina (немка, генеральша, доярка)

Непредметные имена

Лексико-семантические пометы

Таксономия (тематический класс):

t:move — движение (беготня, вынос, качка)
t:move:body — изменение положения тела, части тела (поклон)
t:put — помещение объекта (размещение, расстановка, погрузка, намотка)
t:impact — физическое воздействие (удар, втирание, обмолот)
t:impact:creat — создание физического объекта (лепка, отливка, плетение, сооружение, строительство)
t:impact:destr — уничтожение (слом, сожжение)
t:changest — изменение состояния или признака (укрепление, затвердение, осушение, конденсация, осложнение)
t:be — бытийная сфера
t:be:exist — существование (жизнь, наличие, бытие)
t:be:appear — начало существования (возникновение, рождение, формирование, учреждение, творение)
t:be:disapp — прекращение существования (смерть, казнь, ликвидация)
t:loc — местонахождение (местоположение)
t:loc:body — положение тела в пространстве (лежание)
t:contact — контакт и опора (прикосновение, объятие)
t:poss — посессивная сфера (обладание, приобретение, покупка, потеря, лишение)
t:ment — ментальная сфера (знание, абстракция, воображение, воспоминание, догадка)
t:perc — восприятие (осязание, слух, видимость, взгляд, зрелище)
t:psych — психическая сфера (апатия, безумие, вдохновение, спокойствие)
t:psych:emot — эмоция (восторг, раскаяние, печаль)
t:psych:volit — воля (намерение, решение)
t:speech — речь (дискуссия, молва, ахинея, реплика, подковырка)
t:physiol — физиологическая сфера (жажда, кровоизлияние, судорога, утомление, икота)
t:weather — природное явление (зарница, вьюга, зной)
t:sound — звук (шум, перезвон, хлопок, аплодисменты, диссонанс)
t:color — цвет (окраска, колорит, желтизна, прозелень)
t:light — свет (луч, полумрак, светлынь, иллюминация)
t:taste — вкус (вкуснота, горчинка, кислятина)
t:smell — запах (аромат, перегар)
t:temper — температура (прохлада, стужа, нагрев)
t:time — время (весна, годовщина, минута, современность)
t:time:period — период (межсезонье, путина, сенокос, стаж)
t:time:moment — момент (миг, мгновение)
t:time:week — день недели (понедельник)
t:time:month — месяц (январь)
t:time:age — возраст (детство, молодость, двадцатилетие)
t:humq — свойство человека (порядочность, безволие, остроумие)
t:behav — поведение и поступки человека (разгильдяйство, подхалимаж, неповиновение, ребячество, предательство)
t:inter — взаимодействие и взаимоотношение (взаимопомощь, вражда, схватка, драка)
t:action — мероприятие (аукцион, вернисаж, вечеринка, выборы, именины, заседание, культпоход)
t:disease — болезнь (ангина, диабет)
t:game — игра (жмурки, покер, домино, волейбол)
t:sport — спорт (спартакиада, акробатика, баскетбол)
t:param — параметр (высота, грузоподъемность)
t:unit — единица измерения (балл, килограмм, метр, минута)

Мереология:

pt:part — часть (начало, финал)
pt:qtm — квант (оборот, прыжок, кивок)
pt:set — множество (система, выборка, алгоритм)

Оценка:

ev — оценка (озорник, махина)
ev:posit — положительная (благоухание, загляденье, изюминка)
ev:neg — отрицательная (безвкусица, ахинея)

Словообразовательные пометы

der:v — отглагольные имена (выбор, демонстрация)
der:a — отадъективные имена (краснота, жадность)

Имена собственные

Лексико-семантические пометы

Таксономия:

t:hum | t:hum:supernat — лица (Людмила, Черномор)
t:persn — имена (Александр)
t:patrn — отчества (Сергеевич)
t:famn — фамилии (Пушкин)
t:topon — топонимы (Европа, Волга, Эльбрус, Москва, Преображенка)

Словообразовательные пометы

d:dim — диминутивы (Саша, Женечка, Николаич)

Имена прилагательные (A)

Разряды

r:qual — качественные (хороший, большой)
r:rel — относительные (деревянный, лунный)
r:poss — притяжательные (божий, отцов, мужнин)
r:invar — неизменяемые (беж, джерси)

Лексико-семантические пометы

t:size — размер (высокий, короткий)
t:size:max — большой (высокий, длинный)
t:size:min — малый (низкий, короткий)
t:size:abs — абсолютный (двухэтажный)
t:dist — расстояние (далекий, соседний)
t:dist:max — большое (дальний, отдаленный)
t:dist:min — малое (близкий, недалекий)
t:quant — количество (большой, достаточный, трехкратный)
t:quant:max — большое (обильный, многочисленный)
t:quant:min — малое (ничтожный, малочисленный)
t:quant:abs — абсолютное (двухтысячный, восьмимилионный)
t:place — место (левый, придорожный, теменной)
t:dir — направление (обратный, подветренный)
t:time — время (прошлый, ночной)
t:time:dur — длительность (долгий, краткий)
t:time:dur:max — большая (долгий, продолжительный)
t:time:dur:min — малая (краткий, кратковременный)
t:time:dur:abs — абсолютная (восьмичасовой)
t:time:age — возраст (зрелый)
t:time:age:max — большой (старый, древний)
t:time:age:min — малый (молодой, малолетний)
t:time:age:abs — абсолютный (трехлетний)
t:speed — скорость (проворный)
t:speed:max — большая (скорый, быстрый)
t:speed:min — малая (медленный, тягучий)
t:physq — физические свойства (мягкий, вязкий)
t:physq:form — форма (кривой, круглый)
t:physq:color — цвет (красный, бесцветный)
t:physq:taste — вкус (кислый, приторный)
t:physq:smell — запах (ароматный, тухлый)
t:physq:temper — температура (горячий, ледяной)
t:physq:weight — вес (тяжелый, легкий)
t:humq — качества человека (умный, верный, ловкий)

Оценка:

ev — оценка (толковый, мешковатый)
ev:posit — положительная (везучий, ладный)
ev:neg — отрицательная (продажный, сварливый)

Словообразовательные пометы

d:dim — диминутивы (тихонький, крохотный)
d:aug — аугментативы (здоровенный, злющий)
d:atten — аттенуативы (угловатый, жуликоватый)
d:habit — хабитивы (глазастый, пузатый)
d:carit — каритивы (безглазый, бездыханный)
d:potent | d:impot — потенциальные (плавучий, недееспособный)
d:potent — поссибилитивы (плавучий, плодородный, занимательный)
d:impot — импоссибилитивы (несоизмеримый, недееспособный)
der:s — отыменные прилагательные (домашний, железный)
der:v — отглагольные прилагательные (ковкий, навязчивый, кочевой)
der:adv — отадвербиальные прилагательные (поздний, здешний)

Имена числительные (NUM, A-NUM)

Разряды

r:card — количественные (два, пять, десять)
r:card:pauc — числительные малого количества (два, три, четыре, оба, пол, полтора)
r:ord — порядковые (первый, второй, десятый)

Местоимения, в том числе:

S-PRO — местоимения-существительные (он, кто)
A-PRO — местоимения-прилагательные (его, какой)
ADV-PRO — местоимения-наречия (где, как)

Разряды

r:pers — личные (я, он)
r:ref — возвратные (себя)
r:poss — притяжательные (мой, его, свой)
r:rel — вопросительные/относительные (кто, который, когда)
r:dem — указательные (этот, такой)
r:indet — неопределенные (некоторый, некогда)
r:neg — отрицательные (никакой, ничей)
r:spec — кванторные (определительные) (всякий, каждый, любой)

Глаголы (V)

Лексико-семантические пометы

t:move — движение (бежать, дергаться, бросить, нести)
t:move:body — изменение положения тела, части тела (согнуть, нагнуться, примоститься)
t:put — помещение объекта (положить, вложить, спрятать)
t:impact — физическое воздействие (бить, колоть, вытирать)
t:impact:creat — создание физического объекта (выковать, смастерить, сшить)
t:impact:destr — уничтожение (взорвать, сжечь, зарезать)
t:changest — изменение состояния или признака (взрослеть, богатеть, расширить, испачкать)
t:be — бытийная сфера (жить, возникнуть, убить)
t:be:exist — существование (жить, происходить)
t:be:appear — начало существования (возникнуть, родиться, сформировать, создать)
t:be:disapp — прекращение существования (умереть, убить, улетучиться, ликвидировать, искоренить)
t:loc — местонахождение (лежать, стоять, положить)
t:loc:body — положение тела в пространстве (сидеть)
t:contact — контакт и опора (касаться, обнимать, облокотиться)
t:poss — посессивная сфера (иметь дать, подарить, приобрести, лишиться)
t:ment — ментальная сфера (знать, верить, догадаться, помнить, считать)
t:perc — восприятие (смотреть, слышать, нюхать, чуять)
t:psych — психическая сфера (гипнотизировать, сочувствовать, настроиться, терпеть)
t:psych:emot — эмоция (радоваться, обидеть)
t:psych:volit — воля (решить)
t:speech — речь (говорить, советовать, спорить, каламбурить)
t:behav — поведение человека (куролесить, привередничать)
t:physiol — физиологическая сфера (кашлять, икать)
t:weather — природное явление (бушевать, вьюжить)
t:sound — звук (гудеть, шелестеть)
t:light — свет (гаснуть, лучиться)
t:smell — запах (пахнуть, благоухать)

Каузация:

ca:caus — каузативные глаголы (показать, вертеть)
ca:noncaus — некаузативные глаголы (видеть, вертеться)

Служебные глаголы:

aux:phase — фазовые (начать, продолжать, прекратить)
aux:caus — служебные каузативные (вызвать, привести (к))

Словообразовательные пометы

d:pref — приставочные глаголы (забегать, оглядеть)
d:semelf — семельфактивы (кивнуть, чихнуть, боднуть, качнуться)
d:impf — вторичные имперфективы (-ива-, -ва-, -а-) (выпивать, вбивать, прогонять)

Наречия (ADV)

Лексико-семантические пометы

t:place — место (здесь, посередине)
t:dir — направление (туда, наверх)
t:dist — расстояние (далеко, близко)
t:dist:max — большое (далеко, вдали, вдалеке)
t:dist:min — малое (близко, вблизи)
t:time — время (тогда, поздно)
t:time:dur — длительность (вечно, недолго)
t:time:dur:max — большая (вечно, подолгу, всегда)
t:time:dur:min — малая (временно, недолго)
t:speed — скорость (быстро, медленно)
t:speed:max — большая (быстро, мигом)
t:speed:min — малая (медленно, неторопливо)
t:quant — количество (столько, достаточно)
t:quant:max — большое (много, навалом)
t:quant:min — малое (мало, чуть-чуть)

Оценка:

ev — оценка (беспечно, бойко)
ev:posit — положительная (бойко, безупречно)
ev:neg — отрицательная (бездарно, неловко)

Словообразовательные пометы

d:dim — диминутивы (немножко, быстренько)
d:atten — аттенуативы (рановато, суховато)
der:s — отыменные наречия (вверху, дома)
der:v — отглагольные наречия (отродясь, стоймя)
der:a — отадъективные наречия (быстро, обычно)

Таксономия производящего слова-прилагательного

der:a & dt:size — размер (высоко, коротко)
der:a & dt:size:max — большой (высоко, бесконечно)
der:a & dt:size:min — малый (коротко, низко)
der:a & dt:physq — физические свойства (твердо, плотно)
der:a & dt:physq:form — форма (плоско, прямо)
der:a & dt:physq:color — цвет (красно, добела)
der:a & dt:physq:taste — вкус (горько, вкусно)
der:a & dt:physq:smell — запах (смрадно, зловонно)
der:a & dt:physq:temper — температура (тепло, прохладно)
der:a & dt:physq:weight — вес (тяжело, легко)
der:a & dt:humq — качества человека (внимательно, грубо)

Национальный корпус русского языка
© 2003–2016
info@ruscorpora.ru