Новости НКРЯ

В сервисе «Портрет слова» в основном корпусе для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания. В основе разметки словообразовательной структуры лежит специально разработанный для корпуса словарь морфемного анализа, а для лемм, отсутствующих в словаре, разборы сгенерированы нейросетевым алгоритмом НейроКРЯ. Обратите внимание, что членение слов на морфемы может отличаться от привычного вам (см. «Принципы разметки»).

При морфемном членении несловарных слов возможны ошибки. При обнаружении несоответствия принципам разметки, сообщайте об ошибке при помощи кнопки «‎Оценить».

Существенно обновлен интерфейс параллельного многоязычного корпуса. Для него доступны сервисы «Обзор возможностей» и «Портрет слова». Теперь все параллельные корпуса отображаются в новом интерфейсе.

Продолжаем обновлять Портрет слова: теперь можно увидеть Барометр частотности в Древнерусском корпусе.

Поэтический корпус пополнен на 400 тысяч словоупотреблений. В частности, добавлены новые тексты поэтов XX века, а также большая коллекция русских переводов античной поэзии: «Илиада»‎ Гомера в переводе Н. И. Гнедича, «Энеида»‎ Вергилия в переводе В. Я. Брюсова и С. М. Соловьева и сатиры Горация в переводе А. А. Фета.

Все параллельные двуязычные корпуса теперь работают в новом интерфейсе.

Существенно обновлен интерфейс древнерусского корпуса, корпус подключен к обзору возможностей. Отбор подкорпуса в древнерусском корпусе теперь находится на отдельной странице, как во всех корпусах в новом интерфейсе. В поле «Название памятника» можно выбрать из списка один или несколько памятников, в которых будет вестись поиск.

В коллокациях появилась возможность задавать синтаксические связи. Например, если задать ключ решение, а для коллоката указать часть речи «глагол», синтаксическую связь «дополнение», направление связи — «управляет», можно найти, что чаще всего делают с решением (принимают, согласовывают и т.д.). В таблице с результатами поиска будет показано 100 самых частотных коллокаций с такой синтаксической связью. Для каждой из этих коллокаций можно увидеть примеры, перейдя по ссылке.

У пользователей основного корпуса появилась возможность получить частотный словарь основных частей речи: существительных, прилагательных, глаголов и наречий. Такой же выбор появился и в частотном словаре подкорпуса - теперь при сравнении наиболее частотных лемм отобранного вами подкорпуса и корпуса можно указать часть речи.

Мы начали переводить параллельные корпуса на новый интерфейс. В конце апреля новый дизайн получили корпуса:

В форме поиска каждого из этих корпусов можно выбрать поиск точных форм, лексико-грамматический поиск или поиск на двух языках. Важное нововведение - в новом интерфейсе поиск на двух языках располагается не на отдельной, а на основной странице поиска. Запросы на русском и иностранном языке вводятся в двух разных группах условий на слова. Формат выдачи примеров в две колонки уже знаком тем, кто работает с корпусом берестяных грамот. Слева вы увидите оригинал, а справа - все доступные переводы.

В этом году НКРЯ активно сотрудничал с «Тотальным диктантом» — ежегодным просветительским мероприятием, объединяющим людей, которые владеют русским языком и стремятся писать грамотно. Каждое из группы слов #12словтотального сопровождалось ссылкой на наш портрет слова

В день проведения диктанта В.А. Плунгян поделился мыслями о том, зачем Корпус нужен лингвистам и нелингвистам, как Корпус меняется и какие годы были наиболее продуктивными в истории НКРЯ. Посмотрите запись беседы, это познавательно и увлекательно.

В древнерусском корпусе появились 14 новых текстов общим объемом 120 тысяч слов, в том числе такие известные произведения древнерусской литературы, как «Слово о законе и благодати», «Моление Даниила Заточника», «Киево-Печерский патерик», древнерусский перевод «Жития Василия Нового». В корпус теперь входят текстологические варианты одного произведения («Повести временных лет», «Жития Феодосия», цикла сочинений о Борисе и Глебе). При пополнении в корпусе появилось более тысячи раньше не входивших в него древнерусских лексем, в том числе предки таких русских слов, как выискивать, известие, избранник, пчелка, невежественный, стремглав, умышлять.

Продолжаем обновлять Портрет слова: теперь можно увидеть Похожие слова и Частотность слова в Старорусском корпусе и Частотность слова в Берестяных грамотах.

Бета-тестирование похожих слов в Портрете слова продолжается. Благодаря вашей обратной связи мы смогли улучшить векторную модель, ищущую похожие слова. Ждем новые отзывы о похожих словах в Основном и Региональном корпусах и реакцию на похожие слова в Старорусском корпусе. Оставить отзыв можно, нажав кнопку «Оценить» рядом с функционалом. 

Пять примеров в портретах слова теперь выбираются случайно, то есть при каждом новом просмотре портрета слова есть шанс увидеть что-то новое.

В раздел «Частотность выдачи» добавлена возможность группировать результаты не только по набору грамматических признаков, но и отдельно по частям речи. 

Начиная с сегодняшнего дня мы планируем регулярно собирать обратную связь от пользователей о новом функционале, чтобы с вашей помощью делать Корпус и сайт лучше. Для этого мы будем просить заинтересованных пользователей поработать с бета-версией функционала и сообщить нам о своих наблюдениях.

Рядом с функционалом, который сейчас находится в бета-тестировании, вы увидите кнопку «Оценить». Чтобы принять участие в бета-тестировании, нажмите эту кнопку, выберите свой вариант оценки, добавьте комментарий (это не обязательно, но поможет расшифровать вашу оценку) и нажмите «Отправить».

Сегодня мы приглашаем вас принять участие в оценке «Похожих слов» в портретах слова в Основном и Региональном корпусах. Пожалуйста, посмотрите описание функционала в Руководстве пользователя и попробуйте найти несколько разных существительных, прилагательных, глаголов и наречий в Портретах слова в Основном корпусе и в корпусе Региональных СМИ

Оцените, насколько удачно подобраны похожие слова к каждому слову, которое вы искали. Есть ли в облаке слов слова, которые кажутся вам лишними или вообще несуществующими? Есть ли среди похожих слов неожиданные находки или идеальные совпадения с вашими ожиданиями?

Чем больше слов вы оцените, тем лучше мы сможем понять, что и как стоит улучшить. Не забывайте и о хороших оценках - это поможет нам понять, как воспринимается функционал в целом.

Обновлен Портрет слова:  

  • скетчи и «Похожие слова» теперь есть не только в Основном корпусе, но и в Региональном
  • добавлена информация об относительной частотности слова
  • наиболее часто встречающаяся в корпусе часть речи для искомого слова теперь отображается в портрете первой (например, по запросу печь первым выводится существительное, а по запросу стать – глагол)

В составе НКРЯ появился новый корпус «Социальные сети», включающий более 160 млн словоупотреблений, начиная с 2007 года. Все тексты взяты из открытых источников: VK, Telegram, Livejournal, Liveinternet, Blogspot. Понятие «социальные сети» трактуется максимально широко, включая и записи в блогах, и сообщения в мессенджерах. Язык в социальных сетях отличается наибольшей динамикой и свободой от нормативных ограничений, отображая развитие лексики (включая сленг), эволюцию значений, изменения в грамматике и типичные ошибки.

Существенно обновлен интерфейс Диалектного корпуса, корпус подключен к обзору возможностей. Усовершенствована метатекстовая разметка (в частности, улучшен отбор места записи текста). В диалектном корпусе доступны просмотр и прослушивание мультимедийных роликов непосредственно в окне выдачи.

Запущена β-версия поиска по руководству пользователя, описаниям корпусов, анонсам и другим материалам, размещенным на сайте НКРЯ. Текущая версия Поиска по сайту имеет ряд ограничений, ознакомьтесь, пожалуйста, с описанием.

Улучшен и дополнен функционал Портрет слова в основном корпусе:

Информация в новом разделе Скетчи позволяет пользователю понять, как слово взаимодействует с другими словами в языке. Такое взаимодействие определяется через сочетаемость (коллокации) со словами разных частей речи. При этом учтены различные синтаксические функции слова в предложении, которые покрывают основные зоны «работы» слова в языке.
Например, можно узнать, каким бывает уважение (глубочайшее, искреннее, должное, взаимное…) и что с ним можно делать (внушать, заслуживать, питать…). Хотя обычно в текстах приносят довольно абстрактные вещи (пользу, жертву, вред…), те, кто чаще всего что-то приносят, – вполне конкретны (почтальон, официант, ветерок…).
Для существительных, прилагательных, глаголов и наречий показано до 10 наиболее тесно связанных слов в каждом скетче. Для других частей речи скетчи не отображаются.

В разделе Похожие слова теперь используется собственная модель для поиска семантических ассоциатов, обученная на актуальных материалах основного корпуса НКРЯ. Новая модель позволила нам сократить количество ошибок. Но из-за того, что выделение похожих слов происходит полностью автоматически, ошибки (например, несуществующие формы слов) еще могут встречаться.

Чтобы увидеть в одном месте всё, что мы знаем об интересующем слове, теперь можно воспользоваться функционалом Портрет слова. На сегодняшний день в Портрет слова входят:

  • грамматические и семантические свойства слова
  • Похожие слова β (только в основном корпусе)
  • примеры употребления слова в корпусе 
  • распределение примеров по годам и по видам текстов

Для быстрого доступа к Портрету слова и другим возможностям корпуса, а также к Руководству пользователя, теперь можно воспользоваться баннерами на главной странице ruscorpora.ru.

Вид выдачи Частотность усовершенствован: 

  • Добавлен столбец «Вхождения»
  • По просьбе наших активных пользователей в столбцах со словами и с расстояниями теперь можно отключить группировку и получить частотность сочетания слов с любым расстоянием между ними (в пределах расстояния, заданного в исходном запросе). Кроме того, можно выставить группировку по лемме/словоформе/грамматическим признакам только для части слов, а данные по остальным словам получить без группировки. Например, по запросу красивый + существительное можно получить распределение частотности всех существительных, встречающихся в результатах поиска, а можно посмотреть общую частотность для сочетания с любым существительным
  • Объем скачанной таблицы с «сырыми» данными может достигать 5000 строк

В частотном словаре подкорпуса добавлена возможность сортировки по разнице рангов леммы в корпусе и подкорпусе. Например, в корпусе текстов, написанных женщинами, при выборе этой сортировки можно получить сначала список слов, входящих в первые 500 только в подкорпусе (девочка, папа, сестра, помочь, стараться, страшный и др.), а потом представленные с повышенной частотностью по сравнению со всем корпусом (семья, муж, квартира, рядом, рассказать, проблема, искусство и др.)

В составе НКРЯ появился новый корпус текстов «Русская классика», включающий художественную прозу, публицистические и эпистолярные произведения из представительных академических собраний сочинений русских классических писателей XIX – начала XX вв.: Пушкина, Баратынского, Гоголя, Толстого, Тургенева, Чехова и других (значительная часть этих текстов входят и в Основной или Поэтический корпус). Сейчас корпус представлен в бета-версии («Русская классика β»), планируется его пополнение новыми авторами и произведениями. Объем корпуса – более 17,5 млн словоупотреблений.

Существенно обновлен интерфейс Корпуса берестяных грамот, корпус подключен к обзору возможностей. Для поиска доступна раннедревнерусская лемма (не только слати, но и сълати). Важное нововведение – оригинал и переводы теперь выводятся в две колонки, в правой колонке можно выбрать перевод – русский или один из двух английских.

Существенно улучшена функциональность основного корпуса: в нем появилась лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Теперь в основном корпусе разведены морфологические омонимы, а также появилась возможность задавать поиск по таким синтаксическим параметрам, как типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многим другим. Новая разметка сделала доступными в основном корпусе все новейшие функции, появившиеся ранее в корпусе региональных СМИ: Поиск коллокаций, Частотный словарь, Частотность выдачи.

Кроме того, в основном и газетных корпусах появилась возможность задавать поиск лемм и словоформ с использованием регулярных выражений (β-версия), а также статистика корпуса и подкорпуса в виде таблицы с объемом в текстах и словах, географической карты (только для корпуса региональных СМИ) и диаграммы значений метаатрибутов, что дает пользователям возможность сравнивать заданный подкорпус с корпусом, в том числе визуально.

Существенно обновлен интерфейс церковнославянского корпуса, корпус подключен к обзору возможностей.

Мультимедийный корпус пополнен до 5,7 млн словоупотреблений.
Параллельный корпус пополнен до 168 млн словоупотреблений.  В нем появились новые языковые пары: сербско-русская и словенско-русская (по 2 млн словоупотреблений каждая), а также небольшие пилотные корейско-русская и хинди-русская языковые пары с транслитерацией и словарной поддержкой.  Последние две пары впервые в истории параллельного корпуса включают выровненные поэтические тексты. Пополнены новыми текстами также чешско-русская и испанско-русская языковые пары.