27.08.2025

На сайте Корпуса появился Генератор примеров для упражнений, позволяющий подобрать примеры для орфографических правил на материале двух корпусов – Обучающего и «От 2 до 15». Попасть на страницу генератора можно со страницы НКРЯ в школе, нажав на соответствующий баннер. Сейчас можно выбирать из семи правил, реализующихся в разных частях речи и в разных частях слова; в дальнейшем количество правил будет расти.

Чтобы подобрать примеры, необходимо выбрать корпус и правило. В полученных результатах можно галочками отбирать нужные предложения. Все найденные предложения или только те предложения, которые были отмечены, можно скачать в файл или сохранить в Личном кабинете, чтобы возвращаться к своей выборке в дальнейшем.

Если вы хотите искать примеры только в текстах определенного автора или жанра, можно воспользоваться окошком поиска «Правила» в форме лексико-грамматического поиска Обучающего корпуса или корпуса «От 2 до 15», предварительно задав подкорпус. В этом случае нельзя будет воспользоваться отбором примеров при помощи галочки на странице выдачи, но можно сохранить выдачу как обычный запрос или скачать все примеры в файл.

Полученные примеры можно использовать для создания собственных упражнений разных типов: например, вставки пропущенной буквы, выбора правильного или неправильного написания слова, распределения слов по группам и других заданий.

Приглашаем вас оставлять обратную связь при помощи кнопки «Оценить» — это помогает нам делать корпус лучше!

06.08.2025

В Синтаксическом корпусе усовершенствован поиск по микросинтаксическим конструкциям. При установке курсора в поисковое поле появляется полный список из более чем 3200 единиц. Введя букву или последовательность букв, можно получить все единицы, в которые они входят.

В браузерной версии сайта можно увидеть примеры реализации конструкций, содержащих переменные: они отображаются при наведении курсора мыши на название микросинтаксической конструкции.

Доступен поиск по нескольким микросинтаксическим единицам с использованием логического оператора ИЛИ (|). После того, как в поисковом поле выбрана первая микросинтаксическая конструкция, помещение курсора в поле автоматически добавляет знак дизъюнкции к запросу к условию. Логический оператор И (&) в этом поисковом поле не поддерживается. В то же время, поиск слов, входящих одновременно в несколько конструкций, можно выполнить при помощи условий на несколько последовательных слов, указав расстояние 0 между ними. По-прежнему работает оператор «звездочка», с его помощью можно найти слова, входящие в любую микросинтаксическую конструкцию.

28.07.2025

Команда Национального корпуса русского языка представит две статьи на крупнейшей лингвистической конференции — ACL 2025!

На основной секции конференции будет представлена статья BERT-like Models for Slavic Morpheme Segmentation. В этой работе при построении морфемных разборов для трёх славянских языков – русского, белорусского и чешского – мы использовали дообученные BERT-подобные модели. Предложенный нами алгоритм позволил превзойти существующие подходы для русского и чешского: количество ошибок в разметке уменьшилось в полтора-два раза, особенно для корней, отсутствовавших в обучающей выборке. Кстати, обновлённая словообразовательная разметка, доступная в Основном корпусе, выполнена при помощи именно этого алгоритма!

На воркшопе Slavic NLP-2025 мы выступим с работой, посвящённой улучшению нашей модели лемматизации. Несмотря на высокое качество автоматически присваиваемых лемм (98,8% правильных разборов на тестовой выборке), мы продолжаем работать над устранением оставшихся ошибок, ведь при сегодняшних размерах НКРЯ даже 0,1% некорректной лемматизации приводят к нескольким миллионам ошибок. Использование ансамбля из модели Rubic и дообученной модели BART позволило повысить качество и достичь более 99% правильных лемм, в частности, улучшилась лемматизация имён собственных и некоторых сокращений.

Мы активно работаем над развитием методов лингвистической разметки текстов. Большинство разработанных нами моделей доступно на соответствующей странице Корпуса.

Показать все