Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Показать всеНа сайте Корпуса появился Генератор примеров для упражнений, позволяющий подобрать примеры для орфографических правил на материале двух корпусов – Обучающего и «От 2 до 15». Попасть на страницу генератора можно со страницы НКРЯ в школе, нажав на соответствующий баннер. Сейчас можно выбирать из семи правил, реализующихся в разных частях речи и в разных частях слова; в дальнейшем количество правил будет расти.
Чтобы подобрать примеры, необходимо выбрать корпус и правило. В полученных результатах можно галочками отбирать нужные предложения. Все найденные предложения или только те предложения, которые были отмечены, можно скачать в файл или сохранить в Личном кабинете, чтобы возвращаться к своей выборке в дальнейшем.
Если вы хотите искать примеры только в текстах определенного автора или жанра, можно воспользоваться окошком поиска «Правила» в форме лексико-грамматического поиска Обучающего корпуса или корпуса «От 2 до 15», предварительно задав подкорпус. В этом случае нельзя будет воспользоваться отбором примеров при помощи галочки на странице выдачи, но можно сохранить выдачу как обычный запрос или скачать все примеры в файл.
Полученные примеры можно использовать для создания собственных упражнений разных типов: например, вставки пропущенной буквы, выбора правильного или неправильного написания слова, распределения слов по группам и других заданий.
Приглашаем вас оставлять обратную связь при помощи кнопки «Оценить» — это помогает нам делать корпус лучше!
В Синтаксическом корпусе усовершенствован поиск по микросинтаксическим конструкциям. При установке курсора в поисковое поле появляется полный список из более чем 3200 единиц. Введя букву или последовательность букв, можно получить все единицы, в которые они входят.
В браузерной версии сайта можно увидеть примеры реализации конструкций, содержащих переменные: они отображаются при наведении курсора мыши на название микросинтаксической конструкции.
Доступен поиск по нескольким микросинтаксическим единицам с использованием логического оператора ИЛИ (|). После того, как в поисковом поле выбрана первая микросинтаксическая конструкция, помещение курсора в поле автоматически добавляет знак дизъюнкции к запросу к условию. Логический оператор И (&) в этом поисковом поле не поддерживается. В то же время, поиск слов, входящих одновременно в несколько конструкций, можно выполнить при помощи условий на несколько последовательных слов, указав расстояние 0 между ними. По-прежнему работает оператор «звездочка», с его помощью можно найти слова, входящие в любую микросинтаксическую конструкцию.
Команда Национального корпуса русского языка представит две статьи на крупнейшей лингвистической конференции — ACL 2025!
На основной секции конференции будет представлена статья BERT-like Models for Slavic Morpheme Segmentation. В этой работе при построении морфемных разборов для трёх славянских языков – русского, белорусского и чешского – мы использовали дообученные BERT-подобные модели. Предложенный нами алгоритм позволил превзойти существующие подходы для русского и чешского: количество ошибок в разметке уменьшилось в полтора-два раза, особенно для корней, отсутствовавших в обучающей выборке. Кстати, обновлённая словообразовательная разметка, доступная в Основном корпусе, выполнена при помощи именно этого алгоритма!
На воркшопе Slavic NLP-2025 мы выступим с работой, посвящённой улучшению нашей модели лемматизации. Несмотря на высокое качество автоматически присваиваемых лемм (98,8% правильных разборов на тестовой выборке), мы продолжаем работать над устранением оставшихся ошибок, ведь при сегодняшних размерах НКРЯ даже 0,1% некорректной лемматизации приводят к нескольким миллионам ошибок. Использование ансамбля из модели Rubic и дообученной модели BART позволило повысить качество и достичь более 99% правильных лемм, в частности, улучшилась лемматизация имён собственных и некоторых сокращений.
Мы активно работаем над развитием методов лингвистической разметки текстов. Большинство разработанных нами моделей доступно на соответствующей странице Корпуса.