Национальный корпус русского языка


На этом сайте помещен корпус современного русского языка общим объемом более 600 млн слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Развитие подкорпусов НКРЯ (основного, поэтического, параллельного, акцентологического, диалектного) в 2015 году осуществлялось при поддержке РГНФ, проекты № 15-04-12018 «Развитие специализированных модулей НКРЯ» и № 14-04-12012 «Корпус диалектных текстов Национального корпуса русского языка. Пополнение и разметка».

Как пользоваться Корпусом (инструкция в формате PDF)

Подробнее о корпусе


Новости проекта

30 сентября 2016 года
В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

15 августа 2016 года
Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий (9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

13 августа 2016 года
Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

21 июля 2016 года
Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

13 мая 2016 года
В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

15 апреля 2016 года
Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объемом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

23 марта 2016 года
Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

15 января 2016 года
В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объемом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

30 декабря 2015 года
Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

24 декабря 2015 года
Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

24 декабря 2015 года
Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

23 декабря 2015 года
Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.

22 декабря 2015 года
Пополнен старорусский корпус. Его объём вырос более чем вдвое — до 7 млн словоупотреблений. Добавлены новые тексты XIV–XVII веков: летописи, повести, деловые документы. Тексты доступны без морфологической разметки, при поиске слов и словосочетаний можно использовать символ *.

11 ноября 2015 года
Пополнен древнерусский корпус. Для поиска доступно ещё три памятника: "Житие Андрея Юродивого", "Повесть об Акире Премудром" и "Вопрошание Кириково". Всего в корпусе теперь более полумиллиона слов. В древнерусском корпусе доступен поиск по семантической разметке многозначных слов и омонимов (возможно отдельно искать, например, миръ "вселенная" и миръ "покой").

25 сентября 2015 года
Открыт подкорпус "Русская классика в немецких переводах", составленный при помощи Фонда поддержки Интернет. Объём подкорпуса 5 млн словоупотреблений, хронологический охват оригинальных текстов — от Пушкина до Горького, немецких переводов — от 1860-х до 1980-х годов.

Архив новостей

Национальный корпус русского языка
© 2003–2016
info@ruscorpora.ru