Национальный корпус русского языка


На этом сайте помещен корпус современного русского языка общим объемом более 600 млн слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Развитие подкорпусов НКРЯ (основного, поэтического, параллельного, акцентологического, диалектного) в 2015 году осуществлялось при поддержке РГНФ, проекты № 15-04-12018 «Развитие специализированных модулей НКРЯ» и № 14-04-12012 «Корпус диалектных текстов Национального корпуса русского языка. Пополнение и разметка».

Как пользоваться Корпусом (инструкция в формате PDF)

Подробнее о корпусе


Новости проекта

15 мая 2017 года
Опубликован список победителей олимпиады Школы лингвистики НИУ ВШЭ и образовательного сайта «Верные слова» «Что может корпус». Интервью с участниками олимпиады.

12 мая 2017 года
Пополнение параллельных корпусов, совокупный объем которых достиг 76,8 млн словоупотреблений.
Открыт новый параллельный шведско-русский корпус объёмом 400 тысяч словоупотреблений с морфологической разметкой.
Испанско-русский корпус преодолел пилотную стадию, вырос более чем вчетверо и насчитывает 1,3 млн словоупотреблений. В него включены тексты современных испаноязычных СМИ в русском переводе, а также художественная литература XIX—XX веков.
Существенно вырос объём и китайско-русского параллельного корпуса, насчитывающего теперь 180 тысяч слов.
Пополнились также французский (до 3,9 млн), белорусский (до 9,4 млн), бурятский (до 120 тысяч) и другие параллельные корпуса.

21 марта 2017 года
Появилась возможность задать в поэтическом корпусе подкорпус по месту написания стихотворения, указанному в авторской помете, с помощью интерактивной карты.

25 февраля 2017 года
Школа лингвистики НИУ ВШЭ и образовательный сайт «Верные слова» организуют онлайн-олимпиаду «Что может корпус». Олимпиада проходит с 20 марта по 20 апреля в трёх возрастных группах: дети 7—10 лет, 10—13 лет и 13—16 лет. Цель олимпиады — показать детям, родителям и учителям, какие сведения о языке и культуре они могут получить в Национальном корпусе русского языка и как эффективно работать с этим ресурсом дома и на уроках.

14 февраля 2017 года
Пополнены акцентологический корпус (до 31,7 млн словоупотреблений) и устный корпус (до 12 млн).
Пополнение в составе мультимедийного корпуса (более 4,6 млн словоупотреблений) и Мультимедийного параллельного корпуса, который теперь включает в себя 6 постановок и 3 экранизации пьесы Н. В. Гоголя «Ревизор».

13 февраля 2017 года
Пополнение основного корпуса. Объём корпуса вырос на 18 млн словоупотреблений и достиг 283 млн. Объём текстов в старой орфографии вырос вдвое (до 3,7 млн слов). В корпус вошли документы XVIII века, тексты первого русского научного журнала «Ежемесячные сочинения», мемуары XIX — XX в., дневники начала XX в., художественная литература разных периодов, современная детская, детективная, научная, философская проза и многие другие тексты. Впервые за долгое время пополнен корпус со снятой омонимией; в него включено 24 текста электронной коммуникации. Исправлена и унифицирована разметка корпуса на разных уровнях.

1 февраля 2017 года
Вышел первый сборник материалов к «Корпусной грамматике русского языка» — синхронного описания русской грамматики, опирающегося на данные Корпуса (проект rusgram.ru). Материалы к корпусной грамматике русского языка. Глагол. Часть 1. СПб.: Нестор-История, 2016.
Авторы: Н. Р. Добрушина, А. Б. Летучий, Е. В. Падучева, С. С. Сай.
Ответственный редактор: В. А. Плунгян.
Научные редакторы: Е. В. Рахилина, Е. Р. Добрушина, Н. М. Стойнова.

9 декабря 2016 года
Обновление диалектного корпуса, метатекстовая и грамматическая разметка которого значительно усовершенствованы. Совокупный объём корпуса достиг 285 тысяч словоупотреблений в 627 текстах из 22 регионов России. Для 15 текстов доступна аудиозапись (через паспорт текста), для 126 — неорфографизированная запись, для 431 — «глубокая» метатекстовая разметка с подробным указанием жанра, со сведениями об информанте и о фонетических особенностях говора.

30 сентября 2016 года
В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

15 августа 2016 года
Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий (9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

13 августа 2016 года
Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

21 июля 2016 года
Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

13 мая 2016 года
В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

15 апреля 2016 года
Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объемом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

23 марта 2016 года
Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

15 января 2016 года
В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объемом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

30 декабря 2015 года
Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

24 декабря 2015 года
Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

24 декабря 2015 года
Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

23 декабря 2015 года
Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.

22 декабря 2015 года
Пополнен старорусский корпус. Его объём вырос более чем вдвое — до 7 млн словоупотреблений. Добавлены новые тексты XIV–XVII веков: летописи, повести, деловые документы. Тексты доступны без морфологической разметки, при поиске слов и словосочетаний можно использовать символ *.

11 ноября 2015 года
Пополнен древнерусский корпус. Для поиска доступно ещё три памятника: "Житие Андрея Юродивого", "Повесть об Акире Премудром" и "Вопрошание Кириково". Всего в корпусе теперь более полумиллиона слов. В древнерусском корпусе доступен поиск по семантической разметке многозначных слов и омонимов (возможно отдельно искать, например, миръ "вселенная" и миръ "покой").

25 сентября 2015 года
Открыт подкорпус "Русская классика в немецких переводах", составленный при помощи Фонда поддержки Интернет. Объём подкорпуса 5 млн словоупотреблений, хронологический охват оригинальных текстов — от Пушкина до Горького, немецких переводов — от 1860-х до 1980-х годов.

Архив новостей

Национальный корпус русского языка
© 2003–2017
info@ruscorpora.ru