Инициатива создания Национального корпуса русского языка возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. Подробнее о корпусных исследованиях в России в контексте мирового опыта можно прочесть в сборнике «Корпусная лингвистика в России» (сост. Е. В. Рахилина и С. А. Шаров), изданном как специальный выпуск журнала Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, № 6 и 10, а также в статье Т. И. Резниковой и М. В. Копотева «Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов)» из сборника «Национальный корпус русского языка: 2003—2005» (М., 2005).

В частности, был учтен опыт таких коллективов, как:

  • Машинный фонд Института русского языка им. В. В. Виноградова РАН
  • Лаборатория компьютерной лингвистики Института проблем передачи информации РАН
  • Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова
  • Другие существующие общедоступные корпуса русского языка:

    Современный русский язык:

  • Упсальский корпус
  • Тюбингенский корпус
  • Машинный фонд русского языка
  • Хельсинкский аннотированный корпус русских текстов ХАНКО
  • Компьютерный корпус текстов русских газет конца ХХ века (МГУ)
  • Корпус русского литературного языка (С.-Петербург)
  • Диахронические корпуса русского языка:

  • Регенсбургский диахронический корпус русского языка (древнерусские тексты)
  • Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книга
  • СКАТ – Санкт-Петербургский корпус агиографических текстов
  • Корпус «Манускрипт» Удмуртского государственного университета (Ижевск)
  • Корпус русских публицистических текстов второй половины XIX века Петрозаводского государственного университета
  • Старославянские корпуса:

  • Старославянский корпус (Хельсинский университет)
  • Старославянский корпус (Университет Южной Калифорнии)
  • Корпуса современных славянских языков:

  • Корпус текстов украинского языка (Лаборатория компьютерной лингвистики Киевского университета)
  • Corpus Albaruthenicum — корпус научных белорусских текстов
  • Национальный корпус польского языка
  • Чешский национальный корпус
  • Словацкий национальный корпус
  • Верхнелужицкий корпус
  • Нижнелужицкий корпус
  • FIDA — словенский корпус
  • Nova beseda — словенский корпус
  • Хорватский национальный корпус
  • Корпус сербского языка
  • Боснийский корпус (Осло)
  • Болгарский национальный корпус
  • Македонский корпус (Осло)
  • Корпуса неславянских языков:

  • Британский национальный корпус (BNC)
  • Корпус современного американского английского (COCA)
  • Корпуса английского языка на сайте CorpusEye
  • Корпус шотландского (германского) языка
  • Немецкий справочный корпус (DeReKo)
  • Корпуса немецкого языка на сайте CorpusEye
  • Корпус разговорного нидерландского языка
  • KorpusDK: датский корпус
  • Корпуса датского языка на сайте CorpusEye
  • Банк шведского языка
  • Корпуса шведского языка на сайте CorpusEye
  • Корпус размеченных норвежских текстов: букмол, нюнорск, другие норвежские корпуса
  • Корпуса норвежского языка на сайте CorpusEye
  • Корпуса исландского языка на сайте CorpusEye
  • Исторический корпус исландского языка
  • Корпуса фарерского языка на сайте CorpusEye
  • База французских текстов
  • Корпуса французского языка на сайте CorpusEye
  • База данных по средневековому французскому языку
  • Корпус испанского языка
  • Корпуса испанского языка на сайте CorpusEye
  • Корпуса письменного итальянского языка CORIS и CODIS
  • Корпус итальянского языка COLFIS
  • Корпуса итальянского языка на сайте CorpusEye
  • Корпус португальского языка
  • Корпуса португальского языка на сайте CorpusEye
  • Корпус румынской прессы на сайте CorpusEye
  • Исторический корпус валлийского языка
  • Корпус современного литовского языка
  • Сбалансированный корпус современных латышских текстов
  • Греческий национальный корпус
  • Восточноармянский национальный корпус
  • Корпус языка хинди
  • Языковой банк Финляндии
  • Корпуса уральских языков на сайте Хельсинкского университета
  • Справочный корпус эстонского языка
  • Фонетический корпус спонтанной эстонской речи
  • Другие корпуса эстонского языка
  • Венгерский национальный корпус
  • Корпус баскского языка XX века
  • Научно-технический баскский корпус
  • Турецкий корпус METU
  • Корпус разговорного турецкого
  • Крымскотатарский корпус
  • Корпус иврита
  • Корпус японской разговорной речи
  • Корпус эсперанто на сайте CorpusEye
  • Корпус эсперанто фонда "Esperantic Studies Foundation"
  • Параллельные и многоязычные корпуса:

  • Параллельный корпус слушаний Европарламента
  • Параллельный корпус документов Евросоюза (более 20 языков)
  • ParaSol: параллельный корпус славянских и других языков (бывший Регенсбургский)
  • InterCorp: параллельные корпуса Пражского университета
  • Многоязычные корпуса (Осло)
  • TITUS (тезаурус материалов по индоевропейским языкам, Франкфурт)
  • PROIEL (корпус древних переводов Нового завета, Осло)


  • Национальный корпус русского языка
    © 2003–2012
    info@ruscorpora.ru