Инициатива создания Национального корпуса русского языка возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. Подробнее о корпусных исследованиях в России в контексте мирового опыта можно прочесть в сборнике «Корпусная лингвистика в России» (сост. Е. В. Рахилина и С. А. Шаров), изданном как специальный выпуск журнала Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, № 6 и 10, а также в статье Т. И. Резниковой и М. В. Копотева «Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов)» из сборника «Национальный корпус русского языка: 2003—2005» (М., 2005).

В частности, был учтен опыт таких коллективов, как:

  • Машинный фонд Института русского языка им. В. В. Виноградова РАН
  • Лаборатория компьютерной лингвистики Института проблем передачи информации РАН
  • Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова
  • Другие существующие общедоступные корпуса русского языка:

  • Упсальский корпус
  • Тюбингенский корпус
  • Машинный фонд русского языка
  • Хельсинкский аннотированный корпус русских текстов ХАНКО
  • Компьютерный корпус текстов русских газет конца ХХ века (МГУ)
  • Корпус русского литературного языка (С.-Петербург)
  • Регенсбургский диахронический корпус русского языка (древнерусские тексты)
  • Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книга
  • Параллельный корпус переводов «Слова о полку Игореве»


  • Национальный корпус русского языка
    © 2003–2010
    info@ruscorpora.ru