Инициатива создания Национального корпуса русского языка возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. Подробнее о корпусных исследованиях в России в контексте мирового опыта можно прочесть в сборнике «Корпусная лингвистика в России» (сост. Е. В. Рахилина и С. А. Шаров), изданном как специальный выпуск журнала Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, № 6 и 10, а также в статье Т. И. Резниковой и М. В. Копотева «Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов)» из сборника «Национальный корпус русского языка: 2003—2005» (М., 2005).

В частности, был учтен опыт таких коллективов, как:

  • Машинный фонд Института русского языка им. В. В. Виноградова РАН
  • Лаборатория компьютерной лингвистики Института проблем передачи информации РАН
  • Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова
  • Другие существующие общедоступные корпуса русского языка:

    Обшие корпуса современного русского языка:

  • Упсальский и Тюбингенский корпуса (доступны для скачивания)
  • Машинный фонд русского языка (доступен для скачивания и онлайн-поиска лексики)
  • Хельсинкский аннотированный корпус русских текстов ХАНКО (доступен для онлайн-поиска)
  • Корпус русского литературного языка (С.-Петербург) (доступен для онлайн-поиска)
  • Открытый корпус русского языка (доступен для скачивания)
  • База данных русской прессы "Integrum" (доступна по платной подписке)
  • Интернет-корпуса русского языка:

  • Генеральный интернет-корпус русского языка (доступен для поиска после регистрации, корпус со снятой омонимией — для скачивания)
  • Русские корпуса на сайте Сергея Шарова (Лидс): интернет-корпус ruWAC, НКРЯ, корпус блогов и другие (доступны для онлайн-поиска)
  • ruTenTen: интернет-корпус русского языка в составе системы SketchEngine (доступен для онлайн-корпуса после регистрации)
  • Araneum Russicum: интернет-корпус русского языка (доступен по запросу)
  • Синтаксические корпуса русского языка:

  • Тестовый корпус с параллельной синтаксической разметкой (доступен для онлайн-поиска)
  • RUS-Treebank: корпус с автоматической разметкой синтаксических зависимостей (доступен для онлайн-поиска)
  • UD-Russian: корпуса с разметкой в формате Universal Dependencies (доступны для онлайн-поиска и скачивания)
  • Учебные и устные корпуса русского языка:

  • "Рассказы о сновидениях" и другие корпуса звучащей речи (доступны для просмотра и прослушивания, а также скачивания в формате ELAN)
  • Русский учебный корпус: образцы устной и письменной речи изучающих русский язык как иностранный и так называемых эритажных говорящих (доступен для онлайн-поиска)
  • Корпус русских учебных (академических) текстов (КРУТ): коллекция текстов на русском языке, написанных студентами разных вузов (доступен для онлайн-поиска)
  • Диалектные корпуса русского языка:

  • Электронные базы данных по русским народным говорам (доступны для скачивания в формате Starling)
  • Мультимедийный корпус диалектных текстов Устьянского района Архангельской области (доступен для онлайн-поиска)
  • Электронная библиотека русских народных говоров (доступна для онлайн-просмотра и прослушивания)

    Диахронические корпуса русского языка:

  • Регенсбургский диахронический корпус русского языка (древнерусские тексты) (требуется заполнить лицензионное соглашение)
  • Рукописные памятники Древней Руси: берестяные грамоты (полнотекстовая база данных), летописи (три летописи с размеченной грамматической информацией доступны для онлайн-поиска).
  • СКАТ – Санкт-Петербургский корпус агиографических текстов (доступен для скачивания и онлайн-поиска по словоуказателю с переходом к фрагментам текста)
  • Корпус «Манускрипт» Удмуртского государственного университета (доступен для онлайн-поиска; для поиска по всем текстам требуется регистрация)
  • Корпус русских публицистических текстов второй половины XIX века Петрозаводского государственного университета (доступен для онлайн-поиска)
  • Старославянские корпуса:

  • Старославянский корпус Хельсинского университета (тексты доступны для скачивания)
  • Старославянский корпус Университета Южной Калифорнии (требуется запрос доступа по e-mail)
  • Корпуса современных славянских языков:

  • Корпус текстов украинского языка Лаборатории компьютерной лингвистики Киевского университета (доступен для онлайн-поиска)
  • Белорусский корпус (доступен для онлайн-поиска)
  • Corpus Albaruthenicum — корпус научных белорусских текстов (доступен для онлайн-поиска)
  • Национальный корпус польского языка (доступен для онлайн-поиска)
  • Польско-русский параллельный корпус (доступен для онлайн-поиска)
  • Польско-украинский параллельный корпус (доступен для онлайн-поиска)
  • Чешский национальный корпус (доступен для онлайн-поиска частично, для полного доступа требуется регистрация)
  • Словацкий национальный корпус (доступен для онлайн-поиска частично, для полного доступа требуется регистрация с отправкой запроса в печатном виде по почте)
  • Верхнелужицкий корпус (доступен для онлайн-поиска)
  • Нижнелужицкий корпус (доступен для онлайн-поиска)
  • Страница ссылок на корпуса языков бывшей Югославии
  • FIDA — словенский корпус (доступен для онлайн-поиска, требуется регистрация)
  • Nova beseda — словенский корпус (доступен для онлайн-поиска)
  • GOS — устный словенский корпус (доступен для онлайн-поиска)
  • GRALIS — параллельный корпус с участием сербских, хорватских и боснийских текстов Грацского университета (доступен для онлайн-поиска, требуется регистрация по e-mail)
  • Хорватский национальный корпус (доступен для онлайн-поиска через программу-клиент)
  • Корпус хорватского языка Riznica (доступен для онлайн-поиска)
  • Боснийский корпус университета Осло (доступен для онлайн-поиска, требуется регистрация)
  • Черногорско-английский параллельный корпус (доступен для онлайн-поиска)
  • Болгарский национальный корпус (доступен для онлайн-поиска, для полного доступа требуется регистрация)
  • Болгарско-русский параллельный корпус (доступен для онлайн-поиска)
  • Македонский корпус университета Осло (доступен для онлайн-поиска, требуется регистрация)
  • Корпуса неславянских языков:

    Германские:

  • Британский национальный корпус (BNC) (тестовая версия доступна для онлайн-поиска, полная версия платная)
  • Британский национальный корпус в версии Марка Дэвиса (BYU-BNC) (доступен для онлайн-поиска, возможна регистрация)
  • Корпус современного американского английского (COCA) (доступен для онлайн-поиска, возможна регистрация)
  • Исторический корпус американского английского (COHA) (доступен для онлайн-поиска, возможна регистрация)
  • WaCKy — большие открытые веб-корпуса английского языка (доступны для скачивания)
  • Корпус шотландского (германского) языка (доступен для онлайн-поиска)
  • Немецкий справочный корпус (DeReKo) (доступен для онлайн-поиска через программу-клиент COSMAS II, требуется регистрация)
  • Банк данных разговорного немецкого (DGD) (требуется регистрация)
  • Корпуса немецкого языка на сайте CorpusEye (доступны для онлайн-поиска, некоторые корпуса требуют пароля)
  • Корпус языка идиш (доступен для онлайн-поиска)
  • Ссылки на корпуса нидерландского языка (коммерческие и некоммерческие)
  • Корпус старонидерландского языка (доступен для онлайн-поиска)
  • Параллельный нидерландско-французский корпус (доступен для тестового онлайн-поиска)
  • KorpusDK: датский корпус (доступен для онлайн-поиска)
  • Корпуса датского языка на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
  • Банк шведского языка (корпуса и словари доступны для онлайн-поиска)
  • Корпуса шведского языка на сайте CorpusEye (доступны для онлайн-поиска)
  • Корпус размеченных норвежских текстов: букмол, нюнорск (оба доступны для онлайн-поиска, требуется регистрация), другие норвежские корпуса
  • Корпуса норвежского языка на сайте CorpusEye (доступны для онлайн-поиска)
  • Корпус исландского языка (Википедия) на сайте CorpusEye (доступен для онлайн-поиска)
  • Исторический корпус исландского языка (доступен для скачивания)
  • Корпуса фарерского языка на сайте CorpusEye (доступны для онлайн-поиска)
  • Романские:

  • База французских текстов FranText (доступна для онлайн-поиска, требуется подписка от имени академического/образовательного учреждения)
  • Корпуса французского языка на сайте CorpusEye (доступы для онлайн-поиска)
  • База данных по средневековому французскому языку (доступна для онлайн-поиска, для основной части требуется регистрация)
  • Лингвистическая база данных функционально эквивалентных фрагментов на материале поливариантного русско-французского корпуса (доступна для онлайн-поиска)
  • Корпус испанского языка Марка Дэвиса (доступен для онлайн-поиска)
  • Корпуса испанского языка на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
  • Корпуса письменного итальянского языка CORIS и CODIS (доступны для онлайн-поиска)
  • Корпус итальянского языка COLFIS (доступен для онлайн-поиска)
  • Корпуса итальянского языка на сайте CorpusEye (доступны для онлайн-поиска)
  • Корпус португальского языка Марка Дэвиса (доступен для онлайн-поиска)
  • Корпуса португальского языка на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
  • Корпус румынской прессы на сайте CorpusEye (доступен для онлайн-поиска)
  • Другие индоевропейские:

  • Исторический корпус валлийского языка (доступны конкордансы по словоуказателю)
  • Корпус современного литовского языка (доступен для онлайн-поиска)
  • Сбалансированный корпус современных латышских текстов (доступен для онлайн-поиска через программу-клиент)
  • Греческий национальный корпус (доступен для онлайн-поиска)
  • Корпус новогреческого языка (доступен для онлайн-поиска)
  • Восточноармянский национальный корпус (доступен для онлайн-поиска)
  • Осетинский национальный корпус (иронский диалект) (доступен для онлайн-поиска)
  • Албанский национальный корпус (доступен для онлайн-поиска)
  • Корпус языка хинди (доступен для онлайн-поиска)
  • Корпус цыганского языка (доступен для онлайн-поиска)
  • Синтаксический корпус хеттского языка (доступен для онлайн-поиска, требуется регистрация)
  • Аннотированный корпус лувийских текстов (доступен для онлайн-поиска)
  • Неиндоевропейские и искусственные:

  • Языковой банк Финляндии (требуется регистрация или подписка)
  • Веб-интерфейс Языкового банка Финляндии: корпуса финно-угорских (финский, эрзя, мокша и др.), германских (финляндский шведский, английский, немецкий и др.), русского (финско-русский параллельный корпус) и других языков (требуется регистрация или подписка)
  • Описание корпусов уральских языков на сайте Хельсинкского университета (различные режимы доступа)
  • Справочный корпус эстонского языка (доступен для онлайн-поиска)
  • Фонетический корпус спонтанной эстонской речи (доступен для онлайн-поиска)
  • Другие корпуса эстонского языка (различные режимы доступа)
  • Корпус вепсского языка (доступен для онлайн-поиска)
  • Венгерский национальный корпус (доступен для онлайн-поиска)
  • Корпус удмуртского языка (доступен для онлайн-поиска)
  • Грузинский диалектный корпус (доступен для онлайн-поиска)
  • Корпус грузинского языка университета им. Ильи Чавчавадзе (доступен для онлайн-поиска)
  • Англо-грузинский параллельный корпус научных текстов (доступен для онлайн-поиска)
  • Проект Armazi: картвельские тексты во Франкфуртском университете (доступны для онлайн-поиска и скачивания)
  • Корпус лезгинского языка (доступен для онлайн-поиска)
  • Корпус баскского языка Ereduzko Prosa Gaur (доступен для онлайн-поиска)
  • Корпус баскского языка XX века (доступен для онлайн-поиска)
  • Научно-технический баскский корпус (доступен для онлайн-поиска)
  • Турецкий национальный корпус (доступен для онлайн-поиска, требуется регистрация)
  • Корпус устного турецкого (фрагмент доступен для онлайн-поиска; для полного доступа требуется подписать соглашение об использовании)
  • Алматинский корпус казахского языка (доступен для онлайн-поиска)
  • Татарский национальный корпус «Туган тел» (доступен для онлайн-поиска)
  • Башкирский поэтический корпус (доступен для онлайн-поиска)
  • Письменный корпус татарского языка (доступен для онлайн-поиска)
  • Крымскотатарский корпус (доступен для онлайн-поиска)
  • Калмыцкий корпус (доступен для онлайн-поиска)
  • Бурятский корпус (доступен для онлайн-поиска)
  • Монгольский корпус (доступен для онлайн-поиска)
  • Корпус арабского языка ArabiCorpus (доступен для онлайн-поиска, требуется регистрация, затем доступ по e-mail, тексты доступны для скачивания)
  • Корпус иврита (доступен для онлайн-поиска)
  • Сбалансированный корпус письменного японского языка (10-миллионный фрагмент доступен для онлайн-поиска)
  • Обучающий корпус японского языка (доступен для онлайн-поиска)
  • Японско-английский параллельный корпус (доступен для онлайн-поиска)
  • Оксфордский древнеяпонский корпус (доступен для скачивания)
  • Хельсинкский корпус суахили (для доступа требуется подписать соглашение об использовании)
  • Справочный корпус бамана (доступен для онлайн-поиска)
  • Справочный корпус манинка (доступен для онлайн-поиска)
  • Корпуса эсперанто на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
  • Корпус эсперанто фонда "Esperantic Studies Foundation" (доступен для онлайн-поиска)
  • Многоязычные корпуса (в том числе параллельные):

  • Корпус слушаний Европарламента (доступен для скачивания)
  • Корпус документов Евросоюза (более 20 языков) (доступен для скачивания)
  • ParaSol: параллельный корпус славянских и других языков Бернского университета (бывший Регенсбургский) (доступен для онлайн-поиска, требуется регистрация по e-mail)
  • InterCorp: параллельные корпуса Пражского университета (доступен для онлайн-поиска, требуется регистрация, дающая доступ также к Чешскому национальному корпусу)
  • Universal Dependencies: размеченные в едином формате синтаксические корпуса 47 языков
  • Многоязычные корпуса университета Осло (доступны для поиска, требуется регистрация, общая для всех проектов университета)
  • TITUS — тезаурус материалов по индоевропейским языкам, Франкфурт (тексты доступны для поиска, просмотра и скачивания)
  • PROIEL — корпус древних переводов Нового завета университета Осло (доступен для онлайн-поиска, требуется регистрация, общая для всех проектов университета)
  • Параллельный корпус переводов «Слова о полку Игореве» (доступен для онлайн-поиска)
  • Параллельный корпус русских и французских поэтических текстов первой трети XIX в. (доступен для онлайн-поиска)
  • Другое:

  • WebCorp: Инструмент для построения конкордансов на материале Интернета для разных языков (Web-as-Corpus)


  • Национальный корпус русского языка
    © 2003–2016
    info@ruscorpora.ru