|
Инициатива создания Национального корпуса русского языка возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. Подробнее о корпусных исследованиях в России в контексте мирового опыта можно прочесть в сборнике «Корпусная лингвистика в России» (сост. Е. В. Рахилина и С. А. Шаров), изданном как специальный выпуск журнала Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, № 6 и 10, а также в статье Т. И. Резниковой и М. В. Копотева «Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов)» из сборника «Национальный корпус русского языка: 2003—2005» (М., 2005).
В частности, был учтен опыт таких коллективов, как:
Машинный фонд Института русского языка им. В. В. Виноградова РАН
Лаборатория компьютерной лингвистики Института проблем передачи информации РАН
Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова
Другие существующие общедоступные корпуса русского языка:
Упсальский корпус
Тюбингенский корпус
Машинный фонд русского языка
Хельсинкский аннотированный корпус русских текстов ХАНКО
Компьютерный корпус текстов русских газет конца ХХ века (МГУ)
Корпус русского литературного языка (С.-Петербург)
Регенсбургский диахронический корпус русского языка (древнерусские тексты)
Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книга
Параллельный корпус переводов «Слова о полку Игореве»
|