|
Инициатива создания Национального корпуса русского языка возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. Подробнее о корпусных исследованиях в России в контексте мирового опыта можно прочесть в сборнике «Корпусная лингвистика в России» (сост. Е. В. Рахилина и С. А. Шаров), изданном как специальный выпуск журнала Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, № 6 и 10, а также в статье Т. И. Резниковой и М. В. Копотева «Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов)» из сборника «Национальный корпус русского языка: 2003—2005» (М., 2005).
В частности, был учтен опыт таких коллективов, как:
Машинный фонд Института русского языка им. В. В. Виноградова РАН
Лаборатория компьютерной лингвистики Института проблем передачи информации РАН
Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова
Другие существующие общедоступные корпуса русского языка:
Современный русский язык:
Упсальский корпус
Тюбингенский корпус
Машинный фонд русского языка
Хельсинкский аннотированный корпус русских текстов ХАНКО
Компьютерный корпус текстов русских газет конца ХХ века (МГУ)
Корпус русского литературного языка (С.-Петербург)
Диахронические корпуса русского языка:
Регенсбургский диахронический корпус русского языка (древнерусские тексты)
Рукописные памятники Древней Руси: берестяные грамоты, летописи, рукописная книга
СКАТ – Санкт-Петербургский корпус агиографических текстов
Корпус «Манускрипт» Удмуртского государственного университета (Ижевск)
Корпус русских публицистических текстов второй половины XIX века Петрозаводского государственного университета
Старославянские корпуса:
Старославянский корпус (Хельсинский университет)
Старославянский корпус (Университет Южной Калифорнии)
Корпуса современных славянских языков:
Корпус текстов украинского языка (Лаборатория компьютерной лингвистики Киевского университета)
Corpus Albaruthenicum — корпус научных белорусских текстов
Национальный корпус польского языка
Чешский национальный корпус
Словацкий национальный корпус
Верхнелужицкий корпус
Нижнелужицкий корпус
FIDA — словенский корпус
Nova beseda — словенский корпус
Хорватский национальный корпус
Корпус сербского языка
Боснийский корпус (Осло)
Болгарский национальный корпус
Македонский корпус (Осло)
Корпуса неславянских языков:
Британский национальный корпус (BNC)
Корпус современного американского английского (COCA)
Корпуса английского языка на сайте CorpusEye
Корпус шотландского (германского) языка
Немецкий справочный корпус (DeReKo)
Корпуса немецкого языка на сайте CorpusEye
Корпус разговорного нидерландского языка
KorpusDK: датский корпус
Корпуса датского языка на сайте CorpusEye
Банк шведского языка
Корпуса шведского языка на сайте CorpusEye
Корпус размеченных норвежских текстов: букмол, нюнорск, другие норвежские корпуса
Корпуса норвежского языка на сайте CorpusEye
Корпуса исландского языка на сайте CorpusEye
Исторический корпус исландского языка
Корпуса фарерского языка на сайте CorpusEye
База французских текстов
Корпуса французского языка на сайте CorpusEye
База данных по средневековому французскому языку
Корпус испанского языка
Корпуса испанского языка на сайте CorpusEye
Корпуса письменного итальянского языка CORIS и CODIS
Корпус итальянского языка COLFIS
Корпуса итальянского языка на сайте CorpusEye
Корпус португальского языка
Корпуса португальского языка на сайте CorpusEye
Корпус румынской прессы на сайте CorpusEye
Исторический корпус валлийского языка
Корпус современного литовского языка
Сбалансированный корпус современных латышских текстов
Греческий национальный корпус
Восточноармянский национальный корпус
Корпус языка хинди
Языковой банк Финляндии
Корпуса уральских языков на сайте Хельсинкского университета
Справочный корпус эстонского языка
Фонетический корпус спонтанной эстонской речи
Другие корпуса эстонского языка
Венгерский национальный корпус
Корпус баскского языка XX века
Научно-технический баскский корпус
Турецкий корпус METU
Корпус разговорного турецкого
Крымскотатарский корпус
Корпус иврита
Корпус японской разговорной речи
Корпус эсперанто на сайте CorpusEye
Корпус эсперанто фонда "Esperantic Studies Foundation"
Параллельные и многоязычные корпуса:
Параллельный корпус слушаний Европарламента
Параллельный корпус документов Евросоюза (более 20 языков)
ParaSol: параллельный корпус славянских и других языков (бывший Регенсбургский)
InterCorp: параллельные корпуса Пражского университета
Многоязычные корпуса (Осло)
TITUS (тезаурус материалов по индоевропейским языкам, Франкфурт)
PROIEL (корпус древних переводов Нового завета, Осло)
|