О проекте

  • Организация проекта

  • Основной корпус письменных текстов

  • Корпус СМИ 1990-2000-х годов (газетный корпус)

  • Корпус региональной и зарубежной прессы

  • Корпус устных текстов (корпус живой русской речи)

  • Акцентологический корпус (корпус истории русского ударения)

  • Мультимедийный корпус

  • Параллельные корпуса письменных текстов

  • Корпус диалектных текстов

  • Корпус поэтических текстов

  • Обучающий корпус русского языка

  • Поисковая система

  • Дизайн и поддержка сайта

  • Информация об участниках проекта

  • Команда мультимедийного корпуса

  • Организация проекта

    В создании Национального корпуса русского языка в настоящее время участвует большая группа лингвистов Москвы, Санкт-Петербурга, Казани, Воронежа, Саратова и других научных центров России.

    Почтовый адрес администрации Корпуса: 119019 Москва, Г-19, Волхонка, 18/2, Институт русского языка им. В. В. Виноградова РАН, Отдел корпусной лингвистики и лингвистической поэтики.

    В период 2003-2010 гг. проект создания Национального корпуса получил поддержку:

  • Отделения историко-филологических наук Российской академии наук в рамках программ «Филология и информатика» (2003—2006), «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006—2009), «Генезис и взаимодействие социальных, культурных и языковых общностей», «Текст во взаимодействии с социокультурной средой: уровни историко-литературной и лингвистической интерпретации»; Президиума РАН «Историко-культурное наследие и духовные ценности России» (2009—2012)
  • Российского гуманитарного научного фонда (гранты РГНФ №№ 03-04-00226а, 06-04-03817в, 06-04-03818в, 08-04-12127в, 09-04-12159в, 15-04-12018в);
  • Российского фонда фундаментальных исследований (гранты РФФИ №№ 06-06-80133а, 08-06-00371-а, 15-06-04334а).
  • федеральной целевой программы «Русский язык» Федерального агентства по образованию (госконтракты №№ 1028, 890, 608 от 14.12.2006, 219 от 18.06.2007, 66 от 11.04.2008).
  • С 2011 по 2014 гг. создание и развитие корпуса поддерживалось Программой Президиума РАН "Корпусная лингвистика" № 36-П (сайт программы).

    В проекте участвуют специалисты Института русского языка им. В. В. Виноградова РАН [ИРЯ РАН], Института языкознания РАН [ИЯз РАН], Института проблем передачи информации РАН [ИППИ РАН], Всероссийского института научной и технической информации РАН [ВИНИТИ РАН] и Института лингвистических исследований РАН [ИЛИ РАН] в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом [СПбГУ]), Казанского (Приволжского) федерального университета, Воронежского государственного университета, Саратовского государственного университета. Подробная информация о сотрудниках проекта, на разных этапах принимавших участие в работе над Корпусом, размещена на странице «Участники».

    Подробнее об истории создания корпуса см. статью Д. В. Сичинавы «Национальный корпус русского языка: очерк предыстории» (2005).

    Основной корпус письменных текстов

    Создание основного корпуса письменных и устных текстов. В этой работе выделяется ряд подзадач:

    1. Создание представительного корпуса письменных текстов XVIII века. Эта задача решалась группой КГУ под руководством В. Д. Соловьёва и группой ИРЯ под руководством С. О. Савчук при поддержке программы Президиума РАН «Историко-культурное наследие и духовные ценности России» (руководитель проекта Д. В. Сичинава).

    2. Создание представительного корпуса письменных текстов XIX — первой половины XX века. Эта задача решалась группой ИЛИ РАН под руководством М. Д. Воейковой и Н. Н. Казанского при поддержке грантов РФФИ № 03-04-00226а (руководитель проекта Л. А. Вербицкая), № 06-04-03817в (руководитель проекта Е. В. Рахилина), программы ОИФН РАН (проект «Пополнение текстовых ресурсов корпуса (тексты первой половины ХХ в.)», руководитель С. О. Савчук). С 2015 г. в корпус включены тексты в дореформенной орфографии, представляющие собой электронные версии оригинальных изданий XVIII — начала XX вв.

    3. Создание представительного корпуса современных письменных текстов (середины XX — начала XXI века). Эта задача решалась группой ИРЯ РАН (с участием сотрудников ряда других институтов) под руководством А. М. Молдована и В. А. Плунгяна при поддержке проектов ОИФН РАН «Формирование и метатекстовая разметка корпуса текстов второй половины XX и XXI вв.» (руководитель В. А. Плунгян), «Подготовка окончательного варианта корпуса современного русского языка: коррекция баланса и редактирование» (руководитель Е. В. Рахилина), проектов Федерального агентства по образованию «Электронный корпус русского языка: научно-исследовательский и обучающий Интернет-ресурс», «Информационное наполнение банка данных о русском языке, его истории и современном состоянии» (руководитель А. М. Молдован).

    4. Разработка принципов морфологической и словообразовательно-семантической разметки для сбалансированного корпуса письменных текстов, разработка программного обеспечения и разметка корпусов. Эта задача решалась группой ИРЯ РАН при поддержке ОИФН РАН (проекты «Создание программного обеспечения для Национального корпуса текстов русского языка», руководители А. Я. Шайкевич и С. А. Шаров, «Программное обеспечение Национального корпуса русского языка XIX-XXI вв.», руководители они же, «Лексико-семантическая и таксономическая разметка подмассива сбалансированного корпуса», «Морфосемантическая разметка и снятие морфологической и лексической омонимии в Национальном корпусе русского языка», «Модель управления глагола и текст: теоретические и прикладные аспекты», — руководитель всех трёх Е. В. Падучева, «Процессы словообразования в текстовой динамике», руководитель О. Н. Ляшевская, «Конструкции и динамика текста», руководитель Е. В. Рахилина).

      Общие принципы морфологической разметки текста были разработаны В. А. Плунгяном при участии Г. И. Кустовой, А. Е. Полякова и Д. В. Сичинавы.

      Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым и в дальнейшем развивалось Т. А. Архангельским и А. И. Зобниным на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов морфологического анализа для этих программ занимались Л. Л. Иомдин и В. З. Санников (Mystem) и Н. Н. Леонтьева (Dialing). В создании и усовершенствовании программного обеспечения Национального корпуса в целом (системы поиска, метатекстовой разметки, семантической разметки и др.) принимали участие на различных этапах работы А. А. Аброскин, Т. А. Архангельский, Н. В. Григорьев, С. В. Давыдов, А. И. Зобнин, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов, О. М. Урюпина и С. Ю. Шустрова.

      В работах по морфологической разметке принимал участие большой коллектив специалистов, а также студентов и аспирантов лингвистических вузов Москвы. Наиболее значительный объем работ был выполнен О. Л. Бирюк, Д. С. Ганенковым, Е. А. Гришиной, О. В. Драгой, Г. И. Кустовой, Ю. А. Ландером, О. Н. Ляшевской, Т. А. Майсаком, Е. А. Пшехоцкой, Ю. Д. Семьяновой, Д. В. Сичинавой и С. В. Уляхиной.

      В экспертизе результатов морфологической и акцентной разметки участвовали П. М. Аркадьев, А. В. Венцов, Д. С. Ганенков, Е. А. Гришина, Г. И. Кустова, О. Н. Ляшевская, Н. В. Перцов.

      В разработке и внедрении в Корпус словообразовательно-семантической разметки участвовали Е. Ю. Калинина, Г. И. Кустова, О. Н. Ляшевская, Е. В. Падучева, В. А. Плунгян, Е. В. Рахилина, С. Ю. Толдова, Е. Б. Чекменёва и О. Ю. Шеманаева (Подлесская). Программные средства для семантической разметки разработаны А. Е. Поляковым и А. И. Зобниным.

    5. Разработка принципов метатекстовой разметки и отбора текстов. Общие принципы метатекстовой разметки и отбора текстов были разработаны С. О. Савчук и С. А. Шаровым, при участии Е. А. Гришиной, В. А. Плунгяна и Е. Г. Соколовой; программное обеспечение для метатекстовой разметки и поиска составлено С. А. Шаровыми А. Е. Поляковым. Координация работ по метатекстовой разметке текстов Национального корпуса осуществлялась С. О. Савчук и Д. В. Сичинавой; значительный объем работ в этой области (включая предварительный отбор и вычитку текстов) был выполнен, помимо названных лиц, также А. В. Беляевой, И. А. Волковым, А. И. Дворкиной, М. А. Кожевниковой, Н. А. Коротковой, Е. А. Красильчиковой, Е. Н. Ловлей, В. С. Мальцевой, А. А. Маховой, Е. Н. Морозовой, С. В. Пискуновой, Т. И. Резниковой, М. М. Ровинской, М. И. Русановой, К. И. Самоходской, Н. В. Сердобольской, Т. А. Фокиной, А. В. Файнвейц и А. В. Шипуновой. В обработке и метаразметке текстов XVIII—XIX века участвовали группы под руководством Н. Л. Дич, С. А. Оскольской и В. А. Круглова (ИЛИ РАН). В подготовке метаописаний текстов второй половины ХХ века составителям Корпуса также оказали помощь М. А. Журинская и Г. Л. Юзефович. В корпус текстов первой половины XX в. включена коллекция редких изданий, подготовленная группой студентов и аспирантов под руководством Е. В. Маркасовой (газеты, журналы и брошюры 1919—1920-х годов «Русский спорт», «Арт-экран», «Экран кино-газеты», «Рабочая жизнь», «Сибирский анархист» и др.); в сборе и подготовке текстов электронной коммуникации принимали участие студенты Нижегородского филиала ВШЭ (руководитель В. Г. Сибирцева), за что приносим им благодарность.

    Разработчики Корпуса приносят благодарность следующим издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии находящихся в их распоряжении текстов:

    Корпус СМИ 1990-2000-х годов (газетный корпус)

    Создание подкорпуса современных текстов средств массовой информации. Эта задача решается группой ИРЯ РАН под руководством С. О. Савчук; в работе участвуют также Л. А. Алексеевский и М. С. Кудинов. За предоставленные тексты разработчики корпуса приносят благодарность Д. В. Левоняну и С. С. Рубакову (Corpus Technologies).

    Корпус региональной и зарубежной прессы

    Подкорпус российских региональных газет подготовлен при поддержке РГНФ (грант 13-24-01004). В корпус региональной и зарубежной прессы включен иллюстративный лингвистический корпус СМИ Гродненщины, подготовленный в рамках проекта БРФФИ Г13Р-050 преподавателями кафедры общего и славянского языкознания Гродненского государственного университета имени Янки Купалы, научный руководитель проекта — заведующий кафедрой Л. В. Рычкова; в проекте участвовали А. Ю. Станкевич, И. А. Чепикова, Е. Н. Мохань. Ссылки на публикации представлены в разделе «Публикации» и на http://studiorum.ruscorpora.ru/

    Корпус устных текстов (корпус живой русской речи)

    Создание подкорпуса записей устной речи. Эта задача решалась группой ИРЯ РАН под руководством Е. А. Гришиной при поддержке грантов РГНФ № 03-04-00226а (руководитель проекта Л. А. Вербицкая) и РФФИ № 06-06-80133а (руководитель проекта В. А. Плунгян), проекта Федерального агентства образования «Разработка и апробация информационного ресурса “Корпус живой русской речи”» (руководитель А. М. Молдован), программы Президиума РАН «Корпусная лингвистика». Разработчики корпуса приносят благодарность М. В. Китайгородской, М. Л. Каленчук, Н. Н. Розановой, Д. М. Савинову, Е. С. Скачедубовой, Е. В. Щигель, О. В. Антоновой, Е. В. Корпечковой (ИРЯ РАН), А. С. Герду и М. В. Русаковой (СПбГУ), О. Б. Сиротининой (Саратовский государственный университет), Исследовательскому коллективу филологического факультета СПбГУ под руководством А. С. Асиновского (А. С. Асиновский, Н. В. Богданова, С. Б. Степанова, Т. Ю. Шерстинова, И. В. Королева и др.; Мультимедийный корпус русского языка повседневного общения «Один речевой день»), Ю. А. Гунько, Т. И. Петровой, А. Е. Цесарской, О. В. Лыс (Дальневосточный федеральный университет, Владивосток), предоставившим для Корпуса материалы записей устной речи.

    Акцентологический корпус (корпус истории русского ударения)

    Создание подкорпуса текстов, несущих информацию об истории русского ударения. Эта задача решалась группой под руководством Е. А. Гришиной при поддержке гранта РФФИ № 08-06-00371-а (руководитель проекта Е. А. Гришина). В работе над проектом участвовали Н. В. Перцов, С. В. Пискунова, А. Е. Поляков, С. О. Савчук, Д. В. Сичинава.

    Дальнейшее развитие корпуса осуществлялось при поддержке программы «Корпусная лингвистика», в рамках которой были подготовлены и включены в состав корпуса уникальные материалы фонотеки ИРЯ им. В. В. Виноградова РАН.

    В 2015 г. в акцентологический корпус включён подкорпус наивной поэзии — это стихотворные тексты, написанные поэтами-любителями, не публикующимися в признанной литературной периодике. Эстетические достоинства этих текстов не важны для исследования русской акцентологии, но регулярность чередований ударных и безударных слогов в русском стихе дает бесценный материал для уяснения множества вопросов, связанных с расстановкой ударений в словах современными носителями русского языка.

    За предоставление текстов непрофессиональных литераторов с сайта stihi.ru НКРЯ благодарит команду Поиска Mail.Ru и лично Андрея Кутузова. Акцентуация произведена автоматически с помощью программы, написанной Юрием Зеленковым.

    В состав акцентологического корпуса включена коллекция текстов, собранная студентами Казахстанского филиала МГУ им. М. В. Ломоносова в 2011 г. За предоставленные материалы приносим благодарность руководителю практики к. ф. н., доц. Казахстанского филиала МГУ С. М. Треблер и к. ф. н., доценту МГУ И. Б. Качинской.

    Мультимедийный корпус

    Создание мультимедийного корпуса. Эта задача решалась группой под руководством Е. А. Гришиной при поддержке грантов РФФИ № 10-0600151-а и № 15-06-04334а (руководитель проектов С. О. Савчук), №11-06-00030а (руководитель проекта Е. А. Гришина), программы ОИФН «Генезис и взаимодействие социальных, культурных и языковых общностей», программы Президиума РАН «Корпусная лингвистика», программы ОИФН РАН «Язык и информационные технологии». См. также Список участников проекта.

    Параллельные корпуса письменных текстов

    Создание корпусов параллельных текстов. Разработку англо-русского, русско-английского и немецко-русского корпусов решали совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова (Е. Н. Подтележникова, И. А. Меркулова, К. М. Шилихина, Ю. П. Плешкова, Ю. П. Суворова). На начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. Над параллельными французско-русским и русско-французским корпусами работала группа ИПИ РАН под руководством И. М. Зацмана и Анны А. Зализняк (Н. В. Бунтман, О. С. Кожунова, М. Г. Кружков), а также французские исследователи (В. Бене и С. Луазо). Испанско-русские и русско-испанские тексты выровнены С. Ю. Бочавер и В. С. Люсиной, итальянско-русские и русско-итальянские — К. Д. Балакиной, А. Бонолой, Ф. Бьяджини и В. Нозедой (наряду с текстами, предоставленными А. Барентсеном), латышско-русские и русско-латышские — Н. В. Перковой, эстонско-русские — М. В. Боровиковой, армянско-русские и русско-армянские — Т. О. Шавриной. Русско-болгарский компонент основывается на текстах, любезно предоставленных Великотырновским университетом (группой под руководством проф. Гочо Гочева). Параллельные польско-русский и русско-польский корпуса развивались совместно группой Варшавского университета под руководством М. Лазинского и группой РГГУ под руководством С. О. Минлос. Над параллельными украинско-русским и русско-украинским корпусами работал коллектив украинских специалистов (М. А. Шведова, О. А. Тищенко-Монастырская, А. Л. Кривенко), над белорусско-русским и русско-белорусским — коллектив Института языка и литературы НАНБ под руководством В. А. Кощенко (И. В. Глинник, О. В. Мицкевич, А. В. Зубов, И. Л. Копылов, а также Ю. А. Стасевич (Коровко) и Е. Н. Скопинова). В основе многоязычного корпуса лежат тексты, любезно предоставленные А. Барентсеном (Амстердам); ряд текстов привлечён разработчиками НКРЯ дополнительно, кроме того, выравнивание текстов полуавтоматически уточнено. Ряд английских, немецких и французских текстов совокупным объёмом 10 тыс. параллельных предложений любезно предоставлен компанией ABBYY (проект ABBYY Lingvo Pro). Общую координацию проектов параллельных корпусов осуществлял Д. В. Сичинава. В работе принимали участие программисты Т. А. Архангельский и А. П. Печёный. Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский), проекта «Корпусная лингвистика» (руководитель Д. О. Добровольский), гранта РГНФ № 11-24-01004a/Bel «Корпусные сопоставительные исследования русского и белорусского языков и разработка параллельных электронных корпусов» (руководитель А. М. Молдован), гранта РФФИ № 12-06-33038 «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» (руководитель Д. В. Сичинава).

    Корпус диалектных текстов

    Работа по созданию корпуса русских диалектных текстов осуществлялась группой ИРЯ РАН под руководством А. Б. Летучего, а затем И. Б. Качинской, при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и грантов РФФИ № 06-04-03818в и РГНФ 09-04-12159в (руководитель проектов В. М. Живов). Принципы разметки были разработаны А. Б. Летучим при участии В. С. Мальцевой и В. А. Плунгяна, а затем доработаны И. Б. Качинской при участии Е. В. Моисеевой и Д. В. Сичинавы. Программные средства для разметки корпуса разработаны Т. А. Архангельским. Разработчки Корпуса приносят благодарность И. И. Исаеву, Л. Л. Касаткину и С. К. Пожарицкой за консультации по разработке принципов формата разметки и по отбору и представлению диалектных текстов, Л. Л. Касаткину и Р. Ф. Касаткиной (ИРЯ РАН), С. К. Пожарицкой (МГУ), В. Е. Гольдину (Саратовский государственный университет), С. П. Праведникову (Курский государственный педагогический университет), А. И. Рыко (Санкт-Петербургский государственный университет), предоставившим для Корпуса диалектные тексты.

    Корпус поэтических текстов

    Работа по созданию корпуса русских поэтических текстов осуществлялась группой ИРЯ РАН под руководством В А. Плунгяна при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и гранта РГНФ 08-04-12127в «Создание информационной системы «Корпус русской поэзии» в рамках Национального корпуса русского языка» (руководитель Н. В. Перцов). Принципы разметки поэтических текстов были разработаны В. А. Плунгяном при участии Е. А. Гришиной, К. М. Корчагина, Н. В. Перцова, А. Е. Полякова и Д. В. Сичинавы. Наиболее значительный объем работ по сбору и разметке поэтических текстов был выполнен Т. А. Архангельским, Д. А. Ивановой, К. М. Корчагиным и Д. В. Сичинавой; активное участие в работе над поэтическим корпусом принимали также Н. К. Богомолова, Е. А. Гришина, Е. Н. Ловля, Б. В. Орехов, Д. А. Эршлер. Координация работ и редактирование разметки поэтического подкорпуса осуществлялась В. А. Плунгяном и К. М. Корчагиным при участии Д. В. Сичинавы. За предоставленные тексты разработчики Корпуса благодарят П. М. Нерлера, издательство «Академический проект», а также сетевые проекты «Русская виртуальная библиотека» и «Фундаментальная электронная библиотека».

    Обучающий корпус русского языка

    Работа по созданию обучающего корпуса осуществляется группой ИРЯ РАН при поддержке проекта Федерального агентства по образованию «Разработка и апробация электронного ресурса "Обучающий корпус русского языка"» (руководитель А. М. Молдован).

    Поисковая система

    Поиск по корпусу осуществляется поисковой системой Яндекс.Сервер. Для поиска грамматической и метатекстовой информации задействованы способности Яндекс.Сервера по поиску скрытых свойств (атрибутов) документов и фрагментов текста. Поисковая выдача также формируется при помощи средств Яндекс.Сервера.

    Дизайн и поддержка сайта

    Дизайн сайта Национального корпуса выполнен А. С. Зыковой
    (Интернет-лаборатория «Ксан»)

    Поддержка сайта осуществляется компанией «Яндекс».

    Национальный корпус русского языка
    © 2003–2016
    info@ruscorpora.ru