English

В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с начала XVIII века), но также и (в меньшем объёме) переводные сочинения (параллельно с оригиналом), поэтические тексты, а также тексты, представляющие нелитературные формы современного русского языка: разговорную (записи устной речи, публичной и непубличной), диалектную.

Основной корпус текстов

Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведётся одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.

Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа. В небольшой части основного корпуса (объемом 6 млн словоупотреблений; в дальнейшем эта цифра будет увеличена) произведено ручное снятие омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа. Эта часть образует так называемый корпус со снятой омонимией, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска. Примеры из этого подкорпуса снабжаются в выдаче пометой [омонимия снята]. Тексты со снятой омонимией снабжены автоматической (при помощи Грамматического словаря русского языка) акцентуацией. (В версии для сохранения/печати ударения по умолчанию сняты).

Современные письменные тексты

Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

  • современная художественная проза разных жанров и направлений

  • современная драматургия

  • мемуарно-биографическая литература

  • журнальная публицистика и литературная критика

  • газетная публицистика и новости

  • научные, научно-популярные и учебные тексты

  • религиозные и религиозно-философские тексты

  • производственно-технические тексты

  • официально-деловые и юридические тексты

  • бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).

Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.

Тексты XVIII—середины XX вв. в Корпусе

Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры (художественная литература, научные тексты, частная переписка, публицистика), однако по причине доступности электронных версий и современных переизданий процент художественной литературы для этого периода гораздо выше, чем для второй половины XX в. Тексты, написанные до 1918 г., даются в послереформенной орфографии; те особенности оригинальной орфографии, которые сохраняются в научных переизданиях, сохраняются и в Корпусе.

Подробнее см.:

Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 52—70.

Дич Н. Л. О текстах XIX века в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 89—93.

Оскольская С. А. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 46—51.

Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 27—45.

Глубоко аннотированный (синтаксический) корпус

Данный фрагмент Национального корпуса русского языка содержит тексты, снабженные морфо-синтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура.

Синтаксическая структура предложения, используемая в глубоко аннотированном корпусе (ГАК), представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл Текст» И. А. Мельчука и А. К. Жолковского. Окончательный перечень синтаксических отношений, используемых в ГАК, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен ГАК.

В отличие от морфологически размеченного фрагмента Национального корпуса русского языка, ГАК целиком состоит из структур со снятой морфологической и синтаксической омонимией.

Подробнее см.:

Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003—2005. М.:Индрик, 2005, 193—214.

Газетный корпус (корпус современных СМИ)

Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации 2000-х годов. Значительные объёмы текстов СМИ, доступные в электронном виде и предоставляющие большой интерес для изучения языковых изменений «в режиме реального времени», не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объёму он сопоставим с основным.

В корпус газетных текстов примерно в равном объёме включены тексты семи СМИ — как печатных газет ("Известия", "Советский спорт", "Труд", "Комсомольская правда"), так и электронных агентств (РИА "Новости", РБК, "Новый регион"). Предполагается постоянное пополнение корпуса; каждый год выпуска должен быть представлен одинаковым объёмом текстов в несколько десятков миллионов словоупотреблений.

Корпус региональной и зарубежной прессы

Корпус региональной и зарубежной прессы открыт для общего доступа в 2015 г. В нем представлены газеты нескольких уровней – региональные выпуски центральных газет, газеты регионального уровня и местные издания – районные и городские. Временные рамки текстов 1996—2013 годы. География печатных изданий широка и охватывает все федеральные округа России, а также страны СНГ (Беларусь, Молдова, Кыргызстан) и Балтии.

В текущей версии регионального газетного корпуса выделяются четыре относительно самостоятельные коллекции: тексты русскоязычных газет Гродненщины на русском и белорусском языке ("Лингвистический иллюстративный корпус СМИ Гродненщины"), две коллекции региональных газет России с дистанцией в 10 лет — газеты 1990—2000-х годов и СМИ 2010-х годов и коллекция региональных выпусков "Комсомольской правды". С ними можно работать как с единым массивом, так и с каждой коллекцией в отдельности. Эти и многие другие возможности обеспечиваются поиском по корпусу.

Корпус параллельных текстов

Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выравненными.

Выравненный параллельный корпус представляет собой важный инструмент для научных исследований (в том числе и для исследований по теории и практике перевода); он может также использоваться при обучении русскому и иностранным языкам.

В настоящее время на сайте Национального корпуса размещены следующие параллельные выровненные корпуса: англо-русский, русско-английский, немецко-русский, русско-немецкий, французско-русский, русско-французский, испанско-русский, русско-испанский, итальянско-русский, русско-итальянский, польско-русский, русско-польский, украинско-русский, русско-украинский, белорусско-русский, русско-белорусский и многоязычный.

Подробнее см.:

Добровольский Д. О., Кретов А. А., Шаров С. А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 263—296.

Корпус диалектных текстов

Корпус диалектных текстов (открылся в 2005 г.) включает в себя записи диалектной речи (в орфографии, приближенной к стандартной) из различных регионов России. Полностью сохранена морфологическая, синтаксическая и лексическая специфика текстов. В подкорпусе имеются специальные пометы для особенностей диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы.

Подробнее см.:

Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 215—232.

Летучий А. Б. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, с. 114—128.

Корпус поэтических текстов

Корпус поэтических текстов (открылся в 2006 г.) включает стихотворные произведения. Планируемый временной диапазон — от XVIII в. до современности. В корпус пока не включены стихотворные драматические сочинения. Помимо обычной семантической и морфологической разметки (аналогичной той, что представлена в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая разметка. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, 5-стишиями, вольной рифмовкой, твёрдыми формами и т. п.

Подробнее см.:

Гришина Е. А., Корчагин К. М., Плунгян В. А., Сичинава Д. В. Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 71—113.

Обучающий корпус русского языка

Обучающий корпус русского языка (открылся в 2007 г.) — небольшой корпус со снятой омонимией, ориентированный на преподавание русского языка в школе (отобраны произведения из школьной программы, изучаемых в школьном курсе функциональных стилей, размечены словоизменительные типы и другие дополнительные морфологические признаки)

Подробнее см.:

Савчук С. О, Сичинава Д. В. Обучающий корпус русского языка и его использование в преподавательской практике // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 317—334.

Корпус устной речи

Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1900-2000-е гг.

Подробнее см.:

Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 94—110.

Гришина Е. А., Савчук С. О. Корпус устных текстов в НКРЯ: состав и структура // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 129—149.

Акцентологический корпус

Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове. Во-вторых, это акцентуированные (в соответствии с реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической структуре слова. В-третьих, это подкорпус наивной поэзии. Наивная поэзия — это стихотворные тексты, написанные поэтами-любителями, не публикующимися в признанной литературной периодике. Эстетические достоинства этих текстов не важны для исследования русской акцентологии, но регулярность чередований ударных и безударных слогов в русском стихе дает бесценный материал для уяснения множества вопросов, связанных с расстановкой ударений в словах современными носителями русского языка.

Подробнее см.:

Гришина Е. А. Корпус «История русского ударения» // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 150—174.

Мультимедийный корпус

Мультимедийный русский корпус (МУРКО) (открылся в декабре 2010 г.) включает фрагменты кинофильмов 1930—2000-х годов. Они представлены в виде параллельных видеоряда, аудиоряда и текстовой расшифровки звучащей речи, а также наблюдаемых в кадре жестов. В мультимедийном корпусе. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.). В поисковой выдаче видеофрагменты доступны для просмотра и прослушивания.

Подробнее см.:

Гришина Е. А. Два новых проекта для Национального корпуса: мультимедийный подкорпус и подкорпус названий // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 233—250.

Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 175—214.

Национальный корпус русского языка
© 2003–2016
info@ruscorpora.ru