Национальный корпус русского языка

Материал из Википедии — свободной энциклопедии
Перейти к навигацииПерейти к поиску
Национальный корпус русского языка
Изображение логотипа
URLruscorpora.ru
Коммерческийнет
Тип сайтаобразовательный/научный проект
Регистрацияесть: необходима для получения доступа к текстам; лицензионное соглашение
Язык (-и)русский/английский
Расположение сервераРоссия
ВладелецИнститут русского языка имени В. В. Виноградова РАН
Начало работы2004
Текущий статусработает и развивается
Страна
Логотип Викисклада Медиафайлы на Викискладе

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронныйонлайн-корпусрусскоязычныхтекстов.

Корпус открыт 29 апреля 2004 года[1]. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

Содержание

Составители

[править |править код]

Работы по созданию корпуса были начаты в 2001 году группой филологов изМосквы,Санкт-Петербурга,Воронежа и других городов.

В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций[2]:

Состав корпуса

[править |править код]
С. О. Савчук (ИРЯ РАН), доклад «Инструментарий национального корпуса русского языка в диахронических исследованиях», «Корпусная линвистика ‒ 2019»,СПбГУ

В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

В корпус также входят подкорпусыпоэтических идиалектных текстов,корпусы параллельных текстов (корпусы, параллельные с русским, доступны для следующих языков: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и многоязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот, церковнославянский), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.

С 2010 года в составе исторического подкорпуса Национального корпуса русского языка доступен текстовый корпусберестяных грамот с полной морфологической разметкой. Тексты берестяных грамот в составе корпуса интерактивно связаны с их представлением на сайтеgramoty.ru[4].

Объём корпуса

[править |править код]
Внешние видеофайлы
Зобнин А.Как устроен национальный корпус русского языка // ФКН ВШЭ, 2015, YouTube

Объём основного корпуса на декабрь 2023 года составлял 375 млн словоупотреблений, а общий объём корпусов превышает больше 2 млрд словоупотреблений[5].

Тексты снабжены метаразметкой (по дате создания, автору, жанру и тому подобному); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.

1,5 % текстов снабженыморфологической[6] исемантической[7] разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).

КорпусЧисло текстовЧисло предложенийЧисло словоупотреблений% словоупотреблений
Дезамбигуированная часть корпуса2 тыс.500 тыс.6 млн1,6 %
Основной корпус84 тыс.19,1 млн209 млн57,3 %
Весь корпус342 тыс.32 млн364 млн100 %

Доступ

[править |править код]

В настоящее времясвободным ибесплатным являетсятолько поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу (копирование и передача его базы данных) запрещён лицензионным соглашением. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение[8]. Проблему с ограничением доступа призван решить проект «Открытый корпус», также создающий корпус русского языка, но под свободной лицензией[9].

См. также

[править |править код]

Примечания

[править |править код]
  1. Новости НКРЯ  (рус.). Национальный корпус русского языка. Дата обращения: 9 сентября 2024. Архивировано 9 сентября 2024 года.
  2. Участники проекта . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
  3. О проекте. Параллельные корпуса письменных текстов . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
  4. Зализняк А. А., Янин В. Л., Гиппиус А. А.Новгородские грамоты на бересте (из раскопок 2001—2014 гг.)Архивная копия от 27 марта 2019 наWayback Machine. Том XII. — М.: Языки славянской культуры, 2015. — 288 с.
  5. Национальный корпус русского языка . ruscorpora.ru. Дата обращения: 7 марта 2018. Архивировано 7 октября 2011 года.
  6. Морфология . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 19 февраля 2018 года.
  7. Семантика . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 19 февраля 2018 года.
  8. Использование корпуса. Лицензионное соглашение . Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
  9. OpenCorpora: открытый корпус русского языка . opencorpora.org. Дата обращения: 26 января 2022. Архивировано 26 января 2022 года.

Литература

[править |править код]

Ссылки

[править |править код]
Перейти к шаблону «External links»
Ссылки на внешние ресурсы
Перейти к шаблону «Внешние ссылки» Перейти к элементу Викиданных
  В социальных сетях
Перейти к шаблону «Корпусная лингвистика»
Англоязычные корпусы
Русскоязычные корпусы
Корпусы на других языках
Организации
Источник —https://ru.wikipedia.org/w/index.php?title=Национальный_корпус_русского_языка&oldid=147253527
Категории:
Скрытые категории: