The English version

 
   
Цели создания
Приглашение к сотрудничеству
Описание текста
Формат данных
Задание запросов
Текущее состояние
Публикации
История создания корпусов
Родственные проекты
Полезные ссылки

Родственные проекты

Одним из первых проектов по созданию представительного корпуса русского языка был Машинный фонд русского языка, который начал создаваться в 1980-е годы по инициативе А.П. Ершова и В.М. Андрющенко.

В 2002 году начались несколько корпусных проектов. В этом году начал создаваться Русский Стандарт, эталонный корпус русских литературных текстов (под руководством В.А.Плунгяна и Е.В.Рахилиной), при поддержке Яндекса был создан подкорпус объемом около 500 тыс. слов. В настоящее время эта работа продолжается при поддержке Института русского языка РАН. Также в 2002 году при поддержке Яндекса в Институте проблем передачи информации был создан корпус текстов с синтаксической разметкой объемом около 100 тыс. слов (под руководством И.М.Богуславского). Оба корпуса (Богуславского и Плунгяна) доступны со страницы http://corpora.yandex.ru. В Университете Билефельда (Германия) С.А. Шаровым был создан представительный корпус объемом 40 млн. слов и частотный словарь на его основе.

По сути БОКР основан на опыте, полученном при создании Русского Стандарта Плунгяном и Рахилиной и Представительного корпуса Шаровым. Расширенная до 1,5 млн. слов версия Русского Стандарта с ручной коррекцией результатов автоматического разбора составляет сердцевину БОКРа, но для жанровой и лексической полноты требуется наличие корпуса большего размера. Параллельно с созданием БОКРа, корпуса, который отражает современное словоупотребление, в Санкт-Петербурге в Институте Лингвистических Исследований РАН и Санкт-Петербургском Университете создается представительный корпус русской речи 19-начала 20 веков.

<< Главная страница

Создан 27/12/02 С.А.Шаровым, s.sharoffleeds.ac.uk

Hosted by uCoz