Одним из первых проектов по созданию представительного корпуса
русского языка был Машинный фонд русского языка, который начал
создаваться в 1980-е годы по инициативе А.П. Ершова и В.М. Андрющенко.
В 2002 году начались несколько корпусных проектов. В
этом году начал создаваться Русский Стандарт, эталонный корпус русских
литературных текстов (под руководством В.А.Плунгяна и Е.В.Рахилиной),
при поддержке Яндекса
был создан подкорпус объемом около 500 тыс. слов.
В настоящее время эта работа продолжается при поддержке
Института русского языка РАН. Также в 2002 году при поддержке Яндекса в
Институте проблем передачи
информации был создан корпус текстов с синтаксической разметкой
объемом около 100 тыс. слов (под руководством И.М.Богуславского). Оба
корпуса (Богуславского и Плунгяна) доступны со страницы
http://corpora.yandex.ru.
В Университете Билефельда (Германия)
С.А. Шаровым был создан представительный корпус объемом 40 млн. слов и
частотный словарь на его основе.
По сути БОКР основан на опыте, полученном при создании Русского
Стандарта Плунгяном и Рахилиной и Представительного корпуса Шаровым.
Расширенная до 1,5 млн. слов версия Русского Стандарта с ручной
коррекцией результатов автоматического разбора составляет сердцевину
БОКРа, но для жанровой и лексической полноты требуется наличие корпуса
большего размера. Параллельно с созданием БОКРа, корпуса, который
отражает современное словоупотребление, в Санкт-Петербурге в
Институте Лингвистических Исследований РАН и
Санкт-Петербургском Университете создается
представительный корпус русской речи 19-начала 20 веков.
|