С точки зрения
корпусной лингвистики
русским язык является
одним из немногих мировых
языков, не имеющих
представительного корпуса,
отражающего современное
состояние и использование
языка. Вместе с тем
необходимость в создании
такого корпуса ясно
осознается в
лингвистическом
сообществе в России и за ее
пределами.
В связи с тем, что
изобилие текстов
представлено в
электронной форме и
находится в свободном
доступе в Интернете, самым
большим корпусом можно
считать сам Интернет, а
средствами доступа к этому
корпусу являются
поисковые машины,
например, Яндекс
для русского языка. С
другой стороны, тексты,
выложенные на Интернет,
хаотичны, и их набор в
значительной степени
предопределен
социологически
специфичной частью
носителей русского языка.
Лингвистически интересный
запрос часто сложно или
невозможно сформулировать
с помощью языка запросов
поисковой машины. Например,
если нас интересует
критика чего бывает в
русском языке, мы не можем
задать вопрос на поиск
всех существительных в
родительном падеже,
следующих за словом критика,
которая, помимо всего
прочего, омонимична слову критик.
Наконец, по результатам
поиска нельзя оценить
представительность
выборки: какие тексты не
были выложены на Интернет,
какой процент полученная
выборка занимает в общем
объеме поискового
материала, что не было
найдено данной поисковой
машиной и т.д.
Целью данной работы
является создание
представительного корпуса
русского языка, подобного
Британскому Национальному
Корпусу (БНК). Корпус
объемом примерно в 100 млн
слов должен обеспечить
пропорциональное покрытие
всех основных речевых
жанров, что позволит
получать статистически
достоверную об
использовании слов и
грамматических
конструкций в современном
русском языке.
В представительном корпусе на 100 млн. слов имеется эталонный корпус Русский Стандарт на 1,5 млн. слов, который получен путем ручной проверки результатов морфосинтаксической аннотации, что позволяет правильно разрешать многие случаи омографии, такие как все и всё, его как личное или притяжательное местоимение и т.п.
|