В настоящее время собран
корпус объемом около 50 млн.
словоупотреблений, на
котором отлаживаются
методология создания и
морфосинтаксической
разметки корпуса и
организация поиска в нем. К ближайшим
задачам относится:
- накопление полного
объема письменных
источников, включая
"эфемерные жанры",
это письменные тексты,
производимые
непрофессиональными
авторами, т.е. не
являющимися
писателями или
журналистами,
например, деловая и
личная переписка (с
анонимизацией
адресатов и тем),
- создание подкорпуса
устной речи, включая
публичную и частную
речь,
- создание языка
запросов,
- размещение корпуса
для доступа через
Интернет.
В настоящее время проект ведется под руководством Института русского языка РАН при финансовой
поддержке программы РАН "Филология и информатика".
|