The English version

 
   
Цели создания
Приглашение к сотрудничеству
Описание текста
Формат данных
Задание запросов
Текущее состояние
Публикации
История создания корпусов
Родственные проекты
Полезные ссылки

Текущее состояние

В настоящее время собран корпус объемом около 50 млн. словоупотреблений, на котором отлаживаются методология создания и морфосинтаксической разметки корпуса и организация поиска в нем.

К ближайшим задачам относится:

  1. накопление полного объема письменных источников, включая "эфемерные жанры", это письменные тексты, производимые непрофессиональными авторами, т.е. не являющимися писателями или журналистами, например, деловая и личная переписка (с анонимизацией адресатов и тем),
  2. создание подкорпуса устной речи, включая публичную и частную речь,
  3. создание языка запросов,
  4. размещение корпуса для доступа через Интернет.

В настоящее время проект ведется под руководством Института русского языка РАН при финансовой поддержке программы РАН "Филология и информатика".

<< Главная страница

Создан 27/12/02 С.А.Шаровым, s.sharoffleeds.ac.uk

Hosted by uCoz