Создание такого ресурса как общедоступный корпус русского языка, включающий
около 100 млн. словоупотреблений в разных функциональных жанрах, возможно
только при кооперации различных лиц и организаций, представляющих тексты,
технологии, организационные или финансовые ресурсы для создания корпуса.
Работа ведется в рамках программы РАН "Филология и Информатика". Координатором
проекта является Институт Русского Языка им. В.В. Виноградова РАН. Другие участники проекта:
- Институт Лингвистических Исследований,
- Санкт-Петербургский Университет,
- РосНИИ Искусственного Интеллекта,
- ВИНИТИ,
- Диалинг,
- Университет Лидса (Великобритания)
Если у Вас есть интерес к
участию в создании
корпуса, пишите Сергею
Александровичу Шарову, s.sharoffleeds.ac.uk.
Взаимодействие может
включать в себя
предоставление:
- простых текстов
(информация о тексте
может быть задана в формате
метаинформации БоКРа),
- помощи в более
подробном описании
существующих текстов,
- технологий для снятия
омонимии в
морфосинтаксической
разметке,
- помощи в ручном снятии
омонимии,
- размеченных текстов с
морфосинтаксической
информацией (в формате
БоКРа),
- технологий
индексирования и
быстрого поиска в XML
данных
- и т.д.
|