The English version

 
   
Цели создания
Приглашение к сотрудничеству
Описание текста
Формат данных
Задание запросов
Текущее состояние
Публикации
История создания корпусов
Родственные проекты
Полезные ссылки

Полезные ссылки

Моноязычные корпуса и средства работы с ними

В списке представлены только собственно корпуса, т.е. представительные, сбалансированные, лингвистически аннотированные коллекции текстов, пропорционально покрывающие различные функциональные стили.

Английский язык

Brown Corpus - первый большой компьютерный корпус, создан в 1964, размер 1 млн.слов (возможность поиска через LDC)
http://www.hd.uib.no/icame/brown/bcm.html

The LOB Corpus (Британский эквивалент Брауновского Корпуса)
http://www.hit.uib.no/icame/lob/lob-dir.htm

The British National Corpus (BNC)
http://sara.natcorp.ox.ac.uk/lookup.html

The International Corpus of English (ICE) - корпус, отражающий варианты английского языка (не только американский, но и австралийский, индийский, кенийский и т.д.)
http://www.ucl.ac.uk/english-usage/ice/index.htm

COBUILD-Direct (свободно доступное подмножество The Bank of English)
http://titania.cobuild.collins.co.uk/form.html

The Penn Treebank - синтаксически аннотированный корпус
http://www.cis.upenn.edu/~treebank/

Немецкий язык

COSMAS (Доступ к корпусам Института немецкого языка, IDS)
http://corpora.ids-mannheim.de/~cosmas/

NEGRA - синтаксически аннотированный корпус
http://www.coli.uni-sb.de/sfb378/negra-corpus/

Русский язык

Русский корпус Университета Тюбингена (включает Уппсальский корпус, составленный по модели Брауновского корпуса)
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

Русский Стандарт (первая версия корпуса литературного языка, созданного в ЦЛД)
http://corpora.yandex.ru/

Частотный список русского языка (не вполне корпус, но полезный ресурс)

Другие языки

Scripta Sinica (представительный корпус китайского языка)
http://www.sinica.edu.tw/ftms-bin/ftmsw3

Корпуса португальского языка
http://acdc.linguateca.pt/

Хорватский Национальный корпус
http://www.hnk.ffzg.hr/

Чешский Национальный корпус
http://ucnk.ff.cuni.cz/

The Prague Dependency Treebank - синтаксически аннотированный корпус чешского языка
http://ufal.mff.cuni.cz/pdt/pdt.html

Корпус письменного эстонского
http://psych.ut.ee/gling/en/corpusb/

Многоязычные корпуса и средства работы с ними

Michael Barlow's Parallel Corpora Page
http://www.ruf.rice.edu/~barlow/para.html

Perl-средства для работы с параллельными текстами С.А.Шарова
http://purl.org/net/concordance

Англо-норвежский параллельный корпус
http://www.hf.uio.no/iba/prosjekt/

The Canadian Hansard: параллельный англо-французский корпус

The open-source parallel corpus for Open Office
http://logos.uio.no/opus/

Стандарты для представления корпусов

Text Encoding Initiative (TEI)

Русская виртуальная библиотека

Corpus Encoding Standard

Expert Advisory Group on Language Engineering Standards (EAGLES)

Другие полезные ссылки

Направление "Корпусная лингвистика" на сайте Диалога

Машинный фонд русского языка

Центр лингвистической документации (Москва)

Центр корпусной лингвистики Университета Ланкастера

TRACTOR (TELRI Research Archive of Computational Tools and Resources)

Michael Barlow's Corpus Linguistics Page

Kenji Kita's list of corpora and texts

Список ссылок Университета Эссекса

Материалы по корпусной лингвистике В. В. Рыкова

David Lee's Bookmarks for Corpus-Based Linguistics

Болгарские материалы по корпусной лингвистике и обработке ЕЯ

Survey of the State of the Art in Human Language Technology

 
<< Главная страница

Создан 27/12/02 С.А.Шаровым, s.sharoffleeds.ac.uk

Hosted by uCoz