Моноязычные корпуса и средства работы с ними
В списке представлены только собственно корпуса, т.е. представительные,
сбалансированные, лингвистически аннотированные коллекции текстов,
пропорционально покрывающие различные функциональные стили.
Английский язык
Brown Corpus - первый большой компьютерный корпус, создан в 1964,
размер 1 млн.слов (возможность поиска через
LDC)
http://www.hd.uib.no/icame/brown/bcm.html
The LOB Corpus (Британский эквивалент Брауновского Корпуса)
http://www.hit.uib.no/icame/lob/lob-dir.htm
The British National Corpus (BNC)
http://sara.natcorp.ox.ac.uk/lookup.html
The International Corpus of English (ICE) - корпус, отражающий варианты
английского языка (не только американский, но и австралийский, индийский,
кенийский и т.д.)
http://www.ucl.ac.uk/english-usage/ice/index.htm
COBUILD-Direct (свободно доступное подмножество The Bank of
English)
http://titania.cobuild.collins.co.uk/form.html
The Penn Treebank - синтаксически аннотированный корпус
http://www.cis.upenn.edu/~treebank/
Немецкий язык
COSMAS (Доступ к корпусам Института немецкого языка, IDS)
http://corpora.ids-mannheim.de/~cosmas/
NEGRA - синтаксически аннотированный корпус
http://www.coli.uni-sb.de/sfb378/negra-corpus/
Русский язык
Русский корпус Университета Тюбингена (включает
Уппсальский корпус, составленный по модели Брауновского корпуса) http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html
Русский Стандарт (первая версия корпуса литературного языка, созданного
в ЦЛД)
http://corpora.yandex.ru/
Частотный список русского языка (не вполне корпус, но полезный ресурс)
Другие языки
Scripta Sinica (представительный корпус китайского языка)
http://www.sinica.edu.tw/ftms-bin/ftmsw3
Корпуса португальского языка
http://acdc.linguateca.pt/
Хорватский Национальный корпус
http://www.hnk.ffzg.hr/
Чешский Национальный корпус
http://ucnk.ff.cuni.cz/
The Prague Dependency Treebank - синтаксически
аннотированный корпус чешского языка
http://ufal.mff.cuni.cz/pdt/pdt.html
Корпус письменного эстонского
http://psych.ut.ee/gling/en/corpusb/
Многоязычные корпуса и средства работы с ними
Michael Barlow's Parallel Corpora Page
http://www.ruf.rice.edu/~barlow/para.html
Perl-средства для работы с параллельными текстами С.А.Шарова
http://purl.org/net/concordance
Англо-норвежский параллельный корпус
http://www.hf.uio.no/iba/prosjekt/
The Canadian Hansard: параллельный англо-французский корпус
The open-source parallel corpus for Open Office
http://logos.uio.no/opus/
Стандарты для представления корпусов
Text Encoding Initiative (TEI)
Русская виртуальная библиотека
Corpus Encoding Standard
Expert Advisory Group on Language Engineering Standards (EAGLES)
Другие полезные ссылки
Направление
"Корпусная лингвистика" на сайте Диалога
Машинный фонд русского языка
Центр лингвистической документации (Москва)
Центр корпусной лингвистики Университета Ланкастера
TRACTOR (TELRI Research Archive of Computational Tools and Resources)
Michael Barlow's Corpus Linguistics Page
Kenji Kita's list of corpora and texts
Список ссылок Университета Эссекса
Материалы по корпусной лингвистике В. В. Рыкова
David Lee's Bookmarks for Corpus-Based Linguistics
Болгарские материалы по корпусной лингвистике и обработке ЕЯ
Survey of the State of the Art in Human Language Technology
|