Корпус предполагает наличие некоторой схемы для документирования текстов,
его составляющих. Наличие явной метаинформации о текстах, составляющих корпус,
дает возможность выбора подкорпуса интересующего жанра или функционального
стиля, а также обеспечивает основу для проверки утверждений о
представительности корпуса. Формат предлагаемой схемы основан на стандарте
TEI.
Схема описания документа состоит из двух обязательных составляющих:
1. описания текста, включающего его название, автора и размер (а также
дополнительную библиографическую информацию),
2. описания профиля текста, включающего жанр, целевую аудиторию, время
создания, ситуационный контекст и т.п.
Помимо этого могут быть заданы факультативные особенности кодирования
текста и история создания его электронной версии, хранящейся в корпусе.
Параметры описания текста обсуждаются в документе
corpus-header.zip.
Принципы отбора текстов
Помимо обеспечения большого размера корпуса, целью БОКРа является максимально
широкое покрытие различных типов текстов и функциональных стилей, для чего
была разработана типология текстов на основе предложений из
(Sinclair, 1996).
Синклер выделяет два класса факторов, влияющих на выбор текстов в корпусе:
внешние (E), внеязыковые факторы, которые могут повлиять на структуру или
содержание текста, и внутренние (I), факторы, отражающие свойства языка,
используемого в тексте. Три группы E-факторов:
- Е1 (origin) - факторы, относящиеся к созданию текста автором;
- E2 (state) - факторы, относящиеся к внешним признакам текста;
- Е3 (aims) - факторы, относящиеся к целям создания текста и его влиянию на аудиторию.
Два основных I-фактора:
- I1 (topic) - предметная область текста;
- I2 (style) - стилистические особенности текста.
Эти пять факторов классификации составляют основу для выборки текстов,
включаемых в БОКР. Мы стремимся представить в корпусе каждое значение этих
факторов, но количество текстов в каждой группе зависит от количества
соответствующих текстов в русском дискурсе и их доступности в электронном
виде.
Возьмем в качестве примера набор текстов, ограниченный предметной областью
"Политика", подобласть "Внутренняя политика" (параметр I1). Вариация по другим
параметрам включает в себя: тексты, написанные в нейтральном, формальном и
просторечном стиле (I2), созданные мужчинами, женщинами или авторскими
коллективами за период 1995-2000 годов в различных регионах России (Е1),
опубликованные в газетах, журналах, книгах и отчетах (Е2, для устной речи
можно выделить обсуждение политических событий в теле- и радиоэфире и в
частных беседах), предназначенные для аудитории разного размера, социального
положения и уровня знаний о теме текста (от отчета, написанного для
президента, до статьи в Московском Комсомольце), а также предназначенные для
выполнения разных коммуникативных целей (обсуждения, рекомендации, обучения
или развлечения). Любой текст, предназначенный для включения в корпус, должен
быть описан в рамках этих параметров. Некоторые комбинации
являются крайне маловероятными (например, книги, написанные мужчинами в
формальном стиле для массовой женской аудитории), другие параметры взаимно
исключают друг друга (машинописный отчет, предназначенный для миллионной
аудитории), но любое разумное сочетание параметров должно быть при возможности
представлено в корпусе. Предварительная оценка пропорций различных жанров,
представленных в корпусе, может основываться на опыте BNC.
Для удобства кодирования метаинформации о тексте предлагается использовать
программу Systemic
Coder, для которой создан файл классификационной схемы
(scheme), где есть большинство параметров
классификации текстов.
Список текстов открывается выбором Import Text File.
Список хранится в текстовом файле в форме:
Идентификатор | Автор | Название | Дата создания | имя файла | размер в
словах
(описание каждого документа начинается с новой строки, текст в этом формате
порождается утилитой titles.pl); в качестве Master
scheme выбирается corpus-classes.scheme.
Открытый текст сегментируется по абзацам (Segment: paragraphs) и описывается в
окне Coding. Комментарии, например, относительно уверенности в выборе
признаков текста или возможности альтернативного выбора вписываются в окне
Comments.
Далее кодированный текст сохраняется и переводится в TEI формат командой:
perl coder2header.pl infile outfile,
В связи с тем, что Systemic Coder может вносить только информацию, явно
указанную в классификации, в получившемся описании текста отсутствуют данные,
соответствующие свободно варьируемой информации, например, место или
обстоятельства создания текста. В описании такие параметры отмечены знаками
!!, которые при помощи любого текстового редактора необходимо заменить на
соответствующие значения. |