The English version

 
   
Цели создания
Приглашение к сотрудничеству
Описание текста
Формат данных
Задание запросов
Текущее состояние
Публикации
История создания корпусов
Родственные проекты
Полезные ссылки

Описание текста

Корпус предполагает наличие некоторой схемы для документирования текстов, его составляющих. Наличие явной метаинформации о текстах, составляющих корпус, дает возможность выбора подкорпуса интересующего жанра или функционального стиля, а также обеспечивает основу для проверки утверждений о представительности корпуса.

Формат предлагаемой схемы основан на стандарте TEI. Схема описания документа состоит из двух обязательных составляющих:

1. описания текста, включающего его название, автора и размер (а также дополнительную библиографическую информацию),

2. описания профиля текста, включающего жанр, целевую аудиторию, время создания, ситуационный контекст и т.п.

Помимо этого могут быть заданы факультативные особенности кодирования текста и история создания его электронной версии, хранящейся в корпусе.

Параметры описания текста обсуждаются в документе corpus-header.zip.

Принципы отбора текстов

Помимо обеспечения большого размера корпуса, целью БОКРа является максимально широкое покрытие различных типов текстов и функциональных стилей, для чего была разработана типология текстов на основе предложений из (Sinclair, 1996). Синклер выделяет два класса факторов, влияющих на выбор текстов в корпусе: внешние (E), внеязыковые факторы, которые могут повлиять на структуру или содержание текста, и внутренние (I), факторы, отражающие свойства языка, используемого в тексте. Три группы E-факторов:
  1. Е1 (origin) - факторы, относящиеся к созданию текста автором;
  2. E2 (state) - факторы, относящиеся к внешним признакам текста;
  3. Е3 (aims) - факторы, относящиеся к целям создания текста и его влиянию на аудиторию.
Два основных I-фактора:
  1. I1 (topic) - предметная область текста;
  2. I2 (style) - стилистические особенности текста.
Эти пять факторов классификации составляют основу для выборки текстов, включаемых в БОКР. Мы стремимся представить в корпусе каждое значение этих факторов, но количество текстов в каждой группе зависит от количества соответствующих текстов в русском дискурсе и их доступности в электронном виде.

Возьмем в качестве примера набор текстов, ограниченный предметной областью "Политика", подобласть "Внутренняя политика" (параметр I1). Вариация по другим параметрам включает в себя: тексты, написанные в нейтральном, формальном и просторечном стиле (I2), созданные мужчинами, женщинами или авторскими коллективами за период 1995-2000 годов в различных регионах России (Е1), опубликованные в газетах, журналах, книгах и отчетах (Е2, для устной речи можно выделить обсуждение политических событий в теле- и радиоэфире и в частных беседах), предназначенные для аудитории разного размера, социального положения и уровня знаний о теме текста (от отчета, написанного для президента, до статьи в Московском Комсомольце), а также предназначенные для выполнения разных коммуникативных целей (обсуждения, рекомендации, обучения или развлечения). Любой текст, предназначенный для включения в корпус, должен быть описан в рамках этих параметров. Некоторые комбинации являются крайне маловероятными (например, книги, написанные мужчинами в формальном стиле для массовой женской аудитории), другие параметры взаимно исключают друг друга (машинописный отчет, предназначенный для миллионной аудитории), но любое разумное сочетание параметров должно быть при возможности представлено в корпусе. Предварительная оценка пропорций различных жанров, представленных в корпусе, может основываться на опыте BNC.

Для удобства кодирования метаинформации о тексте предлагается использовать программу Systemic Coder, для которой создан файл классификационной схемы (scheme), где есть большинство параметров классификации текстов.

Список текстов открывается выбором Import Text File. Список хранится в текстовом файле в форме:
Идентификатор | Автор | Название | Дата создания | имя файла | размер в словах
(описание каждого документа начинается с новой строки, текст в этом формате порождается утилитой titles.pl); в качестве Master scheme выбирается corpus-classes.scheme. Открытый текст сегментируется по абзацам (Segment: paragraphs) и описывается в окне Coding. Комментарии, например, относительно уверенности в выборе признаков текста или возможности альтернативного выбора вписываются в окне Comments.
Далее кодированный текст сохраняется и переводится в TEI формат командой:

 perl coder2header.pl infile outfile,

В связи с тем, что Systemic Coder может вносить только информацию, явно указанную в классификации, в получившемся описании текста отсутствуют данные, соответствующие свободно варьируемой информации, например, место или обстоятельства создания текста. В описании такие параметры отмечены знаками !!, которые при помощи любого текстового редактора необходимо заменить на соответствующие значения.

<< Главная страница

Создан 27/12/02 С.А.Шаровым, s.sharoffleeds.ac.uk

Hosted by uCoz