Семантическая разметка
Семантические теги чаще всего обозначают семантические катего- рии, к которым относится данное слово или словосочетание, и более узкие подкатегории, определяющие его значение. Семантическая раз- метка корпусов предусматривает спецификацию значений слов, разре- шение омонимии и синонимии, категоризацию слов (разряды), выделе- ние тематических классов, признаков каузативности, оценочных и дери- вационных характеристик и т. д.
Один из возможных вариантов семантической разметки предлагает НКРЯ. В этом корпусе каждой словоформе приписываются пометы трех типов:
разряд (имя собственное, возвратное местоимение и т. д.);
лексико-семантические характеристики (тематический класс лексе- мы, признаки каузативности, оценки и т. д.);
деривационные характеристики (диминутив, отадъективное наречие и т. д.).
Экстралингвистическая разметка
Экстралингвистическая разметка (метаразметка) включает в себя
«внешнюю», «интеллектуальную» разметку текстов корпуса (библиогра- фические характеристики, типологические, тематические, социологические характеристики). Например, художественные тексты в НКРЯ подразделяются по жанрам: детектив, боевик, детская, документальная проза, драматургия и т. д. Нехудожественная литература делится по сферам функционирования: бытовая, официально-деловая, публицистика, реклама и т. д. Набор призна- ков для метаданных чаще всего основывается на рекомендациях проекта TEI (Text Encoding Initiative).
Метаразметка нужна, во-первых, для выявления взаимосвязи языка и условий его существования; во-вторых, для отбора и изучения отдельных подмножеств языка.
Достарыңызбен бөлісу: |