11 Часть I. Компоненты 14 Глава Компьютерная



бет99/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   95   96   97   98   99   100   101   102   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Семантическая разметка

Семантические теги чаще всего обозначают семантические катего- рии, к которым относится данное слово или словосочетание, и более узкие подкатегории, определяющие его значение. Семантическая раз- метка корпусов предусматривает спецификацию значений слов, разре- шение омонимии и синонимии, категоризацию слов (разряды), выделе- ние тематических классов, признаков каузативности, оценочных и дери- вационных характеристик и т. д.
Один из возможных вариантов семантической разметки предлагает НКРЯ. В этом корпусе каждой словоформе приписываются пометы трех типов:

  1. разряд (имя собственное, возвратное местоимение и т. д.);

  2. лексико-семантические характеристики (тематический класс лексе- мы, признаки каузативности, оценки и т. д.);

  3. деривационные характеристики (диминутив, отадъективное наречие и т. д.).




        1. Экстралингвистическая разметка

Экстралингвистическая разметка (метаразметка) включает в себя
«внешнюю», «интеллектуальную» разметку текстов корпуса (библиогра- фические характеристики, типологические, тематические, социологические характеристики). Например, художественные тексты в НКРЯ подразделяются по жанрам: детектив, боевик, детская, документальная проза, драматургия и т. д. Нехудожественная литература делится по сферам функционирования: бытовая, официально-деловая, публицистика, реклама и т. д. Набор призна- ков для метаданных чаще всего основывается на рекомендациях проекта TEI (Text Encoding Initiative).
Метаразметка нужна, во-первых, для выявления взаимосвязи языка и условий его существования; во-вторых, для отбора и изучения отдельных подмножеств языка.




    1. Достарыңызбен бөлісу:
1   ...   95   96   97   98   99   100   101   102   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет