Морфологическая разметка
В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно — частеречная разметка. В действитель- ности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи, а также нормальную форму слова, лемму. Это основной тип разметки: во- первых, морфологический анализ лучше всего автоматизирован, во-
вторых, он рассматривается как основа для дальнейших форм анализа — синтаксического и семантического.
Данные о разметке представляются в том или ином структурирован- ном виде. Приведем пример морфологической разметки фрагмента текста на русском языке «Звонили к вечерне. Торжественный гул колоколов…» в XML-формате на основе разметчика сервиса АОТ (рис. 1).
Звонили
к
вечерне
.
Торжественный
гул
колоколов
…………………………………………………….……………………..
.
Рис. 1. Пример морфологической разметки текста на русском языке.
В представленной записи использованы теги — текст,
— абзац, — предложение, — словоупотребление,
— знак пунктуации. Тег содержит вложенный тег с атрибутами
— лемма,
— часть речи, — набор граммем.
Достарыңызбен бөлісу: |