В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно — частеречная разметка. В действитель- ности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи, а также нормальную форму слова, лемму. Это основной тип разметки: во- первых, морфологический анализ лучше всего автоматизирован, во-
вторых, он рассматривается как основа для дальнейших форм анализа — синтаксического и семантического.
Данные о разметке представляются в том или ином структурирован- ном виде. Приведем пример морфологической разметки фрагмента текста на русском языке «Звонили к вечерне. Торжественный гул колоколов…» в XML-формате на основе разметчика сервиса АОТ (рис. 1).
Рис.1. Пример морфологической разметки текста на русском языке.
В представленной записи использованы теги — текст,
— абзац, — предложение, — словоупотребление,
— знак пунктуации. Тег содержит вложенный тег с атрибутами
— лемма,
— часть речи, — набор граммем.