11 Часть I. Компоненты 14 Глава Компьютерная



бет96/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   92   93   94   95   96   97   98   99   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

Разметка корпусов


Технологический процесс создания корпуса можно представить в ви- де этапов, главными из которых являются токенизация, т. е. разделение входного текста на составные элементы (слова, знаки препинания, числа и т. п.), разметка, конвертирование размеченных текстов в структуру кор- пусного менеджера. Важнейшее место здесь занимает разметка (tagging или annotation). Можно сказать, что благодаря ей корпус и становится корпусом.
Разметка заключается в приписывании текстам и их компонентам спе- циальных тегов: собственно лингвистических, описывающих лексиче- ские, грамматические и прочие характеристики элементов текста, и внеш- них, экстралингвистических (сведения об авторе и сведения о тексте: ав- тор, название, год и место издания, жанр, тематика и т. п.).


      1. Средства разметки

Разметка корпусов представляет собой трудоемкую операцию и должна, естественно, выполняться автоматически, особенно учитывая огромные размеры современных корпусов. А если с какими-то типами разметки автоматизация еще не справляется и основная часть работы

должна производиться вручную, то это сразу ограничивает размер корпу- са. Для морфологической и синтаксической разметки существуют различ- ные программные средства, которые называют теггерами (taggers) и пар- серами (parsers), позволяющие большую часть работы выполнить в авто- матическом режиме.


В результате работы программ автоматической морфологической разметки каждой лексической единице, точнее, каждому отдельному сло- воупотреблению, приписываются грамматические характеристики (часть речи, род, число, падеж, время, лицо, залог, наклонение и т. п.). В резуль- тате работы программ автоматической синтаксической разметки фикси- руются синтаксические связи между словами и словосочетаниями, а син- таксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т. п.).
Существует два типа программ разметки — системы, основанные на словарях и правилах, и системы с машинным обучением на каком-либо тренировочном массиве.
Однако автоматический анализ естественного языка всегда не без- ошибочен и неоднозначен — он, как правило, дает несколько вариантов анализа для одной и той же языковой единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) является одной из важнейших и сложнейших задач компьютерной лингвистики.


      1. Лингвистическая разметка

Среди лингвистических типов разметки выделяются: морфологиче- ская, синтаксическая, семантическая, анафорическая, просодическая, дис- курсная и др. Как правило, они соответствуют следующим принципам:

  1. теоретически нейтральная (традиционная) схема разметки;

  2. общепринятая система лингвистических понятий;

  3. известная для пользователя схема анализа;

  4. мотивированность введения параметров;

  5. следование международным стандартам.






        1. Достарыңызбен бөлісу:
1   ...   92   93   94   95   96   97   98   99   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет