11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	96/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 92 93 94 95 96 97 98 99 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Средства разметки
Лингвистическая разметка

Разметка корпусов

Технологический процесс создания корпуса можно представить в ви- де этапов, главными из которых являются токенизация, т. е. разделение входного текста на составные элементы (слова, знаки препинания, числа и т. п.), разметка, конвертирование размеченных текстов в структуру кор- пусного менеджера. Важнейшее место здесь занимает разметка (tagging или annotation). Можно сказать, что благодаря ей корпус и становится корпусом.
Разметка заключается в приписывании текстам и их компонентам спе- циальных тегов: собственно лингвистических, описывающих лексиче- ские, грамматические и прочие характеристики элементов текста, и внеш- них, экстралингвистических (сведения об авторе и сведения о тексте: ав- тор, название, год и место издания, жанр, тематика и т. п.).

Средства разметки

Разметка корпусов представляет собой трудоемкую операцию и должна, естественно, выполняться автоматически, особенно учитывая огромные размеры современных корпусов. А если с какими-то типами разметки автоматизация еще не справляется и основная часть работы

должна производиться вручную, то это сразу ограничивает размер корпу- са. Для морфологической и синтаксической разметки существуют различ- ные программные средства, которые называют теггерами (taggers) и пар- серами (parsers), позволяющие большую часть работы выполнить в авто- матическом режиме.

В результате работы программ автоматической морфологической разметки каждой лексической единице, точнее, каждому отдельному сло- воупотреблению, приписываются грамматические характеристики (часть речи, род, число, падеж, время, лицо, залог, наклонение и т. п.). В резуль- тате работы программ автоматической синтаксической разметки фикси- руются синтаксические связи между словами и словосочетаниями, а син- таксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т. п.).
Существует два типа программ разметки — системы, основанные на словарях и правилах, и системы с машинным обучением на каком-либо тренировочном массиве.
Однако автоматический анализ естественного языка всегда не без- ошибочен и неоднозначен — он, как правило, дает несколько вариантов анализа для одной и той же языковой единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) является одной из важнейших и сложнейших задач компьютерной лингвистики.

Лингвистическая разметка

Среди лингвистических типов разметки выделяются: морфологиче- ская, синтаксическая, семантическая, анафорическая, просодическая, дис- курсная и др. Как правило, они соответствуют следующим принципам:

теоретически нейтральная (традиционная) схема разметки;
общепринятая система лингвистических понятий;
известная для пользователя схема анализа;
мотивированность введения параметров;
следование международным стандартам.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 92 93 94 95 96 97 98 99 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Разметка корпусов

Средства разметки

Лингвистическая разметка