Технологический процесс создания корпуса можно представить в ви- де этапов, главными из которых являются токенизация, т. е. разделение входного текста на составные элементы (слова, знаки препинания, числа и т. п.), разметка, конвертирование размеченных текстов в структуру кор- пусного менеджера. Важнейшее место здесь занимает разметка (tagging или annotation). Можно сказать, что благодаря ей корпус и становится корпусом.
Разметка заключается в приписывании текстам и их компонентам спе- циальных тегов: собственно лингвистических, описывающих лексиче- ские, грамматические и прочие характеристики элементов текста, и внеш- них, экстралингвистических (сведения об авторе и сведения о тексте: ав- тор, название, год и место издания, жанр, тематика и т. п.).
Средства разметки
Разметка корпусов представляет собой трудоемкую операцию и должна, естественно, выполняться автоматически, особенно учитывая огромные размеры современных корпусов. А если с какими-то типами разметки автоматизация еще не справляется и основная часть работы
должна производиться вручную, то это сразу ограничивает размер корпу- са. Для морфологической и синтаксической разметки существуют различ- ные программные средства, которые называют теггерами (taggers) и пар- серами (parsers), позволяющие большую часть работы выполнить в авто- матическом режиме.
В результате работы программ автоматической морфологической разметки каждой лексической единице, точнее, каждому отдельному сло- воупотреблению, приписываются грамматические характеристики (часть речи, род, число, падеж, время, лицо, залог, наклонение и т. п.). В резуль- тате работы программ автоматической синтаксической разметки фикси- руются синтаксические связи между словами и словосочетаниями, а син- таксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т. п.).
Существует два типа программ разметки — системы, основанные на словарях и правилах, и системы с машинным обучением на каком-либо тренировочном массиве.
Однако автоматический анализ естественного языка всегда не без- ошибочен и неоднозначен — он, как правило, дает несколько вариантов анализа для одной и той же языковой единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) является одной из важнейших и сложнейших задач компьютерной лингвистики.
Лингвистическая разметка
Среди лингвистических типов разметки выделяются: морфологиче- ская, синтаксическая, семантическая, анафорическая, просодическая, дис- курсная и др. Как правило, они соответствуют следующим принципам:
теоретически нейтральная (традиционная) схема разметки;
общепринятая система лингвистических понятий;
известная для пользователя схема анализа;
мотивированность введения параметров;
следование международным стандартам.
Достарыңызбен бөлісу: |