11 Часть I. Компоненты 14 Глава Компьютерная


Каким может быть анализ слов



бет12/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   8   9   10   11   12   13   14   15   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

Каким может быть анализ слов


Все выделенные в процессе токенизации словоформы надо проанали- зировать. Это значит, для каждой словоформы необходимо определить, (1) какие у нее грамматические признаки, (2) к какой части речи она относит- ся и (3) в некоторых случаях (например, при машинном переводе, исполь- зующем словарь) надо понять, какой единице словаря соответствует дан- ная словоформа.
Например, для первого слова Решал в предложении Решал всё тот же я мучительный вопрос необходимо (1) понять, что это глагол,

  1. определить значения прошедшего времени, мужского рода и единст- венного числа, а затем, возможно, (3) сопоставить его с нужным разделом компьютерного словаря.

Поскольку память у современных компьютеров практически не огра- ничена, можно попытаться заложить в нее все словоформы и для каждой указать ее грамматические значения и другую необходимую информацию. Такой подход известен как морфологический анализ со словарем сло- воформ. В этом словаре будут целиком храниться, например, слова решал, решает, решала, решаем и др. Для каждого из них будет указано соответ- ствующее ему время, число и род.
Такой словарь получится довольно большим, и значительная часть сведений в нем будет многократно повторяться. Он может применяться в тех языках, где слова мало изменяются грамматически. В них грамматиче- ская информация передается не через изменение слов, а с помощью раз- личных синтаксических средств: вспомогательных глаголов, предлогов, порядка слов и пр. Например, русский творительный падеж в слове мо- лотком в английском языке передается с помощью предлога: with a hammer. Поэтому при обработке подобных языков основная грамматиче- ская информация извлекается на следующем этапе — на уровне анализа предложения, которому посвящена следующая глава.
Главный недостаток словаря словоформ — в него невозможно вклю- чить абсолютно все слова живого языка. Ведь новые слова появляются очень часто, и человеческий мозг умеет их обрабатывать без словаря сло- воформ.
Глокая куздра штеко будланула бокра и курдячит бокрёнка — эта знаменитая фраза Л. В. Щербы показывает, что роль слова и его форму можно понять даже тогда, когда неизвестно его значение. Очевидно, что действия здесь осуществлялись куздрой, которая была глокая, и что дейст- виям подверглись бокр и бокренок, эти действия назывались будлануть и курдячить, первое действие уже завершилось, а второе продолжается. Мы можем понять это благодаря грамматике: формы слов и порядок их следо-

вания подсказывают, где в предложении глагол, а где существительные, и в каких грамматических формах они употреблены.


Технологии, позволяющие автоматически анализировать незнакомые слова, тоже существуют. Для их обработки применяется предиктивный (предсказательный) морфологический анализ, задача которого состоит в том, чтобы «угадать» грамматические характеристики слова и его осно- ву, глядя на те его части, которые могли бы быть окончанием, суффиксами или приставками. Здесь годятся не только правила, но и машинное обуче- ние: компьютер обучается на имеющемся словаре лемм и словоформ и сравнивает новое слово, которого нет в словаре, с имеющимися, чтобы выбрать наиболее подходящий образец. Этот подход может порождать и курьезы, например слово «кровать» может быть разобрано таким анализа- тором как глагол, поскольку оно похоже на глагол «ковать».
Но далеко не для всех языков удобен подход на основе традиционного морфологического представления, состоящего из перечисления склонений и спряжений. Представим, что нам нужно проанализировать слова немец- кого языка для целей информационного поиска. В немецком возможны слова типа Donaudampfschifffahrtskapitän (капитан рейса, выполняемого пароходом по Дунаю). Если не делить его, то документ не будет найден по запросам, содержащим слова Dona (Дунай), Dampfschiff (пароход), Fahrt (рейс) и Kapitän (капитан), хотя он, вполне возможно, был бы релевант- ным ответом по этим запросам. Более того, составные части могут сво- бодно сочетаться друг с другом, т. е. возможны слова Newaschifffahrtkapitaen (капитан рейса, выполняемого пароходом по Неве) и Donaudampfschifffahrtsmatros (матрос рейса, выполняемого пароходом по Дунаю). Аналогичным образом не удастся найти документ, в котором встретилось слово Anfangsschwierigkeiten (трудности начального периода) по запросу Schwierigkeit (трудность), если не разделить исходное слово на два. Таким образом, решая задачи, связанные с информационным поиском применительно к немецкому языку, словом удобнее считать отдельные составные части сложного слова.
Еще сложнее дело обстоит в турецком языке. Словоизменение там осуществляется путём прибавления аффиксов, обозначающих граммати- ческие значения. При этом явного ограничения на количество этих аффик- сов не существует, что позволяет составлять очень длинные слова. Вот пример из английской Википедии:


Muvaffak — успешный Muvaffakiyet — успех Muvaffakiyetsiz — неуспешный
Muvaffakiyetsizleş — стать неуспешным Muvaffakiyetsizleştirсделать неуспешным кого-либо
Muvaffakiyetsizleştirici — тот, кто делает неуспешным кого-либо

Muvaffakiyetsizleştiricileş — стать тем, кто делает кого-либо неуспешным


и далее можно продолжать добавлять морфемы справа, пока не получится слово


Muvaffakiyetsizleştiricileştiriveremeyebileceklerimizdenmişsinizcesine. Его можно перевести примерно так:
Как будто бы ты оказался среди тех, кого нам непросто будет сделать теми, кто делает кого-либо неуспешным.
Очевидно, что для целей информационного поиска или автоматиче- ского перевода нужно проанализировать структуру таких слов, отделяя каждую морфему.
Составить словарь всех возможных словоформ турецкого языка так, как, например, это делается для русского или английского, не представля- ется возможным. Один из вариантов решения задачи морфологического анализа для языков такого типа — это объединение словаря морфем и на- бора правил, задающих их возможные сочетания. Так устроен, например, свободно доступный морфологический анализатор для турецкого языка TRmorph.




  1. Достарыңызбен бөлісу:
1   ...   8   9   10   11   12   13   14   15   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет