11 Часть I. Компоненты 14 Глава Компьютерная



бет122/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   118   119   120   121   122   123   124   125   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Модель перевода (translation model) позволяет оценить вероятность того, что одно предложение является переводом другого. Или, если быть точнее, вероятность того, что предложение х — это исходное предложение для переводного предложения y. Вспомним формулу (3) в разделе 3.1 — нас интересует p(x|у), где x — исходное предложение (вероятность которо- го оценивается), а y — это переведенное предложение (которое рассмат- ривается как имеющееся условие). Именно эти вероятности и оценивает модель перевода.



      1. Выравнивание

Для создания модели перевода нужны параллельные корпусы. Если у нас есть большие тексты и их переводы на другой язык, то это еще не парал- лельный корпус. В корпусе должны быть установлены связи между эле- ментами исходных текстов и из переводов. Эти связи называются вырав- ниванием (alignment), и они могут быть разного уровня. Бывает выравни- вание по документам, по абзацам, по предложениям и по словам. Иногда встречаются и более экзотические виды выравниваний, но для создания автоматического переводчика будет достаточно параллельного корпуса, в котором есть выравнивание по предложениям (sentence alignment), то есть, где каждое предложение связано со своим переводом. Именно эти корпусы наиболее популярны.
На первый взгляд может показаться, что каждое отдельное предложе- ние в исходном тексте переводится на другой язык одним предложением, что можно обозначить как 1 : 1. Но такие случаи составляют в среднем около 90 % [Manning and Schütze 1999, с. 468]. Остальные 10 % вызывают проблему соответствия. При переводе два коротких предложения могут объединиться в одно, что можно обозначить как 2 : 1. Возможны и другие варианты, например, 1 : 2, 1 : 3, 3 : 1 и даже 2 : 2, если два предложения при переводе были перемешаны и разбиты на два других предложения. Иногда фрагменты текста в переводе могут переставляться, так что поря- док следования предложений меняется, тогда возможны более сложные сочетания.
Выравнивание можно выполнять вручную, но это очень медленный процесс, особенно для больших корпусов. Поэтому обычно выравнивание текстов производится автоматически или полуавтоматически.
Для автоматического выравнивания существуют разные алгоритмы. В основе одного из них лежит простое предположении о том, что длинные

фрагменты текста переводятся длинными фрагментами, а короткие — ко- роткими. Длина фрагментов измеряется в словах или в символах. Этот способ часто применяют для выравнивания абзацев, после которого про- изводится выравнивания предложений внутри абзацев. Хотя при этом иг- норируется вся лексическая информация, этот подход дает довольно хо- рошие результаты. Другие методы выравнивания предполагают использо- вание небольших двуязычных словарей. Если слово встречается и в ис- ходном предложении, и в переводе, это становится дополнительным дово- дом в пользу установления связи между этими предложениями. Еще од- ним доводом может стать совпадение чисел и дат.


Большинство моделей статистического перевода используют вырав- нивание по словам. Рассмотрим несколько подробнее этот вид выравнива- ния.

ния:
Допустим, у нас есть следующее предложение на русском языке: y = Я всё это видел
Предположительно, оно является переводом с английского предложе- х = I have seen it all

Выравнивание этих предложений по словам можно изобразить сле- дующим образом:
(15)

Эта схема записывается с помощью последовательности a1, a2 … am, число элементов которой равно числу слов в исходном предложении х. В нашем случае это английское предложение, в нем пять слов. Значит, у нас получится массив выравнивания из пяти элементов, по одному для каждо- го английского слова. Значение соответствующего элемента равно номеру русского слова, с которым связано соответствующее английское слово. В нашем случае массив получается такой:


а1, а2, а3, а4, а5 = <1, 4, 4, 3, 2> (16)

В этом массиве может встретиться ноль, который возникает в тех случаях, когда какое-нибудь слово в исходном предложении не имеет ана- лога в переводе. Например, это относится к английским вспомогательным глаголам.


Большой набор бесплатных параллельных корпусов доступен в проекте OPUS [Tiedemann and Nygaard 2004].
Самый известный алгоритм для выравнивания текстов по предложе- ниям называется Hunalign. Он объединяет 2 подхода: использование дли- ны предложений и выравнивание со словарём [Varga et al., 2005]. На его основе действует удобная утилита LF Aligner.
Для пословного выравнивания параллельного корпуса чаще всего исполь- зуется программа GIZA++. Она основана на моделях IBM, о которых мы поговорим в следующем разделе.





      1. Достарыңызбен бөлісу:
1   ...   118   119   120   121   122   123   124   125   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет