11 Часть I. Компоненты 14 Глава Компьютерная



бет123/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   119   120   121   122   123   124   125   126   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Модели перевода, основанные на словах

Первые попытки построить модель перевода были связаны с анали- зом отдельных слов, поэтому их общепринятое название — модели пере- вода, основанные на словах (word-based translation models). В этой об- ласти классическими стали подходы, разработанные в компании IBM, ко- торые так и называются: модель IBM-1, модель IBM-2, и так далее до мо- дели IBM-5. О них подробно рассказывается, например в курсе Михаэля Коллинза на Coursera и в учебнике [Koehn 2010].
Рассмотрим, как устроены эти модели. Напомню, что мы ищем зна- чение p(x|y). Это «обратная вероятность», то есть вероятность того, что предложение х является исходным по отношению к конечному предложе- нию у.
В предыдущем разделе мы анализировали английское предложение I have seen it all и его возможный перевод на русский язык Я всё это видел. Значит, мы пытаемся оценить условную вероятность p (I have seen it all | Я всё это видел).
Попробуем записать формулу вероятности несколько подробнее. До- пустим, конечное предложение у состоит из k слов: у1, у2 … уk, а исходное предложение х, вероятность которого мы ищем, состоит из m слов: х1, х2 хm. Тогда нас интересует значение вероятности р(х1, х2 … хm1, у2 … уk).
Но посчитать такую вероятность напрямую очень сложно. Многие модели упрощают эту формулу необычным способом — в нее добавляют дополнительные параметры. Это длина исходного предложения m и вы- равнивание по словам а1, а2 … аm. Длина исходного предложения m счита- ется известной, потому что мы оцениваем вероятность для конкретного предложения х1, х2 … хm.
Тогда формула искомой вероятности будет выглядеть так:

р(х1 х2 … хm, a1 a2 … am1 у2 … уk, m) (17)


Опишем словами, что обозначает формула (17). Это условная вероят- ность. У нас есть предложение-перевод, которое состоит из последова- тельности слов 1, у2 … уk>, известна также длина исходного предложе- ния — m слов. Это условия для вычисления условной вероятности того, что исходное предложение состоит из последовательности m слов: 1, х2
хm>, и что его выравнивание по словам с предложением х описывается последовательностью 1, a2 … am>.
Если исходное английское предложение I have seen it all состоит из пяти слов, то m = 5. Его возможный перевод на русский язык — Я всё это видел. Выравнивание этих предложений задается массивом а1, а2, а3, а4, а5
= <1, 4, 4, 3, 2>.
Подставим эти значения в нашу формулу. Нас интересует следующая условная вероятность:
р(I have seen it all, 1 4 4 3 2 | Я всё это видел, 5) (18) Но как научиться считать эту вероятность? Один из способов предла-
гает модель IBM˗2. Она упрощает формулу условной вероятности сле- дующим образом:
р(х1 х2 … хm, a1 a2 … am | y1 y2 … yk, m) =


=
m i=1
q(ai | i, k, m) × t (хi| yai) (19)

Рассмотрим подробнее последовательность упрощений в (19), по- скольку подобные приемы используются во многих статистических моде- лях языка.
Первое упрощение связано со свойствами условной и совместной ве- роятности. Это свойство можно записать следующим образом:
p(A B| условия) = p(B| условия) × p(A| B, условия) (20) Перепишем по этой схеме формулу (17):
р(х1 х2 … хm, a1 a2 … am | y1 y2 … yk, m) =
= р( a1 … am | y1 … yk, m) × р(х1 … хm| a1 … am, y1 … yk, m) (21)
Теперь рассмотрим каждую из двух составляющих в этой формуле отдельно. Начнем с первого множителя:
р( a1 … am | y1 … yk, m) = р( a1 | y1 … yk, m) ×
× р( a2 | a1, y1 … yk, m) ×
× р( a3 | a1 a2, y1 … yk, m) × … ×
× р( am | a1 … am−1, y1 … yk, m)





=
m i=1
p(ai |a1 … ai−1, y1 … yk, m) (22)

Так раскладывается на множители первый элемент в формуле (21). Осталось только придумать, как вычислять для всех i элементы р(ai | a … ai-1, у1… уk, m). Модель IBM-2 и здесь сильно упрощает ситуацию. Она предлагает рассматривать их как параметры системы и считать по форму- ле q(ai | i, k, m):



m i=1
p(ai |a1 … ai−1, y1 … yk, m) ≈ ∏m
q(ai |i, k, m) (23)


i=1
Вспомним, что означают элементы параметра q(ai | i, k, m). В правой его части записаны условия: длина исходного предложения m, длина ко- нечного предложения k, а также номер слова i в исходном предложении. При этих условиях мы вычисляем значение переменной ai, которая соот- ветствует номеру того слова в переводе, которое связано со словом номер i в исходном предложении.
Другими словами, модель IBM-2 учитывает вероятность того, что слово номер i в исходном предложении связано со словом номер ai в пере- воде, а длины предложений при этом равны, соответственно, m и k. Состав предложений при этом значение не имеет.
Теперь рассмотрим вторую составляющую в формуле (21):
р(х1 … хm| a1 … am, y1 … yk, m).
Ее тоже можно переписать:
р(х1 … хm| a1 … am, y1 … yk, m) = р(х1 | a1 … am, y1 … yk, m) ×
× р( х2 | х1, a1 … am, y1 … yk, m) × … ×
× р( хm | х1 … хm−1, a1 … am, y1 … yk, m)


=
m i=1
p(хi1 … хi−1, a1 … am, y1 … yk, m) (24)

Получившееся произведение довольно сложное, и модель IBM-2 его тоже очень сильно упрощает. Она убирает из условий все значения а, все значения предыдущих х и все значения y кроме того, которое по выравни- ванию связано с xi. Остается такой параметр: t(хi | yai)


Таким образом, подставив оба параметра в систему, мы получаем следующую формулу:
р(х1 х2 … хm, a1 a2 … am | y1 y2 … yk, m) =


=
m i=1
q(ai | i, k, m) × t (хi| yai) (25)

Если мы хотим оценить вероятность того, что английское предложе- ние I have seen it all это перевод с русского оригинала Я всё это видел с

упомянутым выше выравниванием <1 4 4 3 2>, то по формуле (25) нам надо посчитать следующее выражение:


р(I have seen it all, 1 4 4 3 2 | Я всё это видел, 5) = q (1| 1, 4, 5) × t (I | Я)
× q (4| 2, 4, 5) × t (have | видел)
×q (4| 3, 4, 5) × t (seen | видел)
×q (3| 4, 4, 5) × t (it | это)
×q (2| 5, 4, 5) × t (all | всё) (26) Осталось только узнать, чему эти параметры равны.



      1. Достарыңызбен бөлісу:
1   ...   119   120   121   122   123   124   125   126   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет