1, a2 … am>.
Если исходное английское предложение I have seen it all состоит из пяти слов, то m = 5. Его возможный перевод на русский язык — Я всё это видел. Выравнивание этих предложений задается массивом а1, а2, а3, а4, а5
= <1, 4, 4, 3, 2>.
Подставим эти значения в нашу формулу. Нас интересует следующая условная вероятность:
р(I have seen it all, 1 4 4 3 2 | Я всё это видел, 5) (18) Но как научиться считать эту вероятность? Один из способов предла-
гает модель IBM˗2. Она упрощает формулу условной вероятности сле- дующим образом:
р(х1 х2 … хm, a1 a2 … am | y1 y2 … yk, m) =
= ∏
m i=1
q(ai | i, k, m) × t (хi| yai) (19)
Рассмотрим подробнее последовательность упрощений в (19), по- скольку подобные приемы используются во многих статистических моде- лях языка.
Первое упрощение связано со свойствами условной и совместной ве- роятности. Это свойство можно записать следующим образом:
p(A B| условия) = p(B| условия) × p(A| B, условия) (20) Перепишем по этой схеме формулу (17):
р(х1 х2 … хm, a1 a2 … am | y1 y2 … yk, m) =
= р( a1 … am | y1 … yk, m) × р(х1 … хm| a1 … am, y1 … yk, m) (21)
Теперь рассмотрим каждую из двух составляющих в этой формуле отдельно. Начнем с первого множителя:
р( a1 … am | y1 … yk, m) = р( a1 | y1 … yk, m) ×
× р( a2 | a1, y1 … yk, m) ×
× р( a3 | a1 a2, y1 … yk, m) × … ×
× р( am | a1 … am−1, y1 … yk, m)
= ∏
m i=1
p(ai |a1 … ai−1, y1 … yk, m) (22)
Так раскладывается на множители первый элемент в формуле (21).
Осталось только придумать, как вычислять для всех
i элементы р(a
i | a … a
i-1, у
1… у
k, m). Модель IBM-2 и здесь сильно упрощает ситуацию. Она предлагает рассматривать их как параметры системы и считать по форму- ле q(a
i | i
, k, m):
∏
m i=1
p(ai |a1 … ai−1, y1 … yk, m) ≈ ∏m
q(ai |i, k, m) (23)
i=1
Вспомним, что означают элементы параметра q(a
i | i
, k, m). В правой его части записаны условия: длина исходного предложения
m, длина ко- нечного предложения
k, а также номер слова
i в исходном предложении. При этих условиях мы вычисляем значение переменной
ai, которая соот- ветствует номеру того слова в переводе, которое
связано со словом номер i в исходном предложении.
Другими словами, модель IBM-2 учитывает вероятность того, что слово номер
i в исходном предложении связано со словом номер
ai в пере- воде, а длины предложений при этом равны, соответственно,
m и
k. Состав предложений при этом значение не имеет.
Теперь рассмотрим вторую составляющую в формуле (21):
р
(х
1 … х
m| a
1 … a
m, y
1 … y
k, m).
Ее тоже можно переписать:
р
(х
1 … х
m| a
1 … a
m, y
1 … y
k, m) = р
(х
1 | a
1 … a
m, y
1 … y
k, m) ×
× р
( х
2 | х
1, a
1 … a
m, y
1 … y
k, m) × … ×
× р
( х
m | х
1 … х
m−1, a
1 … a
m, y
1 … y
k, m)
= ∏
m i=1
p(хi |х1 … хi−1, a1 … am, y1 … yk, m) (24)
Получившееся произведение довольно сложное, и модель IBM-2 его тоже очень сильно упрощает. Она убирает из условий все значения а, все значения предыдущих х и все значения y кроме того, которое по выравни- ванию связано с xi. Остается такой параметр: t(хi | yai)
Таким образом, подставив оба параметра в систему, мы получаем следующую формулу:
р
(х
1 х
2 … х
m, a
1 a
2 … a
m | y
1 y
2 … y
k, m) =
= ∏
m i=1
q(ai | i, k, m) × t (хi| yai) (25)
Если мы хотим оценить вероятность того,
что английское предложе- ние I have seen it all — это перевод с русского оригинала
Я всё это видел с
упомянутым выше выравниванием <1 4 4 3 2>, то по формуле (25) нам надо посчитать следующее выражение:
р(I have seen it all, 1 4 4 3 2 | Я всё это видел, 5) = q (1| 1, 4, 5) × t (I | Я)
× q (4| 2, 4, 5) × t (have | видел)
×q (4| 3, 4, 5) × t (seen | видел)
×q (3| 4, 4, 5) × t (it | это)
×q (2| 5, 4, 5) × t (all | всё) (26) Осталось только узнать, чему эти параметры равны.
1>
Достарыңызбен бөлісу: