Но эту формулу можно переписать с помощью теоремы Байеса, о ко- торой говорилось в пятой главе, посвященной методам машинного обуче- ния.
у у p(x)
Получившуюся формулу можно упростить. Значение в знаменателе
р(
х) — это вероятность появления исходного предложения
х. Она является постоянной величиной и не влияет на поиск такого
у, при котором вероят- ностная формула принимает максимальное значение.
Поэтому знамена- тель р(
х) можно убрать:
arg max p(y|x) = arg max p(y) × p(x|y) (3)
у у
Иными словами, нам необходимо найти, при каком
у получается мак- симальное произведение двух величин. Первая из них — это вероятность
p(
у), вероятность появления предложения
у в языке. Понятно, что такая вероятность будет выше у предложения
Собака голодная, чем у предложе- ния
Собака голодный. Эта вероятность вычисляется с помощью
модели языка, которой будет посвящен следующий раздел.
Множитель
p(
x|у) в формуле (3) — это «обратный перевод», вероят- ность того, что конечное предложение
у можно перевести с помощью ис- ходного предложения
х. Она вычисляется с помощью
модели перевода, о которой мы тоже поговорим в этой главе. В нашем
примере это вероят- ность того, что предложение
Собака голодный можно перевести на анг- лийский как
The dog is hungry.
Но тут может возникнуть вопрос. Неужели формула Байеса упрощает ситуацию? Ведь фактически, нам надо считать то же самое, вероятность перевода с одного языка на другой, но только в другую сторону. Но
здесь нужно вспомнить, что теоретически в качестве кандидата у нас может появиться абсолютно любое предложение, составленное из слов конечно- го языка. Кто знает, что нам предложит машина! Параметр
p(
у) позволяет нам оценить, насколько естественно звучит получившееся предложение.
Модель языка и цепи Маркова
Модель языка определяет вероятности появления того или иного предложения. Ведь в русском языке можно сказать не только
Собака виля- ет хвостом, но и
Хвост виляет собакой, а также
Хвосты виляет хвосты или,
допустим,
Хвост хвост хвост. Никто из нас не может гарантировать, что ему никогда в жизни не встретится предложение
Хвост хвост хвост.
Но вероятность появления этих предложений в языке разная. Очевид- но, что
Собака виляет хвостом — это более вероятное фраза, чем
Собака