11 Часть I. Компоненты 14 Глава Компьютерная


Статистический машинный перевод



бет114/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   110   111   112   113   114   115   116   117   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Статистический машинный перевод




    1. Главная формула перевода

В основе статистического перевода лежат разработки американского математика Клода Шеннона, которые он вел в совершенно другой области. Во время Второй мировой войны немцы научились расшифровывать те- лефонные переговоры между правительствами США и Великобритании. Тогда решено было разработать новую систему передачи голоса по теле- фону. Предполагалось сжимать речевой сигнал и маскировать его с помо- щью шума. Клод Шеннон придумал математический аппарат, который позволял дешифровать полученный на выходе звуковой поток и выделять из шума исходный сигнал.
Разработки Шеннона позже пригодились и для машинного перевода. Ведь можно представить, что имеющееся у нас исходное предложение мы получили в результате маскировки сигнала с помощью шума. А его пере- вод — это на самом деле исходное переданное нам предложение, которое нужно декодировать.
Если у нас есть предложение х в исходном языке, то задача машинно- го сводится к поиску в конечном языке такого предложения у, которое с наибольшей вероятностью является переводом предложения х. Иными словами, нас интересует условная вероятность — вероятность предложе- ния у при наличии предложения х. Она записывается как p(у|x).
Например, мы перeводим английское предложение The dog is hungry. Теоретически, его переводом может оказаться любое русское предложение у:
y1 = Собака сидит на крыше
y2 = Собака голодная
y3 = Собака голодный
y4 = Собака есть голодная
y5 = Голодная голодная собака

У каждого из этих предложений есть своя вероятность быть перево- дом предложения х. Можно записать эти вероятности как p(у1|x), p(у2|x), p(у3|x) и т. д.
Из всех этих предложений yn компьютер должен выбрать самое веро- ятное, при условии, что у нас есть предложение х. Или, если записать это с помощью формул, мы ищем вот что:
arg maxу p(у|х) (1)

Но эту формулу можно переписать с помощью теоремы Байеса, о ко- торой говорилось в пятой главе, посвященной методам машинного обуче- ния.



arg max p(у|х) = arg max p(y)×p(𝑥|y)

(2)


у у p(x)
Получившуюся формулу можно упростить. Значение в знаменателе р(х) — это вероятность появления исходного предложения х. Она является постоянной величиной и не влияет на поиск такого у, при котором вероят- ностная формула принимает максимальное значение. Поэтому знамена- тель р(х) можно убрать:
arg max p(y|x) = arg max p(y) × p(x|y) (3)
у у
Иными словами, нам необходимо найти, при каком у получается мак- симальное произведение двух величин. Первая из них — это вероятность p(у), вероятность появления предложения у в языке. Понятно, что такая вероятность будет выше у предложения Собака голодная, чем у предложе- ния Собака голодный. Эта вероятность вычисляется с помощью модели языка, которой будет посвящен следующий раздел.
Множитель p(x|у) в формуле (3) — это «обратный перевод», вероят- ность того, что конечное предложение у можно перевести с помощью ис- ходного предложения х. Она вычисляется с помощью модели перевода, о которой мы тоже поговорим в этой главе. В нашем примере это вероят- ность того, что предложение Собака голодный можно перевести на анг- лийский как The dog is hungry.
Но тут может возникнуть вопрос. Неужели формула Байеса упрощает ситуацию? Ведь фактически, нам надо считать то же самое, вероятность перевода с одного языка на другой, но только в другую сторону. Но здесь нужно вспомнить, что теоретически в качестве кандидата у нас может появиться абсолютно любое предложение, составленное из слов конечно- го языка. Кто знает, что нам предложит машина! Параметр p(у) позволяет нам оценить, насколько естественно звучит получившееся предложение.


    1. Модель языка и цепи Маркова

Модель языка определяет вероятности появления того или иного предложения. Ведь в русском языке можно сказать не только Собака виля- ет хвостом, но и Хвост виляет собакой, а также Хвосты виляет хвосты или, допустим, Хвост хвост хвост. Никто из нас не может гарантировать, что ему никогда в жизни не встретится предложение Хвост хвост хвост.
Но вероятность появления этих предложений в языке разная. Очевид- но, что Собака виляет хвостом это более вероятное фраза, чем Собака



виляет шлейфом. А откуда мы это знаем? Мы просто помним, как часто нам попадались в жизни эти предложения или их части. Вряд ли кому-то до прочтения этой книги попадалось предложение Собака виляет шлей- фом.
Компьютер тоже может запомнить, насколько вероятно появление то- го или иного предложения в языке. Для этого ему надо «набраться языко- вого опыта» — посмотреть, какие предложения и словосочетания встре- чаются в языке. Чем больше текстов он «посмотрит», тем лучше сможет предсказать вероятность появления какого-либо предложения. Причем, в идеале эта вероятность никогда не должна равняться нулю. Разве можно быть уверенным, что какое-то предложение никогда и нигде не встретит- ся?


Достарыңызбен бөлісу:
1   ...   110   111   112   113   114   115   116   117   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет