Таблица 1. Сглаживание вероятности с помощью метода дисконтирования
х
|
с(х)
|
с*(х)
|
с∗(х)
с(ку𝑘и)
|
купи еду
|
15
|
14,5
|
14,5/35
|
купи хлеба
|
10
|
9,5
|
9,5/35
|
купи поесть
|
5
|
4,5
|
4,5/35
|
купи соли
|
3
|
2,5
|
2,5/35
|
купи картошку
|
1
|
0,5
|
0,5/35
|
купи STOP
|
1
|
0,5
|
0,5/35
|
[ИТОГО] купи
|
35
|
|
|
В последнем столбце табл. 1 указана вероятность появления различ- ных слов после купи с учетом дисконтирования. Какой объем вероятности у нас будет сэкономлен в результате этой операции? Нетрудно догадаться, что если каждый раз мы «откладывали» вероятность β, то сэкономить смогли β, умноженное на число различных видов биграмм. В нашем слу- чае это 6 (шесть основных строк в таблице), так что мы сэкономили веро- ятность 6 × β = 6 × 0,5 = 3.
Останется только поделить эту сэкономленную вероятность между всеми теоретически возможными биграммами, начинающимся со слова купи, которые не встретились в обучающем корпусе.
Модель перевода
Предложение можно перевести с одного языка на другой разными способами. В некоторых случаях перевод может быть очень странным. Так, английское предложение Masha ate sushi большинство переведет на русский как Маша ела суши. Но кто-то, возможно, переведет его как Маша
ела кашу. Перевел ведь Набоков «Алису в стране чудес» как «Аня в стране чудес». Теоретически нельзя отрицать, что кто-то переведет это предло- жение как Маша ел каша или же как Суши каша Маша. У каждого из этих вариантов перевода есть своя вероятность, хотя у всех вариантов в этом примере кроме первого она близка к нулю.
Достарыңызбен бөлісу: |