лю. Но, можно надеяться, что в корпусе встречались части этой триграм- мы — биграммы и униграммы. Поэтому оценку максимального правдопо- добия можно проводить на основе сразу трех этих элементов: триграмм, биграмм и униграмм, заимствуя от каждой из них часть вероятности.
ML с()
Здесь q
ML (c | b) — это вероятность появления слова с после слова b, а q
ML (c) — это вероятность появления слова
с без учета контекста. В по- следней второй формуле с(с) обозначает число проявлений в корпусе уни- граммы (то есть, слова)
с, а с() обозначает общее число слов в корпусе.
Оценка максимального правдоподобия на основе униграмм хороша тем, что она будет больше нуля для всех слов, которые хотя бы раз встре- тились в корпусе. Но она не учитывает контекст — она просто показывает вероятность появления того или другого слова самого по себе, в отрыве от других слов. Контекст учитывается при использовании триграмм.
Чтобы использовать достоинства одновременно триграмм и уни- грамм, а также находящихся между ними биграмм, можно взять понемно- гу от каждой из этих моделей. Это можно сделать, задав три переменных λ
1, λ
2 и λ
3, таких, что λ
1 + λ
2 + λ
3 = 1.
Тогда оценка максимального правдоподобия с учетом линейной ин- терполяции будет выглядеть так:
q (c |a, b) = λ
1 * q
ML (c |a, b) + λ
2 * q
ML (c | b) + λ
3 * q
ML (c) (14)
Остается только придумать, как правильно подобрать значения λ
1, λ
2 и λ
3. Можно просто задать их как 1/3, тогда все три модели будут одинако- вую роль в итоговом значении. Можно решить, что триграммы нам важ- нее, и сделать λ
1 большим. Есть также способы динамического вычисле- ния трех параметров отдельно для каждого сочетания — в зависимости от числа биграмм, например.
Достарыңызбен бөлісу: