11 Часть I. Компоненты 14 Глава Компьютерная



бет119/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   115   116   117   118   119   120   121   122   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Линейная интерполяция

Линейная интерполяция (linear interpolation) — это простой метод сглаживания, использующий помимо триграмм также биграммы (bigram) и униграммы (unigram), то есть, цепочки из двух слов и отдельные слова. Если триграмма в тренировочном корпусе не встретилась, то оценка максимального правдоподобия на основе этой триграммы будет равна ну-

лю. Но, можно надеяться, что в корпусе встречались части этой триграм- мы — биграммы и униграммы. Поэтому оценку максимального правдопо- добия можно проводить на основе сразу трех этих элементов: триграмм, биграмм и униграмм, заимствуя от каждой из них часть вероятности.


В предыдущем разделе мы определили оценку максимального прав- доподобия на основе триграмм с помощью формулы (11). Оценка макси- мального правдоподобия на основе биграмм и униграмм выглядит сле- дующим образом:

qML

q
(c | b) = с(b, c)


с(b)


(c) = с(c)
(13)

ML с()
Здесь qML (c | b) — это вероятность появления слова с после слова b, а qML (c) — это вероятность появления слова с без учета контекста. В по- следней второй формуле с(с) обозначает число проявлений в корпусе уни- граммы (то есть, слова) с, а с() обозначает общее число слов в корпусе.
Оценка максимального правдоподобия на основе униграмм хороша тем, что она будет больше нуля для всех слов, которые хотя бы раз встре- тились в корпусе. Но она не учитывает контекст — она просто показывает вероятность появления того или другого слова самого по себе, в отрыве от других слов. Контекст учитывается при использовании триграмм.
Чтобы использовать достоинства одновременно триграмм и уни- грамм, а также находящихся между ними биграмм, можно взять понемно- гу от каждой из этих моделей. Это можно сделать, задав три переменных λ1, λ2 и λ3, таких, что λ1 + λ2 + λ3 = 1.
Тогда оценка максимального правдоподобия с учетом линейной ин- терполяции будет выглядеть так:
q (c |a, b) = λ1 * qML (c |a, b) + λ2 * qML (c | b) + λ3 * qML (c) (14)
Остается только придумать, как правильно подобрать значения λ1, λ2 и λ3. Можно просто задать их как 1/3, тогда все три модели будут одинако- вую роль в итоговом значении. Можно решить, что триграммы нам важ- нее, и сделать λ1 большим. Есть также способы динамического вычисле- ния трех параметров отдельно для каждого сочетания — в зависимости от числа биграмм, например.





      1. Достарыңызбен бөлісу:
1   ...   115   116   117   118   119   120   121   122   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет