11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	119/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 115 116 117 118 119 120 121 122 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Линейная интерполяция

Линейная интерполяция (linear interpolation) — это простой метод сглаживания, использующий помимо триграмм также биграммы (bigram) и униграммы (unigram), то есть, цепочки из двух слов и отдельные слова. Если триграмма в тренировочном корпусе не встретилась, то оценка максимального правдоподобия на основе этой триграммы будет равна ну-

лю. Но, можно надеяться, что в корпусе встречались части этой триграм- мы — биграммы и униграммы. Поэтому оценку максимального правдопо- добия можно проводить на основе сразу трех этих элементов: триграмм, биграмм и униграмм, заимствуя от каждой из них часть вероятности.

В предыдущем разделе мы определили оценку максимального прав- доподобия на основе триграмм с помощью формулы (11). Оценка макси- мального правдоподобия на основе биграмм и униграмм выглядит сле- дующим образом:

^qML

q
_(c_|_b)₌с(b, c)

с(b)

_(c)₌с(c)
(13)

^MLс()
Здесь q_ML (c | b) — это вероятность появления слова с после слова b, а q_ML (c) — это вероятность появления слова с без учета контекста. В по- следней второй формуле с(с) обозначает число проявлений в корпусе уни- граммы (то есть, слова) с, а с() обозначает общее число слов в корпусе.
Оценка максимального правдоподобия на основе униграмм хороша тем, что она будет больше нуля для всех слов, которые хотя бы раз встре- тились в корпусе. Но она не учитывает контекст — она просто показывает вероятность появления того или другого слова самого по себе, в отрыве от других слов. Контекст учитывается при использовании триграмм.
Чтобы использовать достоинства одновременно триграмм и уни- грамм, а также находящихся между ними биграмм, можно взять понемно- гу от каждой из этих моделей. Это можно сделать, задав три переменных λ₁, λ₂ и λ_3, таких, что λ₁ + λ₂ + λ₃ = 1.
Тогда оценка максимального правдоподобия с учетом линейной ин- терполяции будет выглядеть так:
q (c |a, b) = λ₁ * q_ML (c |a, b) + λ₂ * q_ML (c | b) + λ₃ * q_ML (c) (14)
Остается только придумать, как правильно подобрать значения λ₁, λ₂ и λ₃. Можно просто задать их как 1/3, тогда все три модели будут одинако- вую роль в итоговом значении. Можно решить, что триграммы нам важ- нее, и сделать λ₁ большим. Есть также способы динамического вычисле- ния трех параметров отдельно для каждого сочетания — в зависимости от числа биграмм, например.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 115 116 117 118 119 120 121 122 ... 197