Допустим,
сочетание Доколе ты будешь встречается в корпусе 10 раз. А сочетание
Доколе ты — 15 раз. Тогда q (будешь | Доколе, ты) вычисля- ется так:
с (Доколе,ты,) 15 3
Если в корпусе после биграммы
кандидат филологических всегда
идет слово наук, то число биграмм
кандидат филологических должно сов- падать с числом триграмм
кандидат филологических наук, что сделает результат деления равным единицы. Но это правильно: если после слова
кандидат филологических всегда идет слово
наук, то вероятность появле- ния слова
наук должна равняться единице.
У этого подхода, несмотря на его естественность, есть два серьезных недостатка.
Во-первых, большинство потенциально возможных триграмм в корпусе не встретится, поэтому для подавляющего большинства теоре- тически возможных сочетаний условная вероятность окажется равной нулю. Во-вторых, если в корпусе не встретится какая-либо биграмма, зна- чение с(a, b)
для нее окажется нулевым, что даст ноль в знаменателе при оценке максимального правдоподобия.
Чтобы этих недостатков не было, необходимо найти такой способ оценки условной вероятности, который давал бы ненулевые значения даже в тех случаях, когда необходимые нам биграммы и триграммы в корпусе не встречаются. Это
делается с помощью различных методов сглажива- ния (
smoothed estimation methods), которые позволяют присваивать кро- шечные ненулевые вероятности для сочетаний, которые не встретились в корпусе.