Методы дисконтирования
Но как быть, если в тексте появляется сочетание, не встречавшееся в обучающем корпусе? Здесь поможет метод дисконтирования. Он предпо- лагает, что мы заранее резервируем некоторую вероятность для не встре- тившихся в корпусе сочетаний. Для этого необходимо отнять такую же
точно вероятность от тех сочетаний, которые наблюдаются в корпусе. Как это делать?
Рассмотрим это на примере биграмм, а с триграммами дела обстоят точно так же. От числа появлений каждой биграммы надо отнять неболь- шое число β, так и накопится «запасная» вероятность, которую можно бу- дет поделить между не встретившимися биграммами.
Пусть β = 0,5, а часто именно так и бывает. Допустим, в нашем экспе- риментальном корпусе сочетание купи еду встретилось 15 раз, тогда с(купи еду) = 15. Но мы посчитаем это как 15 – β, то есть, с*(купи еду) = 14,5. Точно так же, на 0,5, уменьшим показатели для всех других биграмм, на- чинающихся со слова купи. Результат можно записать в виде таблицы:
Достарыңызбен бөлісу: |