11 Часть I. Компоненты 14 Глава Компьютерная



бет120/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   116   117   118   119   120   121   122   123   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Методы дисконтирования

Но как быть, если в тексте появляется сочетание, не встречавшееся в обучающем корпусе? Здесь поможет метод дисконтирования. Он предпо- лагает, что мы заранее резервируем некоторую вероятность для не встре- тившихся в корпусе сочетаний. Для этого необходимо отнять такую же

точно вероятность от тех сочетаний, которые наблюдаются в корпусе. Как это делать?


Рассмотрим это на примере биграмм, а с триграммами дела обстоят точно так же. От числа появлений каждой биграммы надо отнять неболь- шое число β, так и накопится «запасная» вероятность, которую можно бу- дет поделить между не встретившимися биграммами.
Пусть β = 0,5, а часто именно так и бывает. Допустим, в нашем экспе- риментальном корпусе сочетание купи еду встретилось 15 раз, тогда с(купи еду) = 15. Но мы посчитаем это как 15 – β, то есть, с*(купи еду) = 14,5. Точно так же, на 0,5, уменьшим показатели для всех других биграмм, на- чинающихся со слова купи. Результат можно записать в виде таблицы:




Достарыңызбен бөлісу:
1   ...   116   117   118   119   120   121   122   123   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет