11 Часть I. Компоненты 14 Глава Компьютерная


Цепь Маркова второго порядка



бет117/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   113   114   115   116   117   118   119   120   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Цепь Маркова второго порядка чуть сложнее. При вычислении ус- ловной вероятности она учитывает не одно, а два предыдущих события. Впрочем, у первого события (слова) предыдущих событий нет, а у второго есть только одно, поэтому нормальный «второй порядок» начинается только с третьего события. Формально это выглядит вот так:
Р(x1, x2, x3 … xn) ≈ P(x1) · P(x2 | x1) · P (x3 | x1, x2) …· P (xn | xn-2, xn-1) (9)
Возможны также цепи Маркова более высоких порядков, а также цепи для изменяющихся событий, но в основе моделей компьютерной об- работки языка лежат обычно цепи первого и второго порядка.


    1. Оценка максимального правдоподобия

Многие алгоритмы компьютерной обработки языка основаны на це- пях Маркова второго порядка. Каждый множитель этой цепи состоит из трех идущих подряд элементов. В нашем случае это три идущих подряд слова. Сочетание из трех идущих подряд слов называют триграммой (trigram), а основанные на них модели — триграммными языковыми моделями (trigram language models).
Триграммная языковая модель включает в себя набор слов ν и набор параметров q (c |a, b), определенных для каждой возможной триграммы из ν, а также для сочетаний слов в начале и в конце предложения.
Параметр q (c |a, b) означает вероятность появления слова с при усло- вии появления предшествующих слов a и b. При этом надо не забывать, что сочетание в конце предложения заканчивается на слово STOP, и в этом случае переменная c соответствует слову STOP. Например, параметр для самого последнего элемента в предложении Вот дом, который построил Джек будет выглядеть так: q (STOP |построил, Джек). Он соответствует вероятности того, что сочетание построил Джек окажется в предложении конечным.
В начале предложения первому слову ничего не предшествует — у него нет предыдущих слов. Можно обозначить это, введя специальный символ, например, звездочку, и заменить им переменные a и b. Тогда па- раметр для слова Доколе в начале предложения, будет выглядеть вот так: q (Доколе |*, *). Он обозначает вероятность того, что слово Доколе является в предложении самым первым.
У второго слова есть только один предшественник — первое слово в предложении. Чтобы обозначить второго предшественника, опять вос- пользуемся звездочкой: q (ты |*, Доколе). Так записывается вероятность того, что если в начале предложения появилось слово Доколе, то сразу за ним последует слово ты.
Итак, триграммная модель языка включает в себя конечный набор слов ν и набор параметров q (c |a, b), определенных для каждой возможной триграммы из этого набора, а также для сочетаний в конце и в начале предложения. Каждый параметр q (c |a, b) соответствует вероятности по- явления слова с после биграммы ab. И тогда вероятность появления пред- ложения x1, x2, … xn вычисляется как произведение условных вероятно- стей для каждого слова этого предложения, включая конечный символ STOP. Это можно записать с помощью формулы:
Р(x1, x2, x3 … xn) =
= q(x1| *, *) · q(x2 | *, x1) · q (x3 | x1, x2) …· q (xn | xn-2, xn-1) (10)
Существует много разных путей для оценки параметров q (c |a, b). Наиболее естественный способ называется оценкой максимального




Достарыңызбен бөлісу:
1   ...   113   114   115   116   117   118   119   120   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет