11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	18/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 14 15 16 17 18 19 20 21 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

v. Ничего страшного. В этом случае u и v можно заменить звездочками. Тогда параметр q(N|*, *) будет обозначать вероятность того, что тег N (су- ществительное) встречается в абсолютном начале предложения, а пара- метр q(N|*, А) будет соответствовать вероятности того, что тег N (сущест- вительное) идет в предложении вторым после тега А (прилагательное).
Концы предложений тоже необходимо учитывать, поэтому последним тегом можно считать слово STOP. Оно обозначает, что за ним тегов уже нет — предложение закончилось. Тогда для нашей системы необходимо также почитать параметры q(STOP|u, v) — вероятности того, что последо- вательность тегов u, v — последняя в предложении.
Конечно, полученные значения вероятностей будут приблизительные. Их можно улучшить с помощью методов сглаживания, о которых будет рассказано в седьмой главе этой книги.
После того, как на основе корпуса посчитаны значения всех парамет- ров, наша триграммная скрытая Марковская модель готова. С ее помощью можно оценивать вероятности соответствия предложения и цепочки тегов. Делать это можно по следующей формуле:

р(x₁, …x_n, y₁,…y_n+1) = ^∏𝑛+1𝑞(𝑦_i|𝑦_i−2, 𝑦_i−1) ^∏𝑛𝑠(𝑥_i|𝑦_i)

i=1 i=1

Слева — совместная вероятность последовательности словоформ и последовательности тегов. Справа — произведение двух множителей. Первый множитель — это произведение n + 1 параметра, вероятностей появления каждого тега у_i после двух предшествующих ему тегов. Тег y_n+1 соответствует слову STOP. Второй множитель — произведение парамет- ров, отвечающих за соответствие тех или иных словоформ различным те- гам.

Эта формула появилась не случайно, у нее есть объяснение и вывод, но мы не будем перегружать эту книгу обилием математических подроб- ностей. Любопытный читатель может прочитать об этой формуле в спе- циализированных учебниках. Кроме того, некоторые дополнительные по- яснения приводятся в статистической части седьмой главы данной книги, посвященной машинному переводу.
Рассмотрим на примере, как работает эта формула. Какова вероят- ность того, что предложению Пришел добрый пёс соответствует цепочка тегов VNN (глагол, существительное, существительное). Да, мы созна- тельно рассмотрим пример с ошибкой: VNN, а не VAN (глагол, прилага- тельное, существительное).
Рассчитаем эту вероятность по формуле, не забыв поставить послед- ним тегом слово STOP:
р(Пришел, добрый, пёс, V, N, N, STOP) = q(V |*, *) × q(N |*, V) × q(N
|V, N) × q(STOP |N, N) × s(Пришел|V) × s(добрый|N) × s(пёс|N)

Теперь нам остается посчитать эти вероятности для всех других по- следовательностей тегов (AVN, NVV, AAN и пр.), а затем выбрать наибо- лее вероятный вариант. Но если у нас 20 тегов, то для предложения из трех слов это будет 20³ = 800 вариантов. А для предложения из 10 слов — 20¹⁰ = 10240000000000 вариантов. Слишком много.

Тут на помощь приходит динамическое программирование, а точнее

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 14 15 16 17 18 19 20 21 ... 197