Рис. 6. «Видимая речь»: осциллограмма и спектрограмма для фразы «Речевые технологии»
Для учета акустической вариативности речевого сигнала используют- ся специальные методы нормализации частоты основного тона, методы спектрального вычитания и скрытые марковские модели, о которых будет сказано ниже.
На фонетическом уровне анализируются свойства речевого сигнала, учитываются принятые в языке закономерности построения речевых це- почек — от простейших (слоги, отдельные сочетания звуков) до словосо- четаний, синтагм и фраз. На фонематическом уровне появляются первые потенциально связанные со значением единицы — фонемы, которые по- зволяют осуществить переход от акустического сигнала к словам. Здесь, в частности, аккумулируется информация о параметрическом представле- нии речевого сигнала для разных фонем и их последовательностей, а так- же анализируются просодические характеристики.
На лексическом уровне осуществляется описание всех значащих по- следовательностей фонем, которые формируют слова, а на синтаксиче- ском — подключаются знания о грамматике языка, связывающей отдель- ные слова в осмысленные высказывания.
Для решения отдельных задач распознавания (например, идентифи- кации изолированных слов и команд) можно ограничиться лингвистиче- скими методами. Так, для небольшого словаря можно смоделировать на- бор акустических шаблонов, с которыми система должна сравнивать входной сигнал и выдавать в качестве результата наиболее похожее слово или фразу. Упрощенный вариант такого подхода для слов «да» и «нет» был продемонстрирован в самом начале этого раздела.
Однако при расширении объема словаря перевод спектральной ин- формации в последовательность звуков (слов) становится весьма слож-
ным. Сузить круг поиска верного варианта идентификации позволяют статистические методы, учитывающие вероятность появления того или иного элемента (звука, слова, словосочетания) в потоке речи.
Системы распознавания речи, действующие на основе статистики, се- годня считаются наиболее эффективными. Чаще всего в них используются скрытые Марковские модели (СММ или HMM от англ. Hidden Markov Models).
Скрытые Марковские модели
Этот метод носит имя выдающегося русского математика Андрея Ан- дреевича Маркова, который в 1913 г. выступил в Императорской Академии Наук с докладом, озаглавленным «Пример статистического исследования над текстом „Евгения Онегина“, иллюстрирующий связь испытаний в цепь». В своем исследовании А. А. Марков оценивал вероятность появле- ния в тексте знаменитого романа гласных (Г) и согласных (С) букв, а так- же их двух- и трехбуквенных сочетаний (ГГГ, ГСГ, СГС, СГГ и т. д.). Уче- ный предположил, что вероятность появления некоторой единицы (в рас- смотренном им примере — буквы, передающей гласный или согласный звук) зависит только от непосредственно предшествующей ей буквы. Позднее «марковскими моделями» стали называть класс вероятностных моделей, согласно которым можно предсказывать вероятность следующих элементов цепи, анализируя не всю цепочку, а только один или несколько последних ее элементов.
Последовательности слов в предложении или звуков в потоке речи тоже можно представить в виде вероятностных моделей. Если обучить систему распознавания вероятностям тех или иных сочетаний слов, это может существенно облегчить расчеты и повысить качество работы сис- темы.
Вероятностная модель, основанная на анализе только одного предше- ствующего элемента, называется биграммной моделью, двух– триграммной, n – 1 элементов — n-граммной [Jurafsky, Martin, 2008]. Воз- рождение интереса к n-граммным марковским моделям произошло в 1970- х годах благодаря исследованиям по распознаванию речи, которые прово- дились в IBM и в американском университете Карнеги-Меллон [Huang et. al., 2001].
Статистические методы наиболее эффективно работают при распо- знавании речи для аналитических языков (таких как английский, нидер- ландский, болгарский). К сожалению, для высокофлективных языков (на- пример, русского), в которых существует много форм одного и того же слова, статистические языковые модели уже не дают подобного результа- та. Поэтому разработчики применяют гибридные подходы, обогащающие
классическую статистическую модель набором грамматических правил, а также использующие информацию о части речи и форме слова.
Помимо скрытых марковских моделей, к распознаванию речи активно привлекаются и другие методы. В частности, это нейронные сети, Байе- совские сети (англ. Dynamic Bayesian Network, DBN) Bayesian Discrimination), временные динамические алгоритмы (Dynamic Time Warping, DTW) и другие подходы (подробнее см. [Benesty et. al., 2008]).
Как работает статистическая система распознавания речи?
Рассмотрим типовую структуру системы распознавания речи, исполь- зующую статистический подход. Такие системы обычно состоят из пяти базовых модулей: трех лингвистических (акустико-фонетическая модель, произносительный словарь, языковая модель), модуля параметрической обработки входного сигнала и собственно декодера (см. рис. 7).
Достарыңызбен бөлісу: |