слово
|
варианты произношения
|
В1
|
В2
|
В3
|
В4
|
В5
|
сейчас
|
сий"час
|
си"час
|
"щас
|
|
|
только
|
"толька
|
"тока
|
"ток
|
"тык
|
|
тебя
|
ти"бя
|
ти"a
|
"тя
|
|
|
будешь
|
"будиш
|
"буиш
|
"буш
|
|
|
что
|
"что
|
"што
|
"чё
|
"шо
|
|
тысяча
|
"тысича
|
"тыща
|
"тыщ
|
|
|
вообще
|
ва"пще
|
ва"ще
|
а"ще
|
а"пще
|
а"щще
|
Модель языка (Language Model) предназначена для описания се- мантических и синтаксических ограничений, которым в данном языке подчиняется построение предложений. Такие ограничения могут описы- ваться разными грамматическими моделями. В большинстве систем авто- матического распознавания речи используются статистические Марков- ские грамматики, называемые n-граммными, которые задают вероятность встречаемости для разных последовательностей слов языка (см. выше). Биграммная модель задает вероятности появления в речи для всех пар
слов из произносительного словаря, триграммная — для всех троек слов и т. д. С учетом этих вероятностей в процессе распознавания речи осуще- ствляется оценка правдоподобия всех возможных вариантов для анализи- руемого фрагмента речи и делается выбор в пользу наиболее ожидаемого варианта. О модели языка подробно рассказывается в главе 7, посвящен- ной машинному переводу.
Все три модели формируются на этапе обучения системы. Для этого используются большие массивы звучащей речи, полученной от многих дикторов — фонетические базы данных, которые размечены на трифоны, аллофоны и слова и снабжены фонетической транскрипцией, выполнен- ной вручную.
Основная задача модуля параметрической обработки речевого сигнала состоит в преобразовании входящего речевого сигнала в после- довательность временных срезов, каждый из которых содержит информа- цию о спектре сигнала на небольшом временном интервале (длительно- стью 10–30 мс). Они также называются «спектральными векторами» или
«векторами акустических признаков». Вычисление признаков сигнала не- обходимо как на этапе обучения системы, так и в процессе собственно распознавания.
Наконец, декодер представляет собой основной блок системы рас- познавания, который сопоставляет выделенные на базе входного сигнала акустические признаки (векторы) с информацией, заложенной в произно- сительном словаре, языковой и акустико-фонетической моделях, и по ре- зультатам этого сравнения вычисляет наиболее вероятную последователь- ность слов (англ. most likely sentence), которая является результатом рабо- ты системы.
Достарыңызбен бөлісу: |