Рис. 7. Архитектура системы распознавания речи с привлечением статистических методов
Акустико-фонетическая модель (англ. Phonetic Model) является центральным модулем любой системы распознавания, так как именно она хранит описание фонетических единиц языка (аллофонов или их фраг- ментов), т. е. шаблонов звуков, называемых акустическими моделями. В современных системах распознавания речи основной тип используемой фонетической модели соответствует трифону — контекстной реализации фонемы, которая учитывает непосредственный правый и левый контекст (например, ударный аллофон [o] после согласного [д] и перед сонантом [м]). Для построения трифонной базы привлекаются все возможные в языке сочетания звуков.
Помимо трифонов, в акустическую модель могут включаться и фоне- тические модели других речевых единиц — слогов, слов, словосочетаний, типовых фраз. Для построения этих моделей используются как собственно
акустические представления, так и вероятностные методы — чаще всего скрытые Марковские модели или нейронные сети. Фонетические модели строятся на этапе обучения распознающей системы. Для этого использу- ются акустико-фонетические базы данных, которые представляют собой большие массивы звучащей речи, записанной от многих дикторов.
Достарыңызбен бөлісу: |