11 Часть I. Компоненты 14 Глава Компьютерная



бет58/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   54   55   56   57   58   59   60   61   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Компилятивный синтез речи

Синтез речи, при котором склеиваются предварительно подготовлен- ные цифровые звукозаписи (как, например, при объявлении станций мет- рополитена), называется компилятивным (компиляционным) синте- зом, или синтезом на основе конкатенации. Для него необходим заранее созданный корпус звукозаписей, содержащий все элементы, необходимые для синтезируемых фраз.
Единицами словаря речевой базы данных могут выступать элементы разного уровня — целые фразы, словосочетания, отдельные слова, слоги, звуки и даже фрагменты звуков. Как правило, чем более крупные фраг- менты используются для склейки, тем естественней звучит «смонтиро- ванный» результат. Поэтому именно этот подход используется при синтезе высказываний по шаблонам с ограниченным набором переменных в пред- метно-ориентированных системах. Например, так формируются информа- ционные сообщения в аэропортах и на вокзалах (Пригородный поезд до станции Любань подан к пятой платформе. Время отправления: четыр- надцать часов, двадцать минут), в электронной очереди (Клиент с номе- ром сто восемьдесят три подойдите ко второму окну), в службе «точно- го времени» (Точное время — десять часов девять минут пятнадцать секунд) и т. п.
Однако для синтезатора, предназначенного для озвучивания произ- вольного текста, отдельное слово или же сочетание слов уже не могут служить основными элементами компиляции. Это связано с тем, что не- возможно подготовить речевую базу для неограниченного словаря. Кроме того, начитанные в изолированном произнесении слова будут звучать не- естественно при их склейке в единую фразу, так как в связной речи суще- ствуют законы оформления интонации, модифицирующие слова в зависи- мости от их позиции во фразе.
Поэтому для систем синтеза произвольного текста используются бо- лее мелкие единицы: слоги, звуки (аллофоны), а чаще всего — дифоны. Дифон — это речевой фрагмент, начинающийся в середине одного звука и заканчивающийся в середине звука, следующего за ним. Таким образом, в центре дифона находится переходный участок от одного аллофона ко вто- рому. При дифонном синтезе без искажений передаются переходные (ко- артикуляционные) сегменты звуков. Однако в местах дифонных соедине- ний, которые в данной технологии приходятся на центральные части

склеиваемых аллофонов, неизбежно возникают перепады формантных частот, которые вносят помехи в синтезируемый сигнал.


Для придания склеиваемой последовательности дифонов большей
«естественности», осуществляется выборочная интонационная и темпо- ральная модификация сегментов порождаемого высказывания согласно просодическим моделям, принятым в языке (в частности, особым образом выделяется фразовый акцент, концы фраз оформляются с «понижающей» интонацией, при реализации вопроса добавляется «вопросительная» ин- тонация и т. п.).
В конкатенативных синтезаторах речи последнего поколения исполь- зуется так называемый селективный метод, или технология «выбора образца» (от англ. unit selection). Эта методика основана на выборе опти- мальных (наиболее похожих по условиям реализации) единиц из речевой базы данных, являющейся источником элементов синтеза. Звуковой мате- риал в таком корпусе сегментируется и описывается на многих уровнях — звуковом, дифонном, слоговом, морфемном, словесном, синтагматиче- ском, фразовом. В процессе синтеза происходит поиск единиц разного уровня, наиболее близких к целевым как по составу, так и по позиции, а также их «готовых» сочетаний, вплоть до целых фраз. Важным критерием для отбора единиц и их последовательностей при данном подходе являет- ся сведение к минимуму потребности в дальнейшей модификации синте- зируемого сообщения. Практика показывает, что при использовании больших (до нескольких десятков часов звучания) и правильно составлен- ных речевых баз данных (в идеале — содержащих как частотные фразы, так и их наиболее частотные элементы в типовых позициях), подобные системы могут показывать достаточно высокое качество генерируемой речи.
В «ассортименте» разработчиков обычно представлен ограниченный набор голосов нескольких дикторов. Каждому набору дается уникальное
«человеческое» имя — Алена, Ольга, Владимир, Николай и т. п. Сущест- венное ограничение конкатенативного метода синтеза состоит в привязке синтезированного голоса к тембру диктора и стилю его индивидуального произношения. Поэтому синтезированная на их основе речь, как правило, звучит однообразно и не всегда правильно с интонационной точки зрения. Но поскольку компилятивный синтез в настоящее время показывает более высокий уровень естественности речи по сравнению с другими методами, многие разработчики придерживаются именно этого подхода.





      1. Достарыңызбен бөлісу:
1   ...   54   55   56   57   58   59   60   61   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет