11 Часть I. Компоненты 14 Глава Компьютерная



бет73/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   69   70   71   72   73   74   75   76   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

4. Новые горизонты


В работах последних лет стали выдвигаться новые требования к сис- темам распознавания и синтеза речи. Так, для того, чтобы коммуникация между человеком и машиной была более успешной, предлагается допол- нительно включать уточняющие вопросы и подтверждения, чтобы убе- диться, что обе стороны правильно понимают друг друга. Для многих го- лосовых интерфейсов выдвигается требование голосовой активации: при- ложение переходит на «речевое общение» с человеком в ответ на опреде- ленную голосовую команду. Для этого необходим постоянный фоновый мониторинг речи пользователя, чтобы система не пропустила активацион- ный запрос.
Чтобы снизить монотонность синтезированной речи и приблизить ее к естественной, некоторые разработчики включают в порождаемый сигнал

естественно звучащие паралингвистические явления — например, встав- ляют покашливание и разнообразные «хезитативные заполнители» («э-э»,


«м-м» и т. п.). А чтобы свойственные искусственной речи артефакты были не так заметны, звук воспроизводят на фоне приятного музыкального со- провождения.
Изменяются и технологические требования к обучающим массивам речевых данных — речевым корпусам. Если лет 10 назад достаточно круп- ным ресурсом считался звуковой корпус, содержащий десять и более часов звучащей речи, то в наши дни все чаще используются намного более пред- ставительные корпуса. Так, например, корпус RuSpeech содержит 50 часов наговоренной речи в произнесении 220 дикторов, а речевые технологии компании Яндекс отрабатываются уже на корпусе объемом в 500 часов размеченной речи. Новым подходом является и переход от начитанной дикторами речи к звукозаписям естественной речевой коммуникации. Он применяется, например, разработчиками корпуса «Один речевой день», который создается в Санкт-Петербургском государственном университете [Bogdanova-Beglarian et al. 2015].
Активное развитие робототехники, телекоммуникационных и интер- нет-технологий должно стать дополнительным стимулом для развития речевых технологий в ближайшие годы. Появившиеся в самое последнее время «облачные» технологии обработки данных открывают поистине революционные возможности для встраивания модулей синтеза и распо- знавания речи фактически в любые мобильные приложения. Такие услуги уже предлагают на коммерческом рынке лидеры отрасли.
И, конечно, параллельно с улучшением качества технологий синтеза и распознавания речи идет работа по совершенствованию способности вычислительной машины как собеседника правильно понимать человече- скую речь — определять основную тему речевого сообщения, его ключе- вые элементы, а в некоторых приложениях — даже эмоциональное или физическое состояние говорящего.
Мы рассказали о наиболее традиционных представлениях и методах современных речевых технологий. Какие конкретно подходы используют- ся каждым из разработчиков, можно узнать на их интернет-сайтах. В он- лайн режиме можно также оценить и качество предлагаемых решений (см. ниже краткий перечень основных разработчиков).




Достарыңызбен бөлісу:
1   ...   69   70   71   72   73   74   75   76   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет