Автор: Татьяна Юрьевна Шерстинова, выпускница 1991 года. Работала старшим научным сотрудником лаборатории экспе- риментальной фонетики имени Л.В. Щербы СПбГУ. Преподает на кафедре русского языка филологического факультета СПбГУ
Навстречу эпохе говорящих машин
В последнее время, вольно или невольно, мы все чаще становимся пользователями устройств, использующих речевые модули. Роботы звонят нам по телефону, напоминая о назначенной встрече или о необходимости произвести платеж, отвечают нам, когда мы пытаемся дозвониться в ка- кую-нибудь крупную компанию или центр обслуживания. Компьютеры, мобильные приложения, профессиональные и бытовые приборы выпол- няют наши речевые команды, «голосом» сообщают нам нужные сведения. Другие устройства, например, автомобильные навигаторы, берут на себя руководство нашими действиями.
Конечно, это еще не полноценные для человека «собеседники», но качество речи и уровень «интеллекта» говорящих устройств с каждым годом все повышаются, расширяется область их применения. Компании- разработчики соревнуются друг с другом в том, чем бы еще удивить ис- кушенного пользователя. А так как именно речевая коммуникация являет- ся наиболее естественной и привычной для человека, полноценный голо- совой интерфейс становится востребованным атрибутом любого совре- менного компьютера или смартфона. Без преувеличения можно сказать, что синтез и распознавание речи относятся к наиболее активно развиваю- щимся технологиям начала XXI века, и мы праве ожидать от них новых свершений уже в самом обозримом будущем.
Приложения, в которых используются синтез и распознавание речи, чрезвычайно разнообразны. Это многочисленные компьютерные про- граммы, применяющие голосовой ввод и вывод информации, телекомму- никационные информационно-справочные системы и колл-центры, авто- матически обрабатывающие входящие звонки и предоставляющие по за- просу пользователя необходимые сведения, службы информирования на транспорте, в общественных местах, по телефону, разнообразные диало-
говые системы. Сюда же можно отнести фонетические тренажеры, ис- пользуемые для постановки произношения в обучении иностранному язы- ку, при исправлении дефектов речи или при восстановлении речевых на- выков, а также устройства, помогающие людям с ограниченными физиче- скими возможностями общаться не только с компьютером, но и с внешним миром. Отдельной проблемой является идентификация человека по голосу или подтверждение личности говорящего по звукозаписи его речи.
С технологической точки зрения распознавание и синтез речи пред- ставляют собой две независимые проблемы. Распознавание речи необхо- димо для перевода голосового сообщения в текст. Интерпретация этого текста позволяет компьютеру или другому электронному устройству «по- нять» то, что ему хочет сказать человек. Синтез речи решает обратную задачу. Его цель состоит в порождении речеподобного звукового сигнала по текстовой записи. Это необходимо для того, чтобы электронное уст- ройство смогло «отвечать голосом, читать вслух и говорить». В современ- ных приложениях распознавание и синтез речи обычно реализованы в виде двух независимых модулей. Синтез и распознавание речи имеют раз- ную историю, используют разные подходы, но в то же время обладают и рядом общих черт.
В речевых технологиях тесно переплелись методы и понятия не- скольких прикладных и научных дисциплин — общей и прикладной лин- гвистики, ее основных уровней (фонетики/фонологии, лексики, граммати- ки, семантики, прагматики), акустики, электротехники, логики, теории информации, теории вероятностей, математической и корпусной лингвис- тики и даже психологии. Эта область постоянно развивается, ежегодно предлагаются новые методы, запускаются новые проекты, а на коммерче- ском рынке появляются все новые устройства, функциональность которых еще совсем недавно могла быть отнесена лишь к области фантастики. Эффективность и результат взаимодействия человека и автоматизирован- ного устройства в каждом конкретном случае в большой степени зависят от качества заложенных в таких приложениях «речевых» модулей.
В этой главе мы кратко опишем основные методы, применяемые в со- временных речевых технологиях, и, не погружаясь в технические тонко- сти, постараемся дать общее представление о типах, устройстве и прин- ципах работы современных систем распознавания и синтеза речи.
Достарыңызбен бөлісу: |