11 Часть I. Компоненты 14 Глава Компьютерная

жүктеу/скачать 4,29 Mb.

бет	67/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 63 64 65 66 67 68 69 70 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Основные типы современных систем распознавания речи
Лингвистический и статистический подходы к распознаванию речи

Рис. 5. Осциллограмма и спектральная картина для разных вариантов произнесения одного слова «сейчас» — [s'ij"čas], [s'i"čas] и [š':as]

Кроме того, отдельные звуки каждого слова (аллофоны) тоже могут произноситься по-разному. Каждый человек обладает уникальным тем- бром голоса, поэтому спектральные характеристики звуков будут разли- чаться у разных говорящих. У одних людей высокие голоса, у других — низкие, одни говорят размеренно, другие — скороговоркой. В результате один и тот же аллофон, даже в сходном контексте, может быть произнесен с разной основной частотой, интенсивностью и длительностью. У одних говорящих речь связная, «гладкая», другие запинаются, перебивают себя, используют много «лишних» и, казалось бы, незначащих слов. Речь может сильно меняться и в зависимости от конкретной ситуации и эмоциональ- ного состояния говорящего. Наличие в речевом сигнале различных помех (сбои, обрывы, хезитации, повторы) также существенно ухудшает качест- во распознавания.

В общей сложности, на вариативность речи влияют следующие фак- торы: 1) анатомические особенности речевого тракта говорящего,
2) приобретенные навыки общения, 3) постоянные дефекты речи,

физиологическое или эмоциональное состояние говорящего,
технические особенности канала приема и передачи информации,
окружающая обстановка (неречевой шум, одновременная речь несколь- ких человек), а также некоторые другие.

Объективно существующую вариативность произношения, темпа, стиля речи, а также появление новых для системы слов и сопутствующих речевому сигналу шумов фактически невозможно учесть заранее, на этапе построения и обучения системы.
Почему же человек прекрасно справляется со всей этой вариативно- стью, а машина — нет? Дело в том, что мы учимся воспринимать звуча- щую речь довольно долго: процесс обучения начинается в раннем детстве и продолжается в течение нескольких лет. За это время в активном или пассивном режиме мы успеваем прослушать тысячи или даже десятки тысяч часов речи от самых разных людей, как в непосредственном обще- нии с ними, так и благодаря средствам массовой информации. Все это не- осознанно формирует нашу способность к адекватному распознаванию. Более того, объективную акустическую вариативность речевых единиц мы, как правило, не замечаем, если она лежит в границах принятых в об- ществе фонетических стандартов. При этом мы обычно чутко реагируем на региональные и диалектные фонетические особенности речи, а также с ходу улавливаем «иностранный» акцент.
Думается, что если бы у систем распознавания речи были бы такие же возможности для обучения, как у людей, результаты их распознавания существенно приблизились бы к тем, которые показывает человек.
Однако обучение системы распознавания — длительная и ресурсо- затратная задача. Компьютер не в состоянии учиться слушать речь в «пас-

сивном» режиме. Для обучения системы распознавания каждая звучащая фраза (звукозапись) должна сопровождаться не только ее текстовой рас- шифровкой (орфографической записью того, что было сказано), но и под- робной фонетической транскрипцией (последовательностью фонетиче- ских символов). Только в этом случае компьютер сможет обнаруживать и запоминать в качестве образцов соответствия между объективными аку- стическими свойствами звукозаписи на каждом анализируемом фрагменте и соответствующими звуками, словами и словосочетаниями.

Наиболее сложная задача для построения обучающих речевых баз данных состоит в получении фонетической транскрипции, которая для этой цели выполняется вручную экспертами-фонетистами и является весьма трудо- емкой. Поэтому на практике обучение автоматических систем часто про- водится на не очень больших массивах данных (речевых корпусах), кото- рые не могут учесть всей реальной языковой и фонетической вариативно- сти, необходимой для корректного распознавания. По прогнозам ученых, для того чтобы компьютер смог приблизиться к человеку по достоверно- сти распознавания речи, предстоит сделать еще очень многое. Тем не ме- нее, отдельные задачи распознавания речи успешно решаются и находят свое применение на практике.

Основные типы современных систем распознавания речи

Современные системы распознавания речи различаются по объему словаря, по их привязке к конкретному диктору, а также по типу объектов распознавания, стилю анализируемой речи и некоторым другим факторам. По объему словаря (то есть по количеству слов, которые они способ-
ны различать) выделяются следующие типы: системы с малым словарем распознают единицы или десятки слов, со средним словарем — сотни слов, с большим — тысячи и десятки тысяч слов. В последние годы стали использоваться понятия «сверхбольшого словаря» для сотен тысяч и да- же миллионов слов, и «неограниченного словаря», задачей которого яв- ляется моделирование не только всех существующих, но и потенциально возможных слов для данного языка.
Далее выделяются дикторозависимые и дикторонезависимые сис- темы. Первые распознают речь исключительно тех говорящих, на звуко- записях которых они были обучены. В отдельных приложениях такое ог- раничение является предпочтительным (например, чтобы наложить запрет на несанкционированный доступ к системе). Однако для большинства задач идеальной является дикторонезависимая система, способная «пони- мать» речь любого человека на данном языке без предварительной подго- товки. Промежуточное положение занимают адаптивные системы, кото-

рые готовы к распознаванию речи конкретного человека лишь после пе- риода «обучения» или настройки на материале образцов его речи.

Простейшие системы ориентированы на распознавание отдельных ключевых слов или коротких фраз (команды, пароли). Далее по слож- ности идут системы, распознающие последовательности, состоящие из ограниченного набора слов (например, числовые последовательности, формирующие идентификационные коды или номера телефонов). Нако- нец, наиболее сложные задачи связаны с распознаванием слитной речи или чтения связного текста, диктовки и спонтанной разговорной речи.
Системы распознавания речи различаются также в зависимости от следующих факторов: 1) какая единица является объектом распознавания (слово, слог, фонема или звук, т. е. какие единицы система ищет в потоке речи, чтобы по ним реконструировать фразу), 2) привлекается ли к анали- зу грамматическая информация (частеречный анализатор, синтаксическая информация о порядке слов в предложениях и другие лингвистические характеристики), 3) какая речевая ситуация может анализироваться (диа- лог между человеком и машиной, речевая коммуникация между людьми),
4) где происходит общение (в закрытом помещении при отсутствии внеш- них шумов, в общественных местах или на улице), 5) какие технические характеристики у принимающего (записывающего) и передающего речь устройства (телефонная линия, интернет-коммуникация) и т. д.
Некоторые системы распознавания ориентированы на поиск в потоке слитной речи ключевых слов. От этих систем не требуется получения полной текстовой расшифровки звукозаписи, поскольку их основная зада- ча состоит исключительно в идентификации определенных фрагментов (участков) речи. Используется данная технология в различных поисковых системах, в системах мониторинга речи и для речевой активации голосо- вых интерфейсов.
В настоящее время успешно решаются задачи распознавания изоли- рованных слов и фраз, использующих малые и средние словари. Большин- ство современных систем распознавания речи являются дикторонезависи- мыми, но ограничены по тематике и по области применения. Чаще всего они используются в системах голосового самообслуживания в колл- центрах крупных организаций (справочно-информационных служб, госу- дарственных учреждений, банков, поликлиник, операторов связи, транс- портных предприятий и т. п.) и позволяют автоматически обрабатывать телефонные обращения клиентов.
Многие системы распознавания диктовки (речевого ввода текста в компьютер) предполагают предварительное обучение системы — ее адап- тацию под конкретного пользователя. Есть примеры успешного решения и задачи распознавания слитной речи, основанной на использовании боль- ших словарей, но только для единственного диктора. Однако такие систе-

мы представляют собой «штучный товар» и, будучи дикторозависимыми, ограничены в практическом применении.

Лингвистический и статистический подходы к распознаванию речи

Используемые в системах распознавания речи методы в большой сте- пени зависят от типа, способа и задачи системы распознавания. В целом все подходы можно условно разделить на две группы — лингвистические и статистические.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 63 64 65 66 67 68 69 70 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Основные типы современных систем распознавания речи

Лингвистический и статистический подходы к распознаванию речи