11 Часть I. Компоненты 14 Глава Компьютерная



бет67/197
Дата19.03.2022
өлшемі4,29 Mb.
#136225
түріЛитература
1   ...   63   64   65   66   67   68   69   70   ...   197
Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute

Рис. 5. Осциллограмма и спектральная картина для разных вариантов произнесения одного слова «сейчас» — [s'ij"čas], [s'i"čas] и [š':as]

Кроме того, отдельные звуки каждого слова (аллофоны) тоже могут произноситься по-разному. Каждый человек обладает уникальным тем- бром голоса, поэтому спектральные характеристики звуков будут разли- чаться у разных говорящих. У одних людей высокие голоса, у других — низкие, одни говорят размеренно, другие — скороговоркой. В результате один и тот же аллофон, даже в сходном контексте, может быть произнесен с разной основной частотой, интенсивностью и длительностью. У одних говорящих речь связная, «гладкая», другие запинаются, перебивают себя, используют много «лишних» и, казалось бы, незначащих слов. Речь может сильно меняться и в зависимости от конкретной ситуации и эмоциональ- ного состояния говорящего. Наличие в речевом сигнале различных помех (сбои, обрывы, хезитации, повторы) также существенно ухудшает качест- во распознавания.


В общей сложности, на вариативность речи влияют следующие фак- торы: 1) анатомические особенности речевого тракта говорящего,
2) приобретенные навыки общения, 3) постоянные дефекты речи,

  1. физиологическое или эмоциональное состояние говорящего,

  2. технические особенности канала приема и передачи информации,

  3. окружающая обстановка (неречевой шум, одновременная речь несколь- ких человек), а также некоторые другие.

Объективно существующую вариативность произношения, темпа, стиля речи, а также появление новых для системы слов и сопутствующих речевому сигналу шумов фактически невозможно учесть заранее, на этапе построения и обучения системы.
Почему же человек прекрасно справляется со всей этой вариативно- стью, а машина — нет? Дело в том, что мы учимся воспринимать звуча- щую речь довольно долго: процесс обучения начинается в раннем детстве и продолжается в течение нескольких лет. За это время в активном или пассивном режиме мы успеваем прослушать тысячи или даже десятки тысяч часов речи от самых разных людей, как в непосредственном обще- нии с ними, так и благодаря средствам массовой информации. Все это не- осознанно формирует нашу способность к адекватному распознаванию. Более того, объективную акустическую вариативность речевых единиц мы, как правило, не замечаем, если она лежит в границах принятых в об- ществе фонетических стандартов. При этом мы обычно чутко реагируем на региональные и диалектные фонетические особенности речи, а также с ходу улавливаем «иностранный» акцент.
Думается, что если бы у систем распознавания речи были бы такие же возможности для обучения, как у людей, результаты их распознавания существенно приблизились бы к тем, которые показывает человек.
Однако обучение системы распознавания — длительная и ресурсо- затратная задача. Компьютер не в состоянии учиться слушать речь в «пас-

сивном» режиме. Для обучения системы распознавания каждая звучащая фраза (звукозапись) должна сопровождаться не только ее текстовой рас- шифровкой (орфографической записью того, что было сказано), но и под- робной фонетической транскрипцией (последовательностью фонетиче- ских символов). Только в этом случае компьютер сможет обнаруживать и запоминать в качестве образцов соответствия между объективными аку- стическими свойствами звукозаписи на каждом анализируемом фрагменте и соответствующими звуками, словами и словосочетаниями.


Наиболее сложная задача для построения обучающих речевых баз данных состоит в получении фонетической транскрипции, которая для этой цели выполняется вручную экспертами-фонетистами и является весьма трудо- емкой. Поэтому на практике обучение автоматических систем часто про- водится на не очень больших массивах данных (речевых корпусах), кото- рые не могут учесть всей реальной языковой и фонетической вариативно- сти, необходимой для корректного распознавания. По прогнозам ученых, для того чтобы компьютер смог приблизиться к человеку по достоверно- сти распознавания речи, предстоит сделать еще очень многое. Тем не ме- нее, отдельные задачи распознавания речи успешно решаются и находят свое применение на практике.


      1. Основные типы современных систем распознавания речи

Современные системы распознавания речи различаются по объему словаря, по их привязке к конкретному диктору, а также по типу объектов распознавания, стилю анализируемой речи и некоторым другим факторам. По объему словаря (то есть по количеству слов, которые они способ-
ны различать) выделяются следующие типы: системы с малым словарем распознают единицы или десятки слов, со средним словарем — сотни слов, с большим — тысячи и десятки тысяч слов. В последние годы стали использоваться понятия «сверхбольшого словаря» для сотен тысяч и да- же миллионов слов, и «неограниченного словаря», задачей которого яв- ляется моделирование не только всех существующих, но и потенциально возможных слов для данного языка.
Далее выделяются дикторозависимые и дикторонезависимые сис- темы. Первые распознают речь исключительно тех говорящих, на звуко- записях которых они были обучены. В отдельных приложениях такое ог- раничение является предпочтительным (например, чтобы наложить запрет на несанкционированный доступ к системе). Однако для большинства задач идеальной является дикторонезависимая система, способная «пони- мать» речь любого человека на данном языке без предварительной подго- товки. Промежуточное положение занимают адаптивные системы, кото-

рые готовы к распознаванию речи конкретного человека лишь после пе- риода «обучения» или настройки на материале образцов его речи.


Простейшие системы ориентированы на распознавание отдельных ключевых слов или коротких фраз (команды, пароли). Далее по слож- ности идут системы, распознающие последовательности, состоящие из ограниченного набора слов (например, числовые последовательности, формирующие идентификационные коды или номера телефонов). Нако- нец, наиболее сложные задачи связаны с распознаванием слитной речи или чтения связного текста, диктовки и спонтанной разговорной речи.
Системы распознавания речи различаются также в зависимости от следующих факторов: 1) какая единица является объектом распознавания (слово, слог, фонема или звук, т. е. какие единицы система ищет в потоке речи, чтобы по ним реконструировать фразу), 2) привлекается ли к анали- зу грамматическая информация (частеречный анализатор, синтаксическая информация о порядке слов в предложениях и другие лингвистические характеристики), 3) какая речевая ситуация может анализироваться (диа- лог между человеком и машиной, речевая коммуникация между людьми),
4) где происходит общение (в закрытом помещении при отсутствии внеш- них шумов, в общественных местах или на улице), 5) какие технические характеристики у принимающего (записывающего) и передающего речь устройства (телефонная линия, интернет-коммуникация) и т. д.
Некоторые системы распознавания ориентированы на поиск в потоке слитной речи ключевых слов. От этих систем не требуется получения полной текстовой расшифровки звукозаписи, поскольку их основная зада- ча состоит исключительно в идентификации определенных фрагментов (участков) речи. Используется данная технология в различных поисковых системах, в системах мониторинга речи и для речевой активации голосо- вых интерфейсов.
В настоящее время успешно решаются задачи распознавания изоли- рованных слов и фраз, использующих малые и средние словари. Большин- ство современных систем распознавания речи являются дикторонезависи- мыми, но ограничены по тематике и по области применения. Чаще всего они используются в системах голосового самообслуживания в колл- центрах крупных организаций (справочно-информационных служб, госу- дарственных учреждений, банков, поликлиник, операторов связи, транс- портных предприятий и т. п.) и позволяют автоматически обрабатывать телефонные обращения клиентов.
Многие системы распознавания диктовки (речевого ввода текста в компьютер) предполагают предварительное обучение системы — ее адап- тацию под конкретного пользователя. Есть примеры успешного решения и задачи распознавания слитной речи, основанной на использовании боль- ших словарей, но только для единственного диктора. Однако такие систе-

мы представляют собой «штучный товар» и, будучи дикторозависимыми, ограничены в практическом применении.




      1. Лингвистический и статистический подходы к распознаванию речи

Используемые в системах распознавания речи методы в большой сте- пени зависят от типа, способа и задачи системы распознавания. В целом все подходы можно условно разделить на две группы — лингвистические и статистические.


Достарыңызбен бөлісу:
1   ...   63   64   65   66   67   68   69   70   ...   197




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет