Байланысты: nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Рис.4. Тестовый стимул. (Ответ: «да», так как взрывной элемент находится в начале фрагмента)
Распознаватель, построенный даже по такой упрощенной модели, может эффективно работать, если на вход будет подаваться только один из этих двух стимулов в произнесении дикторов без дефектов произношения и если на сигнал не будут накладываться внешние шумы.
Понятно, что чем больше слов должна распознавать система, тем бо- лее сложные критерии для их дифференциации она должна использовать. Более того, задача распознавания произвольного фрагмента речи для лю- бого говорящего оказалась настолько сложна, что на сегодняшний день она остается нерешенной ни для одного языка.
Вариативность речи — главное препятствие для разработчиков систем распознавания речи
Что же мешает разработчикам передать машине такой, казалось бы, простой — с точки зрения человека — навык? Мы все слышим речь, кото- рая физически представляет собой звуковые волны, и, как правило, пре- красно различаем в ней не только отдельные звуки, слова, паузы, акценты, необходимые для перевода речи в текст, но и интонационные нюансы, ко- торые позволяют нам улавливать малейшие оттенки смысла.
Почему при передаче этого умения сверхсовременным компьютерам и автоматизированным системам возникают столь серьезные затруднения? Ведь они на порядок лучше человека выполняют многие вычислительные и механические операции, но до сих пор не в состоянии качественно вы- полнить «несложную» работу стенографистки, преобразующей звучащую речь в последовательности буквенных символов.
Главной причиной сложности машинного «восприятия» звучащей ре- чи является ее высокая вариативность. Так, каждое слово может иметь по несколько вариантов произнесения. Например, русское слово «сейчас» имеет 3 основных варианта: «сей"час» [s'ij"čas], «си"час» [s'i"čas] и «щас» [š':as] (см. рис. 5).