booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 78

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 72 73 74 75 76 77 < 78 > 79 80 81 82 83 84 .. 149 >> Следующая

образец, включаются 10 цепей заряда десяти конденсаторов, общих для всей схемы. Проводимость дайной цепи (пропорциональна среднему времени пребывания каждого спектрального образца в данном слове. Таким образом, 10 конденсаторов накапливают заряды, величина которых пропорциональна величине корреляции между 10 эталонными образцами и измеренным об-

216 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ

разном. Наиболее подходящее слово определяется по максимальной величине заряда в конце произнесенного слова. Это устройство, которое было задумано как более совершенный вариант предыдущего, производит распознавание чисел при подстройке под данный голос с достаточно высокой точностью. В обоих приборах последовательность спектральных образцов и опознанных чисел фиксируется на световом табло.

Другое устройство для распознавания речи также основано на сравнении спектральных образцов с эталонными образцами, представляющими собой отдельные фонемы речи (Фрай и Денис — Fry and Denes). Однако сравнение здесь производится иным путем, а результат идентификации выдается в виде специальных символов. Образец для сравнения выбирается асинхронно, на основе скорости изменения спектральных распределений. Однако более важным является попытка использования элементарных лингвистических закономерностей. Блок-схема такого устройства показана на рис. 5.34.

Информация о мгновенных амплитудных спектрах получается с помощью параллельного (20-канального) анализатора. Спектральные образцы, соответствующие данному звуку, вырабатываются путем перемножения выходных сигналов от двух каналов. Полученные произведения развертываются во времени и поступают на селектор, где производится выбор максимального значения. Выбранное значение выводится с помощью печатающего устройства и удерживается в системе памяти. На основании выбранного значения набор эталонных образцов смещается в соответствии со статистикой языка, учитывающей вероятностную зависимость между двумя соседними звуками. Таким образом, следующая фонема выбирается в условиях, ког-ка некоторое преимущество отдается той фонеме, которая имеет наибольшую вероятность следовать за ранее выбранной.

Описываемая машина предназначена для распознавания J4 фонем: 4 гласных, 9 согласных и пауза. Новый !выбор повто-

Запас лингби стичешх сведений

Память

Рис. 5.34. Блок-схема устройства для распознавания звуков речи, в котором используются элементарные лингвистические закономерности (Фрай и Денне)

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ

217

ряется всякий раз, когда напряжения, пропорциональные произведениям сигналов на выходах умножителей, имеют скорость изменения большую, чем заданная пороговая величина. Тексты, отпечатанные на входе и выходе машины, сопоставлялись после подстройки машины под голос диктора. В том случае, когда двухбуквенные вероятностные зависимости не используются, процентное содержание правильно опознанных отдельных звуков и слов составляет 60 и 24% соответственно. При введении этих зависимостей указанные оценки для одного диктора возрастают до 72 и 44%. Для второго и третьего дикторов без подстройки машины под их голоса оценки артикуляции звуков падают примерно от 70 до 45% •

Лингвистическая информация заметно улучшает распознавание, когда всем фонемам дается преимущество с равным весом. Однако если это преимущество распределяется с учетом величины информации, приходящейся на одну фонему, то при определенных условиях двухбуквеаные вероятностные зависимости могут оказаться вредными. Наибольшее предпочтение отдается наивероятнейшим фонемам, которые в то же время переносят наименьшую информацию. Использование вероятностных зависимостей влечет за собой возникновение и распространение ряда последовательных ошибок. Если использование лингвистических закономерностей приводит не к уменьшению числа ошибок, а к его увеличению, гго в этом случае необходимо добиваться более высокого уровня точности аікустичеокого распознавания. Ряды последовательных ошибок допускаются, конечно, и человеком. Слушатель, перепутав однажды определенный ряд зависимостей в некоторой последовательности, может добавлять одну ошибку к другой в течение довольно длительного промежутка времени.

Если лингвистические закономерности, которые должны участвовать в процессе распознавания, полностью отражают действительное положение вещей, то операции хранения и обработки в этом случае оказываются значительно более сложными. Аналогично, если усложнить обработку акустического сигнала, то потребуются значительно большие объем памяти и быстродействие. Решение такого рода задач под силу только вычислительной машине, и было приложено немало усилий, чтобы как можно полнее использовать ее возможности. Одна из работ в этой области посвящена выработке программы для распознавания однозначных чисел (Денис и Мэтьюс—Denes and Mathews). Мгновенные амплитудные спектры получаются посредством гребенки полосовых фильтров. Сведения об этих спектрах вводятся в машину в виде последовательно развернутых во времени сигналов на выходах гребенки. В запоминающем устройстве удерживаются спектрограммы речи, квантованные по ча-

Предыдущая << 1 .. 72 73 74 75 76 77 < 78 > 79 80 81 82 83 84 .. 149 >> Следующая