Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
образец, включаются 10 цепей заряда десяти конденсаторов, общих для всей схемы. Проводимость дайной цепи (пропорциональна среднему времени пребывания каждого спектрального образца в данном слове. Таким образом, 10 конденсаторов накапливают заряды, величина которых пропорциональна величине корреляции между 10 эталонными образцами и измеренным об-
216 УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ
разном. Наиболее подходящее слово определяется по максимальной величине заряда в конце произнесенного слова. Это устройство, которое было задумано как более совершенный вариант предыдущего, производит распознавание чисел при подстройке под данный голос с достаточно высокой точностью. В обоих приборах последовательность спектральных образцов и опознанных чисел фиксируется на световом табло.
Другое устройство для распознавания речи также основано на сравнении спектральных образцов с эталонными образцами, представляющими собой отдельные фонемы речи (Фрай и Денис — Fry and Denes). Однако сравнение здесь производится иным путем, а результат идентификации выдается в виде специальных символов. Образец для сравнения выбирается асинхронно, на основе скорости изменения спектральных распределений. Однако более важным является попытка использования элементарных лингвистических закономерностей. Блок-схема такого устройства показана на рис. 5.34.
Информация о мгновенных амплитудных спектрах получается с помощью параллельного (20-канального) анализатора. Спектральные образцы, соответствующие данному звуку, вырабатываются путем перемножения выходных сигналов от двух каналов. Полученные произведения развертываются во времени и поступают на селектор, где производится выбор максимального значения. Выбранное значение выводится с помощью печатающего устройства и удерживается в системе памяти. На основании выбранного значения набор эталонных образцов смещается в соответствии со статистикой языка, учитывающей вероятностную зависимость между двумя соседними звуками. Таким образом, следующая фонема выбирается в условиях, ког-ка некоторое преимущество отдается той фонеме, которая имеет наибольшую вероятность следовать за ранее выбранной.
Описываемая машина предназначена для распознавания J4 фонем: 4 гласных, 9 согласных и пауза. Новый !выбор повто-
Запас лингби стичешх сведений
Память
Рис. 5.34. Блок-схема устройства для распознавания звуков речи, в котором используются элементарные лингвистические закономерности (Фрай и Денне)
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ
217
ряется всякий раз, когда напряжения, пропорциональные произведениям сигналов на выходах умножителей, имеют скорость изменения большую, чем заданная пороговая величина. Тексты, отпечатанные на входе и выходе машины, сопоставлялись после подстройки машины под голос диктора. В том случае, когда двухбуквенные вероятностные зависимости не используются, процентное содержание правильно опознанных отдельных звуков и слов составляет 60 и 24% соответственно. При введении этих зависимостей указанные оценки для одного диктора возрастают до 72 и 44%. Для второго и третьего дикторов без подстройки машины под их голоса оценки артикуляции звуков падают примерно от 70 до 45% •
Лингвистическая информация заметно улучшает распознавание, когда всем фонемам дается преимущество с равным весом. Однако если это преимущество распределяется с учетом величины информации, приходящейся на одну фонему, то при определенных условиях двухбуквеаные вероятностные зависимости могут оказаться вредными. Наибольшее предпочтение отдается наивероятнейшим фонемам, которые в то же время переносят наименьшую информацию. Использование вероятностных зависимостей влечет за собой возникновение и распространение ряда последовательных ошибок. Если использование лингвистических закономерностей приводит не к уменьшению числа ошибок, а к его увеличению, гго в этом случае необходимо добиваться более высокого уровня точности аікустичеокого распознавания. Ряды последовательных ошибок допускаются, конечно, и человеком. Слушатель, перепутав однажды определенный ряд зависимостей в некоторой последовательности, может добавлять одну ошибку к другой в течение довольно длительного промежутка времени.
Если лингвистические закономерности, которые должны участвовать в процессе распознавания, полностью отражают действительное положение вещей, то операции хранения и обработки в этом случае оказываются значительно более сложными. Аналогично, если усложнить обработку акустического сигнала, то потребуются значительно большие объем памяти и быстродействие. Решение такого рода задач под силу только вычислительной машине, и было приложено немало усилий, чтобы как можно полнее использовать ее возможности. Одна из работ в этой области посвящена выработке программы для распознавания однозначных чисел (Денис и Мэтьюс—Denes and Mathews). Мгновенные амплитудные спектры получаются посредством гребенки полосовых фильтров. Сведения об этих спектрах вводятся в машину в виде последовательно развернутых во времени сигналов на выходах гребенки. В запоминающем устройстве удерживаются спектрограммы речи, квантованные по ча-