Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
По-видимому, первым электрическим синтезатором, с помощью ксюрого была сделана попытка синтезировать связную речь, был «водеір», разработанный Дадли, Ришем и Уоткин-сом (Dudley, Riesz, Watkins). В основном это было устройство, синтезирующее сигналы с заданным спектром и работающее от ручной клавиатуры. Кроме того, в нем была учтена важная физиологическая характеристика голосового механизма—наличие двух видов возбуждения: голосового и шумового. Схема устройства водера приведена на рис. 6.5.
Блок «управления резонансами» этого устройства состоит из 10 параллельно соединенных фильтров, полосы пропускания которых соприкасаются и перекрывают частотный диапазон речи. Сигнал возбуждения на все фильтры поступает либо от шумового, либо от импульсного релаксационного генератора. Переключение источника возбуждения осуществляется браслетом на запястье, а управление частотой импульсов — ножной педалью. Напряжения с выходов полосовых фильтров регулируются потенциометрами, управляемыми с помощью клавиш 10 пальцами, а величины их складываются. Переходная характеристика фильтров, имитирующих взрывные согласные, управляется тремя дополнительными клавишами.
Эта говорящая машина демонстрировалась тренированными операторами на Всемирных выставках 1939 г. (Нью-Йорк) и 1940 г. (Сан-Франциско). Хотя для обучения операторов требо-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ
229
Генератор шума
Релаксационный генератор
Рот-излучатель
Громкоговоритель
Усилитель
Переключ, возбуждения -| браслет на запясті\ ^g3J^gm
ZZZ
W
о
Педаль управления основным
Рис. 6.5. Схема синтезатора «водер» (Дадли, Риш и Уоткинс)
валось длительное время (год и более), они могли «играть» на машине (буквально как на органе или рояле) и генерировать разборчивую речь1). Впоследствии принцип водера использовался в исследовательской работе Оизуми и Кубо (Oizumi, Kubo).
') В октябре 1961 г. Г. У. Дадли (Н. W. Dudley) закончил свою работу в Лабораториях Белла и вышел на пенсию. В честь .окончания его более чем сорокалетней деятельности в области исследования речи из хранилища был извлечен и приведен в рабочее состояние экземпляр водера. Кроме того, была приглашена женщина—один из первых операторов водера. Замечательно, что после двадцатилетнего перерыва она смогла управлять машиной и заставила ее говорить.
230
СИНТЕЗ РЕЧИ
В гл. V достаточно подробно был описан анализ речи с помощью звукового спектрографа. Поскольку по данным Гельм-гольца и других разборчивость определяется, главным образом, мгновенным спектром амплитуд, возникает мысль об использовании спектрограмм для синтеза речи. С этой мыслью связан и вопрос о том, в какой степени спектрограммы реальной речи могут быть схематизированы или «нарисованы» без нарушения разборчивости. Для автоматического «проигрывания» звуковых спектрограмм было создано несколько различных устройств. В одном из них используется линейный источник света, расположенный вдоль оси частот спектрограммы и просвечивающий участки изображения с различной степенью прозрачности (Шотт — Schott). Фотоэлементы, расположенные в ряд вплотную друг к другу по другую сторону спектрограммы, являются источниками управляющих сигналов для набора полосовых фильтров (таких же, как в водере). Дополнительные дорожки на спектрограмме управляют переключением «тон—шум» и несут информацию о частоте основного тона. Подобная же схема использована в устройстве, названном «вобэк» (Борет и Купер— Borst and Gooper), для управления синтезатором, подобным во-деру.
Несколько иной метод «проигрывания» спектрограмм был использован Купером, Либерманом и Борстом при проведенном ими тщательном изучении синтеза речи. Речевое колебание достаточно полно представляется рядом Фурье ЕЛпСОЭ^моГ+Фп) •
л
Коэффициенты An изменяются во времени и определяются плотностью спектрограммы на заданном интервале. Звук по такому методу получается с помощью устройства, показанного на рис. 6.6а.
На образец обычной трехмерной (время — частота — интенсивность) спектрограммы проектируется 50 световых точек, расположенных 1B ряд вплотную друг к другу. Интенсивность света в каждой точке модулируется по гармоническому закону частотами, находящимися в гармоническом соотношении. Эти точки получаются при освещении «фонического колеса» линейным источником. В фоническом іколесе имеется 50 !концентрических полос с переменной прозрачностью. Ближайшая к центру полоса имеет четыре периода синусоиды, следующая полоса — 8, затем — 12 и так далее до 200 у 50-й полосы. Колесо вращается со скоростью 1800 об/мин, так что основная частота составляет 120 гц. Свет от него отражается либо от спектрограммы, либо просвечивает ее. Прошедшие через спектрограммы (или же при другом устройстве—отраженные) лучи попадают на специальные коллектор и фотоэлемент, в которых складываются 50 чле-
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ
231
нов ряда Фурье. Суммарный сигнал усиливается и воспроизводится громкоговорителем.
Постоянная скорость вращения фонического колеса определяет монотонность синтезированной речи. Турбулентные звуки имитируются путем модуляции фаз и амплитуд составляющих по случайному закону подобно тому, как производится спектральное представление всплеска шума. На этой машине могут проигрываться как спектрограммы настоящей речи, так и схе-