Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
формантныи анализ речи
203
S ISO
личественные данные о ширине формантных полос, ценные с точки зрения проверки правильности расчетов речевого тракта, например, таких, которые выполнены в гл. III для излучения, вязкости, теплопроводности, потерь в стенках резонансных полостей и голосовой щели, но и сведения о величинах затухания.
Было произведено большое количество измерений величин затуханий и формантных полос голосового тракта1). Все измерения можно (разделить в основном на два вида: находились либо ширина резонанса в частотной области, либо постоянная затухания (или декремент) соответствующей отфильтрованной части речевого сигнала во временной обла- а) сти. В первом случае форманта рассматривается как простой резонанс и определяются частоты, на которых мощность спектральной огибающей снижается вдвое. Во втором случае форманта расоматривается как затухающее гармоническое колебание, имеющее в моменты времени Ix и I2 амплитуды А і и A2. Постоянная затухания о временной волны и ее полоса частот Af, измеренная на уровне половинной мощности, связаны между собой простым соотноше-
1 А* 1ПГ
100
I
I. 80
60 50 40
30 40
t 30
5
20
15
10
ниєм:
Результаты одного из наиболее полных исследований формантных полос представлены на рис. 5.28 (Данн, 1961). На рис. 5.28а показаны формантные полосы, измеренные путем подгонки простой резонансной кривой к сечению амплитудного
. 1-я форманта а 2-я форманта °3~я форманта
/1 .
X IU ° /
h
,<¦? иЛ Vа
Л'
•
а
а
U A-"
ы ¦
и
U
л
__
—
-
і
1.
я
3
У
с
D
а І і
!
і !
О
V'
А,
•Ч
,'А
•
V
•
•
I'
і
¦
300 W 500 800 1000 2000 ЗООО WO Частота форманты, гц
Рис. 5.28. Формантные полосы, полученные в результате измерений голосов
20 взрослых мужчин (Данн, 1961): а) измеренные путем подгонки резонансной кривой к течению амплитудного спектра гласного звука; б) те же данные, показанные в виде частотной зависимости величины Q
') Достаточно хорошее краткое изложение и библиография большинства из этих исследований приведены в работе Данна (Dunn, 1961). [См. также Фант — Fant, 1958, 1959, а, Ъ].
204
УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ
спектра гласного звука, произнесенного ,в слоге /h—d/1). Эти данные получены усреднением результатов от 20 мужских голосов для каждой гласной. На рис. 5.286 кривая представляет собой те же данные, изображенные в виде частотной зависимости величины Q=//А/. Из графиков следует, что в пределах частотных диапазонов первой и второй формант номинальные величины полос, как правило, невелики—порядка 40--70 гц. Выше 2000 гц полосы заметно увеличиваются. На основании проведенных в гл. III расчетов были указаны основные причины, вызывающие затухание в речевом тракте,—это потери в голосовой щели и стенках резонансных полостей для низших формант и потери на излучение, вязкое трение и теплопроводность для высших формант. Кривая зависимости добротности формант от частоты показывает, что эта добротность имеет максимальное значение в частотном диапазоне около 2000 гц.
5.3. Анализ основного тона голоса
Анализ основной частоты—или «выделение основного тона»— - представляет собой такую же давнюю проблему, как и анализ самой речи. Это та проблема, для которой все еще не найдено окончательного решения. Основная трудность заключается в отсутствии точного определения основного тона. Качественно основной тон есть субъективное свойство, которое позволяет расположить по шкале частот весь диапазон изменений голоса от низкого до самого высокого. Вокализованное возбуждение голосового тракта носит исключительно квазипериодический характер. Сигнал, создаваемый колебаниями голосовых связок, изменяется не только по амплитуде и длительности периода, но также и по форме. Точно указать, какие интервалы речевого сигнала или даже сигнала возбуждения от голосовых связок должны быть выбраны в качестве измеряемых периодов, не представляется возможным. Не установлена также достаточно четкая связь между измеренными интервалами и воспринимаемым основным тоном.
В большинстве методов выделения основного тона в качестве объекта измерения используются интервалы между соседними импульсами, появляющимися с частотой колебания голосовых связок. Однако по-прежнему заслуживает особого внимания вопрос о связи этих интервалов с воспринимаемым основ-
1) Указанные на рнс. 5.28а гласные стоят в этом слоге вместо черточки (прим. ред.).
АНАЛИЗ ОСНОВНОГО ТОНА ГОЛОСА
205
ным тоном, который подвержен случайным скачкам и изменениям.
Посредством автоматических выделителей основного тона в большинстве случаев пытаются либо описать периодичность колебаний (Грютцмахер и Лоттермозер — Grutzmacher and Lottermozer; Грюенц и Шотт—Gruenz and Schott; Доланский— Dolansky, 1955; Гил—Gill), либо измерить частоту основной составляющей, если она присутствует в сигнале (Дадли — Dudly, 1939, b). Выделение основного тона с помощью вычислительных машин основано на тех же принципах, но с использованием более тщательно разработанной программы измерений (Иномата—Inomata; Голд—Gold; Сугимото и Хашимото — Sugimoto and Hashimoto).