Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 74

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 68 69 70 71 72 73 < 74 > 75 76 77 78 79 80 .. 149 >> Следующая


Один из наиболее многообещающих методов выделения основного тона с помощью вычислительной машины заключается в использовании так называемого «сепстрального» метода (Нолл — Noll, 1964, а). Сепструм определен как квадрат преобразования Фурье от логарифма амплитудного спектра сигнала. Поскольку он представляет собой результат преобразования специального вида, !выполненного над другим преобразованием, и поскольку полученная новая независимая переменная есть величина, обратная частоте, или время, то для обозначения этого преобразования и его независимой переменной были созданы термины «сепструм» и «квифренси»').

Введение операции логарифмирования позволяет осуществить нужное нам разделение свойств источника и системы (по крайней мере, установить, что в спектральной области они проявляются как результат перемножения). Если речевой сигнал f(t) записать в виде свертки импульсной реакции голосового тракта v(t) и сигнала от источника возбуждения s(t), то преобразованные по Фурье указанные величины будут связаны между собой, KaKCF(O))I = IlZ(O)I]1S(O)I, где все амплитудные спектры суть четные функции. Логарифмирование обеих частей дает ln|F(co)|=ln I V(co)|+ 1п|5(со) |. Выполнив далее над обеими частями преобразование Фурье, получим 5InJF(U))I=SIn(F(O))I + +5 In] 5((о) ].

Для вокализованных звуков| S(со) [является почти линейчатым спектром, составляющие которого расставлены с промежутками,

равными частоте основного тона — . Следовательно, функция

') Термины «сепструм» я «квифренси» представляют собой буквальный перевод соответствующих английских терминов «cepstrum» и «quefrency», образованных путем частичной инверсии слов «spectrum» (спектр) и «frequeney» (частота) (прим. пер.).

206

устройства для анализа речи

SInJ 5(со) будет иметь ярко выраженную составляющую на «квифренси» Т. С другой стороны, IV(¦(Jb)I характеризуется относительно «медленными» формантными максимумами. Это значит, что наиболее мощная составляющая функции 31п|У(со)] соответствует очень низкой квифренси.

Так как преобразования над логарифмами амплитудных спектров обладают свойством аддитивности, то в сепстральной области характерные особенности источника и системы могут быть разделены с достаточной степенью точности. Применяя тот или иной метод разделения составляющих функции 3 InIS(Co)I по оси квифренси, можно определить частоту основного тона и моменты перехода от вокализованного к невокали-зованному возбуждению. Ввиду того что этот метод не требует присутствия основной составляющей и имеет место относительная нечувствительность к фазовым и амплитудным масштабным коэффициентам (благодаря операции логарифмирования), он оказывается наиболее перспективным для применения в вокодерах. При испытаниях в системе полосного вокодера сепстраль-ный метод выделения основного тона и управляющих сигналов «тон-шум» позволил получить достаточно высокие результаты (Нолл, 1964, Ъ).

В отношении вокализованного возбуждения, по-видимому, наиболее правильным следует считать измерение воздушного потока от голосовой щели (Миллер—R. L. Miller, 1959; Фант, 1959, Ь; Мэтьюс, Миллер и Дэвид—Mathews, Miller and David, 1961, а; Холмс—Holmes, 1962). Приближенное описание этой функции может быть получено так называемым методом обратной фильтрации. Идея состоит в пропускании речевого сигнала через четырехполюсник, передаточная функция которого есть функция, обратная передаточной функции голосового тракта для данного звука. Нули этого четырехполюсника установлены таким образом, чтобы аннулировать полюсы голосового тракта, в результате чего выходной сигнал приблизительно соответствует потоку от голосовой щели (см. рис. 3.16). Поэтому можно сделать предположение, что источник голоса и система не взаимодействуют друг с другом и могут быть проанализированы отдельно.

В связи с этим возникает вопрос, в какой части периода основного тона действует возбуждение. Если бы этот участок был обнаружен, то путем его имитации в вокализованном возбуждении синтезатора, по-видимому, можно было бы сохранить естественные нерегулярности в периодах основного тона. Однако такую информацию вследствие частого изменения формы колебаний от полосовой щели довольно трудно описать. Миллер считает, что этот участок, как правило, начинается в момент смычки

АРТИКУЛЯТОРНЫИ АНАЛИЗ МЕХАНИЗМА РЕЧЕОБРАЗОВАНИЯ 207

голосовых связок (Миллер, 1954), а другие авторы (Холмс, 1962) утверждают, что он соответствует другим точкам колебания. В первом приближении этот участок, по-видимому, совпадает с моментом наибольшего изменения производной сигнала от голосовых связок. В общем случае такой момент может находиться в любой точке периода. Например, для колебаний треугольной формы он будет соответствовать вершине треугольника.

Следует, однако, иметь в виду, что свойства источника и системы с точки зрения механизма речеобразования не могут быть однозначно разделены. В реальном голосовом тракте между ними наблюдается некоторое взаимодействие (особенно на частоте первой форманты). Другая трудность состоит в том, что не всегда ясно, приписывать ли определенные свойства (прежде всего, нули) тракту или источнику. Оценка, полученная для колебаний от голосовой щели, очевидно, зависит от модели голосового тракта, выбранной для обратного фильтра. На эту оценку влияет также выбор критерия регулирования обратного фильтра. Например, при определенных условиях пульсации сигнала на выходе обратного фильтра, которые можно принять за колебания формантной природы, в действительности могут быть настоящими колебаниями от голосовой щели.
Предыдущая << 1 .. 68 69 70 71 72 73 < 74 > 75 76 77 78 79 80 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed