Физиология речи. Восприятие речи человеком - Чистович Л.А.
Скачать (прямая ссылка):
10.3. ПРИРОДА ПОЛЕЗНЫХ ПРИЗНАКОВ СПЕКТРА
Экспериментальные данные по фонемной классификации стационарных речеподобных стимулов позволяют утверждать, что по крайней мере часть из полезных признаков имеет локальный характер, т. е. касается особенностей спектра в ограниченной частотной области. Кроме того, данные свидетельствуют о том, что край и максимум на спектре в известном смысле эквивалентны.
10.3.1. ЛОКАЛЬНЫЙ ХАРАКТЕР ПРИЗНАКОВ
Вывод о локальном характере признаков напрашивается уже из того приведенного в главе 4 факта, что для ряда пар гласных фонемная граница в пространстве формант определяется только частотой одной из формант и не зависит от час-
17*
359
тот других формант. В случае русских слушателей такая ситуация была обнаружена для пар Ш—[е], 1о]—[а], [о]—[е].
Другим доводом в пользу локального характера признаков является нечувствительность фонемной границы по частоте форманты к значительным искажениям общей формы спектра, заключающимся в искусственном усилении или, наоборот, подавлении энергии в области первой форманты.
Рпс. 10.10. Результаты идентификации синтетических гласных с ослабленной (сплошные кривые) или усиленной (штриховые кривые) первой формантой.
По [зв6].
По оси абсцисс — F = VFjF3» гДе ^2 — частота второй форманты, F3 — частота третьей форманты стимула; по оси ординат — процент идентификации Стимула с соответствующими гласными [i] — 1, [у] — 2 т [«] — 3.
В работе Линдквиста и Паули [365] исследовалось восприятие синтетических гласных [i], [у], [а]. Все стимулы имели одинаковую частоту первой форманты, равную 266 Гц. Вторая и третья форманты изменялись таким образом, что среднее геометрическое их частот \]F2F3 (F3jF2 — const) принимало значения в диапазоне от 1620 до 3060 Гц. Стимулы были сначала синтезированы с нормальными для речевого тракта амплитудными отношениями между формантами. Затем с помощью полосовых фильтров вводились амплитудные искажения — область первой форманты в одном варианте усиливалась на 12.5 дБ по сравнению с нормой, во втором варианте подавлялась на 12.5 дБ.
Функции идентификации, полученные при этих двух вариантах искажений, приведены на рис. 10.10. Можно видеть, что функции идентификации, а следовательно и фонемные границы, в обоих случаях совпадают.
В работе Мушникова и Чистович [107] определялась граница по между Ш и [е] при разных значениях уровня интенсивности второй форманты двухформантного гласного. Полученные данные показали (рис. 10.11), что изменения уровня интенсивности в диапазоне 40 дБ не влияют на положение границы.
Ft.ru,
- 500 -
Рис. 10.11. Положение границы по частоте первой форманты между гласными [I] и [е] при разных значениях интенсивности второй форманты (.Р2= =2250 Гц). По [107].
По оси абсцисс — уровень интенсивности второй форманты; по оси ординат — частота первой форманты.
400
300
-10
-20 Аг,дБ
-30
-40
Вывод о том, что существенным является именно частотное положение спектрального максимума, а форма спектра сигнала даже вблизи этого максимума не имеет большого значения, следует также из данных по фонемной классификации стационарных шум-
Рис. 10.12. Спектры естественных изолированно произнесенных согласных [э] (вверху) и [|] (внизу). По [Лб].
ных согласных [165' 167]. На рис. 10.12 приведены спектры естественных изолированных согласных Ы и [{]. Точкой отмечен спектральный максимум, частотное положение которого, как показано в [165], определяет высоту звука и одновременно используется носителями русского языка для различения твердых и мягких согласных.
261
2ь<1
В контрольных экспериментах [167] использовались полусинтетические стимулы: основная часть спектра стимула (выше 2500 Гц) создавалась за счет естественных согласных, нижняя часть спектра создавалась с помощью шума, пропущенного через резонансный контур с перестраиваемой частотой. Определялась частота контура (спектрального максимума), соответствующая границе между твердыми и мягкими согласными. Оказалось, что значения границы практически идеально совпали для Ы и [I], хотя, как видно из рис. 10.12, спектры этих звуков в основной их части сильно различаются.
Для того чтобы приведенные данные были совместимы с гипотезой кодирования величиной возбуждения (см. раздел 10.1.1), необходимо допустить, что коэффициенты связи суммирующего элемента с частотными каналами периферической слуховой системы не равны нулю лишь на весьма ограниченных участках шкалы z. Лишь в этом случае отклик сумматора будет определяться только локальными свойствами спектра. Очевидно, что при этом допущении гипотеза теряет всю свою привлекательность.
10.3.2. НЕОДНОРОДНОСТЬ НА СПЕКТРЕ КАК ФОНЕТИЧЕСКИЙ ПРИЗНАК
В работе [108] была сделана попытка определить, какими особенностями должен характеризоваться спектр синтетического гласного, чтобы человек мог обнаружить присутствие в этом гласном второй форманты.
В экспериментах применялись двухформантные синтетические гласные с ^=600 Гц, ^„=300 Гц и переменными значениями Когда вторая форманта в стимуле полностью подавлялась, сигнал воспринимался как [о] или [и]. Определялось минимальное значение амплитуды второй форманты, при котором звук изменял фонемное качество. В результате эксперимента был получен набор спектров, соответствующих порогу обнаружения второй форманты. Три из них приведены на рис. 10.13. Можно видеть, что в спектре, соответствующем стимулу с ^2=1500 Гц, формально нет второго максимума (амплитуда гармоники с частотой 1500 Гц равна таковой для ближайшей более низкой гармоники). В данном случае приходится говорить не о максимуме, а о неоднородности на спектре.