Научная литература
booksshare.net -> Добавить материал -> Биология -> Андреев В.Л. -> "Классификационные построения в экологии и систематике" -> 48

Классификационные построения в экологии и систематике - Андреев В.Л.

Андреев В.Л. Классификационные построения в экологии и систематике — М.: Наука, 1980. — 142 c.
Скачать (прямая ссылка): klassifikacionniepostroeniyavekologii1980.pdf
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 58 >> Следующая

Попробуем, однако, использовать следующий прием. Повернем оси координат на такой угол, чтобы одна из осей оказалась расположенной в направлении наибольшего разброса всех N точек (рис. 9.1). Если теперь спроектировать точки на новые направления, то на одном из них (Ех) получим две четко различающиеся группы. Вторую ось для разделения можно и не учитывать. Итак, вместо исходного двухмерного пространства используется подпространство Ех, в котором и решается поставленная задача разделения.
Рассмотрим алгебраические операции, требуемые для описания подпространства Ех.. Из аналитической геометрии известно, что при повороте осей координат 5, на некоторый угол а, новые коорди-118
Рис. 9.1. Выбор подпространства Es для разделения неоднородной совокупности объектов (пояснение см. в тексте)
ех. = cos а • хь — sin ах„., е.г. = sinao-!. -j- cosax2..
Обозначив сог коэффициенты при xt., получим ==
(9.2)
i
т. е. новые координаты представляют собой линейные комбинации исходных измерений. Набор коэффициентов со^- для каждой ек есть вектор, при проектировании на который исходных точек достигается их максимальный разброс. Значения ек составляют к-ю главную компоненту дисперсии. Аналитически элементы вектора cDjfc находятся как решение в системе уравнений
где || Vji || — ковариационная матрица исходных измерений, рассматриваемых как единая выборка; || 8;-г || — единичная матрица.
Решение системы (9.3) хорошо известно п сводится к поиску так называемых собственных векторов (<а^) и собственных значений ковариационной матрицы (кк). Нет необходимости осуществлять этот поиск расчетами вручную, так как для любой ЭВМ имеются типовые программы для его автоматической реализации.
Если значения ©а- известны, то, подставив в (9.2) значения признаков конкретных объектов, получим значения ек, которые принадлежат к-й главной компоненте. Отметим, что дисперсия к-й компоненты равна и все компоненты попарно некоррелиро-ваны. Кроме того, сумма всех собственных чисел факторизуемой матрицы равна сумме диагональных элементов этой же матрицы, а сумма квадратов элементов собственного вектора равна единице.
Наибольший интерес, конечно, представляют такие направления изменчивости, для которых Хк достаточно большое. При сильной коррелированности исходных измерений вся изменчивость распределяется по s направлениям, где s<^p. Это иногда дает возможность графически исследовать ситуацию, рассматривая вместо исходного р-мерного пространства s-мерное подпространство«но-Bbi.'i» признаков.
Из способа нахождения всех собственных векторов и собственных значений ковариационной матрицы следует, что элементы (о,• t зависят от масштаба исходных измерений. Поскольку учитываемые признаки часто имеют различную природу (и соответственно разные единицы измерения), все значения их следует подходящим образом нормировать. Вопрос выбора способа нормировки достаточно сложный и в каждом конкретном случае зависит от содержательных аспектов задачи, но в большинстве случаев он ре шается делением всех значений каждого г-го признака xik на сред
р
2(”Л — Мл) Щн = О,
(9.3)
нее арифметическое значение х;, или на среднее квадратическое отклонение.
Допустим, мы определили главные направления изменчивости и число направлений оказалось небольшим. Однако, распределив исходные точки в новых координатах, мы получили картину разброса с неясно выраженными плеядами, и нет уверенности в том, что полученные плеяды не есть результат случайности. Чтобы избежать напрасной работы по определению главных компонент, можно воспользоваться некоторыми критериями проверки однородности выборки [33]. В частности, полезна проверка следующей нуль-гипотезы.
Пусть выборка, включающая N независимых наблюдений, взята из нормальной ГС и пмеет параметры || xt ||, || а и ||, где г, / = = 1,2, ...р, р — число признаков. Нуль-гипотеза Н\ утверждает, что наблюдения в выборке принадлежат к одной и той же ^-мерной ГС с заданной ковариационной матрицей. Альтернативой Н\ является гипотеза н\ о том, что наблюдения принадлежат р-мер-ным ГС с различными средними, но одной и тон же ковариационной матрицей. Критерием проверки Н\ служит величина
U = %Dl
к
где
Dl = Ъ 2 (ха — *i) fefc — 2j), (9.5)
I j
т. e. Dt — махаланобисово расстояние каждой варианты до центра выборки, a U является суммой расстояний всех точек до этого центра || х; ||.
Величина U распределена как х2 с n—(N—1) р степенями свободы, а при п > 30 величина У 2 U имеет приближенно нормальное распределение со средним значением у 2п — 1 и стандартным отклонением, равным единице. Следовательно, при п 30 и t — У 2U — У 2 п — 1^>2 нуль-гипотеза отвергается и можно утверждать неоднородность выборки с вероятностью, большей 95%.
Рассмотрим пример. В исследованиях дрейфующей станции СП-6 и на судах АтлантНИРО были собраны пробы рачков-каля-нусов в Норвежском и Гренландском морях, а также в Девисовом проливе. При обработке проб было замечено, что пробы из Норвежского и Гренландского морей сравнительно однородны, а в пробах из Девисова пролива встречалось большое количество исключительно крупных особей. В связи с этим было выдвинуто предположение о том, что эти особи относятся к другому виду, хотя оба вида морфологически трудно различимы. Для проверки предположения были измерены некоторые морфологические признаки у 61 особи и проведен компонентный анализ выборки.
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 58 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed