booksshare.net -> Добавить материал -> Биология -> Андреев В.Л. -> "Классификационные построения в экологии и систематике" -> 47

Классификационные построения в экологии и систематике - Андреев В.Л.

Андреев В.Л. Классификационные построения в экологии и систематике — М.: Наука, 1980. — 142 c.
Скачать (прямая ссылка): klassifikacionniepostroeniyavekologii1980.pdf

Предыдущая << 1 .. 41 42 43 44 45 46 < 47 > 48 49 50 51 52 53 .. 58 >> Следующая

В тех случаях, когда по каким-либо содержательным условиям! задачи под сомнение ставится целесообразность измерения сразу т признаков, следует ориентироваться на применение критерия
(8.30): если оставшиеся р — т признаков оказались значимыми, то сомнительные т могут быть отброшены.
Если же с содержательных позиций оценить целесообразность изъятия каких-либо конкретных тп признаков невозможно, то следует ориентироваться на формальное правило, согласно которому отбрасываются те признаки, которые в наименьшей степени .... влияют на величину множественной корреляции R2. Допустим, мы . отбрасываем тп признаков из р. Тогда вся процедура оценки R* v выполняется С™ раз. В сравнительно несложном варианте выбора г 20 признаков из 50 число я; 1013, что невозможно выполнить в разумное время даже с помощью современных ЭВМ. Чаще всего для этих целей используются приближенные методы. Например, первым в распознающую систему включается признак, который дает наибольший i?2 при индивидуальном учете, вторым включается тот, который совместно с первым отобранным дает наибольший R2, и т. д.
При другом, более грубом подходе первым удаляется наименее значимый признак, вторым — наименее значимый из оставшихся и т. д. до тех пор, пока R'1 остается значимым. После каждого отбрасывания все необходимые параметры пересчитываются заново.
В распознающих системах, основанных на дискриминантных функциях и расстоянии Махаланобиса, можно использовать нуль- ¦ гипотезу о том, что при отбрасывании m признаков оставшиеся р — тп признаков не несут добавочной информации относительно разделения. Для проверки гипотезы используется дисперсионное отношение
V - р - 1 NiN* (Dl - D*m)
F = ——v-—-------------------2----------— , (8.38)
P m (-Vi -j- ;V2) (X ~ 2) + Л\ду_4 V
где Dm — махаланобисово расстояние, основанное на тп признаках. Величина (8.38) имеет /’-распределение Фишера с р — тп и N — р — 1 степенями свободы.
Все трудности, связанные с отбором тп признаков из р, имеют такой же характер, как и в регрессионном анализе. Различие заключается лишь в том, что в данном случае наименее значимыми считаются признаки, которые в наименьшей степени влияют на величину D\-m- ;
Последовательное отбрасывание наименее значимых перемен- , ных совпадает с процедурой оптимального отбора в одном частном : случае, когда учитываемые признаки независимы (СП-матрицы | диагональны). В самом деле, расстояние Махаланобиса в этом |
\
случае равно
откуда видно, что вклад i-го признака в величину Б\л есть г-е слагаемое в (8.39). Чем больше эта величина по отношению к другим слагаемым, тем больше доля участия ?-го признака в различении классов.
В. Ю. Урбахом [641 предложен способ оценки уменьшения разделительной мощности дискриминантной функции после отбрасывания одного признака. Если удаляется г-й признак, то величина махаланобисова расстояния уменьшается на со?/а11, где сог — коэффициенты дискриминантной функции, о11 — элементы матрицы. W-1. С помощью критерия
?>? , (Лг — ‘IP — 2) N 1.2 '
(N — p — 2) (Дгх -r Nt) устанавливается, что при справедливости неравенства
о
со:
CD2
i-и признак является «вредным» и должен оыть оторошен.
Глава 9
МЕТОД ГЛАВНЫХ КОМПОНЕНТ
II ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ
9.1. Линейные комбинации признаков и автоматическая сортировка объектов по классам
В практике экологических исследований часто возникает необходимость выявления неоднородности некоторой группы объектов, составляющих случайную выборку из ГС. Одни из этих объектов даже при беглом осмотре могут быть отнесены к разным классам, другие — только после тщательных измерений и количественного сравнения каких-либо характерных признаков, и, наконец, встречаются промежуточные формы, которые создают существенные трудности для однозначного выбора.
Ясно, что при непосредственном разбиении «трудной» выборки на классы результаты будут в сильной степени зависеть от интуиции исследователя или, другими словами, от накопленного и подсознательно закрепленного опыта. Имея в виду этот недостаток
и учитывая ограниченные возможности человека оперировать измерениями многих признаков, можно всегда в таких случаях испытывать некоторые сомнения по поводу правильности и полноты проведенных построений.
В данной ситуации полезно использовать некоторые статистические модели и получить результаты, не зависящие от указанных субъективных причин. Для объяснения существа подобных приемов обратимся к геометрическим интерпретациям.
Анализируемая выборка может быть представлена как выборочная «гроздь» из N точек в /7-мерном пространстве признаков. Эту гроздь необходимо спроектировать в подпространство Ег р) так, чтобы получить максимально возможное рассеивание спроектированных точек.
Сказанное можно пояснить простым примером. На рис. 9.1 в пространстве координат двух признаков Sx u S2 (двухмерное пространство) со значениями хх. и хг. объекты выборки образуют две грозди точек, оконтуренные эллипсами рассеивания. Сразу видно, что выборка неоднородна и состоит из двух подсовокупностей (на рисунке заштриховано). Проектируя все точки выборки на любую из осей — S1 или S2, можно убедиться, что в каждом случае обнаруживается сильная трансгрессия обеих подсовокупностей. Следовательно, четкое разделение возможно только при одновременном учете Sx и S2, в то время как ни Sx ни S», взятые в отдельности, такой возможности не предоставляют.

Предыдущая << 1 .. 41 42 43 44 45 46 < 47 > 48 49 50 51 52 53 .. 58 >> Следующая