booksshare.net -> Добавить материал -> Биология -> Лакин Г.Ф. -> "Биометрия " -> 138

Биометрия - Лакин Г.Ф.

Лакин Г.Ф. Биометрия — Высшая школа, 1990. — 350 c.
Скачать (прямая ссылка): biometriya1990.djvu

Предыдущая << 1 .. 132 133 134 135 136 137 < 138 > 139 140 141 142 143 144 .. 155 >> Следующая

0 Da D i3 Dlk ¦
D\i 0 D23 D%k
Du D23 0 D3h
_ Di* Dih D^k " • • •
0
где Dtj - расстояние между "-й и /-й выборками; k - число ВЫ' борок.
316
Эти таблицы являются исходными для выделения групп выборок, включающих
в себя только те из них, у которых взаимные расстояния относительно
невелики. Напротив, сходство выборок из разных таких групп должно быть
небольшим, а расстояния - значительными. Подобные группы относительно
сходных выборок называют кластерами (образами, таксонами), а процесс их
выделения - кластеризацией.
Существуют различные методы кластеризации. Так, согласно так
называемым агломеративным иерархическим процедурам, которые наиболее
часто используют в биологических исследованиях, процесс выделения
кластеров осуществляется пошаговым образом. На первом шаге в матрице
находят минимальную величину расстояния между некоторыми единицами,
которые объединяют и в дальнейшем рассматривают как кластер. После
нахождения расстояний этого кластера с остальными единицами отыскивают
новую минимальную величину Оц, так что образуется новый кластер. Такой
процесс последовательного укрупнения таксонов продолжают до получения
некоторой их структуры. Методы кластерного анализа описаны в [3, 4, 7].
Существует также метод многомерного анализа межвыбо• рочной
изменчивости, который позволяет одновременно решать как задачи
дискриминантного анализа, так и проблемы классификации. Этот метод
называют каноническим анализом (множественным дискриминантным анализом).
В соответствии с ним рассматривают межгрупповые и внутригрупповые
корреляционные матрицы и дисперсии. В результате находят новые линейные
признаки так, чтобы каждый из них разделял анализируемые выборки с
достижением минимальной трансгрессии, т. е. был дискриминантной функцией.
Любая нз них может считаться описывающей некоторую закономерность
межгрупповой вариации, конкретный смысл которой истолковывают при
рассмотрении коэффициентов с* у разных признаков х. Наиболее важные из
этих дискриминантных функций при попарном рассмотрении позволяют получить
плоскости, расположение на которых центров выборок наглядно представляет
их взаимоотношения. По этим графикам возможно выделение кластеров. О
каноническом анализе читатель может прочесть в [1, 4, 20].
Использование вычислительной техники при проведении биометрических
расчетов. В данном учебном пособии приведены главным образом алгоритмы,
ориентированные преимущественно на ручные вычисления при помощи
простейших электронных калькуляторов. Вместе с тем к настоящему времени
существуют вполне доступные программируемые калькуляторы отечественного
производства БЗ-34, МК-54, МК-56, МК-61, МК-52, к которым разработаны и
опубликованы [6, 8, 16] значительные библиотеки программ; среди них
программы автоматического проведения биометрических расчетов. Несмотря на
невысокое быстродейст-
317
вие этих калькуляторов, их применение позволяет в несколько раз ускорить
проведение биометрических вычислений, а также исключить многие возможные
ошибки.
Гораздо большие возможности открывает использование ЭВМ, особенно
персональных. С принципами их работы и применения читатель может
познакомиться по соответствующей литературе [9, 18]. Следует лишь помнить
о том, что при написании программ вычисления биометрических характеристик
необходимо ориентироваться на применение формул и алгоритмов, в которых
фигурируют суммы анализируемых показателей: 2*, 2л;2, 2л;3, 2л;4, 2xjx2 и
т. д, Получение этих величин весьма просто программируется; на их основе
могут быть определены средние величины, коэффициенты асимметрии,
эксцесса, корреляции и т. д. Программирование обработки вариационных
рядов целесообразно главным образом для получения кривых распределения,
сглаживающих эмпирическую картину.
При вводе данных в ЭВМ полезно предусмотреть программное выявление в
иих ошибок ввода. Для этой цели можно использовать, например, простейшую
проверку для каждого наблюдения выполнения неравенства Хщш^л^л^ах.
Предельные значения могут быть найдены предварительно и введены в ЭВМ до
начала ввода всего массива данных.
Основной трудностью обработки биометрических массовых данных на ЭВМ
является их точный ввод, исключающий весьма вероятные ошибки. Поэтому
целесообразнее оказывается обработка не отдельных признаков, которая
позволяет получить лишь небольшой набор характеристик (среднюю,
дисперсию, их ошибки, коэффициенты асимметрии и эксцесса), а
одновременный обсчет сразу всех исследуемых признаков. Это позволяет
вычислять кроме перечисленных одномерных показателей для каждой
переменной также и значения коэффициентов корреляции для всех попарных
сочетаний признаков, параметров уравнений регрессии. Для этого следует
последовательно вводить в ЭВМ не отдельные значения одного признака у
разных единиц наблюдения, а целые наборы признаков для каждой такой
единицы.
ПРИЛОЖЕНИЯ (МАТЕМАТИЧЕСКИЕ ТАБЛИЦЫ)

Предыдущая << 1 .. 132 133 134 135 136 137 < 138 > 139 140 141 142 143 144 .. 155 >> Следующая