Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 122

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 116 117 118 119 120 121 < 122 > 123 124 125 126 127 128 .. 183 >> Следующая

332
Гл. 5. Методы многомерного статистического анализа
из W2 согласно выражению (5.3.26). Если mL — число наблюдений из Wlt отнесенных к W2, и т.г — число наблюдений из W2,
— —
классифицированных в Wlt то Рг (2 | 1) = тх1пх и Pr (1 ] 2) =
= т21п2. Этот метод дает большее смещение, чем предыдущий, и, если программой не выводятся значения дискриминантной функции для каждого наблюдения, им трудно пользоваться.
Метод 3. Этот метод состоит в разделении выборки из пг наблюдений из популяцииW, на две подвыборки. Наблюдения из первой подвыборки используются для вычисления дискриминантной функции, а члены второй подвыборки классифицируются согласно процедуре, полученной по первой подвыборке. Доля неверно классифицированных объектов является оценкой вероятности ошибочной классификации. Этот метод обладает тем преимуществом, что дает несмещенные оценки, но они имеют большие дисперсии, чем оценки, полученные по первым двум методам. Другой недостаток этого метода состоит в том, что не существует стандартного способа деления выборки.
Метод 4. Lachonbruch (1967) предложил процедуру скользящего экзамена. Из первой выборки исключается первое наблюдение, и дискриминантная функция строится по оставшимся наблюдениям. Затем классифицируется исключенное наблюдение. Процедура повторяется для каждого члена первой выборки. Доля неверно классифицированных объектов является оценкой величины Рг (2 | 1). Та же процедура применяется ко второй выборке для оценки Рг (1 | 2). Методом Монте-Карло Lachenbruch, Mickey (1968) показали, что смещение таких оценок пренебрежимо мало.
Метод 5. Этот метод аналогичен методу 1, только оценка D2
заменяется на А2. Сравнение всех приведенных выше методов можно найти в работе Lachenbruch (1975).
Пример 5.3.3 (продолжение). Применяя первый метод при
D2 = 9.58588 и К = —0.49, получим Рг (2 | 1) = Ф (—1.71) =
= 0.044 и Рг (1 | 2) = Ф (—1.39) = 0.082. Используя 113 значений дискриминантной функции, вторым методом получим тх = 5
и т2 = 4. Следовательно, Рг (2 | 1) = 5/70 = 0.071 и Рг (1 | 2) = = 4/43 = 0.093. Для реализации третьего и четвертого методов требуются специальные программы.
5.3.4. Вычисление апостериорных вероятностей
Во многих случаях не требуется отнести объект к той или иной популяции и находить вероятности ошибочной классификации, а более важно найти апостериорные вероятности (5.3.10) принад-
5.3. Классификация в случае двух популяций
333
лежности объекта популяции Wt или W2- В случае известных многомерных нормальных распределений популяций апостериорная вероятность того, что объект принадлежит Wi, имеет вид
Pr(Wi|x) =---J-(5.3.28)
I _L ^2 „ i fei -Г fea
где z задается равенством (5.3.1), a ?i и ?2 — формулами (5.3.4) и (5.3.6) соответственно. Для апостериорной вероятности выполняется равенство Pr (W2 \ х) = 1 — Pr (Wt ] х). При использовании оценок параметров можно заменить на zt см. (5.3.24), t = 1,2. Особенно просто вычислять такие вероятности с помощью программ, имеющихся в ПСП.
Пример 5.3.4. Во фрэмингхемском обследовании (Truett et al. (1967)) дискриминантный анализ использовался для описания зависимости от семи факторов риска апостериорной вероятности развития ишемической болезни сердца (CHD) за 12 лет. Несмотря на заметные отклонения данных от многомерного нормального распределения, такой анализ оказался мощным средством изучения влияния совокупностилракторш _риска_на_развитие ишемической болезни. "~ -
За~Т2 леТ'Т5ыли собраны данные о проявлениях ишемической болезни у 1929 мужчин и 2540 женщин в возрасте от 30 до 62 лет. В начале обследования все пациенты были здоровы. Семью переменными (факторами риска) служили: возраст (в годах), количество холестерина в крови (мг/100 мл), систолическое давление (мм рт. ст.), относительный вес (100 X вес — средний вес соответственно полу обследуемого), количество гемоглобина в крови (г/100 мл), количество выкуриваемых в день сигарет (0 — для некурящих, 1 — для выкуривающих меньше одной пачки, 2 — одну пачку, 3 — больше одной пачки), ЭКГ (0 — нормальная, 1 — ненормальная или неясная).
Апостериорная вероятность развития ишемической болезни (за 12-летний период) для данного пациента вычислялась по формуле:
Р = Pr (CHD|x) = 1
1 + ехр ( — ^ aiXt
Xl + х2
г=1
где коэффициенты и постоянные величины приводятся ниже в таблице отдельно для мужчин и женщин. Вычислительная процедура несколько отличалась от описанной в этой книге (детали см. в ТгиеН et а1. (1967)).
334
Гл. 5. Методы многомерного статистического анализа
Коэффициенты
Мужчины Женщины
Постоянная 10.8986 12.5933
Возраст 0.0708 0.0765
Холестерин 0.0105 0.0061
Систолическое давление 0.0166 0.0221
Относительный вес 0.0138 0.0053
Гемоглобин 0.0837 0.03554
Количество выкуриваемых 0.3610 0.0766
сигарет в день
ЭКГ 1.0459 1.4338
Для оценки годности дискриминантной модели было полу-
чено распределение величины Р и определены его децили. Распределение наблюдаемого числа случаев ишемической болезни сердца было разделено на децили. Суммированием вычисленных рисков
Предыдущая << 1 .. 116 117 118 119 120 121 < 122 > 123 124 125 126 127 128 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed