Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 48

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 183 >> Следующая

Рассмотрим теперь меры, приведенные в табл. 2.6.2. Вначале примем, что для любой из мер ее распределение в популяции известно, а затем получим его выборочные оценки. Соответствующие формулы для ASE приводятся в упомянутых статьях Гуд-мена и Крускала. Предположим, что признак А содержит г классов, а В содержит с классов и обозначим ячейки через (аъ Ьг), (аг; h)..... (а„ Ье).
Пусть — доля популяции в ячейке (аг, bj), р*. — сумма элементов строки i, р./ — сумма элементов столбца /, i = 1, г; j = 1, .... с.
I. Нет упорядоченности, нет симметрии. Рассмотрим сначала случай, когда i) факторы Л и В не получаются в результате дискретизаций непрерывных величин; ii) ни А, ни В не упорядочены; iii) классификация А предшествует классификации В хронологически, причинно или в каком-либо ином смысле. Предположим, что индивидуум выбирается случайно, а его Б-класс предсказывается 1) без информации о его Л-классе (случайное предсказание) или 2) при известном Л-классе (условное предсказание). Мерой процентного улучшения нашей способности предсказать В на основе информации об Л является
= ^Sj ma* Pi/ — max p./j ^1 — max p./j. (2.6.22)
Эта Х-асимметричная мера дает долю ошибок, которые можно исключить за счет знания Л-классификации. Предполагается, что max pt) Ф'тах р./.
126
Гл. 2. Элементарные статистические выводы
Мера Х„ обладает следующими свойствами: i) "кв не определено тогда и только тогда, когда распределение сосредоточено в одном столбце; ii) Хв = О тогда и только тогда, когда значение А не помогает предсказать значение В; ш)Яв= 1 тогда и только тогда, когда значение А полностью определяет значение В;
iv) из независимости следует, что Хв = 0, но обратное не верно;
v) не зависит от перестановок строк и столбцов. МП-оценкой меры Кд при max f.,- Ф п служит
Lb= ( 2 max fij — max f.f j — max f/j- (2.6.23)
Замечания 2.6.2. 1. Если Л предсказывается с помощью В, то аналогичной мерой и ее МП-оценкой служат соответственно:
КА — ^2 max р// — max p,-.j j ^ 1 — max p,-.j,
LA = ^2 шах Д7 — max f,-.j Д« — max
2. В качестве альтернативы для Хв введем меру К*в, используемую для сравнений между различными популяциями. Эта ^-асимметричная мера основывается на предположении, что случайно выбранный индивидуу.л с равной вероятностью 1/г принадлежит одному из классов А. Заменяя в этом случае ри на Рц1(г\~>{.) и подставляя в (2.6.22), получаем
1 г 1 г
— 2 шах(р(//р,.)---шах 2 (Р,//Р?.)
дя =---,
— max 2 (P(//Pi.)
г
2 m^{fijlfi-) - max 2 ifijlft-)
"-max 2 (flf/h.)
Аналогичные выражения для случая, когда класс А предсказывается при известном классе В, обозначаются через Х'а и Ь*а.
3. Другой альтернативой для Хв служит мера, которая сравнивает 1) случайное пропорциональное предсказание класса В с 2) условным пропорциональным предсказанием класса В при известном классе А. Мерой, дающей относительное уменьшение
2.6. Другие критерии независимости
127
в доле неправильных предсказаний при переходе от первого случая ко второму, служит х-асимметричное
т*=(Е Е(р?//р,.)-Ер?/)|(1-Ер?,).
Ее МП-оценкой служит
тв = (я Е Е (Ш - Е /2/)/("2 - Е /?/)¦
Аналогичные выражения для случая, когда класс Л предсказывается при известном классе В, обозначаются через тА и ТА.
Пример 2.6.4. При уже рассматривавшемся изучении влияния
курения представляет интерес предсказание В (наличие или отсутствие симптомов бронхита) на основе А — привычки к курению. В следующей таблице приводятся соответствующие данные.
В — Бронхит
Есть Нет
Некурящий 5 20 25
А — Привычка к куре- Бросивший нию курить 10 40 50
Курящий 15 10 25
„ 30 70 100
Для оценки %в заметим, что максимальными элементами строк являются соответственно 20, 40 и 15, а максимальная сумма элементов одного столбца равна тах /.у = 1.2 = 70, так что ьв =
= (20 + 40 + 15 — 70)7(100 — 70) = 0.167.
Для оценки Кв заметим, что доли максимальных элементов строки равны соответственно 20/25, 40/50 и 15/25, а сумма долей элементов максимального (второго) столбца равна 20/25 + 40/50+ + 10/25 = 100/50 = 2 по сравнению с 5/25 + 10/50 + 15/25 = 1 для первого столбца. Поэтому
128
Гл. 2. Элементарные статистические выводы
Для оценки тв используем
¦лл (85 + 400 + '00+ 1600 + 225 + 100^ __ (900 + mQ)
10 ООО — (900 + 4900) 600
4200
= 0.143.
Критерии для проверки гипотез, основанные на этих мерах, будут приведены ниже.
II. Упорядоченности нет, симметрия есть. Если'Л и В связаны симметрично, то модель, обосновывающая меру Хв, изменяется так, что для любого случайно выбранного индивидуума мы предсказываем с вероятностью 1/2 либо его Л-класс, либо его В-класс. Как и раньше, мы сравним предсказания в случаях, когда 1) дополнительная информация отсутствует и И) при предсказании класса одного признака имеется дополнительная информация о классе другого признака. Соответствующая мера связанности, называемая К-симметричной, выражается в виде
а =
? Р(т + II
_ .... _ Prnj — P-m — Pn (=1 /=1
'-y(P-m + Pm-)
(2.6.24)
Здесь ptm = max pij, pm} = max p0-, pm. = maxp,-., p.m ~-
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed