Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 55

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 49 50 51 52 53 54 < 55 > 56 57 58 59 60 61 .. 183 >> Следующая

144
Гл. 3. Регрессионный и корреляционный анализы
обозначает известную концентрацию молочной кислоты (мМ), а У — концентрацию молочной кислоты (мМ), определенную с помощью прибора. Полученные данные приведены в таблице
X у X У X У
1 1.1 5 7.3 15 18.7
1 0.7 5 ' 8.2 15 19.7
1 1.8 5 6.2 15 17.4
1 0.4 10 12.0 15 17.1
3 3.0 10 13.1
3 1.4 10 12.6
3 4.9 10 13.2
3 4.4
3 4.5
Заметим, что эти данные относятся к первому способу формирования выборки, так что X фиксировано на уровне одного из пяти значений: X — 1, X = 3, X = 5, X = 10 или X = 15. Выборочный коэффициент корреляции г = 0.987 указывает на очень сильную линейную зависимость между X и У. Это также ясно видно и на диаграмме рассеяния, приведенной на рис. 3.1.1. г
О I 2 3 4 5 6 7 8 9 Ю II 12 13 14 15 16
Рис. 3.1.1. График зависимости У от X, где У — концентрация молочной кислоты (мМ), определенная с помощью прибора, X — известная концентрация молочной кислоты (мМ).
Пример 3.1.2. Продолжим анализ примера 2.3.1. В этом случае X представляет собой венозное рН, а У — артериальное рН, измеренные одновременно у 108 пациентов в критическом состоя-
'¦ ' _I__I_I_I____|__±_ у
6.9 7.0 7.1 7.2 7.3 7.4 7.5
Рис. 3.1.2. График зависимости У от X, где У — артериальное рН, X — венозное рН, для 108 пациентов в критическом состоянии. Цифры 2 и 3 означают соответственно 2 и 3 совпадения в данной точке.
• 2
. • 22 • 2
2
•2« •
•2.
•Г 2
о V
30
45
60
Рис. 3.1.3. График зависимости У от X, где У — сердечный индекс [л/Смин-м2)]» X — среднее время циркуляции (с), для 107 пациентов в критическом состоянии-
146
Гл. 3. Регрессионный и корреляционный анализы
нии. Заметим, что эти наблюдения получены согласно второму способу образования выборки, так что X и Y суть случайные величины. Выборочный коэффициент корреляции г = 0.904 снова указывает на сильную линейную зависимость между X и Y. Данные графически представлены на рис. 3.1.2. В точках, куда попадает несколько наблюдений, печатается число совпадений (это делается программами вывода графиков во многих ПСП).
Пример 3.1.3. При определении производительности сердца дополнительно проводилось обычным образом измерение показателя, называемого средним временем циркуляции. Этот показатель измеряет среднее время с момента инъекции красителя до его появления в пробе артериальной крови. Рис. 3.1.3 представляет собой диаграмму рассеяния Y в сопоставлении с X, где Y есть сердечный индекс в [л/(мин • ма) ], а X — среднее время циркуляции в секундах, измеренные у 107 больных в критическом состоянии. Эта диаграмма рассеяния указывает на экспоненциальную зависимость между X и Y, но, если использовать log Y, можно получить линейную зависимость от X. Если преобразованием переменных удается перейти к линейной зависимости, то мы будем говорить, что модель существенно линейна. Заметим, однако, что к исходным данным можно применить и технику нелинейной регрессии (см. разд. 3.4).
Замечание 3.1.1. Программа корреляционного анализа может быть использована при определении наилучшего предиктора для Y из набора р переменных Хъ Х2, Хр. Переменная Хг, имеющая наибольшую (по абсолютной величине) корреляцию с Y, имеет и наиболее сильную линейную зависимость с Y. Такая процедура является первым шагом процедуры так называемой пошаговой регрессии, которая будет рассмотрена в разд. 3.3.
Теперь перейдем к обсуждению линейной регрессионной модели. Теория, используемая в следующих двух разделах, основана на предположении, что значения X фиксированы.
Однако эти же результаты, как мы увидим в разд. 3.1.1, можно применять и для случая, когда X есть случайная величина.
3.1.1. Простая линейная регрессионная модель
и оценивание по методу наименьших квадратов
Если предполагается, линейная зависимость между Y и X, то теоретическая модель задается уравнениями
Hi = Ро + Pi*/ + i = l.....п,
(3.1.2)
3.1. Линейная регрессия и корреляционный анализ
147
и называется моделью простой линейной регрессии У по X. Величины р0 и р\ являются неизвестными параметрами, а еь е2, ...
е„ суть^некоррелированные ошибки случайной переменной со средним 0 и неизвестной дисперсией я2, т. е.
?(г,)=0иГ(е,) = (1!, 1=1, п. (3.1.3)
На рис. 3.1.4 эта модель представлена графически. Для каждого значения X = х1 имеется распределение У (не обязательно нормальное) со средним значением р0.+ Рл- и дисперсией ст2, I = 1, п.
Рис. 3.1.4. Модель простой линейной регрессии. А — распределение У для X = = х2, среднее Р0 + Рл. дисперсия а2; В — прямая |/= Р0 + р\л;; С— Рас" пределение У" для X = аг1( среднее Р0 + РхАГ!, дисперсия а2.
Найдем теперь оценку неизвестных значений ра и р\, основанную на имеющейся у нас выборке объема п.. Наилучшие оценки Ь0 и Ьг для р0 и р\ получаются минимизацией соответственно по р0 и рх суммы квадратов отклонений
5= Е(^-Ро-Рл)2-
1=1
(3.1.4)
Эти оценки называются оценками наименьших квадратов и даются формулами
Ъй = у — Ъхх, (3.1.5)
1=1
Е
Е (*«• — *) (у* - р)
_ 1=1_
Предыдущая << 1 .. 49 50 51 52 53 54 < 55 > 56 57 58 59 60 61 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed