Регрессионный анализ: построение предположений. Важ-
нейшей особенностью корреляционных исследований является воз-
можность при наличии сильной корреляции строить предположе-
ния о будущем поведении. Корреляция между двумя переменными
дает возможность на основании значений одной из них предска-
зать значения другой. Это несложно показать на примере со средни-
ми баллами. Если мы знаем, что время, посвященное учебе, и сред-
ний балл коррелируют и что некто занимается 45 часов в неделю,
мы сможем безошибочно предсказать относительно высокий сред-
ний балл для такого студента. Аналогично высокий средний балл
181
позволит вам предсказать время, уделяемое учебе. Построение пред-
положений на основании корреляционных исследований называ-
ется регрессионным анализом.
На рис. 20 представлен график рассеяния: а) для времени, по-
священного учебе, и среднего балла и б) бесполезно потраченного
времени и среднего балла. На каждом графике отображена и линия
регрессии, которая используется для построения предположений.
Линию регрессии также называют «оптимальной линией»: она пред-
ставляет собой наилучший из возможных способов обобщения то-
чек графика рассеяния. Это значит, что абсолютные значения рас-
стояний по вертикали между каждой точкой графика и линией рег-
рессии минимальны.
3,5
С
р
ед
н
и
й
б
а
л
л
3
2
1
10
20
30
40
50
(а) Время, потраченное на учебу
4
3
2
1
2,1
10
20
30
40
50
С
р
ед
н
и
й
б
а
л
л
(б) Бесполезно потраченное время
Рис. 20. Графики рассеяния с линиями регрессии
182
Линия регрессии рассчитывается по формуле Y = a + bX, где а –
точка, в которой прямая пересекает ось У (т. е. отрезок, отсекаемый
на оси У); b – угол наклона прямой, или ее относительная крутиз-
на. X – это известная величина, а У – величина, которую мы пытаем-
ся предсказать. Зная силу корреляции и стандартное отклонение
для коррелирующих переменных, можно вычислить величину b;
зная значение b и средние значения коррелирующих переменных,
можно найти а.
В регрессионном анализе для предсказания значения Y (напри-
мер, среднего балла) на основании значения X (например, времени,
посвященного учебе) используется уравнение регрессии. Y иногда
называют критериальной переменной, а X – предикторной пере-
менной. Однако для построения точных предположений корреля-
ция должна быть значительно выше нуля. Чем выше корреляция,
тем ближе будут точки графика рассеяния к линии регрессии и тем
больше будет уверенность в том, что ваши предположения верны.
Таким образом, отмеченная ранее проблема ограничения диапазона,
которая снижает корреляцию, также снижает достоверность пред-
сказаний. График, отражающий уравнение регрессии, показывает,
как строить предположения с помощью линии регрессии.
Например, какой средний балл стоит ожидать у студента, кото-
рый проводит за учебой по 34 часа в неделю. Чтобы получить от-
вет, проведем перпендикуляры от оси X к линии регрессии, а затем
от точки пересечения к оси Y. Значение точки на оси Y и будет
предполагаемым значением (напомним, что правильность предполо-
жения зависит от силы корреляции). Таким образом, по времени уче-
бы, равному 40 часам, можно предсказать средний балл, равный 3,4,
а по бесполезно потраченному 41 часу – средний балл чуть выше 2,3.
С помощью формулы регрессии можно вычислить более точные зна-
чения и сделать более точные предсказания.
Способ расчета коэффициентов регрессионного уравнения опи-
сан, например, в учебнике Гудвина, в приложении С, но после такого
ознакомления лучше использовать компьютерные программы рег-
рессионного анализа.
Следует знать, что регрессионный анализ применяется в боль-
шинстве исследований, о которых мы узнаем из средств массовой
информации.
183
К примеру, нам может встретиться отчет об исследовании «фак-
торов риска для инфаркта», в котором на основании значимой кор-
реляции между курением и сердечными заболеваниями сделан вы-
вод о том, что у людей, злоупотребляющих курением, вероятность
развития сердечно-сосудистых заболеваний выше, чем у некуря-
щих. Это значит, что курение является основанием для предсказа-
ния развития болезней сердца. На основании наличия корреляции
с помощью регрессионного анализа, зная первое, можно сделать
предположение относительно второго.
Достарыңызбен бөлісу: |