22 Дискриминантный анализ
316
Этапы дискриминантного анализа
317
Пошаговые алгоритмы вычислений
324
Представление результатов
328
Терминология, используемая при выводе
331
Завершение анализа и выход из программы
Дискриминантный анализ позволяет предсказать принадлежность объектов к двум
или более непересекающимся группам. Исходными данными для дискриминант-
ного анализа является множество объектов, разделенных на группы так, что каж-
дый объект может быть отнесен только к одной группе. Допускается при этом, что
некоторые объекты не относятся ни к какой группе (являются «неизвестными»).
Для каждого из объектов имеются данные по ряду количественных переменных.
Такие переменные называются дискриминантными переменными, или предикто-
рами. Задачами дискриминантного анализа является определение:
решающих правил, позволяющих по значениям дискриминантных переменных
f
(предикторов) отнести каждый объект (в том числе и «неизвестный») к одной
из известных групп;
«веса» каждой дискриминантной переменной для разделения объектов на
f
группы.
Существует множество ситуаций, в которых было бы весьма желательно вычис-
лить вероятность того или иного исхода в зависимости от совокупности измеряе-
мых переменных: например, подходит ли соискатель работы на ту или иную долж-
ность, страдает психически больной человек шизофренией или психозом, вернется
заключенный в тюрьму или к нормальной жизни после выхода на свободу, ка-
кие факторы влияют на увеличение риска пациента получить сердечный приступ
и т. п. Во всех перечисленных ситуациях есть две общие черты: во-первых, для
некоторых субъектов (не для всех) есть информация об их принадлежности к той
или иной группе; во-вторых, о каждом субъекте имеется дополнительная инфор-
мация для создания формулы, которая позволит спрогнозировать принадлежность
субъекта к той или иной группе.
Дискриминантный анализ имеет определенное сходство с кластерным анализом;
сходство заключается в том, что исследователь в обоих случаях ставит перед собой
цель разделить совокупность объектов (а не переменных) на несколько более мел-
ких (значимых) групп. Тем не менее процесс классификации в двух видах анализа
принципиально различен. В кластерном анализе объекты классифицируются на
основе их различий без какой-либо предварительной информации о количестве
315
Дискриминантный анализ
и составе классов. В дискриминантном анализе изначально заданы количество
и состав классов, и основная задача заключается в определении того, насколько
точно можно предсказать принадлежность объектов к классам при помощи данно-
го набора дискриминантных переменных (предикторов).
Дискриминантный анализ представляет собой альтернативу множественного
регрессионного анализа (см. главу 18) для случая, когда зависимая переменная
представляет собой не количественную, а номинальную переменную. При этом
дискриминантный анализ решает, по сути, те же задачи, что и множественный
регрессионный анализ: предсказание значений «зависимой» перемененной (в дан-
ном случае — категорий номинального признака) и определение того, какие «не-
зависимые» переменные лучше всего подходят для такого предсказания. Дискри-
минантный анализ основан на составлении уравнения регрессии (см. главы 17
и 18), использующего номинальную зависимую переменную (обратите внимание
на то, что она не является количественной, как в случае регрессионного анали-
за). Уравнение регрессии составляется на основе тех объектов, о которых известна
групповая принадлежность, что позволяет максимально точно подобрать его коэф-
фициенты. После того как уравнение регрессии получено, его можно использовать
для группировки интересующих нас объектов в целях прогнозирования их принад-
лежности к какому-либо классу. Команда дискриминантного анализа весьма непро-
ста и требует настройки множества параметров, описание большинства из которых
лежит за рамками темы данной книги. Тем не менее при необходимости вы можете
обратиться за дополнительной информацией к руководству пользователя SPSS.
Как и для большинства сложных статистических операций, параметры дискрими-
нантного анализа в основном определяются особенностями данных, а также задача-
ми исследователя. Как всегда, мы рассмотрим пример (на этот раз единственный)
проведения дискриминантного анализа в разделе пошаговых процедур, а раздел
«Представление результатов» посвятим интерпретации выводимых данных.
Для демонстрации дискриминантного анализа мы рассмотрим пример прогнози-
рования успешности обучения на основе предварительного тестирования. Файл
class.sav
содержит данные о 46 учащихся (объекты с 1 по 46), юношей и девушек
(переменная
пол
), закончивших курс обучения, в отношении которых известны
оценки успешности обучения — для этого используется переменная
оценка
(1 —
низкая, 2 — высокая). Кроме того, в файл включены данные предварительного
тестирования этих учащихся до начала обучения (13 переменных):
и1
f
,
...
,
и11
— 11 показателей теста интеллекта;
э_и
f
— показатель экстраверсии по тесту Г. Айзенка (H. Eysenck);
н
f
— показатель нейротизма по тесту Г. Айзенка.
Еще для 10 претендентов на курс обучения (объекты с 47 по 56) известны лишь ре-
зультаты их предварительного тестирования (13 перечисленных переменных). Зна-
чения переменной
оценка
для них, разумеется, неизвестны, и в файле данных им
соответствуют пустые ячейки. В процессе дискриминантного анализа мы, в част-
ности, попытаемся спрогнозировать успешность обучения этих 10 претендентов
в предположении, что выборки закончивших обучение и претендентов идентичны.
|