Глава 21.
Кластерный анализ
298
не имеет смысла, и исследователь должен самостоятельно определить, в какой
момент кластеризация должна быть прекращена.
В контексте кластерного анализа особое место занимает один из его видов, на-
f
зываемый иерархическим кластерным анализом. В SPSS он реализуется с по-
мощью команды
Иерархическая
кластеризация
. Этот вид кластерного анализа
чаще используется в биологии, экономике, социологии, политологии, нежели
в психологии. Психологи обычно анализируют переменные с целью найти ста-
тистические связи между ними; эти связи, как правило, указывают на сход-
ство между теми или иными исследуемыми факторами. Деление выборки на
группы в психологических анализах редко представляет интерес; в случаях,
когда это оказывается необходимым, психологи отдают предпочтение дискри-
минантному, а не кластерному анализу (см. главу 22).
Поскольку кластеризация переменных оказывается весьма доступной операци-
f
ей, было бы интересно сравнить ее результаты с результатами более сложного
факторного анализа. Как и в случае факторного анализа, выполнение кластер-
ного анализа и его результаты зависят от ряда параметров: способа вычисле-
ния расстояния между объектами, кластеризации индивидуальных объектов
и т. д.
Этапы кластерного анализа
Кластерный анализ выполняется в несколько этапов, приводящих к конечному ре-
зультату. Сначала мы рассмотрим пример, созданный специально, чтобы показать
суть кластерного анализа. Отметим, что кластерный анализ неприменим к файлам
данных, использовавшимся ранее, поскольку при их составлении основное внима-
ние было уделено смыслу и связям между переменными, а содержимое объектов
(то есть информация, касающаяся субъектов) практически не играло роли. Для де-
монстрации кластерного анализа нами был подготовлен файл
cars.sav
, содержащий
гипотетические данные о 15 подержанных автомобилях разных марок, выставлен-
ных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации
кластерного анализа.
Итак, выделяют несколько этапов кластерного анализа.
Выбор переменных-критериев для кластеризации
1.
. В нашем примере класте-
ризация будет осуществляться по следующим переменным:
цена
(стоимость),
т_сост
(экспертная оценка технического состояния по 10-балльной шкале),
воз-
раст
(количество лет эксплуатации),
пробег
(пройденный километраж с начала
эксплуатации).
Выбор способа измерения расстояния между объектами
2.
, или кластерами (из-
начально считается, что каждый объект соответствует одному кластеру). По
умолчанию используется квадрат Евклидова расстояния, согласно которому
расстояние между объектами равно сумме квадратов разностей между значе-
Этапы кластерного анализа
299
ниями одноименных переменных объектов. Предположим, что марка автомо-
биля A имеет показатели технического состояния и возраста 5 и 6, а марка
B — соответственно 7 и 4. Тогда по этим двум переменным (координатам)
расстояние между марками А и В вычисляется следующим образом: (5 – 7)
2
+
+ (6 – 4)
2
= 8. При выполнении анализа сумма квадратов разностей вычисля-
ется для всех переменных. Получаемые расстояния используются программой
при формировании кластеров. Помимо Евклидова существуют и другие виды
расстояний, вычисляемые по другим формулам, однако мы не будем на них
останавливаться. При необходимости обратитесь к руководству пользователя
SPSS.
Относительно вычисления расстояния может возникнуть следующий вопрос:
будет ли адекватным результат кластерного анализа в том случае, если пере-
менные имеют различные шкалы измерения? Так, все переменные файла
cars.
sav
имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS
используется стандартизация, в частности ее простой метод — нормализация
переменных, приводящая все переменные к стандартной z-шкале (среднее рав-
но 0, стандартное отклонение — 1). При нормализации всех переменных при
проведении кластерного их веса становятся одинаковыми. В случае если все
исходные данные имеют одну и ту же шкалу измерения либо веса переменных
по смыслу должны быть разными, стандартизацию переменных проводить не
нужно.
Формирование кластеров
3.
. Существует два основных метода формирования
кластеров: метод слияния и метод дробления. В первом случае исходные кла-
стеры увеличиваются путем объединения до тех пор, пока не будет сформиро-
ван единственный кластер, содержащий все данные. Метод дробления основан
на обратной операции: сначала все данные объединяются в один кластер, ко-
торый затем делится на части до тех пор, пока не будет достигнут желаемый
результат. По умолчанию программой SPSS используется метод слияния, и мы
рассмотрим его в этой главе.
В методе слияния предусмотрены несколько способов объединения объектов.
Способ, применяемый по умолчанию, называется межгрупповым связыванием,
или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее
значение расстояния между всеми парами групп и объединяет две группы,
оказавшиеся наиболее близкими. На первом шаге, когда все кластеры пред-
ставляют собой одиночные объекты, данная операция сводится к обычному
попарному сравнению расстояний между объектами. Термин «среднее значе-
ние» приобретает смысл лишь на втором этапе, когда сформированы кластеры,
содержащие более одного объекта. Так, в нашем примере на начальном этапе
имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта
с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторя-
ется, и в кластер объединяется еще одна пара переменных. На втором этапе вы
получите либо 13 свободных объектов и один кластер, объединяющий 2 объек-
та, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном
счете, все объекты окажутся в одном большом кластере. Существуют и другие
|