Руководство по анализу данных с помощью самой мощной и популярной


Глава 21.  Кластерный анализ 298



Pdf көрінісі
бет229/304
Дата10.10.2024
өлшемі8,54 Mb.
#206058
түріРуководство
1   ...   225   226   227   228   229   230   231   232   ...   304
Байланысты:
А. Наследов - SPSS 19. Профессиональный статистический анализ данных - 2011

Глава 21. 
Кластерный анализ
298
не имеет смысла, и исследователь должен самостоятельно определить, в какой 
момент кластеризация должна быть прекращена.
В контексте кластерного анализа особое место занимает один из его видов, на-
f
зываемый иерархическим кластерным анализом. В SPSS он реализуется с по-
мощью команды 
Иерархическая
кластеризация
. Этот вид кластерного анализа 
чаще используется в биологии, экономике, социологии, политологии, нежели 
в психологии. Психологи обычно анализируют переменные с целью найти ста-
тистические связи между ними; эти связи, как правило, указывают на сход-
ство между теми или иными исследуемыми факторами. Деление выборки на 
группы в психологических анализах редко представляет интерес; в случаях, 
когда это оказывается необходимым, психологи отдают предпочтение дискри-
минантному, а не кластерному анализу (см. главу 22).
Поскольку кластеризация переменных оказывается весьма доступной операци-
f
ей, было бы интересно сравнить ее результаты с результатами более сложного 
факторного анализа. Как и в случае факторного анализа, выполнение кластер-
ного анализа и его результаты зависят от ряда параметров: способа вычисле-
ния расстояния между объектами, кластеризации индивидуальных объектов 
и т. д.
Этапы кластерного анализа
Кластерный анализ выполняется в несколько этапов, приводящих к конечному ре-
зультату. Сначала мы рассмотрим пример, созданный специально, чтобы показать 
суть кластерного анализа. Отметим, что кластерный анализ неприменим к файлам 
данных, использовавшимся ранее, поскольку при их составлении основное внима-
ние было уделено смыслу и связям между переменными, а содержимое объектов 
(то есть информация, касающаяся субъектов) практически не играло роли. Для де-
монстрации кластерного анализа нами был подготовлен файл 
cars.sav
, содержащий 
гипотетические данные о 15 подержанных автомобилях разных марок, выставлен-
ных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации 
кластерного анализа.
Итак, выделяют несколько этапов кластерного анализа.
Выбор переменных-критериев для кластеризации
1. 
. В нашем примере класте-
ризация будет осуществляться по следующим переменным: 
цена
(стоимость), 
т_сост
(экспертная оценка технического состояния по 10-балльной шкале), 
воз-
раст
(количество лет эксплуатации), 
пробег
(пройденный километраж с начала 
эксплуатации).
Выбор способа измерения расстояния между объектами
2. 
или кластерами (из-
начально считается, что каждый объект соответствует одному кластеру). По 
умолчанию используется квадрат Евклидова расстояния, согласно которому 
расстояние между объектами равно сумме квадратов разностей между значе-


Этапы кластерного анализа
299
ниями одноименных переменных объектов. Предположим, что марка автомо-
биля A имеет показатели технического состояния и возраста 5 и 6, а марка 
B — соответственно 7 и 4. Тогда по этим двум переменным (координатам) 
расстояние между марками А и В вычисляется следующим образом: (5 – 7)
2
+
+ (6 – 4)
2
= 8. При выполнении анализа сумма квадратов разностей вычисля-
ется для всех переменных. Получаемые расстояния используются программой 
при формировании кластеров. Помимо Евклидова существуют и другие виды 
расстояний, вычисляемые по другим формулам, однако мы не будем на них 
останавливаться. При необходимости обратитесь к руководству пользователя 
SPSS.
Относительно вычисления расстояния может возникнуть следующий вопрос: 
будет ли адекватным результат кластерного анализа в том случае, если пере-
менные имеют различные шкалы измерения? Так, все переменные файла 
cars.
sav
имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS 
используется стандартизация, в частности ее простой метод — нормализация 
переменных, приводящая все переменные к стандартной z-шкале (среднее рав-
но 0, стандартное отклонение — 1). При нормализации всех переменных при 
проведении кластерного их веса становятся одинаковыми. В случае если все 
исходные данные имеют одну и ту же шкалу измерения либо веса переменных 
по смыслу должны быть разными, стандартизацию переменных проводить не 
нужно.
Формирование кластеров
3. 
. Существует два основных метода формирования 
кластеров: метод слияния и метод дробления. В первом случае исходные кла-
стеры увеличиваются путем объединения до тех пор, пока не будет сформиро-
ван единственный кластер, содержащий все данные. Метод дробления основан 
на обратной операции: сначала все данные объединяются в один кластер, ко-
торый затем делится на части до тех пор, пока не будет достигнут желаемый 
результат. По умолчанию программой SPSS используется метод слияния, и мы 
рассмотрим его в этой главе.
В методе слияния предусмотрены несколько способов объединения объектов. 
Способ, применяемый по умолчанию, называется межгрупповым связыванием
или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее 
значение расстояния между всеми парами групп и объединяет две группы, 
оказавшиеся наиболее близкими. На первом шаге, когда все кластеры пред-
ставляют собой одиночные объекты, данная операция сводится к обычному 
попарному сравнению расстояний между объектами. Термин «среднее значе-
ние» приобретает смысл лишь на втором этапе, когда сформированы кластеры, 
содержащие более одного объекта. Так, в нашем примере на начальном этапе 
имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта 
с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторя-
ется, и в кластер объединяется еще одна пара переменных. На втором этапе вы 
получите либо 13 свободных объектов и один кластер, объединяющий 2 объек-
та, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном 
счете, все объекты окажутся в одном большом кластере. Существуют и другие 




Достарыңызбен бөлісу:
1   ...   225   226   227   228   229   230   231   232   ...   304




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет