Этапы
кластерного анализа
299
ниями одноименных переменных объектов. Предположим, что марка автомо-
биля A имеет показатели технического состояния и возраста 5 и 6, а марка
B — соответственно 7 и 4. Тогда по этим двум переменным (координатам)
расстояние между марками А и В вычисляется следующим образом: (5 – 7)
2
+
+ (6 – 4)
2
= 8. При выполнении анализа сумма квадратов разностей вычисля-
ется для всех переменных. Получаемые расстояния используются программой
при формировании кластеров. Помимо Евклидова существуют и другие виды
расстояний, вычисляемые по другим формулам, однако мы не будем на них
останавливаться. При необходимости обратитесь к руководству пользователя
SPSS.
Относительно вычисления расстояния может возникнуть следующий вопрос:
будет ли адекватным результат кластерного анализа в том случае, если пере-
менные имеют различные шкалы измерения? Так, все переменные файла
cars.
sav
имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS
используется стандартизация, в частности ее простой метод — нормализация
переменных, приводящая все переменные к стандартной
z-шкале (среднее рав-
но 0, стандартное отклонение — 1). При нормализации всех переменных при
проведении кластерного их веса становятся одинаковыми. В случае если все
исходные данные имеют одну и ту же шкалу измерения либо веса переменных
по смыслу должны быть разными, стандартизацию переменных проводить не
нужно.
Формирование кластеров
3.
. Существует два основных
метода формирования
кластеров:
метод слияния и
метод дробления. В первом случае исходные кла-
стеры увеличиваются путем объединения до тех пор, пока не будет сформиро-
ван единственный кластер, содержащий все данные. Метод дробления основан
на обратной операции: сначала все данные объединяются в один кластер, ко-
торый затем делится на части до тех пор, пока не будет достигнут желаемый
результат. По умолчанию программой SPSS используется метод слияния, и мы
рассмотрим его в этой главе.
В методе слияния предусмотрены несколько способов объединения объектов.
Способ, применяемый по умолчанию, называется
межгрупповым связыванием,
или
связыванием средних внутри групп. SPSS вычисляет наименьшее среднее
значение расстояния между всеми парами групп и объединяет две группы,
оказавшиеся наиболее близкими. На первом шаге,
когда все кластеры пред-
ставляют собой одиночные объекты, данная операция сводится к обычному
попарному сравнению расстояний между объектами. Термин «среднее значе-
ние» приобретает смысл лишь на втором этапе, когда сформированы кластеры,
содержащие более одного объекта. Так, в нашем примере на начальном этапе
имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта
с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторя-
ется, и в кластер объединяется еще одна пара переменных. На втором этапе вы
получите либо 13 свободных объектов и один кластер, объединяющий 2 объек-
та, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном
счете, все объекты окажутся в одном большом кластере. Существуют и другие