Иерархическая кластеризация
Среди алгоритмов иерархической кластеризации (hierarchical clustering) наиболее распространены агломеративные или восходящие. Их цель — организовать некоторую иерархию кластеров объектов. Изначаль- но каждый объект представляет собой отдельный кластер. Затем по значе- нию функции расстояния 𝑅(𝐶1, 𝐶2), которая в случае одноэлементных кла- стеров равна 𝜌(𝑥, 𝑥′), пара самых близких кластеров 𝑈 и 𝑉 объединяется в один новый кластер W. Расстояние от него до любого другого кластера 𝑆 вычисляется по расстояниям 𝑅(𝑈, 𝑉), 𝑅(𝑈, 𝑆), 𝑅(𝑉, 𝑆):
𝑅(W, 𝑆) = 𝛼𝑈𝑅 (𝑈, 𝑆) + 𝛼𝑉𝑅 (𝑉, 𝑆) + 𝛽𝑅(𝑈, 𝑉) + 𝛾|𝑅 (𝑈, 𝑆) − 𝑅(𝑉, 𝑆)|
Существуют способы определить оптимальное число повторений этой операции для получения надежного разбиения множества объектов на кластеры.
Формула определения расстояния между кластерами является уни- версальной, и при некоторых значениях 𝛼𝑢, 𝛼𝑣, 𝛽, 𝛾 получаются те способы вычисления расстояния, которые обычно применяются: расстояние ближ- него / дальнего соседа, среднее расстояние, расстояние Уорда и др.
Достарыңызбен бөлісу: |