Dm: Задача кластеризации



Дата18.12.2021
өлшемі427,08 Kb.
#102565
түріЗадача
Байланысты:
Хамзеева

DM: Задача кластеризации

Выполнила: Хамзеева Г.И.


Нур-Султан, 2020

Задача классификации



Задача кластеризации

Кластеризация

"автоматическая классификация"

"обучение без учителя"

"таксономия"

Цель кластеризации - поиск существующих структур

Цель кластеризации - поиск существующих структур

Сравнение классификации и кластерзации

Непересекающиеся и пересекающиеся кластеры

Характеристиками кластера можно назвать два признака:

Характеристиками кластера можно назвать два признака:

  • внутренняя однородность;
  • внешняя изолированность.

Приведем краткую характеристику подходов к кластеризации:

· Алгоритмы, основанные на разделении данных (Partitioning algorithms), в т.ч. итеративные:

  • o разделение объектов на k кластеров;
  • o итеративное перераспределение объектов для улучшения кластеризации.
  • · Иерархические алгоритмы (Hierarchy algorithms):

  • o агломерация: каждый объект первоначально является кластером, кластеры,
  • соединяясь друг с другом, формируют больший кластер и т.д.
  • · Методы, основанные на концентрации объектов (Density-based methods):

  • o основаны на возможности соединения объектов;
  • o игнорируют шумы, нахождение кластеров произвольной формы.
  • · Грид-методы (Grid-based methods):

  • o квантование объектов в грид-структуры.
  • · Модельные методы (Model-based):

  • o использование модели для нахождения кластеров, наиболее соответствующих данным.

Оценка качества кластеризации

  • · ручная проверка;
  • · установление контрольных точек и проверка на полученных кластерах;
  • · определение стабильности кластеризации путем добавления в модель новых переменных;
  • · создание и сравнение кластеров с использованием различных методов. Разные методы
  • кластеризации могут создавать разные кластеры, и это является нормальным явлением.
  • Однако создание схожих кластеров различными методами указывает на правильность кластеризации.

Процесс кластеризации:

  • Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д.

Применение кластерного анализа:

  • в медицине
  • в археологии
  • в маркетинге
  • В менеджменте
  • В социологии

Выводы

  • Классификация, являясь наиболее простой задачей Data Mining, относится к стратегии "обучение с учителем", для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных. Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии "обучение без учителя", т.е. не требует наличия значения целевых переменных в обучающей выборке.
  • Задача классификации решается при помощи различных методов, наиболее простой - линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных. Наиболее распространенные методы решения задачи кластеризации: метод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM. Сложностью кластеризации является необходимость ее оценки.


Достарыңызбен бөлісу:




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет