Выполнила: Хамзеева Г.И.
Нур-Султан, 2020
Задача классификации
Задача кластеризации
Кластеризация
"автоматическая классификация"
"обучение без учителя"
"таксономия"
Цель кластеризации - поиск существующих структур Сравнение классификации и кластерзации Непересекающиеся и пересекающиеся кластеры Характеристиками кластера можно назвать два признака: Характеристиками кластера можно назвать два признака: - внутренняя однородность;
- внешняя изолированность.
Приведем краткую характеристику подходов к кластеризации: · Алгоритмы, основанные на разделении данных (Partitioning algorithms), в т.ч. итеративные: - o разделение объектов на k кластеров;
- o итеративное перераспределение объектов для улучшения кластеризации.
· Иерархические алгоритмы (Hierarchy algorithms): - o агломерация: каждый объект первоначально является кластером, кластеры,
- соединяясь друг с другом, формируют больший кластер и т.д.
· Методы, основанные на концентрации объектов (Density-based methods): - o основаны на возможности соединения объектов;
- o игнорируют шумы, нахождение кластеров произвольной формы.
· Грид-методы (Grid-based methods): - o квантование объектов в грид-структуры.
· Модельные методы (Model-based): - o использование модели для нахождения кластеров, наиболее соответствующих данным.
- · ручная проверка;
- · установление контрольных точек и проверка на полученных кластерах;
- · определение стабильности кластеризации путем добавления в модель новых переменных;
- · создание и сравнение кластеров с использованием различных методов. Разные методы
- кластеризации могут создавать разные кластеры, и это является нормальным явлением.
- Однако создание схожих кластеров различными методами указывает на правильность кластеризации.
Процесс кластеризации: - Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д.
Применение кластерного анализа: - в медицине
- в археологии
- в маркетинге
- В менеджменте
- В социологии
Выводы - Классификация, являясь наиболее простой задачей Data Mining, относится к стратегии "обучение с учителем", для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных. Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии "обучение без учителя", т.е. не требует наличия значения целевых переменных в обучающей выборке.
- Задача классификации решается при помощи различных методов, наиболее простой - линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных. Наиболее распространенные методы решения задачи кластеризации: метод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM. Сложностью кластеризации является необходимость ее оценки.
Достарыңызбен бөлісу: |