Лекция № Анализ данных. Управление данными Цель лекции: изучить основы анализа данных



бет2/6
Дата17.04.2023
өлшемі54,46 Kb.
#174694
түріЛекция
1   2   3   4   5   6
Байланысты:
Лекция 6-7

Основы Data Mining


Говоря об обработке больших объёмов данных, сталкиваешься с использованием термина Data Mining, который подразумевает, что данных огромное количество.


Data Mining – это процесс поддержки принятия решений, который основанна поиске в данных скрытых закономерностей (шаблонов информации). Это такая технология, предназначенная для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
Задачи (tasks) Data Mining иногда называют закономерностями (regularity) или техниками (techniques). К основным задачам Data Mining относятся: классификация, кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение отклонений, оценивание, анализ связей, подведение итогов.
Методы и алгоритмы Data Mining:

  • искусственные нейронные сети;

  • деревья решений;

  • символьные правила;

  • методы ближайшего соседа и k-ближайшего соседа;

  • метод опорных векторов;

  • байесовские сети;

  • линейная регрессия;

  • корреляционно-регрессионный анализ;

  • иерархические методы кластерного анализа;

  • неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы;

  • методы поиска ассоциативных правил, в том числе алгоритм Apriori;

  • метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

Data Mining может состоять из двух или трех стадий:
Стадия 1. Выявление закономерностей (свободный поиск).
Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).
Стадия 3. Анализ исключений – это стадия, предназначенная для выявления и объяснения аномалий, которые найдены в закономерностях.

      1. Визуализация инструментов Data Mining.

Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В ходе использования каждого из методов Data Mining, а точнее, его программной реализации, мы являемся визуализаторами, при помощи которых удаётся интерпретировать результаты, которые получены в результате работы соответствующих методов и алгоритмов.
Для деревьев решений таким визуализатором является дерево решений, список правил, таблица сопряженности.
Для нейронных сетей, в зависимости от инструмента, это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.
Для карт Кохонена: карты входов, выходов, другие специфические карты.
Для линейной регрессии в качестве визуализатора выступает линия регрессии.
Для кластеризации: дендрограммы, диаграммы рассеивания.
Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода.
Все эти способы визуального представления или отображения данных могут выполнять одну из функций:

  • являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);

  • помогают интерпретировать полученный результат;

  • являются средством оценки качества построенной модели;

  • сочетают перечисленные выше функции (дерево решений, дендрограмма).

Прежде чем использовать технологию Data Mining, необходимо тщательно проанализировать ее проблемы, ограничения и критические вопросы, с ней связанные, а также понять, чего эта технология не может.
Data Mining не может заменить аналитика!
Технология не может дать ответы на те вопросы, которые не были заданы. Она не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы.
Сложность разработки и эксплуатации приложения Data Mining
Поскольку данная технология является мультидисциплинарной областью, для разработки приложения, включающего Data Mining, необходимо задействовать специалистов из разных областей, а также обеспечить их качественное взаимодействие.




    1. Достарыңызбен бөлісу:
1   2   3   4   5   6




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет