Говоря об обработке больших объёмов данных, сталкиваешься с использованием термина Data Mining, который подразумевает, что данных огромное количество.
Data Mining – это процесс поддержки принятия решений, который основанна поиске в данных скрытых закономерностей (шаблонов информации). Это такая технология, предназначенная для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
Задачи (tasks) Data Mining иногда называют закономерностями (regularity) или техниками (techniques). К основным задачам Data Mining относятся: классификация, кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение отклонений, оценивание, анализ связей, подведение итогов.
Методы и алгоритмы Data Mining:
искусственные нейронные сети;
деревья решений;
символьные правила;
методы ближайшего соседа и k-ближайшего соседа;
метод опорных векторов;
байесовские сети;
линейная регрессия;
корреляционно-регрессионный анализ;
иерархические методы кластерного анализа;
неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы;
методы поиска ассоциативных правил, в том числе алгоритм Apriori;
метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.
Data Mining может состоять из двух или трех стадий:
Стадия 1. Выявление закономерностей (свободный поиск).
Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).
Стадия 3. Анализ исключений – это стадия, предназначенная для выявления и объяснения аномалий, которые найдены в закономерностях.
Визуализация инструментов Data Mining.
Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В ходе использования каждого из методов Data Mining, а точнее, его программной реализации, мы являемся визуализаторами, при помощи которых удаётся интерпретировать результаты, которые получены в результате работы соответствующих методов и алгоритмов.
Для деревьев решений таким визуализатором является дерево решений, список правил, таблица сопряженности.
Для нейронных сетей, в зависимости от инструмента, это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.
Для карт Кохонена: карты входов, выходов, другие специфические карты.
Для линейной регрессии в качестве визуализатора выступает линия регрессии.
Для кластеризации: дендрограммы, диаграммы рассеивания.
Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода.
Все эти способы визуального представления или отображения данных могут выполнять одну из функций:
являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);
помогают интерпретировать полученный результат;
являются средством оценки качества построенной модели;
сочетают перечисленные выше функции (дерево решений, дендрограмма).
Прежде чем использовать технологию Data Mining, необходимо тщательно проанализировать ее проблемы, ограничения и критические вопросы, с ней связанные, а также понять, чего эта технология не может.
Data Mining не может заменить аналитика!
Технология не может дать ответы на те вопросы, которые не были заданы. Она не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы.
Сложность разработки и эксплуатации приложения Data Mining
Поскольку данная технология является мультидисциплинарной областью, для разработки приложения, включающего Data Mining, необходимо задействовать специалистов из разных областей, а также обеспечить их качественное взаимодействие.
Достарыңызбен бөлісу: |