Лекция № 6. Анализ данных. Управление даннымиЦельлекции: изучить основы анализа данных.
Содержаниелекции: методы сбора, классификации и прогнозирования.
Деревья решений. Обработка больших объёмов данных. Методы и стадии Data Mining. Задачи Data Mining. Визуализация данных.
Анализ данных
Анализданных– это процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.
Для создания плана сбора данных необходимо:
Определить проблемы и сформулировать цели исследования.
Осуществить предварительное изучение интересующей темы.
Разработать концепции исследования.
Произвести детальное планирование исследования.
Произвести отбор источников информации и сбор вторичных данных.
Оценить полученные данные и принять решение, насколько необходимы первичные данные.
Определить способ сбора первичных данных: опрос, наблюдение, эксперимент.
Провести непосредственно сбор первичной информации.
Представить результаты исследования (презентация).
Методы прогнозирования данных делятся на: интуитивные, которые имеют дело с суждениями и оценками экспертов; формализованные, которые уже описаны в литературе и на основе которых уже строят модели прогнозирования.
Деревья решений широко используются в области анализа данных.
Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.
Все задачи, которые решает способ дерева, могут быть объединены в следующие три класса:
Описание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.
Классификация: Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.
Регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).
Существует много алгоритмов, которые реализуют деревья решений, среди них такие, как CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наиболее распространены следующие:
CART(ClassificationandRegressionTree) – алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел такого дерева при разбиении имеет только двух потомков. Алгоритм решает задачи классификации и регрессии.
C4.5 – это алгоритм построения дерева решений, в котором количество потомков у узла не ограничено.