Лекция № Анализ данных. Управление данными Цель лекции: изучить основы анализа данных



бет1/6
Дата17.04.2023
өлшемі54,46 Kb.
#174694
түріЛекция
  1   2   3   4   5   6
Байланысты:
Лекция 6-7


  1. Лекция № 6. Анализ данных. Управление данными Цель лекции: изучить основы анализа данных.

Содержание лекции: методы сбора, классификации и прогнозирования.
Деревья решений. Обработка больших объёмов данных. Методы и стадии Data Mining. Задачи Data Mining. Визуализация данных.


    1. Анализ данных




Анализ данных – это процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.
Для создания плана сбора данных необходимо:

  1. Определить проблемы и сформулировать цели исследования.

  2. Осуществить предварительное изучение интересующей темы.

  3. Разработать концепции исследования.

  4. Произвести детальное планирование исследования.

  5. Произвести отбор источников информации и сбор вторичных данных.

  6. Оценить полученные данные и принять решение, насколько необходимы первичные данные.

  7. Определить способ сбора первичных данных: опрос, наблюдение, эксперимент.

  8. Провести непосредственно сбор первичной информации.

  9. Представить результаты исследования (презентация).

Методы прогнозирования данных делятся на: интуитивные, которые имеют дело с суждениями и оценками экспертов; формализованные, которые уже описаны в литературе и на основе которых уже строят модели прогнозирования.
Деревья решений широко используются в области анализа данных.
Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.
Все задачи, которые решает способ дерева, могут быть объединены в следующие три класса:
Описание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.
Классификация: Деревья решений отлично справляются с задачами классификации, т.е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.
Регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).
Существует много алгоритмов, которые реализуют деревья решений, среди них такие, как CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наиболее распространены следующие:
CART (Classification and Regression Tree) – алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел такого дерева при разбиении имеет только двух потомков. Алгоритм решает задачи классификации и регрессии.
C4.5 – это алгоритм построения дерева решений, в котором количество потомков у узла не ограничено.




    1. Достарыңызбен бөлісу:
  1   2   3   4   5   6




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет