Срс 1 Архитектура хранилища данных



Дата08.10.2022
өлшемі12,08 Kb.
#152213
түріОтчет
Байланысты:
СРС 1


СРС 1
Архитектура хранилища данных
Введение
Хранилище данных – это предметно-ориентированная информационная корпоративная база данных (БД), в которой собраны данные из различных источников внутри компании и эти данные используются для подготовки отчетов, анализа бизнес-процессов для поддержки принятия управленческих решений.


Модели хранилищ данных
Существует три общих модели хранилищ данных: виртуальное хранилище, витрина данных и корпоративное хранилище данных.

Виртуальное хранилище данных — это набор отдельных баз данных, которые можно использовать совместно, чтобы пользователь мог эффективно получать доступ ко всем данным, как если бы они хранились в одном хранилище данных;


Модель корпоративного хранилища данных предполагает хранение агрегированных данных, охватывающих всю организацию. Эта модель рассматривает хранилище данных как сердце информационной системы предприятия с интегрированными данными всех бизнес-единиц.


Корпоративное хранилище данных (КХД) преобразует данные, метаданные и нормативно-справочную информацию из разнородных источников и предоставляет их пользователям аналитических систем. КХД строится на базе клиент-серверной архитектуры, реляционной системой управления базами данных (СУБД), которая управляет логическими базами данных и утилит поддержки принятия решений.


Основными функциями КХД являются полный и своевременный сбор и обработка информации от источников данных; надежное и защищенное хранение данных и предоставление данных для аналитических работ.


А уже в зависимости от приоритетов в исполнении вышеуказанных основных функций необходимо выбрать архитектуру КХД.

Витрина данных – это набор тематически связанных БД, содержащий тематически ориентированные итоговые данные, в качестве расчетных величин для которых используются данные из всех БД.


Модель витрины данных используется для отчетности и анализа конкретных бизнес-линий. Т.е. витрина данных - это массив тематической, узконаправленной информации.

Концепция витрин данных имеет ряд несомненных достоинств, но также имеет ряд существенных недостатков в части обеспечения целостности и непротиворечивости хранимых в ней данных.


Сегодня чаще используются обьединенные концепции хранилищ данных и витрин данных, предложенной М. Демарестом, который в 1994 г. выдвинул идею объединить концепции и использовать ХД в качестве единого интегрированного источника данных для витрин данных.




Подход Инмана и подход Кимбалла
Все ХД можно разделить на две большие категории: нормализованные хранилища данных (подход Инмана) и размерностные хранилища (подход Кимбалла).
На практике не бывает ХД, в точности соответствующих той или иной идеальной модели.

Подход Ральфа Кимбалла основывается на важности витрин данных, которые являются хранилищами данных, принадлежащих конкретным направлениям бизнеса, где хранилище данных - это просто сочетание различных витрин данных, которые облегчают отчетность и анализ. Проект хранилища данных по принципу Кимбалла использует подход «снизу вверх».


Подход Билла Инмона основывается на том, что хранилище данных является централизованным хранилищем всех корпоративных данных. При таком подходе организация сначала создает нормализованную модель хранилища данных. Затем создаются витрины размерных данных на основе модели хранилища.


Нормализованные хранилища характеризуются как простые в создании и управлении. Но такие ХД имеют такой недостаток, как большое количество таблиц как следствие нормализации. Работа с таких количеством таблиц приводит к ухудшению производительности системы.


Размерностные хранилища же представляют собой уже не плоские таблицы, а кубы, учитывающие не только размерностные характеристики модели, но и ее внутреннюю структуру в виде, так называемого, графа расслоения и связности.


Основным достоинством размерностных ХД является более эффективное хранение данных, а также простота организации доступа к данным при анализе. Но есть и недостатки – более сложные процедуры подготовки и загрузки данных, и управление при изменении размерностей данных.


Размерностные ХД используют схему "звезда" или "снежинка" - 2 способа структурирования хранилища данных.


Схема типа «звезда» имеет централизованное хранилище данных, которое хранится в таблице фактов. Схема разбивает таблицу фактов на ряд денормализованных таблиц измерений.
Схема типа «снежинка» отличается тем, что использует нормализованные данные. Нормализация означает эффективную организацию данных так, чтобы все зависимости данных были определены, и каждая таблица содержала минимум избыточности. Таким образом, отдельные таблицы измерений разветвляются на отдельные таблицы измерений.

Также есть 2 разных способа загрузки данных в хранилище - это ETL и ELT.


ETL (Extract, Transform, Load) сначала извлекают данные из пула источников данных. Данные хранятся во временной промежуточной базе данных, выполняются операции преобразования, затем структурированные данные загружаются в хранилище и готовы к анализу.
В случае ELT (Extract, Load, Transform) данные сразу же загружаются после извлечения из исходных пулов данных. Данные преобразуются в системе хранилища данных для использования с инструментами бизнес-аналитики и аналитики.

Структура хранилища данных организации также зависит от его текущей ситуации и потребностей.


В последние годы хранилища данных переходят в облако. Новые облачные хранилища данных не придерживаются традиционной архитектуры и каждое из них предлагает свою уникальную архитектуру.

Достарыңызбен бөлісу:




©engime.org 2024
әкімшілігінің қараңыз

    Басты бет