OBIEE - хранилище данных

На сегодняшнем конкурентном рынке большинство успешных компаний быстро реагируют на рыночные изменения и возможности. Требование быстрого реагирования связано с эффективным и действенным использованием данных и информации.“Data Warehouse”- это центральное хранилище данных, организованное по категориям для поддержки лиц, принимающих решения в организации. После того, как данные сохранены в хранилище данных, они могут быть доступны для анализа.

Термин «хранилище данных» был впервые изобретен Биллом Инмоном в 1990 году. По его словам, «хранилище данных представляет собой предметно-ориентированный, интегрированный, изменчивый во времени и энергонезависимый сбор данных для поддержки процесса принятия решений руководством».

Ральф Кимбалл дал определение хранилища данных на основе его функциональности. Он сказал: «Хранилище данных - это копия данных транзакции, специально структурированная для запросов и анализа».

Хранилище данных (DW или DWH) - это система, используемая для анализа данных и отчетности. Это репозитории, в которых хранятся данные из одного или нескольких разнородных источников данных. Они хранят как текущие, так и исторические данные и используются для создания аналитических отчетов. DW можно использовать для создания интерактивных информационных панелей для высшего руководства.

Например, аналитические отчеты могут содержать данные для квартальных сравнений или для годового сравнения отчета о продажах компании.

Данные в DW поступают из нескольких операционных систем, таких как продажи, человеческие ресурсы, маркетинг, управление складом и т. Д. Он содержит исторические данные из разных систем транзакций, но также может включать данные из других источников. DW используется для отделения рабочей нагрузки обработки и анализа данных от рабочей нагрузки транзакции и позволяет консолидировать данные из нескольких источников данных.

Потребность в хранилище данных

Например, у вас есть агентство жилищного кредитования, в которое данные поступают из нескольких приложений SAP / не-SAP, таких как маркетинг, продажи, ERP, HRM и т. Д. Эти данные извлекаются, преобразуются и загружаются в DW. Если вам нужно проводить сравнение продаж продукта за квартал / год, вы не можете использовать оперативную базу данных, так как это приведет к зависанию системы транзакций. Вот где возникает необходимость в использовании DW.

Характеристики хранилища данных

Некоторые из ключевых характеристик DW:

  • Он используется для отчетности и анализа данных.
  • Он предоставляет центральное хранилище данных, интегрированных из одного или нескольких источников.
  • В нем хранятся текущие и исторические данные.

Хранилище данных против транзакционной системы

Ниже приведены несколько различий между хранилищем данных и оперативной базой данных (системой транзакций).

  • Транзакционная система предназначена для известных рабочих нагрузок и транзакций, таких как обновление записи пользователя, поиск записи и т. Д. Однако транзакции DW более сложны и представляют собой общую форму данных.

  • Транзакционная система содержит текущие данные организации, тогда как DW обычно содержит исторические данные.

  • Транзакционная система поддерживает параллельную обработку нескольких транзакций. Механизмы управления параллелизмом и восстановления необходимы для поддержания согласованности базы данных.

  • Оперативный запрос к базе данных позволяет читать и изменять операции (удаление и обновление), в то время как для запроса OLAP требуется доступ только для чтения к сохраненным данным (оператор выбора).

  • DW включает в себя очистку данных, интеграцию данных и консолидацию данных.

DW имеет трехуровневую архитектуру - уровень источника данных, уровень интеграции и уровень представления. На следующей диаграмме показана общая архитектура системы хранилища данных.

Типы систем хранилищ данных

Ниже приведены типы систем DW -

  • Витрина данных
  • Онлайн-аналитическая обработка (OLAP)
  • Обработка онлайн-транзакций (OLTP)
  • Прогнозный анализ

Витрина данных

Витрина данных - это простейшая форма DW, которая обычно фокусируется на одной функциональной области, такой как продажи, финансы или маркетинг. Следовательно, витрина данных обычно получает данные только из нескольких источников данных.

Источниками могут быть внутренняя система транзакций, центральное хранилище данных или приложение внешнего источника данных. Денормализация является нормой для методов моделирования данных в этой системе.

Онлайн-аналитическая обработка (OLAP)

Система OLAP содержит меньшее количество транзакций, но включает в себя сложные вычисления, такие как использование агрегатов - Sum, Count, Average и т. Д.

Что такое агрегирование?

Мы сохраняем таблицы с агрегированными данными, такими как годовой (1 строка), квартальный (4 строки), ежемесячный (12 строк), и теперь мы хотим сравнить данные, например, ежегодно будет обрабатываться только 1 строка. Однако в неагрегированных данных все строки будут обработаны.

Система OLAP обычно хранит данные в многомерных схемах, таких как схема Star, схемы Galaxy (при этом таблицы фактов и измерений объединены логическим образом).

В системе OLAP время ответа для выполнения запроса является мерой эффективности. Приложения OLAP широко используются методами интеллектуального анализа данных для получения данных из систем OLAP. Базы данных OLAP хранят агрегированные исторические данные в многомерных схемах. Системы OLAP имеют задержку данных в несколько часов по сравнению с витринами данных, где задержка обычно приближается к нескольким дням.

Обработка онлайн-транзакций (OLTP)

Система OLTP известна большим количеством коротких онлайн-транзакций, таких как вставка, обновление, удаление и т. Д. Системы OLTP обеспечивают быструю обработку запросов, а также отвечают за обеспечение целостности данных в среде с множественным доступом.

Для систем OLTP эффективность измеряется количеством транзакций, обрабатываемых в секунду. Системы OLTP обычно содержат только текущие данные. Схема, используемая для хранения транзакционных баз данных, является моделью сущности. Нормализация используется для методов моделирования данных в системе OLTP.

OLTP против OLAP

На следующем рисунке показаны основные различия между системами OLTP и OLAP.

Indexes - В системе OLTP имеется только несколько индексов, в то время как в системе OLAP имеется много индексов для оптимизации производительности.

Joins- В системе OLTP нормализуется большое количество соединений и данных; однако в системе OLAP меньше объединений и ненормализованных.

Aggregation - В системе OLTP данные не агрегируются, в то время как в базе данных OLAP используется больше агрегатов.