Хранилище данных - Обзор
Термин «хранилище данных» был впервые введен Биллом Инмоном в 1990 году. Согласно Инмону, хранилище данных представляет собой предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый набор данных. Эти данные помогают аналитикам принимать обоснованные решения в организации.
Оперативная база данных ежедневно претерпевает частые изменения в связи с происходящими транзакциями. Предположим, руководитель бизнеса хочет проанализировать предыдущие отзывы о любых данных, таких как данные о продукте, поставщике или любых потребителях, тогда у руководителя не будет данных для анализа, поскольку предыдущие данные были обновлены в результате транзакций.
Хранилища данных предоставляют нам обобщенные и консолидированные данные в многомерном представлении. Наряду с обобщенным и консолидированным представлением данных, хранилища данных также предоставляют нам инструменты онлайн-аналитической обработки (OLAP). Эти инструменты помогают нам в интерактивном и эффективном анализе данных в многомерном пространстве. Этот анализ приводит к обобщению данных и интеллектуальному анализу данных.
Функции интеллектуального анализа данных, такие как ассоциация, кластеризация, классификация, прогнозирование, могут быть интегрированы с операциями OLAP для улучшения интерактивного интеллектуального анализа знаний на нескольких уровнях абстракции. Вот почему хранилище данных теперь стало важной платформой для анализа данных и онлайн-аналитической обработки.
Понимание хранилища данных
Хранилище данных - это база данных, которая хранится отдельно от оперативной базы данных организации.
В хранилище данных не происходит частого обновления.
Он обладает консолидированными историческими данными, которые помогают организации анализировать свой бизнес.
Хранилище данных помогает руководителям систематизировать, понимать и использовать свои данные для принятия стратегических решений.
Системы хранилищ данных помогают в интеграции множества прикладных систем.
Система хранилища данных помогает в консолидированном анализе исторических данных.
Почему хранилище данных отделено от операционных баз данных
Хранилища данных хранятся отдельно от операционных баз данных по следующим причинам:
Операционная база данных создана для хорошо известных задач и рабочих нагрузок, таких как поиск определенных записей, индексация и т. Д. По контракту, запросы к хранилищу данных часто бывают сложными и представляют собой общую форму данных.
Операционные базы данных поддерживают одновременную обработку нескольких транзакций. Для операционных баз данных требуются механизмы контроля и восстановления параллелизма, чтобы гарантировать надежность и согласованность базы данных.
Запрос к оперативной базе данных позволяет читать и изменять операции, в то время как запрос OLAP требует только read only доступ к сохраненным данным.
В оперативной базе данных хранятся текущие данные. С другой стороны, хранилище данных поддерживает исторические данные.
Возможности хранилища данных
Ключевые особенности хранилища данных обсуждаются ниже -
Subject Oriented- Хранилище данных является предметно-ориентированным, поскольку оно предоставляет информацию о предмете, а не о текущих операциях организации. Этими субъектами могут быть продукт, клиенты, поставщики, продажи, выручка и т. Д. Хранилище данных не фокусируется на текущих операциях, а скорее на моделировании и анализе данных для принятия решений.
Integrated - Хранилище данных создается путем интеграции данных из разнородных источников, таких как реляционные базы данных, плоские файлы и т. Д. Эта интеграция повышает эффективность анализа данных.
Time Variant- Данные, собранные в хранилище данных, относятся к определенному периоду времени. Данные в хранилище данных предоставляют информацию с исторической точки зрения.
Non-volatile- Энергонезависимая означает, что предыдущие данные не стираются при добавлении к ним новых. Хранилище данных хранится отдельно от оперативной базы данных, поэтому частые изменения в оперативной базе данных не отражаются в хранилище данных.
Note - Хранилище данных не требует обработки транзакций, восстановления и контроля параллелизма, поскольку оно физически хранится отдельно от оперативной базы данных.
Приложения хранилища данных
Как уже говорилось ранее, хранилище данных помогает руководителям компаний систематизировать, анализировать и использовать свои данные для принятия решений. Хранилище данных служит единственной частью замкнутой системы обратной связи «планирование-выполнение-оценка» для руководства предприятия. Хранилища данных широко используются в следующих областях -
- Финансовые услуги
- Банковские услуги
- Потребительские товары
- Секторы розничной торговли
- Контролируемое производство
Типы хранилищ данных
Обработка информации, аналитическая обработка и интеллектуальный анализ данных - это три типа приложений хранилищ данных, которые обсуждаются ниже:
Information Processing- Хранилище данных позволяет обрабатывать хранящиеся в нем данные. Данные можно обрабатывать с помощью запросов, базового статистического анализа, составления отчетов с использованием кросс-таблиц, таблиц, диаграмм или графиков.
Analytical Processing- Хранилище данных поддерживает аналитическую обработку хранящейся в нем информации. Данные можно анализировать с помощью основных операций OLAP, включая фрагменты и кости, детализацию, детализацию и поворот.
Data Mining- Интеллектуальный анализ данных поддерживает обнаружение знаний путем поиска скрытых закономерностей и ассоциаций, построения аналитических моделей, выполнения классификации и прогнозирования. Эти результаты добычи могут быть представлены с помощью инструментов визуализации.
Sr. No. | Хранилище данных (OLAP) | Операционная база данных (OLTP) |
---|---|---|
1 | Он включает историческую обработку информации. | Это связано с повседневной обработкой. |
2 | Системы OLAP используются работниками умственного труда, такими как руководители, менеджеры и аналитики. | Системы OLTP используются клерками, администраторами баз данных или специалистами по базам данных. |
3 | Используется для анализа бизнеса. | Он используется для ведения бизнеса. |
4 | Он ориентирован на выход информации. | Основное внимание уделяется данным в формате. |
5 | Он основан на схеме звезды, схеме снежинки и схеме созвездия фактов. | Он основан на модели отношений сущностей. |
6 | Он ориентирован на выход информации. | Это приложение ориентировано. |
7 | Он содержит исторические данные. | Он содержит текущие данные. |
8 | Он предоставляет обобщенные и консолидированные данные. | Он предоставляет примитивные и очень подробные данные. |
9 | Он обеспечивает обобщенное и многомерное представление данных. | Он обеспечивает подробное и однозначное реляционное представление данных. |
10 | Количество пользователей исчисляется сотнями. | Количество пользователей исчисляется тысячами. |
11 | Количество доступных записей измеряется миллионами. | Количество доступных записей выражается в десятках. |
12 | Размер базы данных составляет от 100 ГБ до 100 ТБ. | Размер базы данных от 100 МБ до 100 ГБ. |
13 | Они очень гибкие. | Обеспечивает высокую производительность. |