Hurtownie danych - pojęcia
Co to jest hurtownia danych?
Hurtownie danych to proces tworzenia i użytkowania hurtowni danych. Hurtownia danych jest zbudowana poprzez integrację danych z wielu heterogenicznych źródeł, które obsługują raportowanie analityczne, ustrukturyzowane i / lub zapytania ad hoc oraz podejmowanie decyzji. Hurtownia danych obejmuje czyszczenie danych, integrację danych i konsolidację danych.
Korzystanie z informacji z hurtowni danych
Istnieją technologie wspomagania decyzji, które pomagają wykorzystać dane dostępne w hurtowni danych. Technologie te pomagają kierownictwu w szybkim i efektywnym korzystaniu z magazynu. Potrafią zbierać dane, analizować je i podejmować decyzje na podstawie informacji znajdujących się w hurtowni. Informacje zebrane w hurtowni można wykorzystać w dowolnej z następujących domen -
Tuning Production Strategies - Strategie produktowe można dobrze dostroić, zmieniając pozycjonowanie produktów i zarządzając portfelami produktów, porównując sprzedaż kwartalną lub roczną.
Customer Analysis - Analiza klienta odbywa się poprzez analizę preferencji zakupowych klienta, czasu zakupu, cykli budżetowych itp.
Operations Analysis- Hurtownia danych pomaga również w zarządzaniu relacjami z klientami i dokonywaniu korekt środowiskowych. Informacje te pozwalają nam również analizować operacje biznesowe.
Integrowanie heterogenicznych baz danych
Aby zintegrować heterogeniczne bazy danych, mamy dwa podejścia -
- Podejście oparte na zapytaniach
- Podejście oparte na aktualizacji
Podejście oparte na zapytaniach
Jest to tradycyjne podejście do integracji heterogenicznych baz danych. To podejście zostało użyte do zbudowania opakowań i integratorów na podstawie wielu heterogenicznych baz danych. Ci integratorzy są również nazywani mediatorami.
Proces podejścia opartego na zapytaniach
Gdy zapytanie jest wysyłane po stronie klienta, słownik metadanych tłumaczy zapytanie na odpowiednią formę dla poszczególnych zaangażowanych witryn heterogenicznych.
Teraz te zapytania są mapowane i wysyłane do lokalnego procesora zapytań.
Wyniki z heterogenicznych witryn są integrowane w globalnym zestawie odpowiedzi.
Niedogodności
Podejście oparte na zapytaniach wymaga złożonych procesów integracji i filtrowania.
Takie podejście jest bardzo nieefektywne.
Jest to bardzo kosztowne w przypadku częstych zapytań.
Takie podejście jest również bardzo kosztowne w przypadku zapytań wymagających agregacji.
Podejście oparte na aktualizacji
To alternatywa dla tradycyjnego podejścia. Dzisiejsze systemy hurtowni danych stosują podejście oparte na aktualizacjach, a nie tradycyjne podejście omówione wcześniej. W podejściu opartym na aktualizacjach informacje z wielu heterogenicznych źródeł są zintegrowane z wyprzedzeniem i przechowywane w magazynie. Te informacje są dostępne do bezpośredniego wyszukiwania i analizy.
Zalety
Takie podejście ma następujące zalety -
Takie podejście zapewnia wysoką wydajność.
Dane są z wyprzedzeniem kopiowane, przetwarzane, integrowane, opisywane, podsumowywane i restrukturyzowane w semantycznym magazynie danych.
Przetwarzanie zapytań nie wymaga interfejsu do przetwarzania danych w źródłach lokalnych.
Funkcje narzędzi i programów narzędziowych hurtowni danych
Poniżej przedstawiono funkcje narzędzi i narzędzi hurtowni danych -
Data Extraction - Obejmuje gromadzenie danych z wielu heterogenicznych źródeł.
Data Cleaning - Obejmuje wyszukiwanie i poprawianie błędów w danych.
Data Transformation - Obejmuje konwersję danych ze starszego formatu na format magazynowy.
Data Loading - Obejmuje sortowanie, podsumowywanie, konsolidację, sprawdzanie integralności oraz budowanie indeksów i partycji.
Refreshing - Obejmuje aktualizację ze źródeł danych do hurtowni.
Note - Czyszczenie danych i transformacja danych to ważne kroki w poprawie jakości danych i wyników eksploracji danych.