Hurtownie danych - pojęcia

Co to jest hurtownia danych?

Hurtownie danych to proces tworzenia i użytkowania hurtowni danych. Hurtownia danych jest zbudowana poprzez integrację danych z wielu heterogenicznych źródeł, które obsługują raportowanie analityczne, ustrukturyzowane i / lub zapytania ad hoc oraz podejmowanie decyzji. Hurtownia danych obejmuje czyszczenie danych, integrację danych i konsolidację danych.

Korzystanie z informacji z hurtowni danych

Istnieją technologie wspomagania decyzji, które pomagają wykorzystać dane dostępne w hurtowni danych. Technologie te pomagają kierownictwu w szybkim i efektywnym korzystaniu z magazynu. Potrafią zbierać dane, analizować je i podejmować decyzje na podstawie informacji znajdujących się w hurtowni. Informacje zebrane w hurtowni można wykorzystać w dowolnej z następujących domen -

  • Tuning Production Strategies - Strategie produktowe można dobrze dostroić, zmieniając pozycjonowanie produktów i zarządzając portfelami produktów, porównując sprzedaż kwartalną lub roczną.

  • Customer Analysis - Analiza klienta odbywa się poprzez analizę preferencji zakupowych klienta, czasu zakupu, cykli budżetowych itp.

  • Operations Analysis- Hurtownia danych pomaga również w zarządzaniu relacjami z klientami i dokonywaniu korekt środowiskowych. Informacje te pozwalają nam również analizować operacje biznesowe.

Integrowanie heterogenicznych baz danych

Aby zintegrować heterogeniczne bazy danych, mamy dwa podejścia -

  • Podejście oparte na zapytaniach
  • Podejście oparte na aktualizacji

Podejście oparte na zapytaniach

Jest to tradycyjne podejście do integracji heterogenicznych baz danych. To podejście zostało użyte do zbudowania opakowań i integratorów na podstawie wielu heterogenicznych baz danych. Ci integratorzy są również nazywani mediatorami.

Proces podejścia opartego na zapytaniach

  • Gdy zapytanie jest wysyłane po stronie klienta, słownik metadanych tłumaczy zapytanie na odpowiednią formę dla poszczególnych zaangażowanych witryn heterogenicznych.

  • Teraz te zapytania są mapowane i wysyłane do lokalnego procesora zapytań.

  • Wyniki z heterogenicznych witryn są integrowane w globalnym zestawie odpowiedzi.

Niedogodności

  • Podejście oparte na zapytaniach wymaga złożonych procesów integracji i filtrowania.

  • Takie podejście jest bardzo nieefektywne.

  • Jest to bardzo kosztowne w przypadku częstych zapytań.

  • Takie podejście jest również bardzo kosztowne w przypadku zapytań wymagających agregacji.

Podejście oparte na aktualizacji

To alternatywa dla tradycyjnego podejścia. Dzisiejsze systemy hurtowni danych stosują podejście oparte na aktualizacjach, a nie tradycyjne podejście omówione wcześniej. W podejściu opartym na aktualizacjach informacje z wielu heterogenicznych źródeł są zintegrowane z wyprzedzeniem i przechowywane w magazynie. Te informacje są dostępne do bezpośredniego wyszukiwania i analizy.

Zalety

Takie podejście ma następujące zalety -

  • Takie podejście zapewnia wysoką wydajność.

  • Dane są z wyprzedzeniem kopiowane, przetwarzane, integrowane, opisywane, podsumowywane i restrukturyzowane w semantycznym magazynie danych.

  • Przetwarzanie zapytań nie wymaga interfejsu do przetwarzania danych w źródłach lokalnych.

Funkcje narzędzi i programów narzędziowych hurtowni danych

Poniżej przedstawiono funkcje narzędzi i narzędzi hurtowni danych -

  • Data Extraction - Obejmuje gromadzenie danych z wielu heterogenicznych źródeł.

  • Data Cleaning - Obejmuje wyszukiwanie i poprawianie błędów w danych.

  • Data Transformation - Obejmuje konwersję danych ze starszego formatu na format magazynowy.

  • Data Loading - Obejmuje sortowanie, podsumowywanie, konsolidację, sprawdzanie integralności oraz budowanie indeksów i partycji.

  • Refreshing - Obejmuje aktualizację ze źródeł danych do hurtowni.

Note - Czyszczenie danych i transformacja danych to ważne kroki w poprawie jakości danych i wyników eksploracji danych.