Hurtownie danych - procesy systemowe
Mamy stałą liczbę operacji do zastosowania w operacyjnych bazach danych i mamy dobrze zdefiniowane techniki, takie jak use normalized data, keep table smallitp. Te techniki są odpowiednie do dostarczania rozwiązania. Jednak w przypadku systemów wspomagania decyzji nie wiemy, jakie zapytanie i operację trzeba wykonać w przyszłości. Dlatego techniki stosowane na operacyjnych bazach danych nie są odpowiednie dla hurtowni danych.
W tym rozdziale omówimy, jak budować rozwiązania hurtowni danych w oparciu o najlepsze technologie systemu otwartego, takie jak Unix i relacyjne bazy danych.
Przepływ procesów w hurtowni danych
Istnieją cztery główne procesy, które składają się na hurtownię danych -
- Wyodrębnij i załaduj dane.
- Czyszczenie i transformacja danych.
- Twórz kopie zapasowe i archiwizuj dane.
- Zarządzanie zapytaniami i kierowanie ich do odpowiednich źródeł danych.
Wyodrębnij i załaduj proces
Ekstrakcja danych pobiera dane z systemów źródłowych. Ładowanie danych pobiera wyodrębnione dane i ładuje je do hurtowni danych.
Note - Przed załadowaniem danych do hurtowni danych należy odtworzyć informacje pobrane ze źródeł zewnętrznych.
Kontrolowanie procesu
Sterowanie procesem polega na określeniu, kiedy rozpocząć wyodrębnianie danych i sprawdzaniu spójności danych. Sterowanie procesem zapewnia, że narzędzia, moduły logiczne i programy są wykonywane we właściwej kolejności i we właściwym czasie.
Kiedy rozpocząć wyodrębnianie
Dane muszą być w spójnym stanie, gdy są wyodrębniane, tj. Hurtownia danych powinna przedstawiać użytkownikowi jedną, spójną wersję informacji.
Na przykład w hurtowni danych do profilowania klientów w sektorze telekomunikacyjnym nielogiczne jest łączenie listy klientów o godz. 20:00 w środę z bazy danych klientów ze zdarzeniami subskrypcji klientów do 20:00 we wtorek. Oznaczałoby to, że znajdujemy klientów, dla których nie ma powiązanych subskrypcji.
Ładowanie danych
Po wyodrębnieniu danych są one ładowane do tymczasowego magazynu danych, gdzie są czyszczone i ujednolicane.
Note - Kontrole spójności są wykonywane tylko wtedy, gdy wszystkie źródła danych zostały załadowane do tymczasowego magazynu danych.
Oczyść i przekształć proces
Po wyodrębnieniu danych i załadowaniu do tymczasowego magazynu danych nadszedł czas na wykonanie czyszczenia i transformacji. Oto lista kroków związanych z czyszczeniem i transformacją -
- Wyczyść i przekształć załadowane dane w strukturę
- Podziel dane na partycje
- Aggregation
Wyczyść i przekształć załadowane dane w strukturę
Czyszczenie i przekształcanie załadowanych danych pomaga przyspieszyć zapytania. Można to zrobić poprzez zapewnienie spójności danych -
- w sobie.
- z innymi danymi w tym samym źródle danych.
- z danymi w innych systemach źródłowych.
- z istniejącymi danymi obecnymi w hurtowni.
Transformacja polega na przekształceniu danych źródłowych w strukturę. Strukturyzacja danych zwiększa wydajność zapytań i zmniejsza koszty operacyjne. Dane zawarte w hurtowni danych muszą zostać przekształcone, aby sprostać wymaganiom wydajnościowym i kontrolować bieżące koszty operacyjne.
Podziel dane na partycje
Zoptymalizuje wydajność sprzętu i uprości zarządzanie hurtownią danych. Tutaj dzielimy każdą tabelę faktów na wiele oddzielnych partycji.
Zbiór
Agregacja jest wymagana, aby przyspieszyć typowe zapytania. Agregacja polega na tym, że większość typowych zapytań analizuje podzbiór lub agregację szczegółowych danych.
Tworzenie kopii zapasowych i archiwizowanie danych
W celu odzyskania danych w przypadku utraty danych, awarii oprogramowania lub awarii sprzętu konieczne jest regularne tworzenie kopii zapasowych. Archiwizacja polega na usunięciu starych danych z systemu w formacie umożliwiającym ich szybkie przywrócenie w razie potrzeby.
Na przykład w hurtowni danych do analizy sprzedaży detalicznej może być wymagane przechowywanie danych przez 3 lata, a dane z ostatnich 6 miesięcy są przechowywane online. W takim scenariuszu często istnieje wymóg wykonywania porównań miesiąc do miesiąca dla tego i poprzedniego roku. W takim przypadku wymagamy przywrócenia niektórych danych z archiwum.
Proces zarządzania zapytaniami
Ten proces wykonuje następujące funkcje -
zarządza zapytaniami.
pomaga przyspieszyć czas wykonywania zapytań.
kieruje zapytania do ich najbardziej efektywnych źródeł danych.
zapewnia, że wszystkie źródła systemowe są wykorzystywane w najbardziej efektywny sposób.
monitoruje aktualne profile zapytań.
Informacje generowane w tym procesie są wykorzystywane przez proces zarządzania magazynem do określenia, które agregacje mają zostać wygenerowane. Ten proces na ogół nie działa podczas regularnego ładowania informacji do hurtowni danych.