Hurtownie danych - kierownicy procesów
Kierownicy procesów są odpowiedzialni za utrzymanie przepływu danych zarówno do hurtowni danych, jak i poza nią. Istnieją trzy różne typy menedżerów procesów -
- Menedżer obciążenia
- Kierownik magazynu
- Menedżer zapytań
Menedżer obciążenia hurtowni danych
Menedżer ładowania wykonuje operacje wymagane do wyodrębnienia i załadowania danych do bazy danych. Rozmiar i złożoność menedżera obciążenia różni się w zależności od konkretnego rozwiązania w różnych hurtowniach danych.
Architektura menedżera obciążenia
Menedżer obciążenia wykonuje następujące funkcje -
Wyodrębnij dane z systemu źródłowego.
Szybkie ładowanie wyodrębnionych danych do tymczasowego magazynu danych.
Wykonuj proste transformacje w strukturę podobną do tej w hurtowni danych.
Wyodrębnij dane ze źródła
Dane są pobierane z operacyjnych baz danych lub zewnętrznych dostawców informacji. Bramy to aplikacje używane do wyodrębniania danych. Jest obsługiwany przez bazowy DBMS i umożliwia programowi klienckiemu generowanie kodu SQL do wykonania na serwerze. Przykładami bramy są Open Database Connection (ODBC) i Java Database Connection (JDBC).
Szybkie ładowanie
Aby zminimalizować całkowite okno obciążenia, dane należy załadować do magazynu w jak najkrótszym czasie.
Transformacje wpływają na szybkość przetwarzania danych.
Bardziej efektywne jest ładowanie danych do relacyjnej bazy danych przed zastosowaniem transformacji i sprawdzeń.
Technologia bram nie jest odpowiednia, ponieważ są one nieefektywne w przypadku dużych ilości danych.
Proste transformacje
Podczas ładowania może być wymagane wykonanie prostych przekształceń. Po wykonaniu prostych przekształceń możemy wykonać złożone sprawdzenia. Załóżmy, że ładujemy transakcję sprzedaży EPOS, musimy przeprowadzić następujące kontrole -
- Usuń wszystkie kolumny, które nie są wymagane w magazynie.
- Przekonwertuj wszystkie wartości na wymagane typy danych.
Kierownik magazynu
Za zarządzanie magazynem odpowiada kierownik magazynu. Składa się z oprogramowania systemowego innej firmy, programów w języku C i skryptów powłoki. Wielkość i złożoność menedżera magazynu różni się w zależności od konkretnego rozwiązania.
Architektura menedżera magazynu
Kierownik magazynu obejmuje:
- Kontrolowanie procesu
- Procedury składowane lub C z SQL
- Narzędzie do tworzenia kopii zapasowych / odzyskiwania
- Skrypty SQL
Funkcje menedżera magazynu
Kierownik magazynu pełni następujące funkcje -
Analizuje dane, aby przeprowadzić kontrolę spójności i integralności referencyjnej.
Tworzy indeksy, widoki biznesowe, widoki partycji na podstawie danych podstawowych.
Generuje nowe agregacje i aktualizuje istniejące agregacje.
Generuje normalizacje.
Przekształca i scala dane źródłowe magazynu tymczasowego z opublikowaną hurtownią danych.
Tworzy kopię zapasową danych w hurtowni danych.
Archiwizuje dane, których przechwycony okres trwałości dobiegł końca.
Note - Menedżer magazynu analizuje profile zapytań, aby określić, czy indeks i agregacje są odpowiednie.
Menedżer zapytań
Menedżer zapytań jest odpowiedzialny za kierowanie zapytań do odpowiednich tabel. Kierując zapytania do odpowiednich tabel, przyspiesza proces zapytania i odpowiedzi. Ponadto menedżer zapytań jest odpowiedzialny za planowanie wykonywania zapytań wysyłanych przez użytkownika.
Architektura menedżera zapytań
Menedżer zapytań zawiera następujące komponenty -
- Przekierowanie zapytań za pomocą narzędzia C lub RDBMS
- Procedury składowane
- Narzędzie do zarządzania zapytaniami
- Planowanie zapytań za pomocą narzędzia C lub RDBMS
- Planowanie zapytań za pośrednictwem oprogramowania innej firmy
Funkcje Menedżera zapytań
Prezentuje dane użytkownikowi w zrozumiałej dla niego formie.
Planuje realizację zapytań wysyłanych przez użytkownika końcowego.
Przechowuje profile zapytań, aby umożliwić kierownikowi magazynu określenie, które indeksy i agregacje są odpowiednie.