Hurtownie danych - tuning
Hurtownia danych stale się rozwija i nie można przewidzieć, jakie zapytanie użytkownik zamierza wysłać w przyszłości. Dlatego trudniej jest dostroić system hurtowni danych. W tym rozdziale omówimy, jak dostroić różne aspekty hurtowni danych, takie jak wydajność, ładowanie danych, zapytania itp.
Trudności w dostrajaniu hurtowni danych
Strojenie hurtowni danych jest trudną procedurą z następujących powodów -
Hurtownia danych jest dynamiczna; nigdy nie pozostaje niezmienna.
Bardzo trudno jest przewidzieć, jakie zapytanie użytkownik zamieści w przyszłości.
Wymagania biznesowe zmieniają się z czasem.
Użytkownicy i ich profile ciągle się zmieniają.
Użytkownik może przełączać się z jednej grupy do drugiej.
Z czasem zmienia się również obciążenie hurtowni danymi.
Note - Bardzo ważna jest pełna znajomość hurtowni danych.
Ocena wydajności
Oto lista obiektywnych miar wydajności -
- Średni czas odpowiedzi na zapytanie
- Szybkości skanowania
- Czas używany na zapytanie w ciągu dnia
- Zużycie pamięci na proces
- Przepustowość we / wy
Oto punkty, o których należy pamiętać.
Konieczne jest określenie środków w umowie SLA.
Nie ma sensu próbować dostrajać czasu odpowiedzi, jeśli są one już lepsze niż wymagane.
Dokonując oceny wyników, należy mieć realistyczne oczekiwania.
Istotne jest również, aby użytkownicy mieli realne oczekiwania.
Aby ukryć złożoność systemu przed użytkownikiem, należy stosować agregacje i widoki.
Możliwe jest również, że użytkownik może napisać zapytanie, do którego nie był przystosowany.
Dostrajanie ładowania danych
Ładowanie danych jest krytyczną częścią nocnego przetwarzania. Nic innego nie może działać, dopóki ładowanie danych nie zostanie zakończone. To jest punkt wejścia do systemu.
Note- Jeśli występuje opóźnienie w przesyłaniu danych lub w dostarczaniu danych, ma to zły wpływ na cały system. Dlatego bardzo ważne jest, aby najpierw dostroić ładowanie danych.
Istnieją różne podejścia do strojenia ładowania danych, które omówiono poniżej -
Bardzo powszechnym podejściem jest wstawianie danych przy użyciu rozszerzenia SQL Layer. W tym podejściu należy przeprowadzić normalne kontrole i ograniczenia. Po wstawieniu danych do tabeli kod zostanie uruchomiony, aby sprawdzić, czy jest wystarczająca ilość miejsca na wstawienie danych. Jeśli nie ma wystarczającej ilości miejsca, może być konieczne przydzielenie większej ilości miejsca tym tabelom. Te testy wymagają czasu i są kosztowne dla procesora.
Drugie podejście polega na obejściu wszystkich sprawdzeń i ograniczeń i umieszczeniu danych bezpośrednio we wstępnie sformatowanych blokach. Te bloki są później zapisywane w bazie danych. Jest szybszy niż pierwsze podejście, ale może działać tylko z całymi blokami danych. Może to prowadzić do marnotrawstwa przestrzeni.
Trzecie podejście polega na tym, że podczas ładowania danych do tabeli, która już zawiera tabelę, możemy zachować indeksy.
Czwarte podejście mówi, że aby załadować dane w tabelach, które już zawierają dane, drop the indexes & recreate thempo zakończeniu ładowania danych. Wybór między trzecim a czwartym podejściem zależy od tego, ile danych jest już załadowanych i ile indeksów trzeba odbudować.
Kontrole integralności
Sprawdzanie integralności ma duży wpływ na wydajność obciążenia. Oto punkty do zapamiętania -
Kontrole integralności muszą być ograniczone, ponieważ wymagają dużej mocy obliczeniowej.
W systemie źródłowym należy zastosować testy integralności, aby uniknąć obniżenia wydajności ładowania danych.
Zapytania dostrajające
Mamy dwa rodzaje zapytań w hurtowni danych -
- Naprawiono zapytania
- Zapytania ad hoc
Naprawiono zapytania
Stałe zapytania są dobrze zdefiniowane. Oto przykłady naprawionych zapytań -
- regularne raporty
- Zapytania w puszkach
- Wspólne agregacje
Strojenie stałych zapytań w hurtowni danych przebiega tak samo, jak w relacyjnym systemie baz danych. Jedyna różnica polega na tym, że ilość danych do przeszukania może być różna. Podczas testowania ustalonych zapytań dobrze jest przechowywać najbardziej udany plan wykonania. Przechowywanie tego planu wykonania pozwoli nam wykryć zmieniający się rozmiar danych i wypaczenie danych, ponieważ spowoduje to zmianę planu wykonania.
Note - Nie możemy zrobić więcej na tabeli faktów, ale mając do czynienia z tabelami wymiarów lub agregacjami, do dostrojenia tych zapytań można użyć zwykłej kolekcji poprawiania SQL, mechanizmu przechowywania i metod dostępu.
Zapytania ad hoc
Aby zrozumieć zapytania ad hoc, ważne jest, aby znać użytkowników ad hoc hurtowni danych. W przypadku każdego użytkownika lub grupy użytkowników musisz wiedzieć, co następuje -
- Liczba użytkowników w grupie
- Czy używają zapytań ad hoc w regularnych odstępach czasu
- Czy często używają zapytań ad hoc
- Czy sporadycznie używają zapytań ad hoc w nieznanych odstępach czasu.
- Maksymalny rozmiar zapytania, które zwykle uruchamiają
- Średni rozmiar zapytania, które zwykle uruchamiają
- Czy wymagają dostępu do danych podstawowych
- Czas logowania, jaki upłynął dziennie
- Szczytowy czas codziennego użytkowania
- Liczba zapytań wykonywanych w ciągu godziny szczytu
Points to Note
Ważne jest, aby śledzić profile użytkowników i identyfikować zapytania, które są regularnie uruchamiane.
Ważne jest również, aby wykonane strojenie nie miało wpływu na wydajność.
Zidentyfikuj podobne i ad hoc zapytania, które są często uruchamiane.
Jeśli te zapytania zostaną zidentyfikowane, baza danych ulegnie zmianie i będzie można dodać nowe indeksy do tych zapytań.
Jeśli te zapytania zostaną zidentyfikowane, można utworzyć nowe agregacje specjalnie dla tych zapytań, które spowodowałyby ich wydajne wykonanie.