Testowanie ETL - wprowadzenie

Dane w systemie hurtowni danych są ładowane za pomocą narzędzia ETL (Extract, Transform, Load). Jak sama nazwa wskazuje, wykonuje następujące trzy operacje -

  • Wyodrębnia dane z systemu transakcyjnego, którym może być Oracle, Microsoft lub jakakolwiek inna relacyjna baza danych,

  • Przekształca dane, wykonując operacje czyszczenia danych, a następnie

  • Ładuje dane do hurtowni danych OLAP.

Możesz także wyodrębniać dane z plików płaskich, takich jak arkusze kalkulacyjne i pliki CSV, za pomocą narzędzia ETL i ładować je do hurtowni danych OLAP w celu analizy danych i raportowania. Weźmy przykład, aby lepiej to zrozumieć.

Przykład

Załóżmy, że istnieje firma produkcyjna posiadająca wiele działów, takich jak sprzedaż, HR, Zarządzanie materiałami, EWM itp. Wszystkie te działy mają oddzielne bazy danych, których używają do przechowywania informacji w swojej pracy, a każda baza danych ma inną technologię, krajobraz, tabelę nazwy, kolumny itp. Teraz, jeśli firma chce analizować dane historyczne i generować raporty, wszystkie dane z tych źródeł danych powinny zostać wyodrębnione i załadowane do Hurtowni Danych, aby zapisać je do pracy analitycznej.

Narzędzie ETL wyodrębnia dane ze wszystkich tych heterogenicznych źródeł danych, przekształca dane (np. Stosowanie obliczeń, łączenie pól, kluczy, usuwanie nieprawidłowych pól danych itp.) I ładuje je do hurtowni danych. Później można użyć różnych narzędzi Business Intelligence (BI) do generowania przydatnych raportów, pulpitów nawigacyjnych i wizualizacji przy użyciu tych danych.

Różnica między narzędziami ETL i BI

Narzędzie ETL służy do wyodrębniania danych z różnych źródeł danych, przekształcania danych i ładowania ich do systemu DW; jednak narzędzie BI służy do generowania interaktywnych i ad-hoc raportów dla użytkowników końcowych, pulpitu nawigacyjnego dla wyższej kadry kierowniczej, wizualizacji danych z miesięcznych, kwartalnych i rocznych spotkań zarządu.

Najpopularniejsze narzędzia ETL to - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source itp.

Niektóre popularne narzędzia BI obejmują - SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition itp.

Proces ETL

Omówmy teraz bardziej szczegółowo kluczowe kroki związane z procedurą ETL -

Wyodrębnianie danych

Obejmuje wyodrębnianie danych z różnych heterogenicznych źródeł danych. Ekstrakcja danych z systemu transakcyjnego różni się w zależności od wymagań i używanego narzędzia ETL. Zwykle odbywa się to poprzez wykonywanie zaplanowanych zadań poza godzinami pracy, np. Wykonywanie zadań w nocy lub w weekend.

Przekształcanie danych

Obejmuje przekształcenie danych do odpowiedniego formatu, który można łatwo załadować do systemu DW. Transformacja danych obejmuje stosowanie obliczeń, łączeń i definiowanie kluczy podstawowych i obcych w danych. Na przykład, jeśli chcesz uzyskać% całkowitego przychodu, którego nie ma w bazie danych, zastosujesz formułę% w transformacji i załadujesz dane. Podobnie, jeśli masz imię i nazwisko użytkownika w różnych kolumnach, możesz zastosować operację konkatenacji przed załadowaniem danych. Niektóre dane nie wymagają żadnej transformacji; takie dane są znane jakodirect move lub pass through data.

Transformacja danych obejmuje również poprawianie i czyszczenie danych, usuwanie nieprawidłowych danych, niekompletne tworzenie danych i naprawianie błędów danych. Obejmuje również integralność danych i formatowanie niezgodnych danych przed załadowaniem ich do systemu DW.

Ładowanie danych do systemu DW

Polega na załadowaniu danych do systemu DW w celu analitycznego raportowania i informacji. System docelowy może być prostym, rozdzielanym plikiem płaskim lub hurtownią danych.

Funkcja narzędzia ETL

Typowa hurtownia danych oparta na narzędziach ETL wykorzystuje do wykonywania swoich funkcji obszar przemieszczania, integrację danych i warstwy dostępu. Zwykle jest to architektura 3-warstwowa.

  • Staging Layer - Warstwa pomostowa lub pomostowa baza danych służy do przechowywania danych wyodrębnionych z różnych źródłowych systemów danych.

  • Data Integration Layer - Warstwa integracyjna przekształca dane z warstwy przejściowej i przenosi dane do bazy danych, gdzie dane są uporządkowane w hierarchiczne grupy, często nazywane dimensionsi do facts i aggregate facts. Połączenie tabel faktów i wymiarów w systemie DW nazywa się aschema.

  • Access Layer - Warstwa dostępu jest wykorzystywana przez użytkowników końcowych do pobierania danych do celów analitycznych raportów i informacji.

Na poniższej ilustracji pokazano, jak te trzy warstwy oddziałują na siebie.