Eksploracja danych - ocena
Hurtownia danych
Hurtownia danych wykazuje następujące cechy wspierające proces podejmowania decyzji przez kierownictwo:
Subject Oriented- Hurtownia danych jest zorientowana tematycznie, ponieważ dostarcza nam informacji na dany temat, a nie bieżących działań organizacji. Przedmiotami tymi mogą być produkty, klienci, dostawcy, sprzedaż, przychody itp. Hurtownia danych nie koncentruje się na bieżącej działalności, a raczej na modelowaniu i analizie danych w celu podejmowania decyzji.
Integrated - Hurtownia danych jest budowana poprzez integrację danych z heterogenicznych źródeł, takich jak relacyjne bazy danych, pliki płaskie itp. Integracja ta usprawnia efektywną analizę danych.
Time Variant- Dane gromadzone w hurtowni danych są identyfikowane z określonym przedziałem czasu. Dane w hurtowni danych dostarczają informacji z historycznego punktu widzenia.
Non-volatile- Nieulotna oznacza, że poprzednie dane nie są usuwane po dodaniu do nich nowych danych. Hurtownia danych jest oddzielona od operacyjnej bazy danych, dlatego częste zmiany w operacyjnej bazie danych nie są odzwierciedlane w hurtowni danych.
Magazyn danych
Hurtownie danych to proces tworzenia i użytkowania hurtowni danych. Hurtownia danych jest konstruowana poprzez integrację danych z wielu heterogenicznych źródeł. Obsługuje raportowanie analityczne, zapytania ustrukturyzowane i / lub ad hoc oraz podejmowanie decyzji.
Hurtownia danych obejmuje czyszczenie danych, integrację danych i konsolidację danych. Aby zintegrować heterogeniczne bazy danych, mamy dwa podejścia -
- Podejście oparte na zapytaniach
- Zaktualizuj podejście sterowane
Podejście oparte na zapytaniach
Jest to tradycyjne podejście do integracji heterogenicznych baz danych. To podejście służy do tworzenia opakowań i integratorów na podstawie wielu heterogenicznych baz danych. Ci integratorzy są również znani jako mediatorzy.
Proces podejścia opartego na zapytaniach
Gdy zapytanie jest wysyłane po stronie klienta, słownik metadanych tłumaczy zapytanie na zapytania, odpowiednie dla danej strony heterogenicznej.
Teraz te zapytania są mapowane i wysyłane do lokalnego procesora zapytań.
Wyniki z heterogenicznych witryn są integrowane w globalnym zestawie odpowiedzi.
Niedogodności
To podejście ma następujące wady -
Podejście oparte na zapytaniach wymaga złożonych procesów integracji i filtrowania.
Jest to bardzo nieefektywne i bardzo kosztowne w przypadku częstych zapytań.
Takie podejście jest kosztowne w przypadku zapytań wymagających agregacji.
Podejście oparte na aktualizacji
Dzisiejsze systemy hurtowni danych stosują podejście oparte na aktualizacjach, a nie tradycyjne podejście omówione wcześniej. W podejściu opartym na aktualizacjach informacje z wielu heterogenicznych źródeł są z wyprzedzeniem integrowane i przechowywane w magazynie. Te informacje są dostępne do bezpośredniego wyszukiwania i analizy.
Zalety
Takie podejście ma następujące zalety -
Takie podejście zapewnia wysoką wydajność.
Dane można z wyprzedzeniem kopiować, przetwarzać, integrować, opisywać, podsumowywać i restrukturyzować w semantycznym magazynie danych.
Przetwarzanie zapytań nie wymaga interfejsu z przetwarzaniem w źródłach lokalnych.
Od hurtowni danych (OLAP) do eksploracji danych (OLAM)
Online Analytical Mining integruje się z Online Analytical Processing z eksploracją danych i wiedzą w wielowymiarowych bazach danych. Oto diagram przedstawiający integrację OLAP i OLAM -
Znaczenie OLAM
OLAM jest ważny z następujących powodów -
High quality of data in data warehouses- Narzędzia do eksploracji danych są wymagane do pracy na zintegrowanych, spójnych i oczyszczonych danych. Te kroki są bardzo kosztowne w przypadku wstępnego przetwarzania danych. Hurtownie danych zbudowane w ramach takiego wstępnego przetwarzania są cennymi źródłami wysokiej jakości danych dla OLAP i data mining.
Available information processing infrastructure surrounding data warehouses - Infrastruktura przetwarzania informacji odnosi się do dostępu, integracji, konsolidacji i transformacji wielu heterogenicznych baz danych, dostępu do sieci i obiektów usługowych, narzędzi do raportowania i analizy OLAP.
OLAP−based exploratory data analysis- Eksploracyjna analiza danych jest wymagana do efektywnej eksploracji danych. OLAM zapewnia możliwość eksploracji danych na różnych podzbiorach danych i na różnych poziomach abstrakcji.
Online selection of data mining functions - Integracja OLAP z wieloma funkcjami eksploracji danych i eksploracją analityczną online zapewnia użytkownikom elastyczność wyboru żądanych funkcji eksploracji danych i dynamicznej wymiany zadań eksploracji danych.