Eksploracja danych - ocena

Hurtownia danych

Hurtownia danych wykazuje następujące cechy wspierające proces podejmowania decyzji przez kierownictwo:

  • Subject Oriented- Hurtownia danych jest zorientowana tematycznie, ponieważ dostarcza nam informacji na dany temat, a nie bieżących działań organizacji. Przedmiotami tymi mogą być produkty, klienci, dostawcy, sprzedaż, przychody itp. Hurtownia danych nie koncentruje się na bieżącej działalności, a raczej na modelowaniu i analizie danych w celu podejmowania decyzji.

  • Integrated - Hurtownia danych jest budowana poprzez integrację danych z heterogenicznych źródeł, takich jak relacyjne bazy danych, pliki płaskie itp. Integracja ta usprawnia efektywną analizę danych.

  • Time Variant- Dane gromadzone w hurtowni danych są identyfikowane z określonym przedziałem czasu. Dane w hurtowni danych dostarczają informacji z historycznego punktu widzenia.

  • Non-volatile- Nieulotna oznacza, że ​​poprzednie dane nie są usuwane po dodaniu do nich nowych danych. Hurtownia danych jest oddzielona od operacyjnej bazy danych, dlatego częste zmiany w operacyjnej bazie danych nie są odzwierciedlane w hurtowni danych.

Magazyn danych

Hurtownie danych to proces tworzenia i użytkowania hurtowni danych. Hurtownia danych jest konstruowana poprzez integrację danych z wielu heterogenicznych źródeł. Obsługuje raportowanie analityczne, zapytania ustrukturyzowane i / lub ad hoc oraz podejmowanie decyzji.

Hurtownia danych obejmuje czyszczenie danych, integrację danych i konsolidację danych. Aby zintegrować heterogeniczne bazy danych, mamy dwa podejścia -

  • Podejście oparte na zapytaniach
  • Zaktualizuj podejście sterowane

Podejście oparte na zapytaniach

Jest to tradycyjne podejście do integracji heterogenicznych baz danych. To podejście służy do tworzenia opakowań i integratorów na podstawie wielu heterogenicznych baz danych. Ci integratorzy są również znani jako mediatorzy.

Proces podejścia opartego na zapytaniach

  • Gdy zapytanie jest wysyłane po stronie klienta, słownik metadanych tłumaczy zapytanie na zapytania, odpowiednie dla danej strony heterogenicznej.

  • Teraz te zapytania są mapowane i wysyłane do lokalnego procesora zapytań.

  • Wyniki z heterogenicznych witryn są integrowane w globalnym zestawie odpowiedzi.

Niedogodności

To podejście ma następujące wady -

  • Podejście oparte na zapytaniach wymaga złożonych procesów integracji i filtrowania.

  • Jest to bardzo nieefektywne i bardzo kosztowne w przypadku częstych zapytań.

  • Takie podejście jest kosztowne w przypadku zapytań wymagających agregacji.

Podejście oparte na aktualizacji

Dzisiejsze systemy hurtowni danych stosują podejście oparte na aktualizacjach, a nie tradycyjne podejście omówione wcześniej. W podejściu opartym na aktualizacjach informacje z wielu heterogenicznych źródeł są z wyprzedzeniem integrowane i przechowywane w magazynie. Te informacje są dostępne do bezpośredniego wyszukiwania i analizy.

Zalety

Takie podejście ma następujące zalety -

  • Takie podejście zapewnia wysoką wydajność.

  • Dane można z wyprzedzeniem kopiować, przetwarzać, integrować, opisywać, podsumowywać i restrukturyzować w semantycznym magazynie danych.

Przetwarzanie zapytań nie wymaga interfejsu z przetwarzaniem w źródłach lokalnych.

Od hurtowni danych (OLAP) do eksploracji danych (OLAM)

Online Analytical Mining integruje się z Online Analytical Processing z eksploracją danych i wiedzą w wielowymiarowych bazach danych. Oto diagram przedstawiający integrację OLAP i OLAM -

Znaczenie OLAM

OLAM jest ważny z następujących powodów -

  • High quality of data in data warehouses- Narzędzia do eksploracji danych są wymagane do pracy na zintegrowanych, spójnych i oczyszczonych danych. Te kroki są bardzo kosztowne w przypadku wstępnego przetwarzania danych. Hurtownie danych zbudowane w ramach takiego wstępnego przetwarzania są cennymi źródłami wysokiej jakości danych dla OLAP i data mining.

  • Available information processing infrastructure surrounding data warehouses - Infrastruktura przetwarzania informacji odnosi się do dostępu, integracji, konsolidacji i transformacji wielu heterogenicznych baz danych, dostępu do sieci i obiektów usługowych, narzędzi do raportowania i analizy OLAP.

  • OLAP−based exploratory data analysis- Eksploracyjna analiza danych jest wymagana do efektywnej eksploracji danych. OLAM zapewnia możliwość eksploracji danych na różnych podzbiorach danych i na różnych poziomach abstrakcji.

  • Online selection of data mining functions - Integracja OLAP z wieloma funkcjami eksploracji danych i eksploracją analityczną online zapewnia użytkownikom elastyczność wyboru żądanych funkcji eksploracji danych i dynamicznej wymiany zadań eksploracji danych.