Hurtownie danych - omówienie
Termin „hurtownia danych” został po raz pierwszy wymyślony przez Billa Inmona w 1990 r. Według firmy Inmon hurtownia danych to zorientowany tematycznie, zintegrowany, zmienny w czasie i nieulotny zbiór danych. Te dane pomagają analitykom w podejmowaniu świadomych decyzji w organizacji.
Operacyjna baza danych podlega codziennie częstym zmianom ze względu na przeprowadzane transakcje. Załóżmy, że dyrektor biznesowy chce przeanalizować wcześniejsze opinie na temat jakichkolwiek danych, takich jak produkt, dostawca lub jakiekolwiek dane dotyczące konsumentów, wtedy dyrektor wykonawczy nie będzie miał dostępnych danych do analizy, ponieważ poprzednie dane zostały zaktualizowane z powodu transakcji.
Hurtownie danych dostarczają nam uogólnionych i skonsolidowanych danych w widoku wielowymiarowym. Oprócz uogólnionego i skonsolidowanego widoku danych hurtownie danych zapewniają nam również narzędzia do przetwarzania analitycznego online (OLAP). Narzędzia te pomagają nam w interaktywnej i efektywnej analizie danych w wielowymiarowej przestrzeni. Ta analiza skutkuje generalizacją danych i eksploracją danych.
Funkcje eksploracji danych, takie jak asocjacja, grupowanie, klasyfikacja, przewidywanie, można zintegrować z operacjami OLAP w celu usprawnienia interaktywnego eksploracji wiedzy na wielu poziomach abstrakcji. Dlatego hurtownia danych stała się obecnie ważną platformą do analizy danych i przetwarzania analitycznego online.
Zrozumienie hurtowni danych
Hurtownia danych to baza danych, która jest oddzielona od operacyjnej bazy danych organizacji.
W hurtowni danych nie ma częstych aktualizacji.
Posiada skonsolidowane dane historyczne, które pomagają organizacji analizować jej działalność.
Hurtownia danych pomaga kierownictwu organizować, rozumieć i wykorzystywać dane do podejmowania strategicznych decyzji.
Systemy hurtowni danych pomagają w integracji różnorodnych systemów aplikacji.
System hurtowni danych pomaga w skonsolidowanej analizie danych historycznych.
Dlaczego hurtownia danych jest oddzielona od operacyjnych baz danych
Hurtownie danych są oddzielone od operacyjnych baz danych z następujących powodów -
Operacyjna baza danych jest konstruowana dla dobrze znanych zadań i obciążeń, takich jak wyszukiwanie określonych rekordów, indeksowanie itp. W kontrakcie zapytania hurtowni danych są często złożone i przedstawiają ogólną postać danych.
Operacyjne bazy danych obsługują współbieżne przetwarzanie wielu transakcji. Operacyjne bazy danych wymagają mechanizmów kontroli współbieżności i odtwarzania, aby zapewnić solidność i spójność bazy danych.
Operacyjne zapytanie do bazy danych pozwala na odczyt i modyfikację operacji, podczas gdy zapytanie OLAP wystarczy read only dostęp do przechowywanych danych.
Operacyjna baza danych przechowuje aktualne dane. Z drugiej strony hurtownia danych przechowuje dane historyczne.
Funkcje hurtowni danych
Poniżej omówiono najważniejsze cechy hurtowni danych -
Subject Oriented- Hurtownia danych jest zorientowana tematycznie, ponieważ dostarcza informacji na dany temat, a nie na temat bieżącej działalności organizacji. Przedmiotami tymi mogą być produkty, klienci, dostawcy, sprzedaż, przychody itp. Hurtownia danych nie koncentruje się na bieżącej działalności, a raczej na modelowaniu i analizie danych w celu podejmowania decyzji.
Integrated - Hurtownia danych jest budowana poprzez integrację danych z heterogenicznych źródeł, takich jak relacyjne bazy danych, pliki płaskie itp. Integracja ta usprawnia efektywną analizę danych.
Time Variant- Dane gromadzone w hurtowni danych są identyfikowane z określonym przedziałem czasu. Dane w hurtowni danych dostarczają informacji z historycznego punktu widzenia.
Non-volatile- Nieulotna oznacza, że poprzednie dane nie są usuwane po dodaniu do nich nowych danych. Hurtownia danych jest oddzielona od operacyjnej bazy danych, dlatego częste zmiany w operacyjnej bazie danych nie są odzwierciedlane w hurtowni danych.
Note - Hurtownia danych nie wymaga przetwarzania transakcji, odtwarzania ani kontroli współbieżności, ponieważ jest fizycznie przechowywana i oddzielona od operacyjnej bazy danych.
Aplikacje hurtowni danych
Jak wspomniano wcześniej, hurtownia danych pomaga dyrektorom biznesowym organizować, analizować i wykorzystywać dane do podejmowania decyzji. Hurtownia danych służy jako jedyna część systemu informacji zwrotnej w „zamkniętej pętli” planowania, wykonania i oceny, służącego do zarządzania przedsiębiorstwem. Hurtownie danych są szeroko stosowane w następujących dziedzinach -
- Usługi finansowe
- Usługi bankowe
- Dobra konsumpcyjne
- Sektory handlu detalicznego
- Kontrolowana produkcja
Typy hurtowni danych
Przetwarzanie informacji, przetwarzanie analityczne i eksploracja danych to trzy typy aplikacji hurtowni danych, które zostały omówione poniżej:
Information Processing- Hurtownia danych pozwala na przetwarzanie przechowywanych w niej danych. Dane mogą być przetwarzane za pomocą zapytań, podstawowej analizy statystycznej, raportowania za pomocą tabel przestawnych, tabel, wykresów lub wykresów.
Analytical Processing- Hurtownia danych wspomaga analityczne przetwarzanie przechowywanych w niej informacji. Dane można analizować za pomocą podstawowych operacji OLAP, w tym wycinania i krojenia, przechodzenia do szczegółów, drążenia w górę i obracania.
Data Mining- Eksploracja danych wspiera odkrywanie wiedzy poprzez znajdowanie ukrytych wzorców i skojarzeń, konstruowanie modeli analitycznych, przeprowadzanie klasyfikacji i przewidywanie. Te wyniki eksploracji można przedstawić za pomocą narzędzi do wizualizacji.
Sr.No. | Hurtownia danych (OLAP) | Operacyjna baza danych (OLTP) |
---|---|---|
1 | Obejmuje historyczne przetwarzanie informacji. | Obejmuje codzienne przetwarzanie. |
2 | Systemy OLAP są używane przez pracowników umysłowych, takich jak kadra kierownicza, menedżerowie i analitycy. | Systemy OLTP są używane przez urzędników, administratorów baz danych lub specjalistów od baz danych. |
3 | Służy do analizy biznesu. | Służy do prowadzenia biznesu. |
4 | Koncentruje się na informacjach. | Skupia się na danych w. |
5 | Opiera się na schemacie gwiazdy, schemacie płatka śniegu i schemacie konstelacji faktów. | Opiera się na modelu relacji encji. |
6 | Koncentruje się na informacjach. | Jest zorientowany na aplikacje. |
7 | Zawiera dane historyczne. | Zawiera aktualne dane. |
8 | Zawiera podsumowane i skonsolidowane dane. | Dostarcza prymitywnych i bardzo szczegółowych danych. |
9 | Zapewnia podsumowany i wielowymiarowy widok danych. | Zapewnia szczegółowy i płaski relacyjny widok danych. |
10 | Liczba użytkowników jest w setkach. | Liczba użytkowników jest w tysiącach. |
11 | Liczba dostępnych rekordów jest w milionach. | Liczba dostępnych rekordów wynosi dziesiątki. |
12 | Rozmiar bazy danych wynosi od 100 GB do 100 TB. | Wielkość bazy danych wynosi od 100 MB do 100 GB. |
13 | Są bardzo elastyczne. | Zapewnia wysoką wydajność. |