Eksploracja danych - terminologie
Eksploracja danych
Eksploracja danych jest definiowana jako wydobywanie informacji z ogromnego zestawu danych. Innymi słowy, możemy powiedzieć, że eksploracja danych polega na wydobywaniu wiedzy z danych. Tych informacji można użyć do dowolnej z następujących aplikacji -
- Analiza rynku
- Wykrywanie oszustw
- Utrzymanie klienta
- Kontrola produkcji
- Eksploracja nauki
Silnik wyszukiwania danych
Silnik eksploracji danych jest bardzo istotny dla systemu eksploracji danych. Składa się z zestawu modułów funkcjonalnych, które wykonują następujące funkcje -
- Characterization
- Analiza asocjacji i korelacji
- Classification
- Prediction
- Analiza skupień
- Analiza wartości odstających
- Analiza ewolucji
Baza wiedzy
To jest wiedza domeny. Wiedza ta jest wykorzystywana do kierowania poszukiwaniami lub oceny ciekawości uzyskanych wzorców.
Odkrywanie wiedzy
Niektórzy ludzie traktują eksplorację danych tak samo jak odkrywanie wiedzy, podczas gdy inni postrzegają eksplorację danych jako zasadniczy krok w procesie odkrywania wiedzy. Oto lista kroków związanych z procesem odkrywania wiedzy -
- Czyszczenie danych
- Integracja danych
- Wybór danych
- Transformacja danych
- Eksploracja danych
- Ocena wzoru
- Prezentacja wiedzy
Interfejs użytkownika
Interfejs użytkownika to moduł systemu data mining, który pomaga w komunikacji pomiędzy użytkownikami a systemem data mining. Interfejs użytkownika umożliwia następujące funkcje -
- Współdziałaj z systemem, określając zadanie zapytania eksploracyjnego.
- Dostarczanie informacji pomagających w zawężeniu wyszukiwania.
- Wydobywanie w oparciu o pośrednie wyniki eksploracji danych.
- Przeglądaj bazy danych i schematy lub struktury danych hurtowni danych.
- Oceń wykopane wzorce.
- Wizualizuj wzory w różnych formach.
Integracja danych
Integracja danych to technika wstępnego przetwarzania danych, która łączy dane z wielu heterogenicznych źródeł danych w spójny magazyn danych. Integracja danych może wiązać się z niespójnymi danymi i dlatego wymaga czyszczenia danych.
Czyszczenie danych
Czyszczenie danych to technika stosowana do usuwania zaszumionych danych i korygowania niespójności danych. Czyszczenie danych obejmuje transformacje mające na celu poprawienie nieprawidłowych danych. Czyszczenie danych jest wykonywane jako etap wstępnego przetwarzania danych podczas przygotowywania danych do hurtowni danych.
Wybór danych
Wybór danych to proces, w którym dane istotne dla zadania analizy są pobierane z bazy danych. Czasami transformacja i konsolidacja danych są przeprowadzane przed procesem selekcji danych.
Klastry
Klaster odnosi się do grupy podobnych obiektów. Analiza skupień odnosi się do tworzenia grup obiektów, które są do siebie bardzo podobne, ale bardzo różnią się od obiektów w innych skupieniach.
Transformacja danych
Na tym etapie dane są przekształcane lub konsolidowane do postaci odpowiednich do eksploracji, poprzez wykonywanie operacji podsumowania lub agregacji.