Eksploracja danych - terminologie

Eksploracja danych

Eksploracja danych jest definiowana jako wydobywanie informacji z ogromnego zestawu danych. Innymi słowy, możemy powiedzieć, że eksploracja danych polega na wydobywaniu wiedzy z danych. Tych informacji można użyć do dowolnej z następujących aplikacji -

  • Analiza rynku
  • Wykrywanie oszustw
  • Utrzymanie klienta
  • Kontrola produkcji
  • Eksploracja nauki

Silnik wyszukiwania danych

Silnik eksploracji danych jest bardzo istotny dla systemu eksploracji danych. Składa się z zestawu modułów funkcjonalnych, które wykonują następujące funkcje -

  • Characterization
  • Analiza asocjacji i korelacji
  • Classification
  • Prediction
  • Analiza skupień
  • Analiza wartości odstających
  • Analiza ewolucji

Baza wiedzy

To jest wiedza domeny. Wiedza ta jest wykorzystywana do kierowania poszukiwaniami lub oceny ciekawości uzyskanych wzorców.

Odkrywanie wiedzy

Niektórzy ludzie traktują eksplorację danych tak samo jak odkrywanie wiedzy, podczas gdy inni postrzegają eksplorację danych jako zasadniczy krok w procesie odkrywania wiedzy. Oto lista kroków związanych z procesem odkrywania wiedzy -

  • Czyszczenie danych
  • Integracja danych
  • Wybór danych
  • Transformacja danych
  • Eksploracja danych
  • Ocena wzoru
  • Prezentacja wiedzy

Interfejs użytkownika

Interfejs użytkownika to moduł systemu data mining, który pomaga w komunikacji pomiędzy użytkownikami a systemem data mining. Interfejs użytkownika umożliwia następujące funkcje -

  • Współdziałaj z systemem, określając zadanie zapytania eksploracyjnego.
  • Dostarczanie informacji pomagających w zawężeniu wyszukiwania.
  • Wydobywanie w oparciu o pośrednie wyniki eksploracji danych.
  • Przeglądaj bazy danych i schematy lub struktury danych hurtowni danych.
  • Oceń wykopane wzorce.
  • Wizualizuj wzory w różnych formach.

Integracja danych

Integracja danych to technika wstępnego przetwarzania danych, która łączy dane z wielu heterogenicznych źródeł danych w spójny magazyn danych. Integracja danych może wiązać się z niespójnymi danymi i dlatego wymaga czyszczenia danych.

Czyszczenie danych

Czyszczenie danych to technika stosowana do usuwania zaszumionych danych i korygowania niespójności danych. Czyszczenie danych obejmuje transformacje mające na celu poprawienie nieprawidłowych danych. Czyszczenie danych jest wykonywane jako etap wstępnego przetwarzania danych podczas przygotowywania danych do hurtowni danych.

Wybór danych

Wybór danych to proces, w którym dane istotne dla zadania analizy są pobierane z bazy danych. Czasami transformacja i konsolidacja danych są przeprowadzane przed procesem selekcji danych.

Klastry

Klaster odnosi się do grupy podobnych obiektów. Analiza skupień odnosi się do tworzenia grup obiektów, które są do siebie bardzo podobne, ale bardzo różnią się od obiektów w innych skupieniach.

Transformacja danych

Na tym etapie dane są przekształcane lub konsolidowane do postaci odpowiednich do eksploracji, poprzez wykonywanie operacji podsumowania lub agregacji.