Data Mining - Terminologien

Data Mining

Data Mining ist definiert als Extrahieren der Informationen aus einem riesigen Datensatz. Mit anderen Worten können wir sagen, dass Data Mining das Wissen aus Daten gewinnt. Diese Informationen können für jede der folgenden Anwendungen verwendet werden:

Marktanalyse
Entdeckung eines Betruges
Kundenbindung
Produktionskontrolle
Wissenschaftliche Erforschung

Data Mining Engine

Die Data Mining-Engine ist für das Data Mining-System sehr wichtig. Es besteht aus einer Reihe von Funktionsmodulen, die die folgenden Funktionen ausführen:

Characterization
Assoziations- und Korrelationsanalyse
Classification
Prediction
Clusteranalyse
Ausreißeranalyse
Evolutionsanalyse

Wissensbasis

Dies ist das Domänenwissen. Dieses Wissen wird verwendet, um die Suche zu leiten oder die Interessantheit der resultierenden Muster zu bewerten.

Wissensentdeckung

Einige Menschen behandeln Data Mining genauso wie die Entdeckung von Wissen, während andere das Data Mining als einen wesentlichen Schritt im Prozess der Entdeckung von Wissen betrachten. Hier ist die Liste der Schritte, die am Wissenserkennungsprozess beteiligt sind:

Datenreinigung
Datenintegration
Datenauswahl
Datentransformation
Data Mining
Musterbewertung
Wissenspräsentation

Benutzeroberfläche

Die Benutzeroberfläche ist das Modul des Data Mining-Systems, das die Kommunikation zwischen Benutzern und dem Data Mining-System unterstützt. Die Benutzeroberfläche ermöglicht die folgenden Funktionen:

Interagieren Sie mit dem System, indem Sie eine Data Mining-Abfrageaufgabe angeben.
Bereitstellung von Informationen zur Fokussierung der Suche.
Mining basierend auf den Zwischenergebnissen des Data Mining.
Durchsuchen Sie Datenbank- und Data Warehouse-Schemas oder Datenstrukturen.
Bewerten Sie abgebaute Muster.
Visualisieren Sie die Muster in verschiedenen Formen.

Datenintegration

Die Datenintegration ist eine Datenvorverarbeitungstechnik, bei der die Daten aus mehreren heterogenen Datenquellen zu einem kohärenten Datenspeicher zusammengeführt werden. Die Datenintegration kann inkonsistente Daten beinhalten und erfordert daher eine Datenbereinigung.

Datenreinigung

Die Datenbereinigung ist eine Technik, mit der verrauschte Daten entfernt und Inkonsistenzen in Daten korrigiert werden. Die Datenbereinigung umfasst Transformationen, um die falschen Daten zu korrigieren. Die Datenbereinigung wird als Datenvorverarbeitungsschritt durchgeführt, während die Daten für ein Data Warehouse vorbereitet werden.

Datenauswahl

Datenauswahl ist der Prozess, bei dem für die Analyseaufgabe relevante Daten aus der Datenbank abgerufen werden. Manchmal werden Datentransformationen und -konsolidierungen vor dem Datenauswahlprozess durchgeführt.

Cluster

Cluster bezieht sich auf eine Gruppe ähnlicher Objekte. Die Clusteranalyse bezieht sich auf die Bildung einer Gruppe von Objekten, die einander sehr ähnlich sind, sich jedoch stark von den Objekten in anderen Clustern unterscheiden.

Datentransformation

In diesem Schritt werden Daten durch Ausführen von Zusammenfassungs- oder Aggregationsvorgängen in für das Mining geeignete Formulare transformiert oder konsolidiert.