Data Mining - Themen
Theoretische Grundlagen des Data Mining
Die theoretischen Grundlagen des Data Mining umfassen die folgenden Konzepte:
Data Reduction- Die Grundidee dieser Theorie besteht darin, die Datendarstellung zu reduzieren, bei der Genauigkeit gegen Geschwindigkeit ausgetauscht wird, um schnelle ungefähre Antworten auf Fragen in sehr großen Datenbanken zu erhalten. Einige der Datenreduktionstechniken sind wie folgt:
Einzelwertzerlegung
Wavelets
Regression
Log-lineare Modelle
Histograms
Clustering
Sampling
Konstruktion von Indexbäumen
Data Compression - Die Grundidee dieser Theorie besteht darin, die angegebenen Daten durch Codierung in Bezug auf Folgendes zu komprimieren: -
Bits
Assoziationsregeln
Entscheidungsbäume
Clusters
Pattern Discovery- Die Grundidee dieser Theorie besteht darin, Muster zu entdecken, die in einer Datenbank vorkommen. Im Folgenden sind die Bereiche aufgeführt, die zu dieser Theorie beitragen:
Maschinelles Lernen
Neurales Netzwerk
Association Mining
Sequentielle Musterübereinstimmung
Clustering
Probability Theory- Diese Theorie basiert auf statistischer Theorie. Die Grundidee dieser Theorie besteht darin, gemeinsame Wahrscheinlichkeitsverteilungen von Zufallsvariablen zu entdecken.
Probability Theory - Nach dieser Theorie findet Data Mining die Muster, die nur insofern interessant sind, als sie im Entscheidungsprozess eines Unternehmens verwendet werden können.
Microeconomic View- Nach dieser Theorie besteht ein Datenbankschema aus Daten und Mustern, die in einer Datenbank gespeichert sind. Daher ist Data Mining die Aufgabe, eine Einführung in Datenbanken durchzuführen.
Inductive databases- Neben den datenbankorientierten Techniken stehen statistische Techniken für die Datenanalyse zur Verfügung. Diese Techniken können auch auf wissenschaftliche Daten und Daten aus den Wirtschafts- und Sozialwissenschaften angewendet werden.
Statistisches Data Mining
Einige der statistischen Data Mining-Techniken sind wie folgt:
Regression- Regressionsmethoden werden verwendet, um den Wert der Antwortvariablen aus einer oder mehreren Prädiktorvariablen vorherzusagen, wobei die Variablen numerisch sind. Nachfolgend sind die Formen der Regression aufgeführt -
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - Das verallgemeinerte lineare Modell umfasst -
Logistische Regression
Poisson-Regression
Die Verallgemeinerung des Modells ermöglicht es, eine kategoriale Antwortvariable auf ähnliche Weise wie eine numerische Antwortvariable unter Verwendung einer linearen Regression mit einer Reihe von Prädiktorvariablen zu verknüpfen.
Analysis of Variance - Diese Technik analysiert -
Experimentelle Daten für zwei oder mehr Populationen, die durch eine numerische Antwortvariable beschrieben werden.
Eine oder mehrere kategoriale Variablen (Faktoren).
Mixed-effect Models- Diese Modelle werden zur Analyse gruppierter Daten verwendet. Diese Modelle beschreiben die Beziehung zwischen einer Antwortvariablen und einigen Co-Variablen in den Daten, die nach einem oder mehreren Faktoren gruppiert sind.
Factor Analysis- Die Faktoranalyse wird verwendet, um eine kategoriale Antwortvariable vorherzusagen. Diese Methode setzt voraus, dass unabhängige Variablen einer multivariaten Normalverteilung folgen.
Time Series Analysis - Es folgen die Methoden zur Analyse von Zeitreihendaten -
Auto-Regressionsmethoden.
Univariate ARIMA-Modellierung (AutoRegressive Integrated Moving Average).
Zeitreihenmodellierung mit langem Speicher.
Visual Data Mining
Visual Data Mining verwendet Daten- und / oder Wissensvisualisierungstechniken, um implizites Wissen aus großen Datenmengen zu ermitteln. Visual Data Mining kann als Integration der folgenden Disziplinen angesehen werden:
Datenvisualisierung
Data Mining
Visual Data Mining ist eng mit Folgendem verbunden:
Computergrafik
Multimedia-Systeme
Menschliche interaktion mit dem Computer
Mustererkennung
High Performance Computing
Im Allgemeinen können Datenvisualisierung und Data Mining auf folgende Arten integriert werden:
Data Visualization - Die Daten in einer Datenbank oder einem Data Warehouse können in verschiedenen visuellen Formen angezeigt werden, die unten aufgeführt sind. -
Boxplots
3-D-Würfel
Datenverteilungsdiagramme
Curves
Surfaces
Verknüpfungsgraphen usw.
Data Mining Result Visualization- Data Mining-Ergebnisvisualisierung ist die Darstellung der Ergebnisse des Data Mining in visuellen Formen. Diese visuellen Formen können Streudiagramme, Boxplots usw. sein.
Data Mining Process Visualization- Die Visualisierung von Data Mining-Prozessen zeigt die verschiedenen Prozesse des Data Mining. Dadurch können die Benutzer sehen, wie die Daten extrahiert werden. Außerdem können die Benutzer sehen, aus welcher Datenbank oder welchem Data Warehouse die Daten bereinigt, integriert, vorverarbeitet und abgebaut werden.
Audio Data Mining
Beim Audio-Data-Mining werden Audiosignale verwendet, um die Datenmuster oder die Merkmale der Data-Mining-Ergebnisse anzuzeigen. Indem wir Muster in Ton und Nachdenken umwandeln, können wir Tonhöhen und Melodien anhören, anstatt Bilder anzusehen, um etwas Interessantes zu identifizieren.
Data Mining und kollaboratives Filtern
Verbraucher stoßen heute beim Einkaufen auf eine Vielzahl von Waren und Dienstleistungen. Bei Live-Kundentransaktionen hilft ein Empfehlungssystem dem Verbraucher, indem es Produktempfehlungen abgibt. Der kollaborative Filteransatz wird im Allgemeinen verwendet, um Kunden Produkte zu empfehlen. Diese Empfehlungen basieren auf den Meinungen anderer Kunden.