Data Mining - Kurzanleitung

In der Informationsindustrie ist eine große Datenmenge verfügbar. Diese Daten sind erst dann von Nutzen, wenn sie in nützliche Informationen umgewandelt werden. Es ist notwendig, diese riesige Datenmenge zu analysieren und nützliche Informationen daraus zu extrahieren.

Die Extraktion von Informationen ist nicht der einzige Prozess, den wir durchführen müssen. Data Mining umfasst auch andere Prozesse wie Datenbereinigung, Datenintegration, Datenumwandlung, Data Mining, Musterbewertung und Datenpräsentation. Sobald alle diese Prozesse abgeschlossen sind, können wir diese Informationen in vielen Anwendungen wie Betrugserkennung, Marktanalyse, Produktionskontrolle, Wissenschaftsforschung usw. verwenden.

Was ist Data Mining?

Data Mining ist definiert als Extrahieren von Informationen aus großen Datenmengen. Mit anderen Worten, wir können sagen, dass Data Mining das Verfahren zum Mining von Wissen aus Daten ist. Die so extrahierten Informationen oder Kenntnisse können für jede der folgenden Anwendungen verwendet werden:

  • Marktanalyse
  • Entdeckung eines Betruges
  • Kundenbindung
  • Produktionskontrolle
  • Wissenschaftliche Erforschung

Data Mining-Anwendungen

Data Mining ist in den folgenden Bereichen sehr nützlich:

  • Marktanalyse und -management
  • Unternehmensanalyse & Risikomanagement
  • Entdeckung eines Betruges

Darüber hinaus kann Data Mining auch in den Bereichen Produktionskontrolle, Kundenbindung, Wissenschaftsforschung, Sport, Astrologie und Internet Web Surf-Aid eingesetzt werden

Marktanalyse und -management

Nachfolgend sind die verschiedenen Marktbereiche aufgeführt, in denen Data Mining verwendet wird.

  • Customer Profiling - Data Mining hilft zu bestimmen, welche Art von Menschen welche Art von Produkten kaufen.

  • Identifying Customer Requirements- Data Mining hilft bei der Identifizierung der besten Produkte für verschiedene Kunden. Mithilfe der Vorhersage werden die Faktoren ermittelt, die neue Kunden anziehen können.

  • Cross Market Analysis - Data Mining führt Assoziationen / Korrelationen zwischen Produktverkäufen durch.

  • Target Marketing - Data Mining hilft dabei, Cluster von Modellkunden zu finden, die dieselben Merkmale wie Interessen, Ausgabegewohnheiten, Einkommen usw. aufweisen.

  • Determining Customer purchasing pattern - Data Mining hilft bei der Bestimmung des Kaufmusters von Kunden.

  • Providing Summary Information - Data Mining bietet uns verschiedene mehrdimensionale zusammenfassende Berichte.

Unternehmensanalyse und Risikomanagement

Data Mining wird in den folgenden Bereichen des Unternehmenssektors eingesetzt:

  • Finance Planning and Asset Evaluation - Es umfasst eine Cashflow-Analyse und -Prognose sowie eine Analyse der Eventualforderungen zur Bewertung von Vermögenswerten.

  • Resource Planning - Es beinhaltet das Zusammenfassen und Vergleichen der Ressourcen und Ausgaben.

  • Competition - Es beinhaltet die Überwachung von Wettbewerbern und Marktrichtungen.

Entdeckung eines Betruges

Data Mining wird auch in den Bereichen Kreditkartendienste und Telekommunikation zur Aufdeckung von Betrug eingesetzt. Bei betrügerischen Telefonanrufen hilft es, das Ziel des Anrufs, die Dauer des Anrufs, die Uhrzeit oder die Woche usw. zu ermitteln. Außerdem werden die Muster analysiert, die von den erwarteten Normen abweichen.

Data Mining befasst sich mit der Art von Mustern, die abgebaut werden können. Auf der Grundlage der Art der abzubauenden Daten gibt es zwei Kategorien von Funktionen, die am Data Mining beteiligt sind:

  • Descriptive
  • Klassifikation und Vorhersage

Beschreibende Funktion

Die beschreibende Funktion befasst sich mit den allgemeinen Eigenschaften von Daten in der Datenbank. Hier ist die Liste der beschreibenden Funktionen -

  • Klassen- / Konzeptbeschreibung
  • Bergbau häufiger Muster
  • Bergbau von Verbänden
  • Abbau von Korrelationen
  • Abbau von Clustern

Klassen- / Konzeptbeschreibung

Klasse / Konzept bezieht sich auf die Daten, die den Klassen oder Konzepten zugeordnet werden sollen. In einem Unternehmen umfassen die Klassen von Verkaufsartikeln beispielsweise Computer und Drucker, und zu den Kundenkonzepten gehören große Ausgaben und Budgetausgaben. Solche Beschreibungen einer Klasse oder eines Konzepts werden als Klassen- / Konzeptbeschreibungen bezeichnet. Diese Beschreibungen können auf zwei Arten abgeleitet werden:

  • Data Characterization- Dies bezieht sich auf die Zusammenfassung der Daten der untersuchten Klasse. Diese untersuchte Klasse wird als Zielklasse bezeichnet.

  • Data Discrimination - Es bezieht sich auf die Zuordnung oder Klassifizierung einer Klasse mit einer vordefinierten Gruppe oder Klasse.

Bergbau häufiger Muster

Häufige Muster sind solche Muster, die häufig in Transaktionsdaten auftreten. Hier ist die Liste der häufigen Muster -

  • Frequent Item Set - Es bezieht sich auf eine Reihe von Elementen, die häufig zusammen auftreten, z. B. Milch und Brot.

  • Frequent Subsequence - Auf eine Folge von Mustern, die häufig auftreten, z. B. beim Kauf einer Kamera, folgt eine Speicherkarte.

  • Frequent Sub Structure - Unterstruktur bezieht sich auf verschiedene Strukturformen wie Diagramme, Bäume oder Gitter, die mit Objektgruppen oder Teilsequenzen kombiniert werden können.

Bergbau der Vereinigung

Assoziationen werden im Einzelhandelsverkauf verwendet, um Muster zu identifizieren, die häufig zusammen gekauft werden. Dieser Prozess bezieht sich auf den Prozess des Aufdeckens der Beziehung zwischen Daten und des Bestimmens von Zuordnungsregeln.

Beispielsweise generiert ein Einzelhändler eine Assoziationsregel, die besagt, dass 70% der Zeit Milch mit Brot verkauft wird und nur 30% der Zeit Kekse mit Brot verkauft werden.

Abbau von Korrelationen

Es ist eine Art zusätzliche Analyse, die durchgeführt wird, um interessante statistische Korrelationen zwischen assoziierten Attribut-Wert-Paaren oder zwischen zwei Objektgruppen aufzudecken, um zu analysieren, ob sie sich positiv, negativ oder nicht gegenseitig beeinflussen.

Abbau von Clustern

Cluster bezieht sich auf eine Gruppe ähnlicher Objekte. Die Clusteranalyse bezieht sich auf die Bildung einer Gruppe von Objekten, die einander sehr ähnlich sind, sich jedoch stark von den Objekten in anderen Clustern unterscheiden.

Klassifikation und Vorhersage

Bei der Klassifizierung wird ein Modell gefunden, das die Datenklassen oder Konzepte beschreibt. Der Zweck besteht darin, dieses Modell verwenden zu können, um die Klasse von Objekten vorherzusagen, deren Klassenbezeichnung unbekannt ist. Dieses abgeleitete Modell basiert auf der Analyse von Trainingsdatensätzen. Das abgeleitete Modell kann in den folgenden Formen dargestellt werden:

  • Klassifizierungsregeln (IF-THEN)
  • Entscheidungsbäume
  • Mathematische Formeln
  • Neuronale Netze

Die Liste der Funktionen, die an diesen Prozessen beteiligt sind, lautet wie folgt:

  • Classification- Es sagt die Klasse von Objekten voraus, deren Klassenbezeichnung unbekannt ist. Ziel ist es, ein abgeleitetes Modell zu finden, das Datenklassen oder Konzepte beschreibt und unterscheidet. Das abgeleitete Modell basiert auf dem Analysesatz von Trainingsdaten, dh dem Datenobjekt, dessen Klassenbezeichnung bekannt ist.

  • Prediction- Es wird verwendet, um fehlende oder nicht verfügbare numerische Datenwerte anstelle von Klassenbezeichnungen vorherzusagen. Die Regressionsanalyse wird im Allgemeinen zur Vorhersage verwendet. Die Vorhersage kann auch zur Identifizierung von Verteilungstrends basierend auf verfügbaren Daten verwendet werden.

  • Outlier Analysis - Ausreißer können als Datenobjekte definiert werden, die nicht dem allgemeinen Verhalten oder Modell der verfügbaren Daten entsprechen.

  • Evolution Analysis - Die Evolutionsanalyse bezieht sich auf die Beschreibung und Modellregelmäßigkeiten oder -trends für Objekte, deren Verhalten sich im Laufe der Zeit ändert.

Grundelemente für Data Mining-Aufgaben

  • Wir können eine Data Mining-Aufgabe in Form einer Data Mining-Abfrage angeben.
  • Diese Abfrage wird in das System eingegeben.
  • Eine Data Mining-Abfrage wird anhand von Grundelementen für Data Mining-Aufgaben definiert.

Note- Diese Grundelemente ermöglichen eine interaktive Kommunikation mit dem Data Mining-System. Hier ist die Liste der Data Mining-Aufgabenprimitive -

  • Satz aufgabenrelevanter Daten, die abgebaut werden sollen.
  • Art des Wissens, das abgebaut werden soll.
  • Hintergrundwissen zur Verwendung im Entdeckungsprozess.
  • Interessante Maßnahmen und Schwellenwerte für die Musterbewertung.
  • Darstellung zur Visualisierung der entdeckten Muster.

Satz aufgabenrelevanter Daten, die abgebaut werden sollen

Dies ist der Teil der Datenbank, an dem der Benutzer interessiert ist. Dieser Teil enthält Folgendes:

  • Datenbankattribute
  • Interessante Data Warehouse-Dimensionen

Art des Wissens, das abgebaut werden soll

Es bezieht sich auf die Art der auszuführenden Funktionen. Diese Funktionen sind -

  • Characterization
  • Discrimination
  • Assoziations- und Korrelationsanalyse
  • Classification
  • Prediction
  • Clustering
  • Ausreißeranalyse
  • Evolutionsanalyse

Hintergrundwissen

Das Hintergrundwissen ermöglicht es, Daten auf mehreren Abstraktionsebenen abzubauen. Beispielsweise gehören die Konzepthierarchien zu den Hintergrundkenntnissen, mit denen Daten auf mehreren Abstraktionsebenen gewonnen werden können.

Interessante Maßnahmen und Schwellenwerte für die Musterbewertung

Dies wird verwendet, um die Muster zu bewerten, die durch den Prozess der Wissensentdeckung entdeckt werden. Es gibt verschiedene interessante Maßnahmen für verschiedene Arten von Wissen.

Darstellung zur Visualisierung der entdeckten Muster

Dies bezieht sich auf die Form, in der entdeckte Muster angezeigt werden sollen. Diese Darstellungen können Folgendes umfassen. - -

  • Rules
  • Tables
  • Charts
  • Graphs
  • Entscheidungsbäume
  • Cubes

Data Mining ist keine leichte Aufgabe, da die verwendeten Algorithmen sehr komplex werden können und Daten nicht immer an einem Ort verfügbar sind. Es muss aus verschiedenen heterogenen Datenquellen integriert werden. Diese Faktoren verursachen auch einige Probleme. Hier in diesem Tutorial werden wir die Hauptprobleme in Bezug auf - diskutieren

  • Mining-Methodik und Benutzerinteraktion
  • Performance-Probleme
  • Verschiedene Probleme mit Datentypen

Das folgende Diagramm beschreibt die Hauptprobleme.

Probleme mit der Mining-Methodik und der Benutzerinteraktion

Es bezieht sich auf die folgenden Arten von Problemen -

  • Mining different kinds of knowledge in databases- Verschiedene Benutzer können an verschiedenen Arten von Wissen interessiert sein. Daher muss Data Mining ein breites Spektrum von Wissenserkennungsaufgaben abdecken.

  • Interactive mining of knowledge at multiple levels of abstraction - Der Data Mining-Prozess muss interaktiv sein, da Benutzer die Suche nach Mustern konzentrieren und Data Mining-Anforderungen basierend auf den zurückgegebenen Ergebnissen bereitstellen und verfeinern können.

  • Incorporation of background knowledge- Um den Erkennungsprozess zu steuern und die erkannten Muster auszudrücken, kann das Hintergrundwissen verwendet werden. Hintergrundwissen kann verwendet werden, um die entdeckten Muster nicht nur präzise, ​​sondern auf mehreren Abstraktionsebenen auszudrücken.

  • Data mining query languages and ad hoc data mining - Die Data Mining-Abfragesprache, mit der der Benutzer Ad-hoc-Mining-Aufgaben beschreiben kann, sollte in eine Data Warehouse-Abfragesprache integriert und für ein effizientes und flexibles Data Mining optimiert werden.

  • Presentation and visualization of data mining results- Sobald die Muster entdeckt wurden, müssen sie in Hochsprachen und visuellen Darstellungen ausgedrückt werden. Diese Darstellungen sollten leicht verständlich sein.

  • Handling noisy or incomplete data- Die Datenbereinigungsmethoden sind erforderlich, um das Rauschen und unvollständige Objekte beim Mining der Datenregelmäßigkeiten zu verarbeiten. Wenn die Datenbereinigungsmethoden nicht vorhanden sind, ist die Genauigkeit der erkannten Muster schlecht.

  • Pattern evaluation - Die entdeckten Muster sollten interessant sein, da sie entweder allgemein bekannt sind oder keine Neuheit aufweisen.

Performance-Probleme

Es kann leistungsbezogene Probleme wie die folgenden geben:

  • Efficiency and scalability of data mining algorithms - Um die Informationen effektiv aus einer großen Datenmenge in Datenbanken zu extrahieren, muss der Data Mining-Algorithmus effizient und skalierbar sein.

  • Parallel, distributed, and incremental mining algorithms- Die Faktoren wie die Größe der Datenbanken, die weite Verteilung der Daten und die Komplexität der Data Mining-Methoden motivieren die Entwicklung paralleler und verteilter Data Mining-Algorithmen. Diese Algorithmen unterteilen die Daten in Partitionen, die parallel weiterverarbeitet werden. Dann werden die Ergebnisse der Partitionen zusammengeführt. Die inkrementellen Algorithmen aktualisieren Datenbanken, ohne die Daten erneut von Grund auf neu zu analysieren.

Verschiedene Probleme mit Datentypen

  • Handling of relational and complex types of data - Die Datenbank kann komplexe Datenobjekte, Multimediadatenobjekte, Geodaten, Zeitdaten usw. enthalten. Es ist nicht möglich, dass ein System alle diese Arten von Daten abbaut.

  • Mining information from heterogeneous databases and global information systems- Die Daten sind an verschiedenen Datenquellen im LAN oder WAN verfügbar. Diese Datenquelle kann strukturiert, halbstrukturiert oder unstrukturiert sein. Daher stellt das Mining des Wissens aus ihnen das Data Mining vor Herausforderungen.

Data Warehouse

Ein Data Warehouse weist die folgenden Merkmale auf, um den Entscheidungsprozess des Managements zu unterstützen:

  • Subject Oriented- Data Warehouse ist themenorientiert, da es uns die Informationen zu einem Thema und nicht den laufenden Betrieb des Unternehmens liefert. Diese Themen können Produkte, Kunden, Lieferanten, Verkäufe, Einnahmen usw. sein. Das Data Warehouse konzentriert sich nicht auf den laufenden Betrieb, sondern auf die Modellierung und Analyse von Daten für die Entscheidungsfindung.

  • Integrated - Data Warehouse wird durch Integration von Daten aus heterogenen Quellen wie relationalen Datenbanken, Flatfiles usw. erstellt. Diese Integration verbessert die effektive Analyse von Daten.

  • Time Variant- Die in einem Data Warehouse gesammelten Daten werden mit einem bestimmten Zeitraum identifiziert. Die Daten in einem Data Warehouse liefern Informationen aus historischer Sicht.

  • Non-volatile- Nichtflüchtig bedeutet, dass die vorherigen Daten nicht entfernt werden, wenn neue Daten hinzugefügt werden. Das Data Warehouse wird von der Betriebsdatenbank getrennt gehalten, daher werden häufige Änderungen in der Betriebsdatenbank nicht im Data Warehouse berücksichtigt.

Data Warehousing

Data Warehousing ist der Prozess des Aufbaus und der Verwendung des Data Warehouse. Ein Data Warehouse wird durch Integration der Daten aus mehreren heterogenen Quellen aufgebaut. Es unterstützt analytische Berichte, strukturierte und / oder Ad-hoc-Abfragen sowie die Entscheidungsfindung.

Data Warehousing umfasst Datenbereinigung, Datenintegration und Datenkonsolidierung. Um heterogene Datenbanken zu integrieren, haben wir die folgenden zwei Ansätze:

  • Abfragegesteuerter Ansatz
  • Update Driven Approach

Abfragegesteuerter Ansatz

Dies ist der traditionelle Ansatz zur Integration heterogener Datenbanken. Dieser Ansatz wird verwendet, um Wrapper und Integratoren auf mehreren heterogenen Datenbanken aufzubauen. Diese Integratoren werden auch als Mediatoren bezeichnet.

Prozess des abfragegesteuerten Ansatzes

  • Wenn eine Abfrage an eine Clientseite ausgegeben wird, übersetzt ein Metadatenwörterbuch die Abfrage in die Abfragen, die für die jeweilige heterogene Site geeignet sind.

  • Jetzt werden diese Abfragen zugeordnet und an den lokalen Abfrageprozessor gesendet.

  • Die Ergebnisse von heterogenen Standorten werden in einen globalen Antwortsatz integriert.

Nachteile

Dieser Ansatz hat die folgenden Nachteile:

  • Der abfragegesteuerte Ansatz erfordert komplexe Integrations- und Filterprozesse.

  • Es ist sehr ineffizient und sehr teuer für häufige Anfragen.

  • Dieser Ansatz ist teuer für Abfragen, die Aggregationen erfordern.

Update-gesteuerter Ansatz

Die heutigen Data Warehouse-Systeme verfolgen eher einen aktualisierungsgesteuerten Ansatz als den zuvor diskutierten traditionellen Ansatz. Beim Update-gesteuerten Ansatz werden die Informationen aus mehreren heterogenen Quellen im Voraus integriert und in einem Lager gespeichert. Diese Informationen stehen für direkte Abfragen und Analysen zur Verfügung.

Vorteile

Dieser Ansatz hat folgende Vorteile:

  • Dieser Ansatz bietet eine hohe Leistung.

  • Die Daten können vorab im semantischen Datenspeicher kopiert, verarbeitet, integriert, kommentiert, zusammengefasst und umstrukturiert werden.

Die Abfrageverarbeitung erfordert keine Schnittstelle zur Verarbeitung an lokalen Quellen.

Vom Data Warehousing (OLAP) zum Data Mining (OLAM)

Online Analytical Mining lässt sich in Online Analytical Processing mit Data Mining und Mining-Wissen in mehrdimensionalen Datenbanken integrieren. Hier ist das Diagramm, das die Integration von OLAP und OLAM zeigt -

Bedeutung von OLAM

OLAM ist aus folgenden Gründen wichtig:

  • High quality of data in data warehouses- Die Data Mining-Tools müssen an integrierten, konsistenten und bereinigten Daten arbeiten. Diese Schritte sind bei der Vorverarbeitung von Daten sehr kostspielig. Die durch eine solche Vorverarbeitung erstellten Data Warehouses sind wertvolle Quellen für qualitativ hochwertige Daten auch für OLAP und Data Mining.

  • Available information processing infrastructure surrounding data warehouses - Die Informationsverarbeitungsinfrastruktur bezieht sich auf den Zugriff auf, die Integration, die Konsolidierung und die Transformation mehrerer heterogener Datenbanken, Webzugriffs- und Serviceeinrichtungen, Berichts- und OLAP-Analysetools.

  • OLAP−based exploratory data analysis- Für ein effektives Data Mining ist eine explorative Datenanalyse erforderlich. OLAM bietet die Möglichkeit zum Data Mining für verschiedene Teilmengen von Daten und auf verschiedenen Abstraktionsebenen.

  • Online selection of data mining functions - Die Integration von OLAP in mehrere Data Mining-Funktionen und das analytische Online-Mining bieten Benutzern die Flexibilität, die gewünschten Data Mining-Funktionen auszuwählen und Data Mining-Aufgaben dynamisch auszutauschen.

Data Mining

Data Mining ist definiert als Extrahieren der Informationen aus einem riesigen Datensatz. Mit anderen Worten können wir sagen, dass Data Mining das Wissen aus Daten gewinnt. Diese Informationen können für jede der folgenden Anwendungen verwendet werden:

  • Marktanalyse
  • Entdeckung eines Betruges
  • Kundenbindung
  • Produktionskontrolle
  • Wissenschaftliche Erforschung

Data Mining Engine

Die Data Mining-Engine ist für das Data Mining-System sehr wichtig. Es besteht aus einer Reihe von Funktionsmodulen, die die folgenden Funktionen ausführen:

  • Characterization
  • Assoziations- und Korrelationsanalyse
  • Classification
  • Prediction
  • Clusteranalyse
  • Ausreißeranalyse
  • Evolutionsanalyse

Wissensbasis

Dies ist das Domänenwissen. Dieses Wissen wird verwendet, um die Suche zu leiten oder die Interessantheit der resultierenden Muster zu bewerten.

Wissensentdeckung

Einige Menschen behandeln Data Mining genauso wie die Entdeckung von Wissen, während andere das Data Mining als einen wesentlichen Schritt im Prozess der Entdeckung von Wissen betrachten. Hier ist die Liste der Schritte, die am Wissenserkennungsprozess beteiligt sind:

  • Datenreinigung
  • Datenintegration
  • Datenauswahl
  • Datentransformation
  • Data Mining
  • Musterbewertung
  • Wissenspräsentation

Benutzeroberfläche

Die Benutzeroberfläche ist das Modul des Data Mining-Systems, das die Kommunikation zwischen Benutzern und dem Data Mining-System unterstützt. Die Benutzeroberfläche ermöglicht die folgenden Funktionen:

  • Interagieren Sie mit dem System, indem Sie eine Data Mining-Abfrageaufgabe angeben.
  • Bereitstellung von Informationen zur Fokussierung der Suche.
  • Mining basierend auf den Zwischenergebnissen des Data Mining.
  • Durchsuchen Sie Datenbank- und Data Warehouse-Schemas oder Datenstrukturen.
  • Bewerten Sie abgebaute Muster.
  • Visualisieren Sie die Muster in verschiedenen Formen.

Datenintegration

Die Datenintegration ist eine Datenvorverarbeitungstechnik, bei der die Daten aus mehreren heterogenen Datenquellen zu einem kohärenten Datenspeicher zusammengeführt werden. Die Datenintegration kann inkonsistente Daten beinhalten und erfordert daher eine Datenbereinigung.

Datenreinigung

Die Datenbereinigung ist eine Technik, mit der verrauschte Daten entfernt und Inkonsistenzen in Daten korrigiert werden. Bei der Datenbereinigung werden Transformationen durchgeführt, um die falschen Daten zu korrigieren. Die Datenbereinigung wird als Datenvorverarbeitungsschritt durchgeführt, während die Daten für ein Data Warehouse vorbereitet werden.

Datenauswahl

Datenauswahl ist der Prozess, bei dem für die Analyseaufgabe relevante Daten aus der Datenbank abgerufen werden. Manchmal werden Datentransformationen und -konsolidierungen vor dem Datenauswahlprozess durchgeführt.

Cluster

Cluster bezieht sich auf eine Gruppe ähnlicher Objekte. Die Clusteranalyse bezieht sich auf die Bildung einer Gruppe von Objekten, die einander sehr ähnlich sind, sich jedoch stark von den Objekten in anderen Clustern unterscheiden.

Datentransformation

In diesem Schritt werden Daten durch Ausführen von Zusammenfassungs- oder Aggregationsvorgängen in für das Mining geeignete Formulare transformiert oder konsolidiert.

Was ist Wissensentdeckung?

Einige Leute unterscheiden Data Mining nicht von Knowledge Discovery, während andere Data Mining als einen wesentlichen Schritt im Prozess der Knowledge Discovery betrachten. Hier ist die Liste der Schritte, die am Wissenserkennungsprozess beteiligt sind:

  • Data Cleaning - In diesem Schritt werden das Rauschen und inkonsistente Daten entfernt.

  • Data Integration - In diesem Schritt werden mehrere Datenquellen kombiniert.

  • Data Selection - In diesem Schritt werden für die Analyseaufgabe relevante Daten aus der Datenbank abgerufen.

  • Data Transformation - In diesem Schritt werden Daten durch Ausführen von Zusammenfassungs- oder Aggregationsvorgängen in für das Mining geeignete Formulare transformiert oder konsolidiert.

  • Data Mining - In diesem Schritt werden intelligente Methoden angewendet, um Datenmuster zu extrahieren.

  • Pattern Evaluation - In diesem Schritt werden Datenmuster ausgewertet.

  • Knowledge Presentation - In diesem Schritt wird Wissen dargestellt.

Das folgende Diagramm zeigt den Prozess der Wissensentdeckung -

Es steht eine Vielzahl von Data Mining-Systemen zur Verfügung. Data Mining-Systeme können Techniken aus den folgenden Bereichen integrieren:

  • Geodatenanalyse
  • Informationsrückgewinnung
  • Mustererkennung
  • Bildanalyse
  • Signalverarbeitung
  • Computergrafik
  • Web-Technologie
  • Business
  • Bioinformatics

Klassifizierung des Data Mining-Systems

Ein Data Mining-System kann nach folgenden Kriterien klassifiziert werden:

  • Datenbanktechnologie
  • Statistics
  • Maschinelles Lernen
  • Informationswissenschaft
  • Visualization
  • Andere Disziplinen

Abgesehen von diesen kann ein Data Mining-System auch anhand der Art der (a) abgebauten Datenbanken, (b) abgebauten Wissens, (c) verwendeten Techniken und (d) angepassten Anwendungen klassifiziert werden.

Klassifizierung basierend auf den abgebauten Datenbanken

Wir können ein Data Mining-System nach der Art der abgebauten Datenbanken klassifizieren. Das Datenbanksystem kann nach verschiedenen Kriterien wie Datenmodellen, Datentypen usw. klassifiziert werden. Das Data Mining-System kann entsprechend klassifiziert werden.

Wenn wir beispielsweise eine Datenbank nach dem Datenmodell klassifizieren, verfügen wir möglicherweise über ein relationales, transaktionales, objektrelationales oder Data Warehouse-Mining-System.

Klassifizierung Basierend auf der Art des gewonnenen Wissens

Wir können ein Data Mining-System nach der Art des gewonnenen Wissens klassifizieren. Dies bedeutet, dass das Data Mining-System anhand von Funktionen wie - klassifiziert wird

  • Characterization
  • Discrimination
  • Assoziations- und Korrelationsanalyse
  • Classification
  • Prediction
  • Ausreißeranalyse
  • Evolutionsanalyse

Klassifizierung basierend auf den verwendeten Techniken

Wir können ein Data Mining-System nach der Art der verwendeten Techniken klassifizieren. Wir können diese Techniken nach dem Grad der Benutzerinteraktion oder den verwendeten Analysemethoden beschreiben.

Klassifizierung anhand der angepassten Anwendungen

Wir können ein Data Mining-System nach den angepassten Anwendungen klassifizieren. Diese Anwendungen sind wie folgt:

  • Finance
  • Telecommunications
  • DNA
  • Aktienmärkte
  • E-mail

Integration eines Data Mining-Systems in ein DB / DW-System

Wenn ein Data Mining-System nicht in eine Datenbank oder ein Data Warehouse-System integriert ist, gibt es kein System, mit dem kommuniziert werden kann. Dieses Schema ist als Nichtkopplungsschema bekannt. In diesem Schema liegt der Schwerpunkt auf dem Data Mining-Design und der Entwicklung effizienter und effektiver Algorithmen zum Mining der verfügbaren Datensätze.

Die Liste der Integrationsschemata lautet wie folgt:

  • No Coupling- In diesem Schema verwendet das Data Mining-System keine der Datenbank- oder Data Warehouse-Funktionen. Es ruft die Daten aus einer bestimmten Quelle ab und verarbeitet diese Daten mithilfe einiger Data Mining-Algorithmen. Das Data Mining-Ergebnis wird in einer anderen Datei gespeichert.

  • Loose Coupling- In diesem Schema kann das Data Mining-System einige der Funktionen des Datenbank- und Data Warehouse-Systems verwenden. Es ruft die Daten von den von diesen Systemen verwalteten Datenatmungsdaten ab und führt Data Mining für diese Daten durch. Anschließend wird das Mining-Ergebnis entweder in einer Datei oder an einem bestimmten Ort in einer Datenbank oder in einem Data Warehouse gespeichert.

  • Semi−tight Coupling - In diesem Schema ist das Data Mining-System mit einer Datenbank oder einem Data Warehouse-System verknüpft. Darüber hinaus können effiziente Implementierungen einiger Data Mining-Grundelemente in der Datenbank bereitgestellt werden.

  • Tight coupling- In diesem Kopplungsschema ist das Data Mining-System nahtlos in die Datenbank oder das Data Warehouse-System integriert. Das Data Mining-Subsystem wird als eine Funktionskomponente eines Informationssystems behandelt.

Die Data Mining Query Language (DMQL) wurde von Han, Fu, Wang et al. für das DBMiner Data Mining-System. Die Data Mining-Abfragesprache basiert tatsächlich auf der strukturierten Abfragesprache (SQL). Data Mining-Abfragesprachen können so gestaltet werden, dass sie Ad-hoc- und interaktives Data Mining unterstützen. Diese DMQL bietet Befehle zum Angeben von Grundelementen. DMQL kann auch mit Datenbanken und Data Warehouses arbeiten. Mit DMQL können Data Mining-Aufgaben definiert werden. Insbesondere untersuchen wir, wie Data Warehouses und Data Marts in DMQL definiert werden.

Syntax für die aufgabenrelevante Datenspezifikation

Hier ist die Syntax von DMQL zur Angabe aufgabenrelevanter Daten:

use database database_name

or 

use data warehouse data_warehouse_name
in relevance to att_or_dim_list
from relation(s)/cube(s) [where condition]
order by order_list
group by grouping_list

Syntax zur Angabe der Art des Wissens

Hier werden wir die Syntax für Charakterisierung, Diskriminierung, Assoziation, Klassifizierung und Vorhersage diskutieren.

Charakterisierung

Die Syntax für die Charakterisierung lautet -

mine characteristics [as pattern_name]
   analyze  {measure(s) }

Die Analyseklausel gibt aggregierte Kennzahlen an, z. B. Anzahl, Summe oder Anzahl%.

Zum Beispiel -

Description describing customer purchasing habits.
mine characteristics as customerPurchasing
analyze count%

Diskriminierung

Die Syntax für Diskriminierung lautet -

mine comparison [as {pattern_name]}
For {target_class } where  {t arget_condition } 
{versus  {contrast_class_i }
where {contrast_condition_i}}  
analyze  {measure(s) }

Beispielsweise kann ein Benutzer große Ausgaben als Kunden definieren, die Artikel kaufen, die kosten $100 or more on an average; and budget spenders as customers who purchase items at less than $100 im Durchschnitt. Das Mining von Diskriminanzbeschreibungen für Kunden aus jeder dieser Kategorien kann in der DMQL als - angegeben werden.

mine comparison as purchaseGroups
for bigSpenders where avg(I.price) ≥$100 versus budgetSpenders where avg(I.price)< $100
analyze count

Verband

Die Syntax für Association lautet−

mine associations [ as {pattern_name} ]
{matching {metapattern} }

Zum Beispiel -

mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)

wobei X der Schlüssel der Kundenbeziehung ist; P und Q sind Prädikatvariablen; und W, Y und Z sind Objektvariablen.

Einstufung

Die Syntax für die Klassifizierung lautet -

mine classification [as pattern_name]
analyze classifying_attribute_or_dimension

Um beispielsweise Muster abzubauen, wird die Klassifizierung der Kundenbonität, bei der die Klassen durch das Attribut credit_rating bestimmt werden, und die Klassifizierung der Mine als classifyCustomerCreditRating bestimmt.

analyze credit_rating

Prognose

Die Syntax für die Vorhersage lautet -

mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

Syntax für die Spezifikation der Konzepthierarchie

Verwenden Sie die folgende Syntax, um Konzepthierarchien anzugeben:

use hierarchy <hierarchy> for <attribute_or_dimension>

Wir verwenden verschiedene Syntaxen, um verschiedene Arten von Hierarchien zu definieren, wie z

-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year]
-
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior

-operation-derived hierarchies
define hierarchy age_hierarchy  for age  on customer  as
{age_category(1), ..., age_category(5)} 
:= cluster(default, age, 5) < all(age)

-rule-based hierarchies
define hierarchy profit_margin_hierarchy  on item  as
level_1: low_profit_margin < level_0:  all

if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50)  and ((price - cost) ≤ $250)) 
   level_1:  high_profit_margin < level_0:  all

Syntax für die Spezifikation von Interessensmaßen

Interessante Maße und Schwellenwerte können vom Benutzer mit der Anweisung angegeben werden -

with <interest_measure_name>  threshold = threshold_value

Zum Beispiel -

with support threshold = 0.05
with confidence threshold = 0.7

Syntax für die Musterpräsentation und Visualisierungsspezifikation

Wir haben eine Syntax, mit der Benutzer die Anzeige erkannter Muster in einer oder mehreren Formen festlegen können.

display as <result_form>

Zum Beispiel -

display as table

Vollständige Spezifikation von DMQL

Als Marktmanager eines Unternehmens möchten Sie die Kaufgewohnheiten von Kunden charakterisieren, die Artikel zu einem Preis von mindestens 100 US-Dollar kaufen können. in Bezug auf das Alter des Kunden, die Art des gekauften Artikels und den Ort, an dem der Artikel gekauft wurde. Sie möchten wissen, wie viel Prozent der Kunden diese Eigenschaft haben. Insbesondere interessieren Sie sich nur für Einkäufe in Kanada, die mit einer American Express-Kreditkarte bezahlt werden. Sie möchten die resultierenden Beschreibungen in Form einer Tabelle anzeigen.

use database AllElectronics_db
use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age,I.type,I.place_made
from customer C, item I, purchase P, items_sold S,  branch B
where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and
P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100
with noise threshold = 5%
display as table

Standardisierung von Data Mining-Sprachen

Die Standardisierung der Data Mining-Sprachen dient folgenden Zwecken:

  • Hilft bei der systematischen Entwicklung von Data Mining-Lösungen.

  • Verbessert die Interoperabilität zwischen mehreren Data Mining-Systemen und -Funktionen.

  • Fördert Bildung und schnelles Lernen.

  • Fördert den Einsatz von Data Mining-Systemen in Industrie und Gesellschaft.

Es gibt zwei Formen der Datenanalyse, mit denen Modelle extrahiert werden können, die wichtige Klassen beschreiben, oder um zukünftige Datentrends vorherzusagen. Diese beiden Formen sind wie folgt:

  • Classification
  • Prediction

Klassifizierungsmodelle sagen kategoriale Klassenbezeichnungen voraus; und Vorhersagemodelle sagen kontinuierlich bewertete Funktionen voraus. Zum Beispiel können wir ein Klassifizierungsmodell erstellen, um Bankkreditanträge als sicher oder riskant zu kategorisieren, oder ein Vorhersagemodell, um die Ausgaben potenzieller Kunden für Computerausrüstung in Dollar aufgrund ihres Einkommens und ihrer Beschäftigung vorherzusagen.

Was ist Klassifizierung?

Im Folgenden finden Sie Beispiele für Fälle, in denen die Datenanalyseaufgabe Klassifizierung lautet.

  • Ein Bankkreditbeauftragter möchte die Daten analysieren, um festzustellen, welche Kunden (Kreditantragsteller) riskant oder welche sicher sind.

  • Ein Marketingmanager in einem Unternehmen muss einen Kunden mit einem bestimmten Profil analysieren, der einen neuen Computer kauft.

In beiden obigen Beispielen wird ein Modell oder ein Klassifikator konstruiert, um die kategorialen Bezeichnungen vorherzusagen. Diese Etiketten sind riskant oder sicher für Kreditantragsdaten und ja oder nein für Marketingdaten.

Was ist Vorhersage?

Im Folgenden finden Sie Beispiele für Fälle, in denen die Datenanalyseaufgabe Vorhersage lautet.

Angenommen, der Marketingmanager muss vorhersagen, wie viel ein bestimmter Kunde während eines Verkaufs in seinem Unternehmen ausgeben wird. In diesem Beispiel haben wir die Mühe, einen numerischen Wert vorherzusagen. Daher ist die Datenanalyseaufgabe ein Beispiel für eine numerische Vorhersage. In diesem Fall wird ein Modell oder ein Prädiktor konstruiert, der eine Funktion mit kontinuierlichem Wert oder einen geordneten Wert vorhersagt.

Note - Die Regressionsanalyse ist eine statistische Methode, die am häufigsten für die numerische Vorhersage verwendet wird.

Wie funktioniert die Klassifizierung?

Lassen Sie uns mit Hilfe des oben diskutierten Bankkreditantrags die Funktionsweise der Klassifizierung verstehen. Der Datenklassifizierungsprozess umfasst zwei Schritte:

  • Erstellen des Klassifikators oder Modells
  • Verwenden des Klassifikators zur Klassifizierung

Erstellen des Klassifikators oder Modells

  • Dieser Schritt ist der Lernschritt oder die Lernphase.

  • In diesem Schritt erstellen die Klassifizierungsalgorithmen den Klassifizierer.

  • Der Klassifikator besteht aus dem Trainingssatz, der aus Datenbanktupeln und den zugehörigen Klassenbezeichnungen besteht.

  • Jedes Tupel, aus dem der Trainingssatz besteht, wird als Kategorie oder Klasse bezeichnet. Diese Tupel können auch als Stichproben-, Objekt- oder Datenpunkte bezeichnet werden.

Verwenden des Klassifikators zur Klassifizierung

In diesem Schritt wird der Klassifizierer zur Klassifizierung verwendet. Hier werden die Testdaten verwendet, um die Genauigkeit der Klassifizierungsregeln abzuschätzen. Die Klassifizierungsregeln können auf die neuen Datentupel angewendet werden, wenn die Genauigkeit als akzeptabel angesehen wird.

Klassifizierungs- und Vorhersageprobleme

Das Hauptproblem ist die Vorbereitung der Daten für die Klassifizierung und Vorhersage. Das Vorbereiten der Daten umfasst die folgenden Aktivitäten:

  • Data Cleaning- Bei der Datenbereinigung werden das Rauschen entfernt und fehlende Werte behandelt. Das Rauschen wird durch Anwenden von Glättungstechniken entfernt und das Problem fehlender Werte wird gelöst, indem ein fehlender Wert durch den am häufigsten auftretenden Wert für dieses Attribut ersetzt wird.

  • Relevance Analysis- Die Datenbank kann auch irrelevante Attribute haben. Die Korrelationsanalyse wird verwendet, um festzustellen, ob zwei bestimmte Attribute zusammenhängen.

  • Data Transformation and reduction - Die Daten können mit einer der folgenden Methoden transformiert werden.

    • Normalization- Die Daten werden mittels Normalisierung transformiert. Bei der Normalisierung werden alle Werte für ein bestimmtes Attribut skaliert, damit sie in einen kleinen festgelegten Bereich fallen. Die Normalisierung wird verwendet, wenn im Lernschritt die neuronalen Netze oder die Methoden mit Messungen verwendet werden.

    • Generalization- Die Daten können auch durch Verallgemeinerung auf das höhere Konzept transformiert werden. Zu diesem Zweck können wir die Konzepthierarchien verwenden.

Note - Daten können auch durch andere Methoden wie Wavelet-Transformation, Binning, Histogramm-Analyse und Clustering reduziert werden.

Vergleich von Klassifizierungs- und Vorhersagemethoden

Hier sind die Kriterien für den Vergleich der Methoden der Klassifizierung und Vorhersage -

  • Accuracy- Die Genauigkeit des Klassifikators bezieht sich auf die Fähigkeit des Klassifikators. Es sagt die Klassenbezeichnung korrekt voraus und die Genauigkeit des Prädiktors bezieht sich darauf, wie gut ein gegebener Prädiktor den Wert des vorhergesagten Attributs für neue Daten erraten kann.

  • Speed - Dies bezieht sich auf die Berechnungskosten bei der Erzeugung und Verwendung des Klassifikators oder Prädiktors.

  • Robustness - Es bezieht sich auf die Fähigkeit des Klassifikators oder Prädiktors, korrekte Vorhersagen aus gegebenen verrauschten Daten zu treffen.

  • Scalability- Skalierbarkeit bezieht sich auf die Fähigkeit, den Klassifikator oder Prädiktor effizient zu konstruieren; gegeben große Datenmenge.

  • Interpretability - Es bezieht sich darauf, inwieweit der Klassifikator oder Prädiktor versteht.

Ein Entscheidungsbaum ist eine Struktur, die einen Wurzelknoten, Zweige und Blattknoten enthält. Jeder interne Knoten bezeichnet einen Test für ein Attribut, jeder Zweig bezeichnet das Ergebnis eines Tests und jeder Blattknoten enthält eine Klassenbezeichnung. Der oberste Knoten im Baum ist der Wurzelknoten.

Der folgende Entscheidungsbaum bezieht sich auf das Konzept buy_computer, das angibt, ob ein Kunde in einem Unternehmen wahrscheinlich einen Computer kauft oder nicht. Jeder interne Knoten repräsentiert einen Test für ein Attribut. Jeder Blattknoten repräsentiert eine Klasse.

Die Vorteile eines Entscheidungsbaums sind folgende:

  • Es sind keine Domänenkenntnisse erforderlich.
  • Es ist leicht zu verstehen.
  • Die Lern- und Klassifizierungsschritte eines Entscheidungsbaums sind einfach und schnell.

Entscheidungsbaum-Induktionsalgorithmus

Ein Maschinenforscher namens J. Ross Quinlan entwickelte 1980 einen Entscheidungsbaumalgorithmus namens ID3 (Iterative Dichotomiser). Später präsentierte er C4.5, den Nachfolger von ID3. ID3 und C4.5 verfolgen einen gierigen Ansatz. In diesem Algorithmus gibt es kein Backtracking. Die Bäume sind von oben nach unten rekursiv geteilt und erobert.

Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree

Input:
Data partition, D, which is a set of training tuples 
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data 
tuples into individual classes. This criterion includes a 
splitting_attribute and either a splitting point or splitting subset.

Output:
 A Decision Tree

Method
create a node N;

if tuples in D are all of the same class, C then
   return N as leaf node labeled with class C;
   
if attribute_list is empty then
   return N as leaf node with labeled 
   with majority class in D;|| majority voting
   
apply attribute_selection_method(D, attribute_list) 
to find the best splitting_criterion;
label node N with splitting_criterion;

if splitting_attribute is discrete-valued and
   multiway splits allowed then  // no restricted to binary trees

attribute_list = splitting attribute; // remove splitting attribute
for each outcome j of splitting criterion

   // partition the tuples and grow subtrees for each partition
   let Dj be the set of data tuples in D satisfying outcome j; // a partition
   
   if Dj is empty then
      attach a leaf labeled with the majority 
      class in D to node N;
   else 
      attach the node returned by Generate 
      decision tree(Dj, attribute list) to node N;
   end for
return N;

Baumschnitt

Das Beschneiden von Bäumen wird durchgeführt, um Anomalien in den Trainingsdaten aufgrund von Rauschen oder Ausreißern zu beseitigen. Die beschnittenen Bäume sind kleiner und weniger komplex.

Baumschnitt-Ansätze

Es gibt zwei Ansätze, um einen Baum zu beschneiden:

  • Pre-pruning - Der Baum wird beschnitten, indem der Bau vorzeitig eingestellt wird.

  • Post-pruning - Dieser Ansatz entfernt einen Teilbaum von einem ausgewachsenen Baum.

Kostenkomplexität

Die Kostenkomplexität wird anhand der folgenden zwei Parameter gemessen:

  • Anzahl der Blätter im Baum und
  • Fehlerrate des Baumes.

Die Bayes'sche Klassifikation basiert auf dem Bayes'schen Theorem. Bayesianische Klassifikatoren sind die statistischen Klassifikatoren. Bayesianische Klassifikatoren können Klassenmitgliedschaftswahrscheinlichkeiten vorhersagen, beispielsweise die Wahrscheinlichkeit, dass ein bestimmtes Tupel zu einer bestimmten Klasse gehört.

Satz von Baye

Der Satz von Bayes ist nach Thomas Bayes benannt. Es gibt zwei Arten von Wahrscheinlichkeiten -

  • Posteriore Wahrscheinlichkeit [P (H / X)]
  • Vorherige Wahrscheinlichkeit [P (H)]

Dabei ist X ein Datentupel und H eine Hypothese.

Nach dem Satz von Bayes

P (H / X) = P (X / H) P (H) / P (X)

Bayesian Belief Network

Bayesian Belief Networks spezifizieren gemeinsame bedingte Wahrscheinlichkeitsverteilungen. Sie werden auch als Glaubensnetzwerke, Bayesianische Netzwerke oder probabilistische Netzwerke bezeichnet.

  • In einem Glaubensnetzwerk können klassenbedingte Abhängigkeiten zwischen Teilmengen von Variablen definiert werden.

  • Es bietet ein grafisches Modell des Kausalzusammenhangs, anhand dessen gelernt werden kann.

  • Wir können ein geschultes Bayesianisches Netzwerk zur Klassifizierung verwenden.

Es gibt zwei Komponenten, die ein Bayesian Belief Network definieren:

  • Gerichteter azyklischer Graph
  • Eine Reihe von bedingten Wahrscheinlichkeitstabellen

Directed Acyclic Graph

  • Jeder Knoten in einem gerichteten azyklischen Graphen repräsentiert eine Zufallsvariable.
  • Diese Variablen können diskret oder kontinuierlich bewertet sein.
  • Diese Variablen können dem tatsächlichen Attribut entsprechen, das in den Daten angegeben ist.

Directed Acyclic Graph Representation

Das folgende Diagramm zeigt einen gerichteten azyklischen Graphen für sechs Boolesche Variablen.

Der Bogen im Diagramm ermöglicht die Darstellung des kausalen Wissens. Zum Beispiel wird Lungenkrebs durch die Familiengeschichte einer Person mit Lungenkrebs sowie durch die Frage beeinflusst, ob die Person Raucher ist oder nicht. Es ist erwähnenswert, dass die Variable PositiveXray unabhängig davon ist, ob der Patient in der Familienanamnese an Lungenkrebs leidet oder ob der Patient Raucher ist, da wir wissen, dass der Patient an Lungenkrebs leidet.

Bedingte Wahrscheinlichkeitstabelle

Die bedingte Wahrscheinlichkeitstabelle für die Werte der Variablen LungCancer (LC), die jede mögliche Kombination der Werte ihrer übergeordneten Knoten FamilyHistory (FH) und Smoker (S) zeigt, lautet wie folgt:

WENN-DANN Regeln

Der regelbasierte Klassifizierer verwendet einen Satz von IF-THEN-Regeln für die Klassifizierung. Wir können eine Regel im Folgenden ausdrücken:

WENN Bedingung DANN Schlussfolgerung

Betrachten wir eine Regel R1,

R1: IF age = youth AND student = yes 
   THEN buy_computer = yes

Points to remember −

  • Der IF-Teil der Regel wird aufgerufen rule antecedent oder precondition.

  • Der DANN-Teil der Regel wird aufgerufen rule consequent.

  • Der vorhergehende Teil der Bedingung besteht aus einem oder mehreren Attributtests, und diese Tests sind logisch UND-verknüpft.

  • Der konsequente Teil besteht aus der Klassenvorhersage.

Note - Wir können Regel R1 auch wie folgt schreiben:

R1: (age = youth) ^ (student = yes))(buys computer = yes)

Wenn die Bedingung für ein gegebenes Tupel zutrifft, ist die Vorgeschichte erfüllt.

Regelextraktion

Hier erfahren Sie, wie Sie einen regelbasierten Klassifikator erstellen, indem Sie IF-THEN-Regeln aus einem Entscheidungsbaum extrahieren.

Points to remember −

So extrahieren Sie eine Regel aus einem Entscheidungsbaum:

  • Für jeden Pfad von der Wurzel zum Blattknoten wird eine Regel erstellt.

  • Um einen Regelvorgänger zu bilden, wird jedes Aufteilungskriterium logisch UND-verknüpft.

  • Der Blattknoten enthält die Klassenvorhersage und bildet die daraus resultierende Regel.

Regelinduktion unter Verwendung eines sequentiellen Abdeckungsalgorithmus

Der sequentielle Abdeckungsalgorithmus kann verwendet werden, um IF-THEN-Regeln aus den Trainingsdaten zu extrahieren. Wir müssen nicht zuerst einen Entscheidungsbaum generieren. In diesem Algorithmus deckt jede Regel für eine bestimmte Klasse viele der Tupel dieser Klasse ab.

Einige der sequentiellen Abdeckungsalgorithmen sind AQ, CN2 und RIPPER. Gemäß der allgemeinen Strategie werden die Regeln einzeln gelernt. Jedes Mal, wenn Regeln gelernt werden, wird ein von der Regel abgedecktes Tupel entfernt und der Prozess für den Rest der Tupel fortgesetzt. Dies liegt daran, dass der Pfad zu jedem Blatt in einem Entscheidungsbaum einer Regel entspricht.

Note - Die Induktion des Entscheidungsbaums kann als gleichzeitiges Lernen eines Regelwerks betrachtet werden.

Das Folgende ist der sequentielle Lernalgorithmus, bei dem Regeln für jeweils eine Klasse gelernt werden. Wenn Sie eine Regel aus einer Klasse Ci lernen, möchten wir, dass die Regel nur alle Tupel aus Klasse C abdeckt und kein Tupel eine andere Klasse bildet.

Algorithm: Sequential Covering

Input: 
D, a data set class-labeled tuples,
Att_vals, the set of all attributes and their possible values.

Output:  A Set of IF-THEN rules.
Method:
Rule_set={ }; // initial set of rules learned is empty

for each class c do
   
   repeat
      Rule = Learn_One_Rule(D, Att_valls, c);
      remove tuples covered by Rule form D;
   until termination condition;
   
   Rule_set=Rule_set+Rule; // add a new rule to rule-set
end for
return Rule_Set;

Regelbeschneiden

Die Regel wird aus folgendem Grund beschnitten:

  • Die Bewertung der Qualität erfolgt anhand der ursprünglichen Trainingsdaten. Die Regel kann bei Trainingsdaten eine gute Leistung erbringen, bei nachfolgenden Daten jedoch weniger. Aus diesem Grund ist das Beschneiden von Regeln erforderlich.

  • Die Regel wird durch Entfernen der Konjunktion beschnitten. Die Regel R wird beschnitten, wenn die beschnittene Version von R eine höhere Qualität aufweist als die, die anhand eines unabhängigen Satzes von Tupeln bewertet wurde.

FOIL ist eine der einfachen und effektiven Methoden zum Bereinigen von Regeln. Für eine gegebene Regel R,

FOIL_Prune = pos - neg / pos + neg

Dabei ist pos und neg die Anzahl der positiven Rupel, die von R abgedeckt werden.

Note- Dieser Wert erhöht sich mit der Genauigkeit von R am Schnitt. Wenn also der FOIL_Prune-Wert für die beschnittene Version von R höher ist, beschneiden wir R.

Hier werden wir andere Klassifizierungsmethoden wie genetische Algorithmen, Rough-Set-Ansatz und Fuzzy-Set-Ansatz diskutieren.

Genetische Algorythmen

Die Idee des genetischen Algorithmus leitet sich aus der natürlichen Evolution ab. Beim genetischen Algorithmus wird zunächst die Anfangspopulation erzeugt. Diese anfängliche Grundgesamtheit besteht aus zufällig generierten Regeln. Wir können jede Regel durch eine Folge von Bits darstellen.

Beispielsweise werden in einem gegebenen Trainingssatz die Stichproben durch zwei Boolesche Attribute wie A1 und A2 beschrieben. Und dieses gegebene Trainingsset enthält zwei Klassen wie C1 und C2.

Wir können die Regel kodieren IF A1 AND NOT A2 THEN C2 in eine Bitfolge 100. In dieser Bitdarstellung repräsentieren die beiden Bits ganz links das Attribut A1 bzw. A2.

Ebenso die Regel IF NOT A1 AND NOT A2 THEN C1 kann codiert werden als 001.

Note- Wenn das Attribut K-Werte hat, wobei K> 2 ist, können wir die K-Bits verwenden, um die Attributwerte zu codieren. Die Klassen werden ebenfalls auf die gleiche Weise codiert.

Zu beachtende Punkte -

  • Basierend auf dem Begriff des Überlebens der Stärkeren wird eine neue Population gebildet, die aus den Stärksten Regeln in der aktuellen Population und den Nachkommenwerten dieser Regeln besteht.

  • Die Eignung einer Regel wird anhand ihrer Klassifizierungsgenauigkeit anhand einer Reihe von Trainingsmustern bewertet.

  • Die genetischen Operatoren wie Crossover und Mutation werden angewendet, um Nachkommen zu erzeugen.

  • Beim Crossover wird der Teilstring aus einem Regelpaar ausgetauscht, um ein neues Regelpaar zu bilden.

  • Bei der Mutation werden zufällig ausgewählte Bits in der Zeichenfolge einer Regel invertiert.

Grobansatz

Wir können den groben Mengenansatz verwenden, um strukturelle Beziehungen innerhalb ungenauer und verrauschter Daten zu entdecken.

Note- Dieser Ansatz kann nur auf Attribute mit diskreten Werten angewendet werden. Daher müssen fortlaufend bewertete Attribute vor ihrer Verwendung diskretisiert werden.

Die Rough-Set-Theorie basiert auf der Festlegung von Äquivalenzklassen innerhalb der angegebenen Trainingsdaten. Die Tupel, die die Äquivalenzklasse bilden, sind nicht erkennbar. Dies bedeutet, dass die Stichproben in Bezug auf die Attribute, die die Daten beschreiben, identisch sind.

Es gibt einige Klassen in den angegebenen Daten der realen Welt, die nicht anhand der verfügbaren Attribute unterschieden werden können. Wir können die groben Sätze verwenden, umroughly Definieren Sie solche Klassen.

Für eine gegebene Klasse C wird die grobe Mengendefinition durch zwei Mengen wie folgt angenähert:

  • Lower Approximation of C - Die untere Näherung von C besteht aus allen Datentupeln, die aufgrund der Kenntnis des Attributs mit Sicherheit zur Klasse C gehören.

  • Upper Approximation of C - Die obere Näherung von C besteht aus allen Tupeln, die aufgrund der Kenntnis der Attribute nicht als nicht zu C gehörend beschrieben werden können.

Das folgende Diagramm zeigt die obere und untere Annäherung der Klasse C -

Fuzzy-Set-Ansätze

Die Fuzzy-Mengen-Theorie wird auch als Möglichkeitstheorie bezeichnet. Diese Theorie wurde 1965 von Lotfi Zadeh als Alternative vorgeschlagentwo-value logic und probability theory. Diese Theorie ermöglicht es uns, auf einem hohen Abstraktionsniveau zu arbeiten. Es bietet uns auch die Möglichkeit, mit ungenauen Datenmessungen umzugehen.

Die Fuzzy-Set-Theorie erlaubt es uns auch, mit vagen oder ungenauen Tatsachen umzugehen. Zum Beispiel ist es genau (z. B. wenn), Mitglied einer Reihe von Einkommen mit hohem Einkommen zu sein$50,000 is high then what about $49.000 und 48.000 USD). Im Gegensatz zur herkömmlichen CRISP-Menge, bei der das Element entweder zu S oder zu seinem Komplement gehört, kann das Element in der Fuzzy-Mengen-Theorie jedoch zu mehr als einer Fuzzy-Menge gehören.

Zum Beispiel gehört der Einkommenswert von 49.000 USD sowohl zu den mittleren als auch zu den hohen Fuzzy-Mengen, jedoch in unterschiedlichem Maße. Die Fuzzy-Set-Notation für diesen Einkommenswert lautet wie folgt:

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

Dabei ist 'm' die Zugehörigkeitsfunktion, die für die Fuzzy-Mengen von medium_income bzw. high_income ausgeführt wird. Diese Notation kann schematisch wie folgt dargestellt werden:

Cluster ist eine Gruppe von Objekten, die zur selben Klasse gehören. Mit anderen Worten, ähnliche Objekte werden in einem Cluster gruppiert und unterschiedliche Objekte werden in einem anderen Cluster gruppiert.

Was ist Clustering?

Beim Clustering wird eine Gruppe abstrakter Objekte zu Klassen ähnlicher Objekte.

Points to Remember

  • Ein Cluster von Datenobjekten kann als eine Gruppe behandelt werden.

  • Während der Clusteranalyse partitionieren wir zuerst den Datensatz anhand der Datenähnlichkeit in Gruppen und weisen dann den Gruppen die Beschriftungen zu.

  • Der Hauptvorteil von Clustering gegenüber Klassifizierung besteht darin, dass es an Änderungen angepasst werden kann und dabei hilft, nützliche Funktionen herauszusuchen, die verschiedene Gruppen unterscheiden.

Anwendungen der Clusteranalyse

  • Die Clusteranalyse wird häufig in vielen Anwendungen wie Marktforschung, Mustererkennung, Datenanalyse und Bildverarbeitung eingesetzt.

  • Clustering kann Marketingfachleuten auch dabei helfen, unterschiedliche Gruppen in ihrem Kundenstamm zu entdecken. Und sie können ihre Kundengruppen anhand der Kaufmuster charakterisieren.

  • Auf dem Gebiet der Biologie können damit Taxonomien von Pflanzen und Tieren abgeleitet, Gene mit ähnlichen Funktionen kategorisiert und Einblicke in Strukturen gewonnen werden, die Populationen innewohnen.

  • Clustering hilft auch bei der Identifizierung von Gebieten mit ähnlicher Landnutzung in einer Erdbeobachtungsdatenbank. Es hilft auch bei der Identifizierung von Gruppen von Häusern in einer Stadt nach Haustyp, Wert und geografischer Lage.

  • Clustering hilft auch bei der Klassifizierung von Dokumenten im Web für die Informationserkennung.

  • Clustering wird auch in Ausreißererkennungsanwendungen wie der Erkennung von Kreditkartenbetrug verwendet.

  • Als Data Mining-Funktion dient die Clusteranalyse als Werkzeug, um Einblicke in die Verteilung von Daten zu erhalten und die Merkmale jedes Clusters zu beobachten.

Anforderungen an das Clustering im Data Mining

Die folgenden Punkte beleuchten, warum Clustering beim Data Mining erforderlich ist:

  • Scalability - Wir benötigen hoch skalierbare Clustering-Algorithmen, um mit großen Datenbanken umgehen zu können.

  • Ability to deal with different kinds of attributes - Algorithmen sollten auf alle Arten von Daten angewendet werden können, z. B. auf intervallbasierte (numerische) Daten, kategoriale und binäre Daten.

  • Discovery of clusters with attribute shape- Der Clustering-Algorithmus sollte in der Lage sein, Cluster beliebiger Form zu erkennen. Sie sollten nicht nur auf Abstandsmaße beschränkt sein, die dazu neigen, kugelförmige Cluster kleiner Größe zu finden.

  • High dimensionality - Der Clustering-Algorithmus sollte nicht nur niedrigdimensionale Daten verarbeiten können, sondern auch den hochdimensionalen Raum.

  • Ability to deal with noisy data- Datenbanken enthalten verrauschte, fehlende oder fehlerhafte Daten. Einige Algorithmen reagieren empfindlich auf solche Daten und können zu Clustern mit schlechter Qualität führen.

  • Interpretability - Die Clustering-Ergebnisse sollten interpretierbar, verständlich und verwendbar sein.

Clustering-Methoden

Clustering-Methoden können in die folgenden Kategorien eingeteilt werden:

  • Partitionierungsmethode
  • Hierarchische Methode
  • Dichtebasierte Methode
  • Gitterbasierte Methode
  • Modellbasierte Methode
  • Constraint-basierte Methode

Partitionierungsmethode

Angenommen, wir erhalten eine Datenbank mit 'n' Objekten und die Partitionierungsmethode erstellt die 'k'-Partition von Daten. Jede Partition repräsentiert einen Cluster und k ≤ n. Dies bedeutet, dass die Daten in k Gruppen klassifiziert werden, die die folgenden Anforderungen erfüllen:

  • Jede Gruppe enthält mindestens ein Objekt.

  • Jedes Objekt muss genau einer Gruppe angehören.

Points to remember −

  • Für eine bestimmte Anzahl von Partitionen (z. B. k) erstellt die Partitionierungsmethode eine anfängliche Partitionierung.

  • Anschließend wird die iterative Verschiebungstechnik verwendet, um die Partitionierung zu verbessern, indem Objekte von einer Gruppe in eine andere verschoben werden.

Hierarchische Methoden

Diese Methode erstellt eine hierarchische Zerlegung des angegebenen Satzes von Datenobjekten. Wir können hierarchische Methoden anhand der Bildung der hierarchischen Zerlegung klassifizieren. Hier gibt es zwei Ansätze -

  • Agglomerativer Ansatz
  • Teilungsansatz

Agglomerativer Ansatz

Dieser Ansatz wird auch als Bottom-up-Ansatz bezeichnet. Dabei beginnen wir damit, dass jedes Objekt eine separate Gruppe bildet. Es werden weiterhin Objekte oder Gruppen zusammengeführt, die nahe beieinander liegen. Dies wird so lange fortgesetzt, bis alle Gruppen zu einer zusammengefasst sind oder bis die Beendigungsbedingung erfüllt ist.

Teilungsansatz

Dieser Ansatz wird auch als Top-Down-Ansatz bezeichnet. Hier beginnen wir mit allen Objekten im selben Cluster. Bei der kontinuierlichen Iteration wird ein Cluster in kleinere Cluster aufgeteilt. Es ist so lange inaktiv, bis jedes Objekt in einem Cluster oder die Beendigungsbedingung erfüllt ist. Diese Methode ist starr, dh wenn eine Zusammenführung oder Aufteilung einmal durchgeführt wurde, kann sie niemals mehr rückgängig gemacht werden.

Ansätze zur Verbesserung der Qualität des hierarchischen Clusters

Hier sind die beiden Ansätze, mit denen die Qualität des hierarchischen Clusters verbessert wird:

  • Führen Sie bei jeder hierarchischen Partitionierung eine sorgfältige Analyse der Objektverknüpfungen durch.

  • Integrieren Sie die hierarchische Agglomeration, indem Sie zuerst einen hierarchischen Agglomerationsalgorithmus verwenden, um Objekte in Mikrocluster zu gruppieren, und dann Makrocluster für die Mikrocluster durchführen.

Dichtebasierte Methode

Diese Methode basiert auf dem Begriff der Dichte. Die Grundidee besteht darin, den gegebenen Cluster weiter zu vergrößern, solange die Dichte in der Nachbarschaft einen bestimmten Schwellenwert überschreitet, dh für jeden Datenpunkt innerhalb eines gegebenen Clusters muss der Radius eines gegebenen Clusters mindestens eine Mindestanzahl von Punkten enthalten.

Gitterbasierte Methode

Dabei bilden die Objekte zusammen ein Raster. Der Objektraum wird in eine endliche Anzahl von Zellen quantisiert, die eine Gitterstruktur bilden.

Advantages

  • Der Hauptvorteil dieser Methode ist die schnelle Verarbeitungszeit.

  • Es hängt nur von der Anzahl der Zellen in jeder Dimension im quantisierten Raum ab.

Modellbasierte Methoden

Bei dieser Methode wird für jeden Cluster ein Modell angenommen, um die beste Datenanpassung für ein bestimmtes Modell zu finden. Diese Methode lokalisiert die Cluster durch Clustering der Dichtefunktion. Es spiegelt die räumliche Verteilung der Datenpunkte wider.

Diese Methode bietet auch eine Möglichkeit, die Anzahl der Cluster basierend auf Standardstatistiken unter Berücksichtigung von Ausreißern oder Rauschen automatisch zu bestimmen. Es liefert daher robuste Clustering-Methoden.

Constraint-basierte Methode

Bei diesem Verfahren wird das Clustering durch die Einbeziehung benutzer- oder anwendungsorientierter Einschränkungen durchgeführt. Eine Einschränkung bezieht sich auf die Benutzererwartung oder die Eigenschaften der gewünschten Clustering-Ergebnisse. Einschränkungen bieten uns eine interaktive Art der Kommunikation mit dem Clustering-Prozess. Einschränkungen können vom Benutzer oder von der Anwendungsanforderung festgelegt werden.

Textdatenbanken bestehen aus einer riesigen Sammlung von Dokumenten. Sie sammeln diese Informationen aus verschiedenen Quellen wie Nachrichtenartikeln, Büchern, digitalen Bibliotheken, E-Mail-Nachrichten, Webseiten usw. Aufgrund der zunehmenden Informationsmenge wachsen die Textdatenbanken rasant. In vielen Textdatenbanken sind die Daten halbstrukturiert.

Beispielsweise kann ein Dokument einige strukturierte Felder enthalten, z. B. Titel, Autor, Veröffentlichungsdatum usw. Neben den Strukturdaten enthält das Dokument jedoch auch unstrukturierte Textkomponenten wie Zusammenfassung und Inhalt. Ohne zu wissen, was in den Dokumenten enthalten sein könnte, ist es schwierig, effektive Abfragen zum Analysieren und Extrahieren nützlicher Informationen aus den Daten zu formulieren. Benutzer benötigen Tools, um die Dokumente zu vergleichen und ihre Wichtigkeit und Relevanz einzustufen. Daher ist Text Mining populär geworden und ein wesentliches Thema im Data Mining.

Informationsrückgewinnung

Das Abrufen von Informationen befasst sich mit dem Abrufen von Informationen aus einer großen Anzahl textbasierter Dokumente. Einige der Datenbanksysteme sind normalerweise nicht in Informationsabrufsystemen vorhanden, da beide unterschiedliche Arten von Daten verarbeiten. Beispiele für Informationsabrufsysteme umfassen -

  • Katalogsystem der Online-Bibliothek
  • Online-Dokumentenverwaltungssysteme
  • Websuchsysteme usw.

Note- Das Hauptproblem in einem Informationsabrufsystem besteht darin, relevante Dokumente in einer Dokumentensammlung basierend auf der Abfrage eines Benutzers zu finden. Diese Art der Benutzerabfrage besteht aus einigen Schlüsselwörtern, die einen Informationsbedarf beschreiben.

Bei solchen Suchproblemen ergreift der Benutzer eine Initiative, um relevante Informationen aus einer Sammlung herauszuholen. Dies ist angemessen, wenn der Benutzer einen Ad-hoc-Informationsbedarf hat, dh einen kurzfristigen Bedarf. Wenn der Benutzer jedoch einen langfristigen Informationsbedarf hat, kann das Abrufsystem auch eine Initiative ergreifen, um neu angekommene Informationen an den Benutzer weiterzuleiten.

Diese Art des Zugriffs auf Informationen wird als Informationsfilterung bezeichnet. Die entsprechenden Systeme werden als Filtersysteme oder Empfehlungssysteme bezeichnet.

Grundlegende Maßnahmen zum Abrufen von Text

Wir müssen die Genauigkeit eines Systems überprüfen, wenn es eine Reihe von Dokumenten auf der Grundlage von Benutzereingaben abruft. Die für eine Abfrage relevanten Dokumente sollen als {Relevant} und die Gruppe der abgerufenen Dokumente als {Abgerufen} bezeichnet werden. Der Satz von Dokumenten, die relevant sind und abgerufen werden, kann als {Relevant} ∩ {Abgerufen} bezeichnet werden. Dies kann in Form eines Venn-Diagramms wie folgt dargestellt werden:

Es gibt drei grundlegende Maßnahmen zur Bewertung der Qualität des Textabrufs:

  • Precision
  • Recall
  • F-score

Präzision

Die Genauigkeit ist der Prozentsatz der abgerufenen Dokumente, die für die Abfrage tatsächlich relevant sind. Präzision kann definiert werden als -

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Erinnern

Rückruf ist der Prozentsatz der Dokumente, die für die Abfrage relevant sind und tatsächlich abgerufen wurden. Rückruf ist definiert als -

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F-Score

F-Score ist der häufig verwendete Kompromiss. Das Informationsabrufsystem muss häufig gegen Präzision eingetauscht werden oder umgekehrt. Der F-Score wird wie folgt als harmonisches Mittel des Rückrufs oder der Präzision definiert:

F-score = recall x precision / (recall + precision) / 2

Das World Wide Web enthält riesige Mengen an Informationen, die eine umfangreiche Quelle für Data Mining darstellen.

Herausforderungen im Web Mining

Das Web stellt die Entdeckung von Ressourcen und Wissen aufgrund der folgenden Beobachtungen vor große Herausforderungen:

  • The web is too huge- Die Größe des Webs ist sehr groß und nimmt rapide zu. Dies scheint, dass das Web für Data Warehousing und Data Mining zu groß ist.

  • Complexity of Web pages- Die Webseiten haben keine einheitliche Struktur. Sie sind im Vergleich zu herkömmlichen Textdokumenten sehr komplex. Es gibt eine große Anzahl von Dokumenten in der digitalen Bibliothek des Webs. Diese Bibliotheken sind nicht nach einer bestimmten sortierten Reihenfolge angeordnet.

  • Web is dynamic information source- Die Informationen im Web werden schnell aktualisiert. Die Daten wie Nachrichten, Aktienmärkte, Wetter, Sport, Shopping usw. werden regelmäßig aktualisiert.

  • Diversity of user communities- Die Benutzergemeinschaft im Web wächst rasant. Diese Benutzer haben unterschiedliche Hintergründe, Interessen und Verwendungszwecke. Es gibt mehr als 100 Millionen Workstations, die mit dem Internet verbunden sind und immer noch schnell zunehmen.

  • Relevancy of Information - Es wird davon ausgegangen, dass eine bestimmte Person im Allgemeinen nur an einem kleinen Teil des Webs interessiert ist, während der Rest des Teils des Webs die Informationen enthält, die für den Benutzer nicht relevant sind und die gewünschten Ergebnisse überschwemmen können.

Struktur des Mining-Webseitenlayouts

Die Grundstruktur der Webseite basiert auf dem Document Object Model (DOM). Die DOM-Struktur bezieht sich auf eine baumartige Struktur, bei der das HTML-Tag auf der Seite einem Knoten im DOM-Baum entspricht. Wir können die Webseite mithilfe vordefinierter Tags in HTML segmentieren. Die HTML-Syntax ist flexibel, daher entsprechen die Webseiten nicht den W3C-Spezifikationen. Die Nichteinhaltung der Spezifikationen von W3C kann zu Fehlern in der DOM-Baumstruktur führen.

Die DOM-Struktur wurde ursprünglich zur Darstellung im Browser und nicht zur Beschreibung der semantischen Struktur der Webseite eingeführt. Die DOM-Struktur kann die semantische Beziehung zwischen den verschiedenen Teilen einer Webseite nicht korrekt identifizieren.

Vision-basierte Seitensegmentierung (VIPS)

  • Der Zweck von VIPS besteht darin, die semantische Struktur einer Webseite basierend auf ihrer visuellen Darstellung zu extrahieren.

  • Eine solche semantische Struktur entspricht einer Baumstruktur. In diesem Baum entspricht jeder Knoten einem Block.

  • Jedem Knoten wird ein Wert zugewiesen. Dieser Wert wird als Kohärenzgrad bezeichnet. Dieser Wert wird zugewiesen, um den kohärenten Inhalt im Block basierend auf der visuellen Wahrnehmung anzuzeigen.

  • Der VIPS-Algorithmus extrahiert zunächst alle geeigneten Blöcke aus dem HTML-DOM-Baum. Danach findet es die Trennzeichen zwischen diesen Blöcken.

  • Die Trennzeichen beziehen sich auf die horizontalen oder vertikalen Linien auf einer Webseite, die sich visuell ohne Blöcke kreuzen.

  • Die Semantik der Webseite wird auf Basis dieser Blöcke aufgebaut.

Die folgende Abbildung zeigt die Vorgehensweise des VIPS-Algorithmus -

Data Mining ist in verschiedenen Bereichen weit verbreitet. Es gibt heute eine Reihe von kommerziellen Data-Mining-Systemen, und dennoch gibt es in diesem Bereich viele Herausforderungen. In diesem Tutorial werden wir die Anwendungen und den Trend des Data Mining diskutieren.

Data Mining-Anwendungen

Hier ist die Liste der Bereiche, in denen Data Mining weit verbreitet ist -

  • Finanzdatenanalyse
  • Einzelhandelsindustrie
  • Telekommunikationsindustrie
  • Biologische Datenanalyse
  • Andere wissenschaftliche Anwendungen
  • Intrusion Detection

Finanzdatenanalyse

Die Finanzdaten in der Banken- und Finanzbranche sind im Allgemeinen zuverlässig und von hoher Qualität, was eine systematische Datenanalyse und Data Mining ermöglicht. Einige der typischen Fälle sind wie folgt:

  • Entwurf und Bau von Data Warehouses für mehrdimensionale Datenanalyse und Data Mining.

  • Prognose der Kreditzahlung und Analyse der Kundenkreditpolitik.

  • Klassifizierung und Clustering von Kunden für gezieltes Marketing.

  • Aufdeckung von Geldwäsche und anderen Finanzverbrechen.

Einzelhandelsindustrie

Data Mining hat eine großartige Anwendung im Einzelhandel, da es große Datenmengen zu Verkäufen, Kundeneinkaufshistorie, Warentransport, Verbrauch und Dienstleistungen sammelt. Es ist natürlich, dass die Menge der gesammelten Daten aufgrund der zunehmenden Leichtigkeit, Verfügbarkeit und Popularität des Webs weiterhin schnell zunehmen wird.

Data Mining im Einzelhandel hilft bei der Identifizierung von Kundenkaufmustern und -trends, die zu einer verbesserten Qualität des Kundenservice und einer guten Kundenbindung und -zufriedenheit führen. Hier ist die Liste der Beispiele für Data Mining im Einzelhandel -

  • Entwurf und Bau von Data Warehouses basierend auf den Vorteilen von Data Mining.

  • Mehrdimensionale Analyse von Umsatz, Kunden, Produkten, Zeit und Region.

  • Analyse der Wirksamkeit von Verkaufskampagnen.

  • Kundenbindung.

  • Produktempfehlung und Querverweis von Artikeln.

Telekommunikationsindustrie

Heute ist die Telekommunikationsbranche eine der aufstrebendsten Branchen, die verschiedene Dienste wie Fax, Pager, Mobiltelefon, Internet-Messenger, Bilder, E-Mail, Webdatenübertragung usw. anbietet. Aufgrund der Entwicklung neuer Computer- und Kommunikationstechnologien bietet die Die Telekommunikationsbranche wächst rasant. Dies ist der Grund, warum Data Mining sehr wichtig wird, um das Geschäft zu verstehen.

Data Mining in der Telekommunikationsbranche hilft dabei, die Telekommunikationsmuster zu identifizieren, betrügerische Aktivitäten zu erfassen, Ressourcen besser zu nutzen und die Servicequalität zu verbessern. Hier ist die Liste der Beispiele, für die Data Mining die Telekommunikationsdienste verbessert -

  • Mehrdimensionale Analyse von Telekommunikationsdaten.

  • Betrügerische Musteranalyse.

  • Identifizierung ungewöhnlicher Muster.

  • Mehrdimensionale Assoziations- und sequentielle Musteranalyse.

  • Mobilfunkdienste.

  • Verwendung von Visualisierungstools bei der Analyse von Telekommunikationsdaten.

Biologische Datenanalyse

In jüngster Zeit haben wir ein enormes Wachstum auf dem Gebiet der Biologie wie Genomik, Proteomik, funktionelle Genomik und biomedizinische Forschung gesehen. Biologisches Data Mining ist ein sehr wichtiger Bestandteil der Bioinformatik. Im Folgenden sind die Aspekte aufgeführt, in denen Data Mining zur Analyse biologischer Daten beiträgt:

  • Semantische Integration heterogener, verteilter genomischer und proteomischer Datenbanken.

  • Ausrichtung, Indexierung, Ähnlichkeitssuche und vergleichende Analyse mehrerer Nukleotidsequenzen.

  • Entdeckung struktureller Muster und Analyse genetischer Netzwerke und Proteinwege.

  • Assoziations- und Pfadanalyse.

  • Visualisierungswerkzeuge in der genetischen Datenanalyse.

Andere wissenschaftliche Anwendungen

Die oben diskutierten Anwendungen neigen dazu, relativ kleine und homogene Datensätze zu verarbeiten, für die die statistischen Techniken geeignet sind. Aufgrund der schnellen numerischen Simulationen in verschiedenen Bereichen wie Klima- und Ökosystemmodellierung, Chemieingenieurwesen, Fluiddynamik usw. Wurden große Datenmengen aus wissenschaftlichen Bereichen wie Geowissenschaften, Astronomie usw. gesammelt Im Folgenden sind die Anwendungen des Data Mining im Bereich der wissenschaftlichen Anwendungen aufgeführt:

  • Data Warehouses und Datenvorverarbeitung.
  • Graphbasiertes Mining.
  • Visualisierung und domänenspezifisches Wissen.

Intrusion Detection

Eindringen bezieht sich auf jede Art von Aktion, die die Integrität, Vertraulichkeit oder Verfügbarkeit von Netzwerkressourcen gefährdet. In dieser Welt der Konnektivität ist Sicherheit zum Hauptproblem geworden. Mit der zunehmenden Nutzung des Internets und der Verfügbarkeit der Tools und Tricks zum Eindringen und Angreifen in das Netzwerk wurde die Erkennung von Eindringlingen zu einer kritischen Komponente der Netzwerkadministration. Hier ist die Liste der Bereiche, in denen Data Mining-Technologie zur Erkennung von Eindringlingen eingesetzt werden kann:

  • Entwicklung eines Data Mining-Algorithmus zur Erkennung von Eindringlingen.

  • Assoziations- und Korrelationsanalyse, Aggregation zur Auswahl und Erstellung von Unterscheidungsmerkmalen.

  • Analyse von Stream-Daten.

  • Verteiltes Data Mining.

  • Visualisierungs- und Abfragetools.

Data Mining-Systemprodukte

Es gibt viele Data Mining-Systemprodukte und domänenspezifische Data Mining-Anwendungen. Die neuen Data Mining-Systeme und -Anwendungen werden zu den vorherigen Systemen hinzugefügt. Außerdem werden Anstrengungen unternommen, um Data Mining-Sprachen zu standardisieren.

Auswählen eines Data Mining-Systems

Die Auswahl eines Data Mining-Systems hängt von folgenden Funktionen ab:

  • Data Types- Das Data Mining-System kann formatierten Text, auf Datensätzen basierende Daten und relationale Daten verarbeiten. Die Daten können auch in ASCII-Text, relationalen Datenbankdaten oder Data Warehouse-Daten vorliegen. Daher sollten wir prüfen, welches Format das Data Mining-System genau verarbeiten kann.

  • System Issues- Wir müssen die Kompatibilität eines Data Mining-Systems mit verschiedenen Betriebssystemen berücksichtigen. Ein Data Mining-System kann nur auf einem Betriebssystem oder auf mehreren ausgeführt werden. Es gibt auch Data Mining-Systeme, die webbasierte Benutzeroberflächen bereitstellen und XML-Daten als Eingabe zulassen.

  • Data Sources- Datenquellen beziehen sich auf die Datenformate, in denen das Data Mining-System betrieben wird. Einige Data Mining-Systeme funktionieren möglicherweise nur mit ASCII-Textdateien, andere mit mehreren relationalen Quellen. Das Data Mining-System sollte auch ODBC-Verbindungen oder OLE DB für ODBC-Verbindungen unterstützen.

  • Data Mining functions and methodologies - Es gibt einige Data Mining-Systeme, die nur eine Data Mining-Funktion wie Klassifizierung bereitstellen, während einige mehrere Data Mining-Funktionen wie Konzeptbeschreibung, entdeckungsgesteuerte OLAP-Analyse, Assoziations-Mining, Verknüpfungsanalyse, statistische Analyse, Klassifizierung, Vorhersage, Clustering, bereitstellen. Ausreißeranalyse, Ähnlichkeitssuche usw.

  • Coupling data mining with databases or data warehouse systems- Data Mining-Systeme müssen mit einer Datenbank oder einem Data Warehouse-System gekoppelt sein. Die gekoppelten Komponenten sind in eine einheitliche Informationsverarbeitungsumgebung integriert. Hier sind die unten aufgeführten Kupplungstypen -

    • Keine Kopplung
    • Lose Kopplung
    • Halbdichte Kupplung
    • Enge Kupplung
  • Scalability - Beim Data Mining gibt es zwei Skalierbarkeitsprobleme:

    • Row (Database size) Scalability- Ein Data Mining-System wird als zeilenskalierbar angesehen, wenn die Anzahl oder die Zeilen zehnmal vergrößert werden. Die Ausführung einer Abfrage dauert höchstens zehnmal.

    • Column (Dimension) Salability - Ein Data Mining-System wird als spaltenskalierbar angesehen, wenn die Ausführungszeit der Mining-Abfrage linear mit der Anzahl der Spalten zunimmt.

  • Visualization Tools - Die Visualisierung im Data Mining kann wie folgt kategorisiert werden: -

    • Datenvisualisierung
    • Visualisierung der Mining-Ergebnisse
    • Visualisierung des Mining-Prozesses
    • Visual Data Mining
  • Data Mining query language and graphical user interface- Eine benutzerfreundliche grafische Benutzeroberfläche ist wichtig, um ein benutzergeführtes, interaktives Data Mining zu fördern. Im Gegensatz zu relationalen Datenbanksystemen verwenden Data Mining-Systeme keine zugrunde liegende Data Mining-Abfragesprache.

Trends im Data Mining

Data Mining-Konzepte entwickeln sich weiter und hier sind die neuesten Trends, die wir in diesem Bereich sehen können -

  • Anwendungserkundung.

  • Skalierbare und interaktive Data Mining-Methoden.

  • Integration von Data Mining in Datenbanksysteme, Data Warehouse-Systeme und Web-Datenbanksysteme.

  • SS-Standardisierung der Data Mining-Abfragesprache.

  • Visual Data Mining.

  • Neue Methoden zum Mining komplexer Datentypen.

  • Biologisches Data Mining.

  • Data Mining und Software Engineering.

  • Web Mining.

  • Verteiltes Data Mining.

  • Echtzeit-Data-Mining.

  • Data Mining für mehrere Datenbanken.

  • Datenschutz und Informationssicherheit beim Data Mining.

Theoretische Grundlagen des Data Mining

Die theoretischen Grundlagen des Data Mining umfassen die folgenden Konzepte:

  • Data Reduction- Die Grundidee dieser Theorie besteht darin, die Datendarstellung zu reduzieren, bei der Genauigkeit gegen Geschwindigkeit ausgetauscht wird, um schnelle ungefähre Antworten auf Fragen in sehr großen Datenbanken zu erhalten. Einige der Datenreduktionstechniken sind wie folgt:

    • Einzelwertzerlegung

    • Wavelets

    • Regression

    • Log-lineare Modelle

    • Histograms

    • Clustering

    • Sampling

    • Konstruktion von Indexbäumen

  • Data Compression - Die Grundidee dieser Theorie besteht darin, die angegebenen Daten durch Codierung in Bezug auf Folgendes zu komprimieren: -

    • Bits

    • Assoziationsregeln

    • Entscheidungsbäume

    • Clusters

  • Pattern Discovery- Die Grundidee dieser Theorie besteht darin, Muster zu entdecken, die in einer Datenbank vorkommen. Im Folgenden sind die Bereiche aufgeführt, die zu dieser Theorie beitragen:

    • Maschinelles Lernen

    • Neurales Netzwerk

    • Association Mining

    • Sequentielle Musterübereinstimmung

    • Clustering

  • Probability Theory- Diese Theorie basiert auf statistischer Theorie. Die Grundidee dieser Theorie besteht darin, gemeinsame Wahrscheinlichkeitsverteilungen von Zufallsvariablen zu entdecken.

  • Probability Theory - Nach dieser Theorie findet Data Mining die Muster, die nur insofern interessant sind, als sie im Entscheidungsprozess eines Unternehmens verwendet werden können.

  • Microeconomic View- Nach dieser Theorie besteht ein Datenbankschema aus Daten und Mustern, die in einer Datenbank gespeichert sind. Daher ist Data Mining die Aufgabe, eine Einführung in Datenbanken durchzuführen.

  • Inductive databases- Neben den datenbankorientierten Techniken stehen statistische Techniken für die Datenanalyse zur Verfügung. Diese Techniken können auch auf wissenschaftliche Daten und Daten aus den Wirtschafts- und Sozialwissenschaften angewendet werden.

Statistisches Data Mining

Einige der statistischen Data Mining-Techniken sind wie folgt:

  • Regression- Regressionsmethoden werden verwendet, um den Wert der Antwortvariablen aus einer oder mehreren Prädiktorvariablen vorherzusagen, wobei die Variablen numerisch sind. Nachfolgend sind die Formen der Regression aufgeführt -

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models - Das verallgemeinerte lineare Modell umfasst -

    • Logistische Regression

    • Poisson-Regression

    Die Verallgemeinerung des Modells ermöglicht es, eine kategoriale Antwortvariable auf ähnliche Weise wie eine numerische Antwortvariable unter Verwendung einer linearen Regression mit einer Reihe von Prädiktorvariablen in Beziehung zu setzen.

  • Analysis of Variance - Diese Technik analysiert -

    • Experimentelle Daten für zwei oder mehr Populationen, die durch eine numerische Antwortvariable beschrieben werden.

    • Eine oder mehrere kategoriale Variablen (Faktoren).

  • Mixed-effect Models- Diese Modelle werden zur Analyse gruppierter Daten verwendet. Diese Modelle beschreiben die Beziehung zwischen einer Antwortvariablen und einigen Co-Variablen in den Daten, die nach einem oder mehreren Faktoren gruppiert sind.

  • Factor Analysis- Die Faktoranalyse wird verwendet, um eine kategoriale Antwortvariable vorherzusagen. Diese Methode setzt voraus, dass unabhängige Variablen einer multivariaten Normalverteilung folgen.

  • Time Series Analysis - Es folgen die Methoden zur Analyse von Zeitreihendaten -

    • Auto-Regressionsmethoden.

    • Univariate ARIMA-Modellierung (AutoRegressive Integrated Moving Average).

    • Modellierung von Zeitreihen mit langem Speicher.

Visual Data Mining

Visual Data Mining verwendet Daten- und / oder Wissensvisualisierungstechniken, um implizites Wissen aus großen Datenmengen zu ermitteln. Visual Data Mining kann als Integration der folgenden Disziplinen angesehen werden:

  • Datenvisualisierung

  • Data Mining

Visual Data Mining ist eng mit Folgendem verbunden:

  • Computergrafik

  • Multimedia-Systeme

  • Menschliche interaktion mit dem Computer

  • Mustererkennung

  • High Performance Computing

Im Allgemeinen können Datenvisualisierung und Data Mining auf folgende Arten integriert werden:

  • Data Visualization - Die Daten in einer Datenbank oder einem Data Warehouse können in verschiedenen visuellen Formen angezeigt werden, die unten aufgeführt sind. -

    • Boxplots

    • 3-D-Würfel

    • Datenverteilungsdiagramme

    • Curves

    • Surfaces

    • Verknüpfungsgraphen usw.

  • Data Mining Result Visualization- Data Mining-Ergebnisvisualisierung ist die Darstellung der Ergebnisse des Data Mining in visuellen Formen. Diese visuellen Formen können Streudiagramme, Boxplots usw. sein.

  • Data Mining Process Visualization- Die Visualisierung von Data Mining-Prozessen zeigt die verschiedenen Prozesse des Data Mining. Dadurch können die Benutzer sehen, wie die Daten extrahiert werden. Außerdem können die Benutzer sehen, aus welcher Datenbank oder welchem ​​Data Warehouse die Daten bereinigt, integriert, vorverarbeitet und abgebaut werden.

Audio Data Mining

Beim Audio-Data-Mining werden Audiosignale verwendet, um die Datenmuster oder die Merkmale der Data-Mining-Ergebnisse anzuzeigen. Indem wir Muster in Ton und Nachdenken umwandeln, können wir Tonhöhen und Melodien anhören, anstatt Bilder anzusehen, um etwas Interessantes zu identifizieren.

Data Mining und kollaboratives Filtern

Verbraucher stoßen heute beim Einkaufen auf eine Vielzahl von Waren und Dienstleistungen. Bei Live-Kundentransaktionen hilft ein Empfehlungssystem dem Verbraucher, indem es Produktempfehlungen abgibt. Der kollaborative Filteransatz wird im Allgemeinen verwendet, um Kunden Produkte zu empfehlen. Diese Empfehlungen basieren auf den Meinungen anderer Kunden.