Data Mining - Auswertung
Data Warehouse
Ein Data Warehouse weist die folgenden Merkmale auf, um den Entscheidungsprozess des Managements zu unterstützen:
Subject Oriented- Data Warehouse ist themenorientiert, da es uns die Informationen zu einem Thema und nicht den laufenden Betrieb des Unternehmens liefert. Diese Themen können Produkte, Kunden, Lieferanten, Verkäufe, Einnahmen usw. sein. Das Data Warehouse konzentriert sich nicht auf den laufenden Betrieb, sondern auf die Modellierung und Analyse von Daten für die Entscheidungsfindung.
Integrated - Data Warehouse wird durch Integration von Daten aus heterogenen Quellen wie relationalen Datenbanken, Flatfiles usw. erstellt. Diese Integration verbessert die effektive Analyse von Daten.
Time Variant- Die in einem Data Warehouse gesammelten Daten werden mit einem bestimmten Zeitraum identifiziert. Die Daten in einem Data Warehouse liefern Informationen aus historischer Sicht.
Non-volatile- Nichtflüchtig bedeutet, dass die vorherigen Daten nicht entfernt werden, wenn neue Daten hinzugefügt werden. Das Data Warehouse wird von der Betriebsdatenbank getrennt gehalten, daher werden häufige Änderungen in der Betriebsdatenbank nicht im Data Warehouse berücksichtigt.
Data Warehousing
Data Warehousing ist der Prozess des Aufbaus und der Verwendung des Data Warehouse. Ein Data Warehouse wird durch Integration der Daten aus mehreren heterogenen Quellen aufgebaut. Es unterstützt analytische Berichte, strukturierte und / oder Ad-hoc-Abfragen sowie die Entscheidungsfindung.
Data Warehousing umfasst Datenbereinigung, Datenintegration und Datenkonsolidierung. Um heterogene Datenbanken zu integrieren, haben wir die folgenden zwei Ansätze:
- Abfragegesteuerter Ansatz
- Update Driven Approach
Abfragegesteuerter Ansatz
Dies ist der traditionelle Ansatz zur Integration heterogener Datenbanken. Dieser Ansatz wird verwendet, um Wrapper und Integratoren auf mehreren heterogenen Datenbanken aufzubauen. Diese Integratoren werden auch als Mediatoren bezeichnet.
Prozess des abfragegesteuerten Ansatzes
Wenn eine Abfrage an eine Clientseite ausgegeben wird, übersetzt ein Metadatenwörterbuch die Abfrage in die Abfragen, die für die jeweilige heterogene Site geeignet sind.
Jetzt werden diese Abfragen zugeordnet und an den lokalen Abfrageprozessor gesendet.
Die Ergebnisse von heterogenen Standorten werden in einen globalen Antwortsatz integriert.
Nachteile
Dieser Ansatz hat die folgenden Nachteile:
Der abfragegesteuerte Ansatz erfordert komplexe Integrations- und Filterprozesse.
Es ist sehr ineffizient und sehr teuer für häufige Anfragen.
Dieser Ansatz ist teuer für Abfragen, die Aggregationen erfordern.
Update-gesteuerter Ansatz
Die heutigen Data Warehouse-Systeme verfolgen eher einen aktualisierungsgesteuerten Ansatz als den zuvor diskutierten traditionellen Ansatz. Beim Update-gesteuerten Ansatz werden die Informationen aus mehreren heterogenen Quellen im Voraus integriert und in einem Lager gespeichert. Diese Informationen stehen für direkte Abfragen und Analysen zur Verfügung.
Vorteile
Dieser Ansatz hat folgende Vorteile:
Dieser Ansatz bietet eine hohe Leistung.
Die Daten können vorab im semantischen Datenspeicher kopiert, verarbeitet, integriert, kommentiert, zusammengefasst und umstrukturiert werden.
Die Abfrageverarbeitung erfordert keine Schnittstelle zur Verarbeitung an lokalen Quellen.
Vom Data Warehousing (OLAP) zum Data Mining (OLAM)
Online Analytical Mining lässt sich in Online Analytical Processing mit Data Mining und Mining-Wissen in mehrdimensionalen Datenbanken integrieren. Hier ist das Diagramm, das die Integration von OLAP und OLAM zeigt -
Bedeutung von OLAM
OLAM ist aus folgenden Gründen wichtig:
High quality of data in data warehouses- Die Data Mining-Tools müssen an integrierten, konsistenten und bereinigten Daten arbeiten. Diese Schritte sind bei der Vorverarbeitung von Daten sehr kostspielig. Die durch eine solche Vorverarbeitung erstellten Data Warehouses sind wertvolle Quellen für qualitativ hochwertige Daten auch für OLAP und Data Mining.
Available information processing infrastructure surrounding data warehouses - Die Informationsverarbeitungsinfrastruktur bezieht sich auf den Zugriff auf, die Integration, die Konsolidierung und die Transformation mehrerer heterogener Datenbanken, Webzugriffs- und Serviceeinrichtungen, Berichts- und OLAP-Analysetools.
OLAP−based exploratory data analysis- Für ein effektives Data Mining ist eine explorative Datenanalyse erforderlich. OLAM bietet die Möglichkeit zum Data Mining für verschiedene Teilmengen von Daten und auf verschiedenen Abstraktionsebenen.
Online selection of data mining functions - Die Integration von OLAP in mehrere Data Mining-Funktionen und das analytische Online-Mining bieten Benutzern die Flexibilität, die gewünschten Data Mining-Funktionen auszuwählen und Data Mining-Aufgaben dynamisch auszutauschen.