SAP HANA - SQL-Datenprofilerstellung

Die SQL Data Profiling-Aufgabe wird verwendet, um Daten aus mehreren Datenquellen zu verstehen und zu analysieren. Es wird verwendet, um falsche, unvollständige Daten zu entfernen und Datenqualitätsprobleme zu vermeiden, bevor sie in das Data Warehouse geladen werden.

Hier sind die Vorteile von SQL Data Profiling-Aufgaben:

  • Es hilft dabei, Quelldaten effektiver zu analysieren.

  • Es hilft beim besseren Verständnis der Quelldaten.

  • Es entfernt falsche, unvollständige Daten und verbessert die Datenqualität, bevor sie in das Data Warehouse geladen werden.

  • Es wird mit der Aufgabe Extrahieren, Transformieren und Laden verwendet.

Die Datenprofilerstellungsaufgabe überprüft Profile, die helfen, eine Datenquelle zu verstehen und Probleme in den Daten zu identifizieren, die behoben werden müssen.

Mithilfe der Aufgabe "Datenprofilerstellung" in einem Integration Services-Paket können Sie in SQL Server gespeicherte Daten profilieren und potenzielle Probleme mit der Datenqualität identifizieren.

Note - Die Datenprofilerstellung funktioniert nur mit SQL Server-Datenquellen und unterstützt keine anderen dateibasierten Datenquellen oder Datenquellen von Drittanbietern.

Zugangsvoraussetzung

Um ein Paket auszuführen, das eine Datenprofilierungsaufgabe enthält, muss das Benutzerkonto über Lese- / Schreibberechtigungen mit den Berechtigungen TABELLE ERSTELLEN für die temporäre Datenbank verfügen.

Data Profiler Viewer

Der Datenprofil-Viewer wird verwendet, um die Profiler-Ausgabe zu überprüfen. Der Datenprofil-Viewer unterstützt auch Drilldown-Funktionen, um Ihnen zu helfen, Datenqualitätsprobleme zu verstehen, die in der Profilausgabe identifiziert werden. Diese Drilldown-Funktion sendet Live-Abfragen an die ursprüngliche Datenquelle.

Einrichtung und Überprüfung von Datenprofilierungsaufgaben

Einrichten der Datenprofilerstellung

Es beinhaltet die Ausführung eines Pakets, das eine Datenprofilierungsaufgabe enthält, um die Profile zu berechnen. Die Aufgabe speichert die Ausgabe im XML-Format in einer Datei oder einer Paketvariablen.

Überprüfen der Profile

Senden Sie zum Anzeigen der Datenprofile die Ausgabe an eine Datei und verwenden Sie dann den Datenprofil-Viewer. Dieser Viewer ist ein eigenständiges Dienstprogramm, das die Profilausgabe sowohl im Zusammenfassungs- als auch im Detailformat mit optionaler Drilldown-Funktion anzeigt.

Datenprofilerstellung - Konfigurationsoptionen

Die Datenprofilerstellung hat diese praktischen Konfigurationsoptionen:

Platzhalterspalten

Beim Konfigurieren einer Profilanforderung akzeptiert die Aufgabe anstelle eines Spaltennamens den Platzhalter '*'. Dies vereinfacht die Konfiguration und erleichtert das Erkennen der Merkmale unbekannter Daten. Wenn die Aufgabe ausgeführt wird, profiliert die Aufgabe jede Spalte mit einem geeigneten Datentyp.

Schnellprofil

Sie können Schnellprofil auswählen, um die Aufgabe schnell zu konfigurieren. Ein Schnellprofil profiliert eine Tabelle oder Ansicht unter Verwendung aller Standardprofile und -einstellungen.

Die Datenprofilerstellungsaufgabe kann acht verschiedene Datenprofile berechnen. Fünf dieser Profile können einzelne Spalten überprüfen und die verbleibenden drei mehrere Spalten oder Beziehungen zwischen Spalten analysieren.

Datenprofilerstellung - Aufgabenausgaben

Die Aufgabe Datenprofilerstellung gibt die ausgewählten Profile in einem XML-Format aus, das wie das Schema DataProfile.xsd aufgebaut ist.

Sie können eine lokale Kopie des Schemas speichern und die lokale Kopie des Schemas in Microsoft Visual Studio oder einem anderen Schema-Editor, in einem XML-Editor oder in einem Texteditor wie Notepad anzeigen.