ETL-Tests - Vollständigkeit der Daten

Durch Überprüfen der Datenvollständigkeit wird überprüft, ob die Daten im Zielsystem nach dem Laden den Erwartungen entsprechen.

Die üblichen Tests, die hierfür durchgeführt werden können, sind wie folgt:

  • Überprüfen der Aggregatfunktionen (Summe, Max, Min, Anzahl),

  • Überprüfen und Validieren der Anzahl und der tatsächlichen Daten zwischen der Quelle und dem Ziel für Spalten ohne Transformationen oder mit einfachen Transformationen.

Zählvalidierung

Vergleichen Sie die Anzahl der Datensätze in der Quell- und der Zieltabelle. Dies kann durch Schreiben der folgenden Abfragen erfolgen:

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Datenprofilvalidierung

Dabei werden die Aggregatfunktionen wie count, sum und max in der Quell- und Zieltabelle (Fakt oder Dimension) überprüft.

Überprüfung des Spaltendatenprofils

Dabei werden die unterschiedlichen Werte und die Anzahl der Zeilen für jeden unterschiedlichen Wert verglichen.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Doppelte Datenüberprüfung

Dabei werden der Primärschlüssel und der eindeutige Schlüssel in einer Spalte oder in einer Kombination von Spalten überprüft, die gemäß den Geschäftsanforderungen eindeutig sein sollten. Mit der folgenden Abfrage können Sie eine doppelte Datenüberprüfung durchführen:

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;