Test ETL - Completezza dei dati
Il controllo della completezza dei dati viene eseguito per verificare che i dati nel sistema di destinazione siano conformi alle aspettative dopo il caricamento.
I test comuni che possono essere eseguiti per questo sono i seguenti:
Controllo delle funzioni aggregate (sum, max, min, count),
Verifica e convalida dei conteggi e dei dati effettivi tra l'origine e la destinazione per le colonne senza trasformazioni o con trasformazioni semplici.
Conteggio convalida
Confronta il conteggio del numero di record nelle tabelle di origine e di destinazione. Può essere fatto scrivendo le seguenti domande:
SELECT count (1) FROM employee;
SELECT count (1) FROM emp_dim;
Convalida del profilo dati
Implica il controllo delle funzioni aggregate come count, sum e max nelle tabelle di origine e di destinazione (fact o dimensione).
Convalida del profilo dati della colonna
Si tratta di confrontare i valori distinti e il conteggio delle righe per ogni valore distinto.
SELECT city, count(*) FROM employee GROUP BY city;
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;
Convalida dati duplicati
Implica la convalida della chiave primaria e della chiave univoca in una colonna o in una combinazione di colonne che dovrebbero essere univoche secondo i requisiti aziendali. È possibile utilizzare la seguente query per eseguire la convalida dei dati duplicati:
SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;