Test ETL - Introduction

Les données d'un système Data Warehouse sont chargées avec un outil ETL (Extraire, Transformer, Charger). Comme son nom l'indique, il effectue les trois opérations suivantes -

  • Extrait les données de votre système transactionnel qui peut être une base de données Oracle, Microsoft ou toute autre base de données relationnelle,

  • Transforme les données en effectuant des opérations de nettoyage des données, puis

  • Charge les données dans l'entrepôt de données OLAP.

Vous pouvez également extraire des données de fichiers plats tels que des feuilles de calcul et des fichiers CSV à l'aide d'un outil ETL et les charger dans un entrepôt de données OLAP pour l'analyse des données et la création de rapports. Prenons un exemple pour mieux le comprendre.

Exemple

Supposons qu'il existe une entreprise de fabrication ayant plusieurs départements tels que les ventes, les ressources humaines, la gestion des matériaux, EWM, etc. Tous ces départements ont des bases de données séparées qu'ils utilisent pour maintenir les informations sur leur travail et chaque base de données a une technologie, un paysage, un tableau noms, colonnes, etc. Désormais, si l'entreprise souhaite analyser des données historiques et générer des rapports, toutes les données de ces sources de données doivent être extraites et chargées dans un entrepôt de données pour les enregistrer pour un travail analytique.

Un outil ETL extrait les données de toutes ces sources de données hétérogènes, transforme les données (comme appliquer des calculs, joindre des champs, des clés, supprimer des champs de données incorrects, etc.) et les charger dans un entrepôt de données. Plus tard, vous pouvez utiliser divers outils de Business Intelligence (BI) pour générer des rapports, des tableaux de bord et des visualisations significatifs à l'aide de ces données.

Différence entre ETL et BI Tools

Un outil ETL est utilisé pour extraire des données de différentes sources de données, transformer les données et les charger dans un système DW; Cependant, un outil BI est utilisé pour générer des rapports interactifs et ad hoc pour les utilisateurs finaux, un tableau de bord pour la haute direction, des visualisations de données pour les réunions mensuelles, trimestrielles et annuelles du conseil.

Les outils ETL les plus courants incluent - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, etc.

Certains outils BI populaires incluent: SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, etc.

Processus ETL

Examinons maintenant un peu plus en détail les étapes clés d'une procédure ETL -

Extraire les données

Il s'agit d'extraire les données de différentes sources de données hétérogènes. L'extraction de données à partir d'un système transactionnel varie selon les exigences et l'outil ETL utilisé. Cela se fait normalement en exécutant des tâches planifiées en dehors des heures de bureau, comme l'exécution de tâches la nuit ou le week-end.

Transformer les données

Il s'agit de transformer les données dans un format approprié qui peut être facilement chargé dans un système DW. La transformation des données implique l'application de calculs, de jointures et la définition de clés primaires et étrangères sur les données. Par exemple, si vous voulez% du revenu total qui n'est pas dans la base de données, vous appliquerez la formule% dans la transformation et chargerez les données. De même, si vous avez le prénom et le nom des utilisateurs dans différentes colonnes, vous pouvez appliquer une opération de concaténation avant de charger les données. Certaines données ne nécessitent aucune transformation; ces données sont appeléesdirect move ou pass through data.

La transformation des données implique également la correction des données et le nettoyage des données, la suppression des données incorrectes, la formation incomplète des données et la correction des erreurs de données. Il inclut également l'intégrité des données et le formatage des données incompatibles avant de les charger dans un système DW.

Chargement des données dans un système DW

Cela implique le chargement des données dans un système DW pour des rapports analytiques et des informations. Le système cible peut être un simple fichier plat délimité ou un entrepôt de données.

Fonction de l'outil ETL

Un entrepôt de données basé sur des outils ETL utilise une zone de transit, une intégration de données et des couches d'accès pour exécuter ses fonctions. C'est normalement une architecture à 3 couches.

  • Staging Layer - La couche intermédiaire ou la base de données intermédiaire est utilisée pour stocker les données extraites de différents systèmes de données source.

  • Data Integration Layer - La couche d'intégration transforme les données de la couche intermédiaire et déplace les données vers une base de données, où les données sont organisées en groupes hiérarchiques, souvent appelés dimensions, et dans facts et aggregate facts. La combinaison de tableaux de faits et de dimensions dans un système DW est appeléeschema.

  • Access Layer - La couche d'accès est utilisée par les utilisateurs finaux pour récupérer les données pour des rapports analytiques et des informations.

L'illustration suivante montre comment les trois couches interagissent les unes avec les autres.