Entrepôt de données - Présentation
Un entrepôt de données se compose de données provenant multiple heterogeneous data sourceset est utilisé pour les rapports analytiques et la prise de décision. L'entrepôt de données est un endroit central où les données sont stockées à partir de différentes sources de données et applications.
Le terme Data Warehouse a été inventé pour la première fois par Bill Inmom en 1990. Un Data Warehouse est toujours séparé d'une base de données opérationnelle.
Les données d'un système DW sont chargées à partir de systèmes de transaction opérationnels tels que -
- Sales
- Marketing
- HR
- SCM, etc.
Il peut passer par le stockage de données opérationnelles ou d'autres transformations avant d'être chargé dans le système DW pour le traitement de l'information.
Un entrepôt de données est utilisé pour le reporting et l'analyse d'informations et stocke les données historiques et actuelles. Les données du système DW sont utilisées pour les rapports analytiques, qui sont ensuite utilisés par les analystes commerciaux, les directeurs des ventes ou les travailleurs du savoir pour la prise de décision.
Dans l'image ci-dessus, vous pouvez voir que les données proviennent de multiple heterogeneous datasources vers un entrepôt de données. Les sources de données courantes pour un entrepôt de données comprennent:
- Bases de données opérationnelles
- Applications SAP et non-SAP
- Fichiers plats (fichiers xls, csv, txt)
Les utilisateurs de BI (Business Intelligence) accèdent aux données de l'entrepôt de données pour les rapports analytiques, l'exploration de données et l'analyse. Ceci est utilisé pour la prise de décision par les utilisateurs professionnels, le directeur des ventes, les analystes pour définir la stratégie future.
Caractéristiques d'un entrepôt de données
Il s'agit d'un référentiel de données central où les données sont stockées à partir d'une ou plusieurs sources de données hétérogènes. Un système DW stocke à la fois les données actuelles et historiques. Normalement, un système DW stocke 5 à 10 ans de données historiques. Un système DW est toujours séparé d'un système de transaction opérationnel.
Les données d'un système DW sont utilisées pour différents types de rapports analytiques allant de la comparaison trimestrielle à la comparaison annuelle.
Entrepôt de données et base de données opérationnelle
Les différences entre un entrepôt de données et une base de données opérationnelle sont les suivantes:
Un Operational System est conçu pour les charges de travail et les transactions connues telles que la mise à jour d'un enregistrement utilisateur, la recherche d'un enregistrement, etc. Cependant, les transactions de l'entrepôt de données sont plus complexes et présentent une forme générale de données.
Un Operational System contient les données actuelles d'une organisation et l'entrepôt de données contient normalement les données historiques.
Un Operational Databaseprend en charge le traitement parallèle de plusieurs transactions. Des mécanismes de contrôle d'accès et de récupération sont nécessaires pour maintenir la cohérence de la base de données.
Un Operational Database query permet de lire et de modifier les opérations (insérer, supprimer et mettre à jour) alors qu'une requête OLAP ne nécessite qu'un accès en lecture seule aux données stockées (instruction Select).
Architecture de l'entrepôt de données
L'entreposage de données implique le nettoyage des données, l'intégration des données et la consolidation des données. Un entrepôt de données a une architecture à 3 couches -
Couche de source de données
Il définit comment les données arrivent dans un entrepôt de données. Il implique diverses sources de données et systèmes de transaction opérationnels, fichiers plats, applications, etc.
Couche d'intégration
Il se compose d'un magasin de données opérationnelles et d'une zone de préparation. La zone de transit est utilisée pour effectuer le nettoyage des données, la transformation des données et le chargement des données de différentes sources vers un entrepôt de données. Étant donné que plusieurs sources de données sont disponibles pour l'extraction à différents fuseaux horaires, la zone de transit est utilisée pour stocker les données et plus tard pour appliquer des transformations aux données.
Couche de présentation
Ceci est utilisé pour effectuer des rapports BI par les utilisateurs finaux. Les données d'un système DW sont accessibles aux utilisateurs BI et utilisées pour le reporting et l'analyse.
L'illustration suivante montre l'architecture commune d'un système d'entrepôt de données.
Caractéristiques d'un entrepôt de données
Voici les principales caractéristiques d'un entrepôt de données:
Subject Oriented - Dans un système DW, les données sont catégorisées et stockées par un sujet commercial plutôt que par application comme les plans de capitaux propres, les actions, les prêts, etc.
Integrated - Les données de plusieurs sources de données sont intégrées dans un entrepôt de données.
Non Volatile- Les données de l'entrepôt de données sont non volatiles. Cela signifie que lorsque les données sont chargées dans le système DW, elles ne sont pas modifiées.
Time Variant- Un système DW contient des données historiques par rapport au système transactionnel qui ne contient que des données actuelles. Dans un entrepôt de données, vous pouvez voir les données pour 3 mois, 6 mois, 1 an, 5 ans, etc.
OLTP contre OLAP
Premièrement, OLTP signifie Online Transaction Processing, tandis que OLAP signifie Online Analytical Processing
Dans un système OLTP, il existe un grand nombre de transactions en ligne courtes telles que INSERT, UPDATE et DELETE.
Alors que, dans un système OLTP, une mesure efficace est le temps de traitement des transactions courtes et est très inférieur. Il contrôle l'intégrité des données dans les environnements multi-accès. Pour un système OLTP, le nombre de transactions par seconde mesure l'efficacité. Un système d'entrepôt de données OLTP contient des données actuelles et détaillées et est conservé dans les schémas du modèle d'entité (3NF).
For Example -
Un système de transaction au jour le jour dans un magasin de détail, où les enregistrements clients sont insérés, mis à jour et supprimés quotidiennement. Il permet un traitement des requêtes plus rapide. Les bases de données OLTP contiennent des données détaillées et actuelles. Le schéma utilisé pour stocker la base de données OLTP est le modèle Entity.
Dans un système OLAP, le nombre de transactions est inférieur à celui d'un système transactionnel. Les requêtes exécutées sont de nature complexe et impliquent des agrégations de données.
Qu'est-ce qu'une agrégation?
Nous sauvegardons des tableaux avec des données agrégées telles que annuelle (1 ligne), trimestrielle (4 lignes), mensuelle (12 lignes) ou plus, si quelqu'un doit faire une comparaison d'année en année, une seule ligne sera traitée. Cependant, dans un tableau non agrégé, il comparera toutes les lignes. C'est ce qu'on appelle l'agrégation.
Il existe diverses fonctions d'agrégation qui peuvent être utilisées dans un système OLAP telles que Sum, Avg, Max, Min, etc.
For Example -
SELECT Avg(salary)
FROM employee
WHERE title = 'Programmer';
Différences clés
Ce sont les principales différences entre un système OLAP et un système OLTP.
Indexes - Un système OLTP n'a que quelques index tandis que dans un système OLAP, il existe de nombreux index pour l'optimisation des performances.
Joins- Dans un système OLTP, un grand nombre de jointures et de données sont normalisées. Cependant, dans un système OLAP, il y a moins de jointures et sont dé-normalisées.
Aggregation - Dans un système OLTP, les données ne sont pas agrégées alors que dans une base de données OLAP, davantage d'agrégations sont utilisées.
Normalization - Un système OLTP contient des données normalisées, mais les données ne sont pas normalisées dans un système OLAP.
Data Mart Vs Data Warehouse
Le magasin de données se concentre sur un seul domaine fonctionnel et représente la forme la plus simple d'un entrepôt de données. Considérez un entrepôt de données contenant des données pour les ventes, le marketing, les ressources humaines et les finances. Un Data Mart se concentre sur un seul domaine fonctionnel comme les ventes ou le marketing.
Dans l'image ci-dessus, vous pouvez voir la différence entre un entrepôt de données et un magasin de données.
Tableau des faits et des dimensions
Une table de faits représente les mesures sur lesquelles l'analyse est effectuée. Il contient également des clés étrangères pour les clés de dimension.
For example - Chaque vente est un fait.
Identifiant du client | ID de produit | ID de l'heure | Qté vendue |
---|---|---|---|
1110 | 25 | 2 | 125 |
1210 | 28 | 4 | 252 |
La table Dimension représente les caractéristiques d'une dimension. Une dimension Client peut avoir Customer_Name, Phone_No, Sex, etc.
Identifiant du client | Cust_Name | Téléphone | Sexe |
---|---|---|---|
1110 | Sortie | 1113334444 | F |
1210 | Adam | 2225556666 | M |