Entreposage de données - Concepts
Qu'est-ce que l'entreposage de données?
L'entreposage de données est le processus de construction et d'utilisation d'un entrepôt de données. Un entrepôt de données est construit en intégrant des données provenant de plusieurs sources hétérogènes qui prennent en charge les rapports analytiques, les requêtes structurées et / ou ad hoc et la prise de décision. L'entreposage de données implique le nettoyage des données, l'intégration des données et la consolidation des données.
Utilisation des informations de l'entrepôt de données
Il existe des technologies d'aide à la décision qui aident à utiliser les données disponibles dans un entrepôt de données. Ces technologies aident les cadres à utiliser l'entrepôt rapidement et efficacement. Ils peuvent collecter des données, les analyser et prendre des décisions en fonction des informations présentes dans l'entrepôt. Les informations rassemblées dans un entrepôt peuvent être utilisées dans l'un des domaines suivants -
Tuning Production Strategies - Les stratégies produits peuvent être bien ajustées en repositionnant les produits et en gérant les portefeuilles de produits en comparant les ventes trimestrielles ou annuelles.
Customer Analysis - L'analyse client se fait en analysant les préférences d'achat du client, le temps d'achat, les cycles budgétaires, etc.
Operations Analysis- L'entreposage de données aide également à gérer la relation client et à apporter des corrections environnementales. Les informations nous permettent également d'analyser les opérations commerciales.
Intégration de bases de données hétérogènes
Pour intégrer des bases de données hétérogènes, nous avons deux approches -
- Approche basée sur les requêtes
- Approche axée sur les mises à jour
Approche basée sur les requêtes
C'est l'approche traditionnelle pour intégrer des bases de données hétérogènes. Cette approche a été utilisée pour créer des wrappers et des intégrateurs sur plusieurs bases de données hétérogènes. Ces intégrateurs sont également appelés médiateurs.
Processus d'approche basée sur les requêtes
Lorsqu'une requête est émise côté client, un dictionnaire de métadonnées traduit la requête sous une forme appropriée pour les sites hétérogènes individuels impliqués.
Désormais, ces requêtes sont mappées et envoyées au processeur de requêtes local.
Les résultats de sites hétérogènes sont intégrés dans un ensemble de réponses global.
Désavantages
L'approche basée sur les requêtes nécessite des processus complexes d'intégration et de filtrage.
Cette approche est très inefficace.
Cela coûte très cher pour les requêtes fréquentes.
Cette approche est également très coûteuse pour les requêtes qui nécessitent des agrégations.
Approche axée sur les mises à jour
C'est une alternative à l'approche traditionnelle. Les systèmes d'entrepôt de données d'aujourd'hui suivent une approche axée sur les mises à jour plutôt que l'approche traditionnelle évoquée précédemment. Dans une approche axée sur les mises à jour, les informations provenant de plusieurs sources hétérogènes sont intégrées à l'avance et sont stockées dans un entrepôt. Ces informations sont disponibles pour l'interrogation et l'analyse directes.
Avantages
Cette approche présente les avantages suivants -
Cette approche offre des performances élevées.
Les données sont copiées, traitées, intégrées, annotées, résumées et restructurées dans le magasin de données sémantiques à l'avance.
Le traitement des requêtes ne nécessite pas d'interface pour traiter les données à des sources locales.
Fonctions des outils et utilitaires de l'entrepôt de données
Voici les fonctions des outils et utilitaires de l'entrepôt de données -
Data Extraction - Implique la collecte de données à partir de plusieurs sources hétérogènes.
Data Cleaning - Implique la recherche et la correction des erreurs dans les données.
Data Transformation - Implique la conversion des données du format hérité au format d'entrepôt.
Data Loading - Implique le tri, la synthèse, la consolidation, la vérification de l'intégrité et la création d'indices et de partitions.
Refreshing - Implique la mise à jour des sources de données vers l'entrepôt.
Note - Le nettoyage et la transformation des données sont des étapes importantes pour améliorer la qualité des données et les résultats de l'exploration de données.