Exploration de données - Évaluation
Entrepôt de données
Un entrepôt de données présente les caractéristiques suivantes pour soutenir le processus décisionnel de la direction -
Subject Oriented- L'entrepôt de données est orienté sujet car il nous fournit des informations sur un sujet plutôt que sur les opérations en cours de l'organisation. Ces sujets peuvent être les produits, les clients, les fournisseurs, les ventes, les revenus, etc. L'entrepôt de données ne se concentre pas sur les opérations en cours, mais plutôt sur la modélisation et l'analyse des données pour la prise de décision.
Integrated - L'entrepôt de données est construit par l'intégration de données provenant de sources hétérogènes telles que des bases de données relationnelles, des fichiers plats, etc. Cette intégration améliore l'efficacité de l'analyse des données.
Time Variant- Les données collectées dans un entrepôt de données sont identifiées avec une période de temps particulière. Les données d'un entrepôt de données fournissent des informations d'un point de vue historique.
Non-volatile- Non volatile signifie que les données précédentes ne sont pas supprimées lorsque de nouvelles données y sont ajoutées. L'entrepôt de données est séparé de la base de données opérationnelle, de sorte que les changements fréquents dans la base de données opérationnelle ne sont pas reflétés dans l'entrepôt de données.
Entreposage de données
L'entreposage de données est le processus de construction et d'utilisation de l'entrepôt de données. Un entrepôt de données est construit en intégrant les données de plusieurs sources hétérogènes. Il prend en charge les rapports analytiques, les requêtes structurées et / ou ad hoc et la prise de décision.
L'entreposage de données implique le nettoyage des données, l'intégration des données et la consolidation des données. Pour intégrer des bases de données hétérogènes, nous avons les deux approches suivantes -
- Approche basée sur les requêtes
- Approche axée sur les mises à jour
Approche basée sur les requêtes
C'est l'approche traditionnelle pour intégrer des bases de données hétérogènes. Cette approche est utilisée pour créer des wrappers et des intégrateurs sur plusieurs bases de données hétérogènes. Ces intégrateurs sont également appelés médiateurs.
Processus d'approche basée sur les requêtes
Lorsqu'une requête est émise côté client, un dictionnaire de métadonnées traduit la requête en requêtes, appropriées pour le site hétérogène concerné.
Désormais, ces requêtes sont mappées et envoyées au processeur de requêtes local.
Les résultats de sites hétérogènes sont intégrés dans un ensemble de réponses global.
Désavantages
Cette approche présente les inconvénients suivants -
L'approche basée sur les requêtes nécessite des processus complexes d'intégration et de filtrage.
C'est très inefficace et très coûteux pour les requêtes fréquentes.
Cette approche est coûteuse pour les requêtes qui nécessitent des agrégations.
Approche axée sur les mises à jour
Les systèmes d'entrepôt de données d'aujourd'hui suivent une approche axée sur les mises à jour plutôt que l'approche traditionnelle évoquée précédemment. Dans l'approche axée sur les mises à jour, les informations provenant de plusieurs sources hétérogènes sont intégrées à l'avance et stockées dans un entrepôt. Ces informations sont disponibles pour l'interrogation et l'analyse directes.
Avantages
Cette approche présente les avantages suivants -
Cette approche offre des performances élevées.
Les données peuvent être copiées, traitées, intégrées, annotées, résumées et restructurées dans le magasin de données sémantiques à l'avance.
Le traitement des requêtes ne nécessite pas d'interface avec le traitement aux sources locales.
De l'entreposage de données (OLAP) à l'exploration de données (OLAM)
L'exploration analytique en ligne s'intègre au traitement analytique en ligne avec l'exploration de données et les connaissances d'exploration dans des bases de données multidimensionnelles. Voici le diagramme qui montre l'intégration d'OLAP et d'OLAM -
Importance d'OLAM
OLAM est important pour les raisons suivantes -
High quality of data in data warehouses- Les outils d'exploration de données sont nécessaires pour travailler sur des données intégrées, cohérentes et nettoyées. Ces étapes sont très coûteuses dans le prétraitement des données. Les entrepôts de données construits par un tel prétraitement sont également des sources précieuses de données de haute qualité pour OLAP et l'exploration de données.
Available information processing infrastructure surrounding data warehouses - L'infrastructure de traitement de l'information fait référence à l'accès, à l'intégration, à la consolidation et à la transformation de multiples bases de données hétérogènes, aux installations d'accès au Web et aux services, aux outils de reporting et d'analyse OLAP.
OLAP−based exploratory data analysis- Une analyse exploratoire des données est nécessaire pour une exploration efficace des données. OLAM fournit des installations pour l'exploration de données sur divers sous-ensembles de données et à différents niveaux d'abstraction.
Online selection of data mining functions - L'intégration d'OLAP avec de multiples fonctions d'exploration de données et l'exploration analytique en ligne offrent aux utilisateurs la flexibilité de sélectionner les fonctions d'exploration de données souhaitées et d'échanger les tâches d'exploration de données de manière dynamique.