Entreposage de données - Gestionnaires de processus
Les gestionnaires de processus sont chargés de maintenir le flux de données à la fois dans et hors de l'entrepôt de données. Il existe trois types différents de gestionnaires de processus -
- Gestionnaire de charge
- Directeur d'entrepôt
- Gestionnaire de requêtes
Gestionnaire de charge de l'entrepôt de données
Le gestionnaire de charge effectue les opérations nécessaires pour extraire et charger les données dans la base de données. La taille et la complexité d'un gestionnaire de charge varient entre les solutions spécifiques d'un entrepôt de données à l'autre.
Architecture du gestionnaire de charge
Le gestionnaire de charge exécute les fonctions suivantes -
Extraire les données du système source.
Chargez rapidement les données extraites dans le magasin de données temporaire.
Effectuez des transformations simples en structure similaire à celle de l'entrepôt de données.
Extraire les données de la source
Les données sont extraites des bases de données opérationnelles ou des fournisseurs d'informations externes. Les passerelles sont les programmes d'application utilisés pour extraire les données. Il est pris en charge par le SGBD sous-jacent et permet au programme client de générer du SQL à exécuter sur un serveur. Open Database Connection (ODBC) et Java Database Connection (JDBC) sont des exemples de passerelle.
Charge rapide
Afin de minimiser la fenêtre de chargement total, les données doivent être chargées dans l'entrepôt le plus rapidement possible.
Les transformations affectent la vitesse de traitement des données.
Il est plus efficace de charger les données dans une base de données relationnelle avant d'appliquer les transformations et les vérifications.
La technologie de passerelle n'est pas adaptée, car elle est inefficace lorsque de gros volumes de données sont impliqués.
Transformations simples
Lors du chargement, il peut être nécessaire d'effectuer des transformations simples. Après avoir effectué des transformations simples, nous pouvons effectuer des vérifications complexes. Supposons que nous chargeons la transaction de vente EPOS, nous devons effectuer les vérifications suivantes -
- Supprimez toutes les colonnes qui ne sont pas requises dans l'entrepôt.
- Convertissez toutes les valeurs en types de données requis.
Directeur d'entrepôt
Le responsable de l'entrepôt est responsable du processus de gestion de l'entrepôt. Il se compose d'un logiciel système tiers, de programmes C et de scripts shell. La taille et la complexité d'un responsable d'entrepôt varient selon les solutions spécifiques.
Architecture du gestionnaire d'entrepôt
Un responsable d'entrepôt comprend les éléments suivants:
- Le processus de contrôle
- Procédures stockées ou C avec SQL
- Outil de sauvegarde / restauration
- Scripts SQL
Fonctions du gestionnaire d'entrepôt
Un responsable d'entrepôt remplit les fonctions suivantes -
Analyse les données pour effectuer des contrôles de cohérence et d'intégrité référentielle.
Crée des index, des vues d'entreprise, des vues de partition par rapport aux données de base.
Génère de nouvelles agrégations et met à jour les agrégations existantes.
Génère des normalisations.
Transforme et fusionne les données source du magasin temporaire dans l'entrepôt de données publié.
Sauvegarde les données dans l'entrepôt de données.
Archive les données qui ont atteint la fin de leur vie capturée.
Note - Un gestionnaire d'entrepôt analyse les profils de requête pour déterminer si l'index et les agrégations sont appropriés.
Gestionnaire de requêtes
Le gestionnaire de requêtes est chargé de diriger les requêtes vers les tables appropriées. En dirigeant les requêtes vers les tables appropriées, il accélère le processus de requête et de réponse. De plus, le gestionnaire de requêtes est responsable de la planification de l'exécution des requêtes envoyées par l'utilisateur.
Architecture du gestionnaire de requêtes
Un gestionnaire de requêtes comprend les composants suivants -
- Redirection des requêtes via l'outil C ou le SGBDR
- Procédures stockées
- Outil de gestion des requêtes
- Planification des requêtes via l'outil C ou le SGBDR
- Planification des requêtes via un logiciel tiers
Fonctions du gestionnaire de requêtes
Il présente les données à l'utilisateur sous une forme qu'il comprend.
Il planifie l'exécution des requêtes envoyées par l'utilisateur final.
Il stocke les profils de requête pour permettre au responsable de l'entrepôt de déterminer quels index et agrégations sont appropriés.