Entreposage de données - Data Marting
Pourquoi avons-nous besoin d'un Data Mart?
Vous trouverez ci-dessous les raisons de créer un data mart -
Partitionner des données pour imposer access control strategies.
Pour accélérer les requêtes en réduisant le volume de données à analyser.
Pour segmenter les données dans différentes plates-formes matérielles.
Pour structurer les données sous une forme adaptée à un outil d'accès utilisateur.
Note- Ne pas effectuer de data mart pour toute autre raison car le coût de fonctionnement du data marting pourrait être très élevé. Avant le data marting, assurez-vous que la stratégie de data marting est adaptée à votre solution particulière.
Marting de données rentable
Suivez les étapes ci-dessous pour rendre le data marting rentable -
- Identifier les divisions fonctionnelles
- Identifier les exigences de l'outil d'accès utilisateur
- Identifier les problèmes de contrôle d'accès
Identifier les divisions fonctionnelles
Dans cette étape, nous déterminons si l'organisation présente des divisions fonctionnelles naturelles. Nous recherchons des divisions ministérielles et nous déterminons si la manière dont les ministères utilisent l'information a tendance à être isolée du reste de l'organisation. Prenons un exemple.
Considérons une organisation de vente au détail, où chaque commerçant est responsable de maximiser les ventes d'un groupe de produits. Pour cela, voici les informations précieuses -
- transaction de vente au quotidien
- prévisions de ventes sur une base hebdomadaire
- position de stock sur une base quotidienne
- mouvements de stock au quotidien
Comme le commerçant n'est pas intéressé par les produits avec lesquels il ne traite pas, le data marting est un sous-ensemble des données traitant du groupe de produits qui l'intéresse. Le diagramme suivant montre la marting de données pour différents utilisateurs.
Vous trouverez ci-dessous les problèmes à prendre en compte lors de la détermination de la répartition fonctionnelle -
La structure du département peut changer.
Les produits peuvent passer d'un département à l'autre.
Le commerçant peut interroger la tendance des ventes d'autres produits pour analyser ce qui se passe avec les ventes.
Note - Nous devons déterminer les avantages commerciaux et la faisabilité technique de l'utilisation d'un data mart.
Identifier les exigences de l'outil d'accès utilisateur
Nous avons besoin de data marts pour soutenir user access toolsqui nécessitent des structures de données internes. Les données de ces structures échappent au contrôle de l'entrepôt de données, mais doivent être remplies et mises à jour régulièrement.
Certains outils se remplissent directement à partir du système source, mais certains ne le peuvent pas. Par conséquent, des exigences supplémentaires en dehors du champ d'application de l'outil doivent être identifiées pour l'avenir.
Note - Afin d'assurer la cohérence des données dans tous les outils d'accès, les données ne doivent pas être directement alimentées à partir de l'entrepôt de données, mais chaque outil doit avoir son propre magasin de données.
Identifier les problèmes de contrôle d'accès
Il devrait y avoir des règles de confidentialité pour garantir que les données ne sont accessibles qu'aux utilisateurs autorisés. Par exemple, un entrepôt de données pour une banque de détail garantit que tous les comptes appartiennent à la même entité juridique. Les lois sur la confidentialité peuvent vous obliger à empêcher totalement l'accès à des informations qui n'appartiennent pas à la banque en question.
Les data marts nous permettent de construire un mur complet en séparant physiquement les segments de données au sein de l'entrepôt de données. Pour éviter d'éventuels problèmes de confidentialité, les données détaillées peuvent être supprimées de l'entrepôt de données. Nous pouvons créer un data mart pour chaque entité juridique et le charger via un data warehouse, avec des données de compte détaillées.
Conception de Data Marts
Les data marts doivent être conçus comme une version plus petite du schéma starflake dans l'entrepôt de données et doivent correspondre à la conception de la base de données de l'entrepôt de données. Cela aide à garder le contrôle sur les instances de base de données.
Les résumés sont des données entreposées de la même manière qu'elles auraient été conçues dans l'entrepôt de données. Les tableaux récapitulatifs aident à utiliser toutes les données de dimension dans le schéma starflake.
Coût du data marting
Les mesures de coût pour le data marting sont les suivantes:
- Coût matériel et logiciel
- L'accès au réseau
- Contraintes de fenêtre de temps
Coût matériel et logiciel
Bien que les data marts soient créés sur le même matériel, ils nécessitent du matériel et des logiciels supplémentaires. Pour gérer les requêtes des utilisateurs, il nécessite une puissance de traitement et un stockage sur disque supplémentaires. Si des données détaillées et le magasin de données existent dans l'entrepôt de données, nous serions confrontés à des coûts supplémentaires pour stocker et gérer les données répliquées.
Note - Le data marting est plus coûteux que les agrégations, il doit donc être utilisé comme une stratégie supplémentaire et non comme une stratégie alternative.
L'accès au réseau
Un magasin de données peut être situé à un emplacement différent de celui de l'entrepôt de données, nous devons donc nous assurer que le LAN ou le WAN a la capacité de gérer les volumes de données transférés dans le data mart load process.
Contraintes de fenêtre de temps
La mesure dans laquelle un processus de chargement de magasin de données rongera la fenêtre de temps disponible dépend de la complexité des transformations et des volumes de données expédiés. La détermination du nombre de magasins de données possibles dépend de -
- Capacité du réseau.
- Fenêtre de temps disponible
- Volume de données transférées
- Mécanismes utilisés pour insérer des données dans un magasin de données