Entreposage de données - Concepts de métadonnées
Qu'est-ce que les métadonnées?
Les métadonnées sont simplement définies comme des données sur les données. Les données utilisées pour représenter d'autres données sont appelées métadonnées. Par exemple, l'index d'un livre sert de métadonnées pour le contenu du livre. En d'autres termes, nous pouvons dire que les métadonnées sont les données résumées qui nous conduisent à des données détaillées. En termes d'entrepôt de données, nous pouvons définir les métadonnées comme suit.
Les métadonnées sont la feuille de route vers un entrepôt de données.
Les métadonnées d'un entrepôt de données définissent les objets de l'entrepôt.
Les métadonnées agissent comme un répertoire. Ce répertoire aide le système d'aide à la décision à localiser le contenu d'un entrepôt de données.
Note- Dans un entrepôt de données, nous créons des métadonnées pour les noms de données et les définitions d'un entrepôt de données donné. Parallèlement à ces métadonnées, des métadonnées supplémentaires sont également créées pour horodater les données extraites, la source des données extraites.
Catégories de métadonnées
Les métadonnées peuvent être globalement classées en trois catégories -
Business Metadata - Il contient les informations sur la propriété des données, la définition de l'entreprise et les politiques changeantes.
Technical Metadata- Il comprend les noms de système de base de données, les noms et tailles de table et de colonne, les types de données et les valeurs autorisées. Les métadonnées techniques comprennent également des informations structurelles telles que les attributs et indices de clés primaires et étrangères.
Operational Metadata- Il comprend la mise à jour des données et le lignage des données. La devise des données signifie si les données sont actives, archivées ou purgées. Le lignage des données signifie l'historique des données migrées et la transformation appliquée dessus.
Rôle des métadonnées
Les métadonnées ont un rôle très important dans un entrepôt de données. Le rôle des métadonnées dans un entrepôt est différent de celui des données de l'entrepôt, mais il joue un rôle important. Les différents rôles des métadonnées sont expliqués ci-dessous.
Les métadonnées agissent comme un répertoire.
Ce répertoire aide le système d'aide à la décision à localiser le contenu de l'entrepôt de données.
Les métadonnées aident dans le système d'aide à la décision pour la cartographie des données lorsque les données sont transformées de l'environnement opérationnel à l'environnement d'entrepôt de données.
Les métadonnées aident à récapituler entre les données détaillées actuelles et les données hautement résumées.
Les métadonnées aident également à la synthèse entre des données légèrement détaillées et des données hautement résumées.
Les métadonnées sont utilisées pour les outils de requête.
Les métadonnées sont utilisées dans les outils d'extraction et de nettoyage.
Les métadonnées sont utilisées dans les outils de reporting.
Les métadonnées sont utilisées dans les outils de transformation.
Les métadonnées jouent un rôle important dans le chargement des fonctions.
Le diagramme suivant montre les rôles des métadonnées.
Référentiel de métadonnées
Le référentiel de métadonnées fait partie intégrante d'un système d'entrepôt de données. Il a les métadonnées suivantes -
Definition of data warehouse- Il comprend la description de la structure de l'entrepôt de données. La description est définie par le schéma, la vue, les hiérarchies, les définitions de données dérivées et les emplacements et le contenu du magasin de données.
Business metadata - Il contient les informations sur la propriété des données, la définition de l'entreprise et les politiques changeantes.
Operational Metadata- Il comprend la mise à jour des données et le lignage des données. La devise des données signifie si les données sont actives, archivées ou purgées. Le lignage des données signifie l'historique des données migrées et la transformation appliquée dessus.
Data for mapping from operational environment to data warehouse - Il comprend les bases de données sources et leur contenu, l'extraction des données, le nettoyage des partitions de données, les règles de transformation, les règles d'actualisation et de purge des données.
Algorithms for summarization - Il comprend des algorithmes de dimension, des données sur la granularité, l'agrégation, la synthèse, etc.
Défis de la gestion des métadonnées
L'importance des métadonnées ne peut pas être surestimée. Les métadonnées contribuent à la précision des rapports, valident la transformation des données et garantissent l'exactitude des calculs. Les métadonnées appliquent également la définition des termes commerciaux aux utilisateurs finaux de l'entreprise. Avec toutes ces utilisations des métadonnées, elle a aussi ses défis. Certains des défis sont abordés ci-dessous.
Les métadonnées dans une grande organisation sont dispersées dans toute l'organisation. Ces métadonnées sont réparties dans des feuilles de calcul, des bases de données et des applications.
Les métadonnées peuvent être présentes dans des fichiers texte ou des fichiers multimédias. Pour utiliser ces données pour des solutions de gestion de l'information, elles doivent être correctement définies.
Il n'y a pas de normes acceptées à l'échelle de l'industrie. Les fournisseurs de solutions de gestion de données ont une concentration étroite.
Il n'existe pas de méthodes simples et acceptées pour transmettre des métadonnées.