Agile Data Science - Traitement des données en Agile
Dans ce chapitre, nous nous concentrerons sur la différence entre les données structurées, semi-structurées et non structurées.
Données structurées
Les données structurées concernent les données stockées au format SQL dans un tableau avec des lignes et des colonnes. Il comprend une clé relationnelle, qui est mappée dans des champs prédéfinis. Les données structurées sont utilisées à plus grande échelle.
Les données structurées ne représentent que 5 à 10% de toutes les données informatiques.
Données semi-structurées
Les données semi-structurées incluent les données qui ne résident pas dans la base de données relationnelle. Ils incluent certaines propriétés organisationnelles qui facilitent l'analyse. Il inclut le même processus pour les stocker dans une base de données relationnelle. Les exemples de base de données semi-structurée sont les fichiers CSV, les documents XML et JSON. Les bases de données NoSQL sont considérées comme semi-structurées.
Données non structurées
Les données non structurées représentent 80% des données. Il comprend souvent du texte et du contenu multimédia. Les meilleurs exemples de données non structurées incluent les fichiers audio, les présentations et les pages Web. Les exemples de données non structurées générées par la machine sont des images satellites, des données scientifiques, des photographies et des données vidéo, radar et sonar.
La structure pyramidale ci-dessus se concentre spécifiquement sur la quantité de données et le rapport sur lequel elles sont dispersées.
Les données quasi-structurées apparaissent comme type entre les données non structurées et semi-structurées. Dans ce didacticiel, nous nous concentrerons sur les données semi-structurées, ce qui est bénéfique pour la méthodologie agile et la recherche en science des données.
Les données semi-structurées n'ont pas de modèle de données formel mais ont un modèle et une structure apparents et auto-descriptifs qui sont développés par leur analyse.