Analyse des données - Processus
L'analyse des données est un processus de collecte, de transformation, de nettoyage et de modélisation des données dans le but de découvrir les informations requises. Les résultats ainsi obtenus sont communiqués, suggèrent des conclusions et soutiennent la prise de décision. La visualisation des données est parfois utilisée pour représenter les données afin de faciliter la découverte des modèles utiles dans les données. Les termes modélisation des données et analyse des données ont la même signification.
Le processus d'analyse des données comprend les phases suivantes qui sont de nature itérative -
- Spécification des exigences en matière de données
- Collecte de données
- Traitement de l'information
- Nettoyage des données
- L'analyse des données
- Communication
Spécification des exigences en matière de données
Les données nécessaires à l'analyse sont basées sur une question ou une expérience. Sur la base des exigences de ceux qui dirigent l'analyse, les données nécessaires en tant qu'entrées de l'analyse sont identifiées (par exemple, population de personnes). Des variables spécifiques concernant une population (par exemple, l'âge et le revenu) peuvent être précisées et obtenues. Les données peuvent être numériques ou catégoriques.
Collecte de données
La collecte de données est le processus de collecte d'informations sur des variables ciblées identifiées comme des besoins en données. L'accent est mis sur la garantie d'une collecte précise et honnête des données. La collecte de données garantit que les données recueillies sont exactes de sorte que les décisions connexes sont valides. La collecte de données fournit à la fois une base de référence à mesurer et une cible à améliorer.
Les données sont collectées à partir de diverses sources allant des bases de données organisationnelles aux informations contenues dans les pages Web. Les données ainsi obtenues peuvent ne pas être structurées et contenir des informations non pertinentes. Par conséquent, les données collectées doivent être soumises au traitement et au nettoyage des données.
Traitement de l'information
Les données collectées doivent être traitées ou organisées pour analyse. Cela comprend la structuration des données comme requis pour les outils d'analyse pertinents. Par exemple, les données peuvent devoir être placées dans des lignes et des colonnes dans un tableau dans une feuille de calcul ou une application statistique. Un modèle de données devra peut-être être créé.
Nettoyage des données
Les données traitées et organisées peuvent être incomplètes, contenir des doublons ou contenir des erreurs. Le nettoyage des données est le processus de prévention et de correction de ces erreurs. Il existe plusieurs types de nettoyage des données qui dépendent du type de données. Par exemple, lors du nettoyage des données financières, certains totaux peuvent être comparés à des chiffres publiés fiables ou à des seuils définis. De même, des méthodes de données quantitatives peuvent être utilisées pour la détection des valeurs aberrantes qui seraient par la suite exclues de l'analyse.
L'analyse des données
Les données traitées, organisées et nettoyées seraient prêtes pour l'analyse. Diverses techniques d'analyse des données sont disponibles pour comprendre, interpréter et tirer des conclusions basées sur les exigences. La visualisation des données peut également être utilisée pour examiner les données sous forme graphique, afin d'obtenir des informations supplémentaires concernant les messages contenus dans les données.
Les modèles de données statistiques tels que la corrélation, l'analyse de régression peuvent être utilisés pour identifier les relations entre les variables de données. Ces modèles qui décrivent les données sont utiles pour simplifier l'analyse et communiquer les résultats.
Le processus peut nécessiter un nettoyage de données supplémentaire ou une collecte de données supplémentaire, et par conséquent, ces activités sont de nature itérative.
la communication
Les résultats de l'analyse des données doivent être rapportés dans un format tel que requis par les utilisateurs pour étayer leurs décisions et les actions ultérieures. Les commentaires des utilisateurs peuvent entraîner une analyse supplémentaire.
Les analystes de données peuvent choisir des techniques de visualisation des données, telles que des tableaux et des graphiques, qui aident à communiquer le message clairement et efficacement aux utilisateurs. Les outils d'analyse permettent de mettre en évidence les informations requises avec des codes de couleur et une mise en forme dans des tableaux et des graphiques.