Exploration de données - Classification et prédiction
Il existe deux formes d'analyse de données qui peuvent être utilisées pour extraire des modèles décrivant des classes importantes ou pour prédire les tendances futures des données. Ces deux formes sont les suivantes -
- Classification
- Prediction
Les modèles de classification prédisent les étiquettes de classes catégorielles; et les modèles de prédiction prédisent des fonctions valorisées continues. Par exemple, nous pouvons construire un modèle de classification pour classer les demandes de prêts bancaires comme sûres ou risquées, ou un modèle de prédiction pour prédire les dépenses en dollars des clients potentiels en matériel informatique compte tenu de leurs revenus et de leur profession.
Qu'est-ce que la classification?
Voici les exemples de cas où la tâche d'analyse des données est Classification -
Un agent de crédit bancaire souhaite analyser les données afin de savoir quel client (demandeur de crédit) est à risque ou qui est sûr.
Un responsable marketing dans une entreprise doit analyser un client avec un profil donné, qui achètera un nouvel ordinateur.
Dans les deux exemples ci-dessus, un modèle ou un classificateur est construit pour prédire les étiquettes catégorielles. Ces étiquettes sont risquées ou sûres pour les données de demande de prêt et oui ou non pour les données marketing.
Qu'est-ce que la prédiction?
Voici les exemples de cas où la tâche d'analyse des données est Prédiction -
Supposons que le responsable marketing ait besoin de prédire combien un client donné dépensera lors d'une vente dans son entreprise. Dans cet exemple, nous prenons la peine de prédire une valeur numérique. Par conséquent, la tâche d'analyse des données est un exemple de prédiction numérique. Dans ce cas, un modèle ou un prédicteur sera construit qui prédit une fonction à valeur continue ou une valeur ordonnée.
Note - L'analyse de régression est une méthodologie statistique qui est le plus souvent utilisée pour la prédiction numérique.
Comment fonctionne la classification?
A l'aide de la demande de prêt bancaire dont nous avons parlé plus haut, comprenons le fonctionnement de la classification. Le processus de classification des données comprend deux étapes -
- Construire le classificateur ou le modèle
- Utilisation du classificateur pour la classification
Construire le classificateur ou le modèle
Cette étape est l'étape d'apprentissage ou la phase d'apprentissage.
Dans cette étape, les algorithmes de classification construisent le classificateur.
Le classificateur est construit à partir de l'ensemble d'apprentissage composé de tuples de base de données et de leurs étiquettes de classe associées.
Chaque tuple qui constitue l'ensemble d'apprentissage est appelé catégorie ou classe. Ces tuples peuvent également être appelés échantillons, objets ou points de données.
Utilisation du classificateur pour la classification
Dans cette étape, le classificateur est utilisé pour la classification. Ici, les données de test sont utilisées pour estimer l'exactitude des règles de classification. Les règles de classification peuvent être appliquées aux nouveaux tuples de données si la précision est considérée comme acceptable.
Problèmes de classification et de prévision
Le problème majeur est la préparation des données pour la classification et la prévision. La préparation des données implique les activités suivantes -
Data Cleaning- Le nettoyage des données implique la suppression du bruit et le traitement des valeurs manquantes. Le bruit est supprimé en appliquant des techniques de lissage et le problème des valeurs manquantes est résolu en remplaçant une valeur manquante par la valeur la plus courante pour cet attribut.
Relevance Analysis- La base de données peut également avoir les attributs non pertinents. L'analyse de corrélation est utilisée pour savoir si deux attributs donnés sont liés.
Data Transformation and reduction - Les données peuvent être transformées par l'une des méthodes suivantes.
Normalization- Les données sont transformées par normalisation. La normalisation implique la mise à l'échelle de toutes les valeurs pour un attribut donné afin de les faire tomber dans une petite plage spécifiée. La normalisation est utilisée lorsque dans l'étape d'apprentissage, les réseaux de neurones ou les méthodes impliquant des mesures sont utilisés.
Generalization- Les données peuvent également être transformées en les généralisant au concept supérieur. Pour cela, nous pouvons utiliser les hiérarchies de concepts.
Note - Les données peuvent également être réduites par d'autres méthodes telles que la transformation en ondelettes, le regroupement, l'analyse d'histogramme et le regroupement.
Comparaison des méthodes de classification et de prédiction
Voici les critères de comparaison des méthodes de classification et de prédiction -
Accuracy- La précision du classificateur fait référence à la capacité du classificateur. Il permet de prédire correctement l'étiquette de classe et la précision du prédicteur se réfère à la capacité d'un prédicteur donné à deviner la valeur de l'attribut prédit pour une nouvelle donnée.
Speed - Cela fait référence au coût de calcul lié à la génération et à l'utilisation du classificateur ou du prédicteur.
Robustness - Il fait référence à la capacité du classificateur ou du prédicteur à faire des prédictions correctes à partir de données bruyantes données.
Scalability- L'évolutivité fait référence à la capacité de construire efficacement le classificateur ou le prédicteur; étant donné une grande quantité de données.
Interpretability - Il fait référence à la mesure dans laquelle le classificateur ou le prédicteur comprend.