Big Data Analytics - Définition du problème
A travers ce tutoriel, nous développerons un projet. Chaque chapitre suivant de ce didacticiel traite d'une partie du projet plus vaste dans la section mini-projet. On pense qu'il s'agit d'une section de didacticiel appliquée qui fournira une exposition à un problème du monde réel. Dans ce cas, nous commencerions par la définition du problème du projet.
Description du projet
L'objectif de ce projet serait de développer un modèle d'apprentissage automatique pour prédire le salaire horaire des personnes en utilisant le texte de leur curriculum vitae (CV) comme entrée.
En utilisant le cadre défini ci-dessus, il est simple de définir le problème. Nous pouvons définir X = {x 1 , x 2 ,…, x n } comme les CV des utilisateurs, où chaque fonctionnalité peut être, de la manière la plus simple possible, le nombre de fois où ce mot apparaît. Alors la réponse est vraiment appréciée, on essaie de prédire le salaire horaire des individus en dollars.
Ces deux considérations suffisent à conclure que le problème présenté peut être résolu avec un algorithme de régression supervisée.
Définition du problème
Problem Definitionest probablement l'une des étapes les plus complexes et les plus négligées du pipeline d'analyse des mégadonnées. Afin de définir le problème qu'un produit de données résoudrait, l'expérience est obligatoire. La plupart des aspirants scientifiques des données ont peu ou pas d'expérience à ce stade.
La plupart des problèmes de Big Data peuvent être classés de la manière suivante:
- Classement supervisé
- Régression supervisée
- Apprentissage non supervisé
- Apprendre à classer
Apprenons maintenant plus sur ces quatre concepts.
Classification supervisée
Étant donné une matrice de caractéristiques X = {x 1 , x 2 , ..., x n } nous développons un modèle M pour prédire différentes classes définies comme y = {c 1 , c 2 , ..., c n } . Par exemple: Compte tenu des données transactionnelles des clients d'une compagnie d'assurance, il est possible de développer un modèle qui permettra de prédire si un client se désisterait ou non. Ce dernier est un problème de classification binaire, où il existe deux classes ou variables cibles: le churn et non le churn.
D'autres problèmes impliquent la prédiction de plus d'une classe, nous pourrions être intéressés par la reconnaissance de chiffres, donc le vecteur de réponse serait défini comme: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} , un modèle à la pointe de la technologie serait un réseau neuronal convolutif et la matrice des caractéristiques serait définie comme les pixels de l'image.
Régression supervisée
Dans ce cas, la définition du problème est assez similaire à l'exemple précédent; la différence repose sur la réponse. Dans un problème de régression, la réponse y ∈ ℜ, cela signifie que la réponse a une valeur réelle. Par exemple, nous pouvons développer un modèle pour prédire le salaire horaire des individus compte tenu du corpus de leur CV.
Apprentissage non supervisé
La direction a souvent soif de nouvelles perspectives. Les modèles de segmentation peuvent fournir ces informations afin que le service marketing développe des produits pour différents segments. Une bonne approche pour développer un modèle de segmentation, plutôt que de penser à des algorithmes, consiste à sélectionner des fonctionnalités qui sont pertinentes pour la segmentation souhaitée.
Par exemple, dans une entreprise de télécommunications, il est intéressant de segmenter les clients en fonction de leur utilisation du téléphone portable. Cela impliquerait de ne pas tenir compte des caractéristiques qui n'ont rien à voir avec l'objectif de segmentation et d'inclure uniquement celles qui le font. Dans ce cas, il s'agirait de sélectionner des fonctionnalités comme le nombre de SMS utilisés dans un mois, le nombre de minutes entrantes et sortantes, etc.
Apprendre à classer
Ce problème peut être considéré comme un problème de régression, mais il présente des caractéristiques particulières et mérite un traitement séparé. Le problème consiste à donner une collection de documents que nous cherchons à trouver l'ordre le plus pertinent compte tenu d'une requête. Afin de développer un algorithme d'apprentissage supervisé, il est nécessaire d'étiqueter la pertinence d'un ordre, compte tenu d'une requête.
Il est important de noter que pour développer un algorithme d'apprentissage supervisé, il est nécessaire d'étiqueter les données d'apprentissage. Cela signifie que pour former un modèle qui, par exemple, reconnaîtra les chiffres d'une image, nous devons étiqueter un nombre important d'exemples à la main. Il existe des services Web qui peuvent accélérer ce processus et sont couramment utilisés pour cette tâche, tels que amazon Mechanical Turk. Il est prouvé que les algorithmes d'apprentissage améliorent leurs performances lorsqu'ils sont fournis avec plus de données, de sorte qu'il est pratiquement obligatoire d'étiqueter une quantité décente d'exemples dans l'apprentissage supervisé.