Machine Learning - Supervisé

L'apprentissage supervisé est l'un des modèles d'apprentissage importants impliqués dans les machines de formation. Ce chapitre parle en détail de la même chose.

Algorithmes pour l'apprentissage supervisé

Il existe plusieurs algorithmes disponibles pour l'apprentissage supervisé. Certains des algorithmes d'apprentissage supervisé largement utilisés sont présentés ci-dessous -

  • k-Voisins les plus proches
  • Arbres de décision
  • Naive Bayes
  • Régression logistique
  • Machines vectorielles de soutien

Au fur et à mesure que nous avançons dans ce chapitre, discutons en détail de chacun des algorithmes.

k-Voisins les plus proches

Le k-Nearest Neighbours, qui est simplement appelé kNN est une technique statistique qui peut être utilisée pour résoudre des problèmes de classification et de régression. Discutons le cas de la classification d'un objet inconnu en utilisant kNN. Considérez la distribution des objets comme indiqué dans l'image ci-dessous -

La source:

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

Le diagramme montre trois types d'objets, marqués en rouge, bleu et vert. Lorsque vous exécutez le classificateur kNN sur l'ensemble de données ci-dessus, les limites de chaque type d'objet seront marquées comme indiqué ci-dessous -

La source:

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

Maintenant, considérez un nouvel objet inconnu que vous souhaitez classer comme rouge, vert ou bleu. Ceci est illustré dans la figure ci-dessous.

Comme vous le voyez visuellement, le point de données inconnu appartient à une classe d'objets bleus. Mathématiquement, cela peut être conclu en mesurant la distance de ce point inconnu avec tous les autres points de l'ensemble de données. Lorsque vous le faites, vous saurez que la plupart de ses voisins sont de couleur bleue. La distance moyenne aux objets rouges et verts serait certainement supérieure à la distance moyenne aux objets bleus. Ainsi, cet objet inconnu peut être classé comme appartenant à la classe bleue.

L'algorithme kNN peut également être utilisé pour des problèmes de régression. L'algorithme kNN est disponible prêt à l'emploi dans la plupart des bibliothèques ML.

Arbres de décision

Un arbre de décision simple dans un format d'organigramme est présenté ci-dessous -

Vous écririez un code pour classer vos données d'entrée en fonction de cet organigramme. L'organigramme est explicite et trivial. Dans ce scénario, vous essayez de classer un e-mail entrant pour décider quand le lire.

En réalité, les arbres de décision peuvent être vastes et complexes. Il existe plusieurs algorithmes disponibles pour créer et parcourir ces arbres. En tant que passionné de Machine Learning, vous devez comprendre et maîtriser ces techniques de création et de parcours d'arbres de décision.

Naive Bayes

Naive Bayes est utilisé pour créer des classificateurs. Supposons que vous souhaitiez trier (classer) les fruits de différentes sortes dans une corbeille de fruits. Vous pouvez utiliser des caractéristiques telles que la couleur, la taille et la forme d'un fruit. Par exemple, tout fruit de couleur rouge, de forme ronde et d'environ 10 cm de diamètre peut être considéré comme une pomme. Ainsi, pour entraîner le modèle, vous utiliseriez ces fonctionnalités et testeriez la probabilité qu'une fonctionnalité donnée corresponde aux contraintes souhaitées. Les probabilités de différentes caractéristiques sont ensuite combinées pour arriver à une probabilité qu'un fruit donné soit une pomme. Naive Bayes nécessite généralement un petit nombre de données d'entraînement pour la classification.

Régression logistique

Regardez le diagramme suivant. Il montre la distribution des points de données dans le plan XY.

À partir du diagramme, nous pouvons inspecter visuellement la séparation des points rouges des points verts. Vous pouvez tracer une ligne de démarcation pour séparer ces points. Maintenant, pour classer un nouveau point de données, il vous suffira de déterminer de quel côté de la ligne se trouve le point.

Machines vectorielles de soutien

Regardez la distribution suivante des données. Ici, les trois classes de données ne peuvent pas être séparées linéairement. Les courbes aux limites sont non linéaires. Dans un tel cas, trouver l'équation de la courbe devient un travail complexe.

La source: http://uc-r.github.io/svm

Les machines vectorielles de soutien (SVM) sont utiles pour déterminer les limites de séparation dans de telles situations.