Apprentissage automatique - non supervisé
Jusqu'à présent, ce que vous avez vu, c'est apprendre à la machine à trouver la solution à notre objectif. En régression, nous entraînons la machine à prédire une valeur future. En classification, nous entraînons la machine à classer un objet inconnu dans l'une des catégories que nous avons définies. En bref, nous avons formé des machines pour qu'elle puisse prédire Y pour nos données X. Compte tenu d'un vaste ensemble de données et de ne pas estimer les catégories, il serait difficile pour nous d'entraîner la machine en utilisant l'apprentissage supervisé. Et si la machine pouvait rechercher et analyser les données volumineuses s'étendant sur plusieurs gigaoctets et téraoctets et nous dire que ces données contiennent autant de catégories distinctes?
À titre d'exemple, considérons les données de l'électeur. En tenant compte de certaines contributions de chaque électeur (on les appelle des fonctionnalités dans la terminologie de l'IA), laissez la machine prédire qu'il y a tellement d'électeurs qui voteraient pour le parti politique X et que beaucoup voteraient pour Y, et ainsi de suite. Ainsi, en général, nous demandons à la machine, étant donné un énorme ensemble de points de données X, «Que pouvez-vous me dire sur X?». Ou cela peut être une question comme «Quels sont les cinq meilleurs groupes que nous pouvons faire de X?». Ou cela pourrait même être comme "Quelles sont les trois fonctionnalités qui se produisent le plus souvent ensemble dans X?".
C'est exactement ce qu'est l'apprentissage non supervisé.
Algorithmes pour l'apprentissage non supervisé
Parlons maintenant de l'un des algorithmes largement utilisés pour la classification dans l'apprentissage automatique non supervisé.
k-signifie clustering
Les élections présidentielles de 2000 et 2004 aux États-Unis étaient proches - très proches. Le pourcentage le plus élevé du vote populaire obtenu par un candidat était de 50,7% et le plus bas de 47,9%. Si un pourcentage des électeurs avait changé de camp, le résultat de l'élection aurait été différent. Il existe de petits groupes d'électeurs qui, lorsqu'ils y sont dûment sollicités, changeront de camp. Ces groupes ne sont peut-être pas énormes, mais avec des courses aussi serrées, ils peuvent être assez grands pour changer le résultat des élections. Comment trouvez-vous ces groupes de personnes? Comment les attirez-vous avec un budget limité? La réponse est le regroupement.
Comprenons comment cela se fait.
Premièrement, vous collectez des informations sur des personnes avec ou sans leur consentement: toute sorte d'informations qui pourraient donner une idée de ce qui est important pour elles et de ce qui influencera leur vote.
Ensuite, vous mettez ces informations dans une sorte d'algorithme de clustering.
Ensuite, pour chaque cluster (il serait judicieux de choisir d'abord le plus grand), vous rédigez un message qui plaira à ces électeurs.
Enfin, vous diffusez la campagne et mesurez pour voir si cela fonctionne.
Le clustering est un type d'apprentissage non supervisé qui forme automatiquement des grappes d'éléments similaires. C'est comme une classification automatique. Vous pouvez regrouper presque tout, et plus les éléments sont similaires dans le cluster, meilleurs sont les clusters. Dans ce chapitre, nous allons étudier un type d'algorithme de clustering appelé k-means. Il est appelé k-means car il trouve «k» clusters uniques, et le centre de chaque cluster est la moyenne des valeurs de ce cluster.
Identification du cluster
L'identification de cluster indique à un algorithme: «Voici quelques données. Maintenant, regroupez des choses similaires et parlez-moi de ces groupes. La principale différence avec la classification est que dans la classification, vous savez ce que vous recherchez. Bien que ce ne soit pas le cas dans le clustering.
Le clustering est parfois appelé classification non supervisée car il produit le même résultat que la classification mais sans avoir de classes prédéfinies.
Maintenant, nous sommes à l'aise avec l'apprentissage supervisé et non supervisé. Pour comprendre le reste des catégories d'apprentissage automatique, nous devons d'abord comprendre les réseaux de neurones artificiels (ANN), que nous apprendrons dans le chapitre suivant.