Maschinelles Lernen - unbeaufsichtigt

Was Sie bisher gesehen haben, ist, dass die Maschine lernt, die Lösung für unser Ziel herauszufinden. In der Regression trainieren wir die Maschine, um einen zukünftigen Wert vorherzusagen. Bei der Klassifizierung trainieren wir die Maschine, um ein unbekanntes Objekt in eine der von uns definierten Kategorien zu klassifizieren. Kurz gesagt, wir haben Maschinen trainiert, damit sie Y für unsere Daten X vorhersagen können. Angesichts eines riesigen Datensatzes und ohne Schätzung der Kategorien wäre es für uns schwierig, die Maschine mithilfe von überwachtem Lernen zu trainieren. Was ist, wenn der Computer die Big Data mit mehreren Gigabyte und Terabyte nachschlagen und analysieren kann und uns mitteilt, dass diese Daten so viele verschiedene Kategorien enthalten?

Betrachten Sie als Beispiel die Daten des Wählers. Indem Sie einige Eingaben von jedem Wähler berücksichtigen (diese werden in der KI-Terminologie als Merkmale bezeichnet), lassen Sie die Maschine vorhersagen, dass es so viele Wähler gibt, die für die X-Partei stimmen würden, und so viele, die für Y stimmen würden, und so weiter. Daher fragen wir die Maschine im Allgemeinen mit einem riesigen Satz von Datenpunkten X: „Was können Sie mir über X sagen?“. Oder es könnte eine Frage wie "Was sind die fünf besten Gruppen, die wir aus X machen können?" Sein. Oder es könnte sogar so aussehen: "Welche drei Funktionen treten in X am häufigsten zusammen auf?".

Genau darum geht es beim unbeaufsichtigten Lernen.

Algorithmen für unbeaufsichtigtes Lernen

Lassen Sie uns nun einen der weit verbreiteten Algorithmen zur Klassifizierung im unbeaufsichtigten maschinellen Lernen diskutieren.

k-bedeutet Clustering

Die Präsidentschaftswahlen 2000 und 2004 in den Vereinigten Staaten standen kurz bevor - sehr nahe. Der größte Prozentsatz der Stimmen, die ein Kandidat erhielt, betrug 50,7% und der niedrigste 47,9%. Wenn ein Prozentsatz der Wähler die Seite gewechselt hätte, wäre das Wahlergebnis anders ausgefallen. Es gibt kleine Gruppen von Wählern, die, wenn sie richtig angesprochen werden, die Seite wechseln. Diese Gruppen mögen nicht riesig sein, aber bei solch engen Rennen können sie groß genug sein, um das Wahlergebnis zu ändern. Wie finden Sie diese Personengruppen? Wie appellieren Sie mit einem begrenzten Budget an sie? Die Antwort lautet Clustering.

Lassen Sie uns verstehen, wie es gemacht wird.

  • Zunächst sammeln Sie Informationen über Personen mit oder ohne deren Zustimmung: Informationen jeglicher Art, die einen Hinweis darauf geben, was für sie wichtig ist und wie sie abstimmen.

  • Dann fügen Sie diese Informationen in eine Art Clustering-Algorithmus ein.

  • Als nächstes erstellen Sie für jeden Cluster (es wäre klug, zuerst den größten auszuwählen) eine Nachricht, die diese Wähler anspricht.

  • Schließlich liefern Sie die Kampagne und messen, ob sie funktioniert.

Clustering ist eine Art unbeaufsichtigten Lernens, bei dem automatisch Cluster ähnlicher Dinge gebildet werden. Es ist wie eine automatische Klassifizierung. Sie können fast alles gruppieren. Je ähnlicher die Elemente im Cluster sind, desto besser sind die Cluster. In diesem Kapitel werden wir eine Art von Clustering-Algorithmus untersuchen, der als k-means bezeichnet wird. Es wird k-means genannt, weil es 'k' eindeutige Cluster findet und das Zentrum jedes Clusters der Mittelwert der Werte in diesem Cluster ist.

Cluster-Identifikation

Die Clusteridentifikation sagt einem Algorithmus: „Hier sind einige Daten. Gruppieren Sie jetzt ähnliche Dinge und erzählen Sie mir von diesen Gruppen. “ Der Hauptunterschied zur Klassifizierung besteht darin, dass Sie bei der Klassifizierung wissen, wonach Sie suchen. Dies ist beim Clustering zwar nicht der Fall.

Clustering wird manchmal als unbeaufsichtigte Klassifizierung bezeichnet, da es das gleiche Ergebnis wie die Klassifizierung liefert, jedoch ohne vordefinierte Klassen.

Jetzt fühlen wir uns sowohl mit überwachtem als auch mit unbeaufsichtigtem Lernen wohl. Um den Rest der Kategorien des maschinellen Lernens zu verstehen, müssen wir zuerst die künstlichen neuronalen Netze (ANN) verstehen, die wir im nächsten Kapitel lernen werden.