Maschinelles Lernen für die Datenanalyse
Maschinelles Lernen ist ein Teilgebiet der Informatik, das sich mit Aufgaben wie Mustererkennung, Computer Vision, Spracherkennung und Textanalyse befasst und in engem Zusammenhang mit Statistik und mathematischer Optimierung steht. Zu den Anwendungen gehören unter anderem die Entwicklung von Suchmaschinen, Spamfilterung und optische Zeichenerkennung (OCR). Die Grenzen zwischen Data Mining, Mustererkennung und dem Bereich des statistischen Lernens sind nicht klar und beziehen sich grundsätzlich alle auf ähnliche Probleme.
Maschinelles Lernen kann in zwei Arten von Aufgaben unterteilt werden:
- Überwachtes Lernen
- Unbeaufsichtigtes Lernen
Überwachtes Lernen
Überwachtes Lernen bezieht sich auf eine Art von Problem, bei dem Eingabedaten als Matrix X definiert sind und wir daran interessiert sind, eine Antwort y vorherzusagen . Wo X = {x 1 , x 2 , ..., x n } hat n Prädiktoren und hat zwei Werte y = {c 1 , c 2 } .
Eine Beispielanwendung wäre die Vorhersage der Wahrscheinlichkeit, dass ein Webbenutzer auf Anzeigen klickt, wobei demografische Merkmale als Prädiktoren verwendet werden. Dies wird häufig aufgerufen, um die Klickrate (Click-through-Rate - CTR) vorherzusagen. Dann ist y = {click, not - click} und die Prädiktoren könnten die verwendete IP-Adresse, der Tag, an dem er die Site betreten hat, die Stadt des Benutzers, das Land und andere Funktionen sein, die verfügbar sein könnten.
Unbeaufsichtigtes Lernen
Unbeaufsichtigtes Lernen befasst sich mit dem Problem, Gruppen zu finden, die ineinander ähnlich sind, ohne eine Klasse zu haben, von der man lernen kann. Es gibt verschiedene Ansätze für die Aufgabe, eine Zuordnung von Prädiktoren zu lernen, um Gruppen zu finden, die ähnliche Instanzen in jeder Gruppe gemeinsam haben und sich voneinander unterscheiden.
Eine Beispielanwendung für unbeaufsichtigtes Lernen ist die Kundensegmentierung. In der Telekommunikationsbranche besteht eine häufige Aufgabe beispielsweise darin, Benutzer nach der Nutzung des Telefons zu segmentieren. Dies würde es der Marketingabteilung ermöglichen, jede Gruppe mit einem anderen Produkt anzusprechen.