Agile Data Science - SparkML
Die Bibliothek für maschinelles Lernen, auch als „SparkML“ oder „MLLib“ bezeichnet, besteht aus gängigen Lernalgorithmen, einschließlich Klassifizierung, Regression, Clustering und kollaborativer Filterung.
Warum SparkML for Agile lernen?
Spark wird zur De-facto-Plattform für die Erstellung von Algorithmen und Anwendungen für maschinelles Lernen. Die Entwickler arbeiten an Spark, um Maschinenalgorithmen im Spark-Framework skalierbar und präzise zu implementieren. Mit diesem Framework lernen wir die Konzepte des maschinellen Lernens, seine Dienstprogramme und Algorithmen. Agile entscheidet sich immer für ein Framework, das kurze und schnelle Ergebnisse liefert.
ML-Algorithmen
ML-Algorithmen umfassen gängige Lernalgorithmen wie Klassifizierung, Regression, Clustering und kollaborative Filterung.
Eigenschaften
Es umfasst das Extrahieren, Transformieren, Reduzieren und Auswählen von Features.
Pipelines
Pipelines bieten Tools zum Erstellen, Bewerten und Optimieren von Pipelines für maschinelles Lernen.
Beliebte Algorithmen
Im Folgenden sind einige beliebte Algorithmen aufgeführt:
Grundlegende Statistik
Regression
Classification
Empfehlungssystem
Clustering
Reduzierung der Dimensionalität
Feature-Extraktion
Optimization
Empfehlungssystem
Ein Empfehlungssystem ist eine Unterklasse von Informationsfiltersystemen, die eine Vorhersage von "Bewertung" und "Präferenz" anstreben, die ein Benutzer einem bestimmten Artikel vorschlägt.
Das Empfehlungssystem umfasst verschiedene Filtersysteme, die wie folgt verwendet werden:
Kollaboratives Filtern
Es umfasst das Erstellen eines Modells basierend auf dem Verhalten der Vergangenheit sowie ähnliche Entscheidungen anderer Benutzer. Dieses spezielle Filtermodell wird verwendet, um Elemente vorherzusagen, die ein Benutzer aufnehmen möchte.
Inhaltsbasierte Filterung
Es umfasst das Filtern diskreter Merkmale eines Elements, um neue Elemente mit ähnlichen Eigenschaften zu empfehlen und hinzuzufügen.
In unseren folgenden Kapiteln konzentrieren wir uns auf die Verwendung eines Empfehlungssystems zur Lösung eines bestimmten Problems und zur Verbesserung der Vorhersageleistung unter dem Gesichtspunkt der agilen Methodik.