Apache Flink - Maschinelles Lernen

Die Bibliothek für maschinelles Lernen von Apache Flink heißt FlinkML. Da die Nutzung des maschinellen Lernens in den letzten 5 Jahren exponentiell zugenommen hat, hat die Flink-Community beschlossen, dieses APO für maschinelles Lernen auch in ihr Ökosystem aufzunehmen. Die Liste der Mitwirkenden und Algorithmen nimmt in FlinkML zu. Diese API ist noch nicht Teil der Binärverteilung.

Hier ist ein Beispiel für eine lineare Regression mit FlinkML -

// LabeledVector is a feature vector with a label (class or real value)
val trainingData: DataSet[LabeledVector] = ...
val testingData: DataSet[Vector] = ...

// Alternatively, a Splitter is used to break up a DataSet into training and testing data.
val dataSet: DataSet[LabeledVector] = ...
val trainTestData: DataSet[TrainTestDataSet] = Splitter.trainTestSplit(dataSet)
val trainingData: DataSet[LabeledVector] = trainTestData.training
val testingData: DataSet[Vector] = trainTestData.testing.map(lv => lv.vector)
val mlr = MultipleLinearRegression()

.setStepsize(1.0)
.setIterations(100)
.setConvergenceThreshold(0.001)
mlr.fit(trainingData)

// The fitted model can now be used to make predictions
val predictions: DataSet[LabeledVector] = mlr.predict(testingData)

Innerhalb flink-1.7.1/examples/batch/Pfad finden Sie die Datei KMeans.jar. Lassen Sie uns dieses Beispiel eines FlinkML-Beispiels ausführen.

Dieses Beispielprogramm wird mit dem Standardpunkt und dem Schwerpunktdatensatz ausgeführt.

./bin/flink run examples/batch/KMeans.jar --output Print