Apache Kafka - Integration mit Spark

In diesem Kapitel werden wir diskutieren, wie Apache Kafka in die Spark Streaming API integriert wird.

Über Spark

Die Spark-Streaming-API ermöglicht die skalierbare, fehlertolerante Stream-Verarbeitung von Live-Datenströmen mit hohem Durchsatz. Daten können aus vielen Quellen wie Kafka, Flume, Twitter usw. aufgenommen und mit komplexen Algorithmen wie übergeordneten Funktionen wie Map, Reduce, Join und Window verarbeitet werden. Schließlich können verarbeitete Daten in Dateisysteme, Datenbanken und Live-Dashboards übertragen werden. Resilient Distributed Datasets (RDD) ist eine grundlegende Datenstruktur von Spark. Es ist eine unveränderliche verteilte Sammlung von Objekten. Jeder Datensatz in RDD ist in logische Partitionen unterteilt, die auf verschiedenen Knoten des Clusters berechnet werden können.

Integration mit Spark

Kafka ist eine potenzielle Messaging- und Integrationsplattform für Spark-Streaming. Kafka fungiert als zentraler Hub für Echtzeit-Datenströme und wird mithilfe komplexer Algorithmen in Spark Streaming verarbeitet. Sobald die Daten verarbeitet sind, veröffentlicht Spark Streaming möglicherweise Ergebnisse in einem weiteren Kafka-Thema oder speichert sie in HDFS, Datenbanken oder Dashboards. Das folgende Diagramm zeigt den konzeptionellen Ablauf.

Lassen Sie uns nun die Kafka-Spark-APIs im Detail durchgehen.

SparkConf API

Es repräsentiert die Konfiguration für eine Spark-Anwendung. Wird verwendet, um verschiedene Spark-Parameter als Schlüssel-Wert-Paare festzulegen.

Die SparkConf- Klasse verfügt über die folgenden Methoden:

  • set(string key, string value) - Konfigurationsvariable setzen.

  • remove(string key) - Schlüssel aus der Konfiguration entfernen.

  • setAppName(string name) - Legen Sie den Anwendungsnamen für Ihre Anwendung fest.

  • get(string key) - Schlüssel holen

StreamingContext-API

Dies ist der Haupteinstiegspunkt für die Spark-Funktionalität. Ein SparkContext stellt die Verbindung zu einem Spark-Cluster dar und kann zum Erstellen von RDDs, Akkumulatoren und Broadcast-Variablen im Cluster verwendet werden. Die Signatur wird wie unten gezeigt definiert.

public StreamingContext(String master, String appName, Duration batchDuration, 
   String sparkHome, scala.collection.Seq<String> jars, 
   scala.collection.Map<String,String> environment)
  • master - Cluster-URL, zu der eine Verbindung hergestellt werden soll (z. B. mesos: // host: port, spark: // host: port, local [4]).

  • appName - Ein Name für Ihren Job, der auf der Cluster-Web-Benutzeroberfläche angezeigt wird

  • batchDuration - das Zeitintervall, in dem Streaming-Daten in Stapel aufgeteilt werden

public StreamingContext(SparkConf conf, Duration batchDuration)

Erstellen Sie einen StreamingContext, indem Sie die für einen neuen SparkContext erforderliche Konfiguration bereitstellen.

  • conf - Funkenparameter

  • batchDuration - das Zeitintervall, in dem Streaming-Daten in Stapel aufgeteilt werden

KafkaUtils API

Die KafkaUtils-API wird verwendet, um den Kafka-Cluster mit dem Spark-Streaming zu verbinden. Diese API verfügt über die unten definierte signifikante Methode createStream- Signatur.

public static ReceiverInputDStream<scala.Tuple2<String,String>> createStream(
   StreamingContext ssc, String zkQuorum, String groupId,
   scala.collection.immutable.Map<String,Object> topics, StorageLevel storageLevel)

Die oben gezeigte Methode wird verwendet, um einen Eingabestream zu erstellen, der Nachrichten von Kafka Brokers abruft.

  • ssc - StreamingContext-Objekt.

  • zkQuorum - Zookeeper-Quorum.

  • groupId - Die Gruppen-ID für diesen Verbraucher.

  • topics - eine Karte der zu konsumierenden Themen zurückgeben.

  • storageLevel - Speicherebene zum Speichern der empfangenen Objekte.

Die KafkaUtils-API verfügt über eine andere Methode createDirectStream, mit der ein Eingabestream erstellt wird, der Nachrichten direkt von Kafka Brokers abruft, ohne einen Empfänger zu verwenden. Dieser Stream kann garantieren, dass jede Nachricht von Kafka genau einmal in Transformationen enthalten ist.

Die Beispielanwendung erfolgt in Scala. Um die Anwendung zu kompilieren, laden Sie bitte das sbt , scala build tool (ähnlich wie maven) herunter und installieren Sie es . Der Hauptanwendungscode ist unten dargestellt.

import java.util.HashMap

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, Produc-erRecord}
import org.apache.spark.SparkConf
import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._

object KafkaWordCount {
   def main(args: Array[String]) {
      if (args.length < 4) {
         System.err.println("Usage: KafkaWordCount <zkQuorum><group> <topics> <numThreads>")
         System.exit(1)
      }

      val Array(zkQuorum, group, topics, numThreads) = args
      val sparkConf = new SparkConf().setAppName("KafkaWordCount")
      val ssc = new StreamingContext(sparkConf, Seconds(2))
      ssc.checkpoint("checkpoint")

      val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
      val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)
      val words = lines.flatMap(_.split(" "))
      val wordCounts = words.map(x => (x, 1L))
         .reduceByKeyAndWindow(_ + _, _ - _, Minutes(10), Seconds(2), 2)
      wordCounts.print()

      ssc.start()
      ssc.awaitTermination()
   }
}

Skript erstellen

Die Spark-Kafka-Integration hängt von Spark, Spark-Streaming und Spark-Kafka-Integrationsglas ab. Erstellen Sie eine neue Datei build.sbt und geben Sie die Anwendungsdetails und deren Abhängigkeit an. Der sbt lädt das erforderliche JAR herunter, während er die Anwendung kompiliert und packt.

name := "Spark Kafka Project"
version := "1.0"
scalaVersion := "2.10.5"

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.6.0"
libraryDependencies += "org.apache.spark" %% "spark-streaming" % "1.6.0"
libraryDependencies += "org.apache.spark" %% "spark-streaming-kafka" % "1.6.0"

Zusammenstellung / Verpackung

Führen Sie den folgenden Befehl aus, um die JAR-Datei der Anwendung zu kompilieren und zu verpacken. Wir müssen die JAR-Datei an die Spark-Konsole senden, um die Anwendung auszuführen.

sbt package

Bei Spark einreichen

Starten Sie die Kafka Producer CLI (im vorherigen Kapitel erläutert), erstellen Sie ein neues Thema mit dem Namen " Mein erstes Thema" und geben Sie einige Beispielnachrichten an, wie unten gezeigt.

Another spark test message

Führen Sie den folgenden Befehl aus, um die Anwendung an die Spark-Konsole zu senden.

/usr/local/spark/bin/spark-submit --packages org.apache.spark:spark-streaming
-kafka_2.10:1.6.0 --class "KafkaWordCount" --master local[4] target/scala-2.10/spark
-kafka-project_2.10-1.0.jar localhost:2181 <group name> <topic name> <number of threads>

Die Beispielausgabe dieser Anwendung ist unten dargestellt.

spark console messages ..
(Test,1)
(spark,1)
(another,1)
(message,1)
spark console message ..