Apache Kafka - Einführung

In Big Data wird ein enormes Datenvolumen verwendet. In Bezug auf Daten haben wir zwei Hauptherausforderungen. Die erste Herausforderung besteht darin, große Datenmengen zu erfassen, und die zweite Herausforderung besteht darin, die gesammelten Daten zu analysieren. Um diese Herausforderungen zu bewältigen, benötigen Sie ein Nachrichtensystem.

Kafka ist für verteilte Hochdurchsatzsysteme konzipiert. Kafka eignet sich sehr gut als Ersatz für einen traditionelleren Nachrichtenbroker. Im Vergleich zu anderen Messagingsystemen bietet Kafka einen besseren Durchsatz, eine integrierte Partitionierung, Replikation und eine inhärente Fehlertoleranz, wodurch es sich gut für große Nachrichtenverarbeitungsanwendungen eignet.

Was ist ein Messaging-System?

Ein Messaging-System ist für die Übertragung von Daten von einer Anwendung zu einer anderen verantwortlich, sodass sich die Anwendungen auf Daten konzentrieren können, sich jedoch keine Gedanken darüber machen müssen, wie diese freigegeben werden sollen. Distributed Messaging basiert auf dem Konzept einer zuverlässigen Nachrichtenwarteschlange. Nachrichten werden asynchron zwischen Clientanwendungen und Nachrichtensystem in die Warteschlange gestellt. Es stehen zwei Arten von Messaging-Mustern zur Verfügung - eines ist Punkt-zu-Punkt und das andere ist das Publish-Subscribe-Messaging-System (Pub-Sub). Die meisten Nachrichtenmuster folgenpub-sub.

Punkt-zu-Punkt-Messaging-System

In einem Punkt-zu-Punkt-System bleiben Nachrichten in einer Warteschlange erhalten. Ein oder mehrere Verbraucher können die Nachrichten in der Warteschlange verwenden, eine bestimmte Nachricht kann jedoch nur von maximal einem Verbraucher verwendet werden. Sobald ein Verbraucher eine Nachricht in der Warteschlange liest, verschwindet sie aus dieser Warteschlange. Das typische Beispiel für dieses System ist ein Auftragsabwicklungssystem, bei dem jeder Auftrag von einem Auftragsabwickler bearbeitet wird, aber auch mehrere Auftragsabwickler gleichzeitig arbeiten können. Das folgende Diagramm zeigt die Struktur.

Publish-Subscribe-Messaging-System

Im Publish-Subscribe-System bleiben Nachrichten in einem Thema erhalten. Im Gegensatz zum Punkt-zu-Punkt-System können Verbraucher ein oder mehrere Themen abonnieren und alle Nachrichten in diesem Thema verwenden. Im Publish-Subscribe-System werden Nachrichtenproduzenten als Herausgeber und Nachrichtenkonsumenten als Abonnenten bezeichnet. Ein Beispiel aus der Praxis ist Dish TV, das verschiedene Kanäle wie Sport, Filme, Musik usw. veröffentlicht. Jeder kann seine eigenen Kanäle abonnieren und diese abrufen, sobald seine abonnierten Kanäle verfügbar sind.

Was ist Kafka?

Apache Kafka ist ein verteiltes Publish-Subscribe-Messaging-System und eine robuste Warteschlange, die ein hohes Datenvolumen verarbeiten kann und es Ihnen ermöglicht, Nachrichten von einem Endpunkt an einen anderen weiterzuleiten. Kafka eignet sich sowohl für den Offline- als auch für den Online-Nachrichtenverbrauch. Kafka-Nachrichten bleiben auf der Festplatte erhalten und werden im Cluster repliziert, um Datenverlust zu vermeiden. Kafka basiert auf dem ZooKeeper-Synchronisierungsdienst. Es lässt sich sehr gut in Apache Storm und Spark für die Echtzeit-Streaming-Datenanalyse integrieren.

Leistungen

Im Folgenden sind einige Vorteile von Kafka aufgeführt:

  • Reliability - Kafka ist verteilt, partitioniert, repliziert und fehlertolerant.

  • Scalability - Das Kafka-Messaging-System lässt sich ohne Ausfallzeiten problemlos skalieren.

  • Durability- Kafka verwendet das verteilte Festschreibungsprotokoll, was bedeutet, dass Nachrichten so schnell wie möglich auf der Festplatte gespeichert werden und daher dauerhaft sind.

  • Performance- Kafka hat einen hohen Durchsatz beim Veröffentlichen und Abonnieren von Nachrichten. Es behält eine stabile Leistung bei, selbst wenn viele TB Nachrichten gespeichert sind.

Kafka ist sehr schnell und garantiert keine Ausfallzeiten und keinen Datenverlust.

Anwendungsfälle

Kafka kann in vielen Anwendungsfällen verwendet werden. Einige von ihnen sind unten aufgeführt -

  • Metrics- Kafka wird häufig für Betriebsüberwachungsdaten verwendet. Dies umfasst das Aggregieren von Statistiken aus verteilten Anwendungen, um zentralisierte Feeds mit Betriebsdaten zu erstellen.

  • Log Aggregation Solution - Kafka kann unternehmensweit verwendet werden, um Protokolle von mehreren Diensten zu sammeln und sie mehreren Verbrauchern in einem Standardformat zur Verfügung zu stellen.

  • Stream Processing- Beliebte Frameworks wie Storm und Spark Streaming lesen Daten aus einem Thema, verarbeiten sie und schreiben verarbeitete Daten in ein neues Thema, wo sie für Benutzer und Anwendungen verfügbar werden. Die starke Haltbarkeit von Kafka ist auch im Zusammenhang mit der Stream-Verarbeitung sehr nützlich.

Notwendigkeit für Kafka

Kafka ist eine einheitliche Plattform für die Verarbeitung aller Echtzeit-Datenfeeds. Kafka unterstützt die Zustellung von Nachrichten mit geringer Latenz und garantiert die Fehlertoleranz bei Maschinenfehlern. Es hat die Fähigkeit, eine große Anzahl unterschiedlicher Verbraucher zu behandeln. Kafka ist sehr schnell und führt 2 Millionen Schreibvorgänge pro Sekunde aus. Kafka speichert alle Daten auf der Festplatte, was im Wesentlichen bedeutet, dass alle Schreibvorgänge in den Seitencache des Betriebssystems (RAM) verschoben werden. Dies macht es sehr effizient, Daten vom Seiten-Cache zu einem Netzwerk-Socket zu übertragen.