Apache Kafka - Giriş
Big Data'da muazzam miktarda veri kullanılır. Verilerle ilgili olarak, iki temel zorluğumuz var: İlk zorluk, büyük hacimli verilerin nasıl toplanacağı ve ikinci zorluk, toplanan verileri analiz etmektir. Bu zorlukların üstesinden gelmek için bir mesajlaşma sistemine ihtiyacınız var.
Kafka, dağıtılmış yüksek verimli sistemler için tasarlanmıştır. Kafka, daha geleneksel bir mesaj komisyoncusu yerine çok iyi çalışma eğilimindedir. Diğer mesajlaşma sistemlerine kıyasla Kafka, daha iyi iş hacmine, yerleşik bölümlemeye, çoğaltmaya ve doğal hata toleransına sahiptir, bu da onu büyük ölçekli mesaj işleme uygulamaları için uygun hale getirir.
Mesajlaşma Sistemi nedir?
Bir Mesajlaşma Sistemi, verilerin bir uygulamadan diğerine aktarılmasından sorumludur, böylece uygulamalar verilere odaklanabilir, ancak nasıl paylaşılacağı konusunda endişelenmez. Dağıtılmış mesajlaşma, güvenilir mesaj kuyruğu kavramına dayanır. Mesajlar, istemci uygulamaları ve mesajlaşma sistemi arasında eşzamansız olarak sıraya alınır. İki tür mesajlaşma modeli mevcuttur - biri noktadan noktaya, diğeri ise yayınlama-abone olma (pub-sub) mesajlaşma sistemidir. Mesajlaşma modellerinin çoğu takip ederpub-sub.
Noktadan Noktaya Mesajlaşma Sistemi
Noktadan noktaya bir sistemde, mesajlar bir kuyrukta saklanır. Bir veya daha fazla tüketici kuyruktaki mesajları tüketebilir, ancak belirli bir mesaj yalnızca bir tüketici tarafından tüketilebilir. Bir tüketici kuyruktaki bir mesajı okuduğunda, bu kuyruktan kaybolur. Bu sistemin tipik örneği, her siparişin bir Sipariş İşlemcisi tarafından işleneceği, ancak Birden Çok Sipariş İşlemcisinin aynı anda çalışabileceği bir Sipariş İşleme Sistemidir. Aşağıdaki diyagram yapıyı göstermektedir.
Yayınla-Abone Ol Mesajlaşma Sistemi
Yayınlama-abone olma sisteminde, mesajlar bir konuda saklanır. Noktadan noktaya sistemin aksine, tüketiciler bir veya daha fazla konuya abone olabilir ve o konudaki tüm mesajları tüketebilir. Yayınla-Abone Ol sisteminde, mesaj üreticilerine yayıncı, mesaj tüketicilerine ise abone denir. Gerçek hayattan bir örnek, spor, film, müzik vb. Gibi farklı kanalları yayınlayan Dish TV'dir ve herkes kendi kanallarına abone olabilir ve abone olduğu kanalları kullanılabilir olduğunda bunları alabilir.
Kafka nedir?
Apache Kafka, dağıtılmış bir yayınlama-abone olma mesajlaşma sistemi ve yüksek hacimli verileri işleyebilen ve mesajları bir uç noktadan diğerine geçirmenizi sağlayan sağlam bir kuyruktur. Kafka hem çevrimdışı hem de çevrimiçi mesaj tüketimi için uygundur. Kafka mesajları, veri kaybını önlemek için diskte saklanır ve küme içinde çoğaltılır. Kafka, ZooKeeper senkronizasyon hizmetinin üzerine inşa edilmiştir. Gerçek zamanlı veri akışı analizi için Apache Storm ve Spark ile çok iyi entegre olur.
Faydaları
Aşağıda Kafka'nın birkaç faydası vardır:
Reliability - Kafka dağıtılır, bölümlenir, çoğaltılır ve hata toleransı sağlanır.
Scalability - Kafka mesajlaşma sistemi, kesinti olmadan kolayca ölçeklenir.
Durability- Kafka,
Dağıtılmış kaydetme günlüğünü
kullanır ; bu, iletilerin diskte olabildiğince hızlı kalması ve dolayısıyla dayanıklı olması anlamına gelirPerformance- Kafka, mesaj yayınlamak ve abone olmak için yüksek verimliliğe sahiptir. Birçok TB mesaj saklansa bile istikrarlı performansı korur.
Kafka çok hızlıdır ve sıfır kesinti ve sıfır veri kaybını garanti eder.
Kullanım Durumları
Kafka birçok Kullanım Durumunda kullanılabilir. Bazıları aşağıda listelenmiştir -
Metrics- Kafka genellikle operasyonel izleme verileri için kullanılır. Bu, merkezi operasyonel veri beslemeleri üretmek için dağıtılmış uygulamalardan istatistiklerin toplanmasını içerir.
Log Aggregation Solution - Kafka, birden çok hizmetten günlükleri toplamak ve bunları standart bir biçimde birden çok tüketiciye sunmak için bir kuruluş genelinde kullanılabilir.
Stream Processing- Storm ve Spark Streaming gibi popüler çerçeveler bir konudaki verileri okur, işler ve işlenmiş verileri kullanıcılar ve uygulamalar için kullanılabilir hale geldiği yeni bir konuya yazar. Kafka'nın güçlü dayanıklılığı, akış işleme bağlamında da çok kullanışlıdır.
Kafka ihtiyacı
Kafka, tüm gerçek zamanlı veri akışlarını işlemek için birleşik bir platformdur. Kafka, düşük gecikmeli mesaj teslimini destekler ve makine arızaları durumunda hata toleransı için garanti verir. Çok sayıda farklı tüketiciyi idare etme yeteneğine sahiptir. Kafka çok hızlıdır, 2 milyon yazma / sn yapar. Kafka, tüm verileri diske kaydeder, bu da aslında tüm yazmaların OS'nin (RAM) sayfa önbelleğine gittiği anlamına gelir. Bu, verileri sayfa önbelleğinden bir ağ soketine aktarmayı çok verimli hale getirir.