Apache Storm - Konsep Inti

Apache Storm membaca aliran mentah data real-time dari satu ujung dan meneruskannya melalui serangkaian unit pemrosesan kecil dan mengeluarkan informasi yang diproses / berguna di ujung lainnya.

Diagram berikut menggambarkan konsep inti Apache Storm.

Sekarang mari kita lihat lebih dekat komponen Apache Storm -

Komponen Deskripsi
Tuple Tuple adalah struktur data utama di Storm. Ini adalah daftar elemen yang dipesan. Secara default, Tuple mendukung semua tipe data. Umumnya, ini dimodelkan sebagai sekumpulan nilai yang dipisahkan koma dan diteruskan ke cluster Storm.
Aliran Stream adalah urutan tupel yang tidak berurutan.
Cerat Sumber aliran. Umumnya, Storm menerima data masukan dari sumber data mentah seperti Twitter Streaming API, antrian Apache Kafka, antrian Kestrel, dll. Jika tidak, Anda dapat menulis spout untuk membaca data dari sumber data. "ISpout" adalah antarmuka inti untuk mengimplementasikan spouts. Beberapa antarmuka spesifik adalah IRichSpout, BaseRichSpout, KafkaSpout, dll.
Baut Baut adalah unit pemrosesan logis. Cerat melewatkan data ke proses baut dan baut dan menghasilkan aliran keluaran baru. Baut dapat melakukan operasi pemfilteran, agregasi, penggabungan, interaksi dengan sumber data dan database. Bolt menerima data dan memancarkan ke satu atau lebih baut. "IBolt" adalah antarmuka inti untuk mengimplementasikan baut. Beberapa antarmuka umum adalah IRichBolt, IBasicBolt, dll.

Mari kita ambil contoh real-time dari "Analisis Twitter" dan lihat bagaimana hal itu dapat dimodelkan di Apache Storm. Diagram berikut menggambarkan strukturnya.

Masukan untuk "Analisis Twitter" berasal dari Twitter Streaming API. Spout akan membaca tweet pengguna menggunakan Twitter Streaming API dan output sebagai aliran tuple. Satu tupel dari cerat akan memiliki nama pengguna twitter dan satu tweet sebagai nilai yang dipisahkan koma. Kemudian, uap tupel ini akan diteruskan ke Bolt dan Bolt akan membagi tweet menjadi kata individu, menghitung jumlah kata, dan menyimpan informasi ke sumber data yang dikonfigurasi. Sekarang, kita bisa dengan mudah mendapatkan hasilnya dengan menanyakan sumber data.

Topologi

Spout dan baut dihubungkan bersama dan membentuk topologi. Logika aplikasi waktu nyata ditentukan di dalam topologi Storm. Dengan kata sederhana, topologi adalah grafik berarah di mana simpul adalah komputasi dan tepi adalah aliran data.

Topologi sederhana dimulai dengan cerat. Cerat memancarkan data ke satu atau lebih baut. Baut mewakili simpul dalam topologi yang memiliki logika pemrosesan terkecil dan keluaran dari sebuah baut dapat dipancarkan ke baut lain sebagai masukan.

Storm membuat topologi selalu berjalan, sampai Anda mematikan topologi tersebut. Pekerjaan utama Apache Storm adalah menjalankan topologi dan akan menjalankan sejumlah topologi pada waktu tertentu.

Tugas

Sekarang Anda memiliki ide dasar tentang cerat dan baut. Mereka adalah unit logis terkecil dari topologi dan topologi dibuat dengan menggunakan cerat tunggal dan serangkaian baut. Mereka harus dijalankan dengan benar dalam urutan tertentu agar topologi dapat berjalan dengan sukses. Eksekusi setiap cerat dan baut oleh Storm disebut sebagai "Tasks". Dengan kata sederhana, tugas adalah eksekusi cerat atau baut. Pada waktu tertentu, setiap cerat dan baut dapat memiliki beberapa contoh yang berjalan di beberapa utas terpisah.

Pekerja

Topologi berjalan secara terdistribusi, pada beberapa node pekerja. Storm menyebarkan tugas secara merata di semua node pekerja. Peran node pekerja adalah mendengarkan pekerjaan dan memulai atau menghentikan proses setiap kali ada pekerjaan baru.

Pengelompokan Streaming

Aliran data mengalir dari cerat ke baut atau dari satu baut ke baut lainnya. Pengelompokan aliran mengontrol bagaimana tupel dirutekan dalam topologi dan membantu kita memahami aliran tupel dalam topologi. Ada empat pengelompokan bawaan seperti yang dijelaskan di bawah ini.

Pengelompokan Acak

Dalam pengelompokan acak, jumlah tupel yang sama didistribusikan secara acak ke semua pekerja yang menjalankan baut. Diagram berikut menggambarkan strukturnya.

Pengelompokan Lapangan

Bidang dengan nilai yang sama dalam tupel dikelompokkan bersama dan tupel yang tersisa disimpan di luar. Kemudian, tupel dengan nilai bidang yang sama dikirim ke pekerja yang sama yang menjalankan baut. Misalnya, jika aliran dikelompokkan berdasarkan bidang "kata", maka tupel dengan string yang sama, "Halo" akan pindah ke pekerja yang sama. Diagram berikut memperlihatkan cara kerja Pengelompokan Bidang.

Pengelompokan Global

Semua aliran dapat dikelompokkan dan diteruskan ke satu baut. Pengelompokan ini mengirimkan tupel yang dihasilkan oleh semua instance sumber ke satu instance target (khususnya, pilih pekerja dengan ID terendah).

Semua Pengelompokan

Semua Pengelompokan mengirimkan satu salinan dari setiap tupel ke semua contoh baut penerima. Pengelompokan semacam ini digunakan untuk mengirim sinyal ke baut. Semua pengelompokan berguna untuk operasi gabungan.