Apache Storm - Pendahuluan
Apa itu Apache Storm?
Apache Storm adalah sistem pemrosesan data besar waktu nyata terdistribusi. Storm dirancang untuk memproses data dalam jumlah besar dalam metode yang toleran terhadap kesalahan dan dapat diskalakan secara horizontal. Ini adalah kerangka data streaming yang memiliki kemampuan tingkat penyerapan tertinggi. Meskipun Storm tidak memiliki kewarganegaraan, ia mengelola lingkungan terdistribusi dan status cluster melalui Apache ZooKeeper. Ini sederhana dan Anda dapat menjalankan semua jenis manipulasi pada data real-time secara paralel.
Apache Storm terus menjadi pemimpin dalam analisis data waktu nyata. Storm mudah diatur, dioperasikan, dan menjamin bahwa setiap pesan akan diproses melalui topologi setidaknya sekali.
Apache Storm vs Hadoop
Pada dasarnya kerangka kerja Hadoop dan Storm digunakan untuk menganalisis data besar. Keduanya saling melengkapi dan berbeda dalam beberapa aspek. Apache Storm melakukan semua operasi kecuali persistensi, sedangkan Hadoop bagus dalam segala hal, tetapi tertinggal dalam komputasi waktu nyata. Tabel berikut membandingkan atribut Storm dan Hadoop.
Badai | Hadoop |
---|---|
Pemrosesan aliran waktu nyata | Pemrosesan batch |
Tanpa kewarganegaraan | Stateful |
Arsitektur Master / Slave dengan koordinasi berbasis Zookeeper. Node master disebut sebagainimbus dan budak adalah supervisors. | Arsitektur master-slave dengan / tanpa koordinasi berbasis ZooKeeper. Node master adalahjob tracker dan simpul budak adalah task tracker. |
Proses streaming Storm dapat mengakses puluhan ribu pesan per detik di cluster. | Hadoop Distributed File System (HDFS) menggunakan kerangka kerja MapReduce untuk memproses data dalam jumlah besar yang membutuhkan beberapa menit atau jam. |
Topologi Storm berjalan hingga dimatikan oleh pengguna atau terjadi kegagalan tak terduga yang tidak dapat dipulihkan. | Pekerjaan MapReduce dijalankan dalam urutan berurutan dan akhirnya diselesaikan. |
Both are distributed and fault-tolerant | |
Jika nimbus / supervisor mati, memulai ulang akan melanjutkan dari tempat berhenti, maka tidak ada yang terpengaruh. | Jika JobTracker mati, semua pekerjaan yang berjalan hilang. |
Kasus Penggunaan Apache Storm
Apache Storm sangat terkenal dengan pemrosesan aliran data besar secara real-time. Untuk alasan ini, sebagian besar perusahaan menggunakan Storm sebagai bagian integral dari sistem mereka. Beberapa contoh penting adalah sebagai berikut -
Twitter- Twitter menggunakan Apache Storm untuk rangkaian "produk Analisis Penerbit". "Produk Analisis Penerbit" memproses setiap tweet dan klik di Platform Twitter. Apache Storm sangat terintegrasi dengan infrastruktur Twitter.
NaviSite- NaviSite menggunakan Storm untuk sistem pemantauan / audit log Peristiwa. Setiap log yang dihasilkan di sistem akan melalui Storm. Storm akan memeriksa pesan terhadap kumpulan ekspresi reguler yang dikonfigurasi dan jika ada yang cocok, maka pesan tersebut akan disimpan ke database.
Wego- Wego adalah mesin pencari perjalanan yang berlokasi di Singapura. Data terkait perjalanan berasal dari banyak sumber di seluruh dunia dengan waktu yang berbeda. Storm membantu Wego mencari data real-time, menyelesaikan masalah konkurensi dan menemukan kecocokan terbaik untuk pengguna akhir.
Manfaat Apache Storm
Berikut adalah daftar manfaat yang ditawarkan Apache Storm -
Storm adalah open source, kuat, dan ramah pengguna. Ini bisa digunakan di perusahaan kecil maupun perusahaan besar.
Storm toleran terhadap kesalahan, fleksibel, andal, dan mendukung bahasa pemrograman apa pun.
Memungkinkan pemrosesan streaming waktu nyata.
Storm luar biasa cepat karena memiliki kekuatan pemrosesan data yang sangat besar.
Storm dapat mempertahankan kinerja bahkan di bawah beban yang meningkat dengan menambahkan sumber daya secara linier. Ini sangat skalabel.
Storm melakukan penyegaran data dan respons pengiriman ujung ke ujung dalam hitungan detik atau menit tergantung pada masalahnya. Ini memiliki latensi yang sangat rendah.
Storm memiliki kecerdasan operasional.
Storm menyediakan pemrosesan data yang terjamin bahkan jika salah satu node yang terhubung di cluster mati atau pesan hilang.