अपाचे फ्लूम - डेटा फ्लो
फ्लूम एक ढांचा है जिसका उपयोग लॉग डेटा को एचडीएफएस में स्थानांतरित करने के लिए किया जाता है। आमतौर पर ईवेंट और लॉग डेटा लॉग सर्वर द्वारा जनरेट किए जाते हैं और इन सर्वरों पर फ्लूम एजेंट होते हैं। ये एजेंट डेटा जनरेटर से डेटा प्राप्त करते हैं।
इन एजेंटों के डेटा को एक मध्यवर्ती नोड द्वारा एकत्र किया जाएगा जिसे के रूप में जाना जाता है Collector। एजेंटों की तरह, फ्लूम में कई कलेक्टर हो सकते हैं।
अंत में, इन सभी संग्राहकों के डेटा को एकत्रित करके HBase या HDFS जैसे केंद्रीकृत स्टोर में धकेल दिया जाएगा। निम्न आरेख फ्लूम में डेटा प्रवाह की व्याख्या करता है।
मल्टी-हॉप फ्लो
फ्लूम के भीतर, कई एजेंट हो सकते हैं और अंतिम गंतव्य तक पहुंचने से पहले, एक घटना एक से अधिक एजेंटों के माध्यम से यात्रा कर सकती है। इस रूप में जाना जाता हैmulti-hop flow।
फैन-आउट फ्लो
एक स्रोत से कई चैनलों के डेटाफ़्लो के रूप में जाना जाता है fan-out flow। यह दो प्रकार का होता है -
Replicating - डेटा प्रवाह जहां सभी कॉन्फ़िगर किए गए चैनलों में डेटा को दोहराया जाएगा।
Multiplexing - डेटा प्रवाह जहां डेटा को एक चयनित चैनल पर भेजा जाएगा जो कि घटना के हेडर में उल्लिखित है।
फैन-इन फ्लो
डेटा प्रवाह जिसमें डेटा को कई स्रोतों से एक चैनल में स्थानांतरित किया जाएगा, के रूप में जाना जाता है fan-in flow।
विफलता से निपटने
प्रत्येक घटना के लिए फ्लूम में, दो लेनदेन होते हैं: एक प्रेषक पर और एक रिसीवर पर। प्रेषक रिसीवर को ईवेंट भेजता है। डेटा प्राप्त करने के तुरंत बाद, रिसीवर अपना स्वयं का लेनदेन करता है और प्रेषक को "प्राप्त" संकेत भेजता है। संकेत प्राप्त करने के बाद, प्रेषक अपना लेनदेन करता है। (प्रेषक तब तक अपना लेनदेन नहीं करेगा, जब तक कि उसे रिसीवर से संकेत प्राप्त न हो जाए।)