अपाचे तूफान - कोर अवधारणाओं
अपाचे स्टॉर्म एक छोर से वास्तविक समय के डेटा की कच्ची धारा को पढ़ता है और इसे छोटी प्रसंस्करण इकाइयों के अनुक्रम से गुजरता है और दूसरे छोर पर संसाधित / उपयोगी जानकारी को आउटपुट करता है।
निम्नलिखित चित्र में अपाचे तूफान की मुख्य अवधारणा को दर्शाया गया है।
आइए अब हम अपाचे स्टॉर्म के घटकों पर करीब से नज़र डालें -
अवयव | विवरण |
---|---|
टपल | तूफ़ान तूफान में मुख्य डेटा संरचना है। यह आदेशित तत्वों की एक सूची है। डिफ़ॉल्ट रूप से, एक टपल सभी डेटा प्रकारों का समर्थन करता है। आम तौर पर, यह अल्पविराम द्वारा अलग किए गए मानों के एक सेट के रूप में तैयार किया जाता है और एक स्टॉर्म क्लस्टर में पारित किया जाता है। |
धारा | स्ट्रीम ट्यूपल्स का एक अनियोजित अनुक्रम है। |
spouts | धारा का स्रोत। आमतौर पर, स्टॉर्म कच्चे डेटा स्रोतों जैसे ट्विटर स्ट्रीमिंग एपीआई, अपाचे काफ्का कतार, केस्ट्रेल कतार आदि से इनपुट डेटा को स्वीकार करता है, अन्यथा आप डेटा स्रोत से डेटा पढ़ने के लिए स्प्राउट्स लिख सकते हैं। "ISpout" टोंटी को लागू करने के लिए मुख्य इंटरफ़ेस है। कुछ विशिष्ट इंटरफेस IRichSpout, BaseRichSpout, KafkaSpout, आदि हैं। |
बोल्ट | बोल्ट तार्किक प्रसंस्करण इकाइयाँ हैं। स्प्राउट्स बोल्ट और बोल्ट प्रक्रिया के लिए डेटा पास करते हैं और एक नया आउटपुट स्ट्रीम तैयार करते हैं। बोल्ट डेटा स्रोतों और डेटाबेस के साथ फ़िल्टरिंग, एकत्रीकरण, जुड़ने, बातचीत करने के संचालन को निष्पादित कर सकते हैं। बोल्ट डेटा प्राप्त करता है और एक या अधिक बोल्टों का उत्सर्जन करता है। बोल्ट को लागू करने के लिए "आईबोल्ट" मुख्य इंटरफ़ेस है। कुछ सामान्य इंटरफेस IRichBolt, IBasicBolt, आदि हैं। |
आइए "ट्विटर विश्लेषण" का एक वास्तविक समय उदाहरण लें और देखें कि इसे अपाचे स्टॉर्म में कैसे बनाया जा सकता है। निम्नलिखित चित्र संरचना को दर्शाता है।
"ट्विटर विश्लेषण" का इनपुट ट्विटर स्ट्रीमिंग एपीआई से आता है। स्पाउट ट्विटर स्ट्रीमिंग एपीआई और आउटपुट की ट्यूपल्स की धारा के रूप में उपयोग करने वाले उपयोगकर्ताओं के ट्वीट्स को पढ़ेगा। टोंटी के एक एकल टपल में ट्विटर उपयोगकर्ता नाम और एकल ट्वीट कॉमा अलग मूल्यों के रूप में होगा। फिर, टुपल्स की इस भाप को बोल्ट के आगे भेजा जाएगा और बोल्ट व्यक्तिगत शब्द में ट्वीट को विभाजित करेगा, शब्द गणना की गणना करेगा, और एक कॉन्फ़िगर किए गए डेटा स्रोत पर जानकारी को बनाए रखेगा। अब, हम डेटासोर्स को क्वेरी करके आसानी से परिणाम प्राप्त कर सकते हैं।
टोपोलॉजी
टोंटी और बोल्ट एक साथ जुड़े हुए हैं और वे एक टोपोलॉजी बनाते हैं। स्टॉर्म टोपोलॉजी के अंदर रियल-टाइम एप्लिकेशन लॉजिक निर्दिष्ट है। सरल शब्दों में, एक टोपोलॉजी एक निर्देशित ग्राफ है जहां कोने की गणना होती है और किनारों को डेटा की धारा होती है।
एक साधारण टोपोलॉजी टोंटी से शुरू होती है। टोंटी डेटा को एक या एक से अधिक बोल्ट तक उत्सर्जित करती है। बोल्ट टोपोलॉजी में सबसे छोटे प्रोसेसिंग लॉजिक वाले नोड का प्रतिनिधित्व करता है और बोल्ट के आउटपुट को इनपुट के रूप में दूसरे बोल्ट में उत्सर्जित किया जा सकता है।
स्टॉर्म टोपोलॉजी को हमेशा चालू रखता है, जब तक कि आप टोपोलॉजी को मार नहीं देते। अपाचे स्टॉर्म का मुख्य काम टोपोलॉजी चलाना है और किसी भी समय किसी भी टोपोलॉजी को चलाना होगा।
कार्य
अब आपके पास टोंटी और बोल्ट पर एक मूल विचार है। वे टोपोलॉजी की सबसे छोटी तार्किक इकाई हैं और एक टोपोलॉजी एकल टोंटी और बोल्ट की एक सरणी का उपयोग करके बनाया गया है। टोपोलॉजी को सफलतापूर्वक चलाने के लिए उन्हें एक विशेष क्रम में ठीक से निष्पादित किया जाना चाहिए। स्टॉर्म द्वारा प्रत्येक स्पाउट और बोल्ट के निष्पादन को "कार्य" कहा जाता है। सरल शब्दों में, एक कार्य या तो एक टोंटी या एक बोल्ट का निष्पादन है। एक निश्चित समय पर, प्रत्येक टोंटी और बोल्ट में कई अलग-अलग थ्रेड्स में चलने वाले कई उदाहरण हो सकते हैं।
कर्मी
एक टोपोलॉजी कई कार्यकर्ता नोड्स पर, वितरित तरीके से चलती है। तूफान सभी कार्यकर्ता नोड्स पर समान रूप से कार्यों को फैलाता है। जब भी कोई नया काम आता है, तो श्रमिक नोड की भूमिका नौकरियों को सुनने और प्रक्रियाओं को शुरू करने या रोकने की होती है।
स्ट्रीम ग्रुपिंग
डेटा की स्ट्रीम स्प्राउट्स से बोल्ट तक या एक बोल्ट से दूसरे बोल्ट तक प्रवाहित होती है। स्ट्रीम ग्रुपिंग नियंत्रण करता है कि टोपोलॉजी को टोपोलॉजी में कैसे रूट किया जाता है और हमें टोपोलॉजी के प्रवाह को समझने में मदद मिलती है। नीचे बताए गए अनुसार चार-निर्मित समूह हैं।
फेरबदल समूहन
फेरबदल समूहन में, बोल्ट को निष्पादित करने वाले सभी श्रमिकों में समान रूप से टुपल्स को बेतरतीब ढंग से वितरित किया जाता है। निम्नलिखित चित्र संरचना को दर्शाता है।
फील्ड ग्रुपिंग
टुपल्स में समान मान वाले फ़ील्ड को एक साथ समूहीकृत किया जाता है और शेष ट्यूपल्स को बाहर रखा जाता है। फिर, उसी फ़ील्ड मान वाले टुपल्स को बोल्ट को निष्पादित करने वाले एक ही कार्यकर्ता के लिए आगे भेजा जाता है। उदाहरण के लिए, यदि स्ट्रीम को "शब्द" द्वारा समूहित किया जाता है, तो उसी स्ट्रिंग के साथ ट्यूपल्स, "हेलो" उसी कार्यकर्ता के पास जाएंगे। निम्न आरेख से पता चलता है कि फील्ड ग्रुपिंग कैसे काम करती है।
ग्लोबल ग्रुपिंग
सभी धाराओं को एक बोल्ट के लिए समूहीकृत और आगे किया जा सकता है। यह समूहीकरण स्रोत के सभी उदाहरणों द्वारा उत्पन्न ट्यूपल्स को एकल लक्ष्य उदाहरण (विशेष रूप से, सबसे कम आईडी वाले कार्यकर्ता को चुनें) को भेजता है।
सभी समूहन
सभी समूहीकरण प्रत्येक टपल की एक एकल प्रति प्राप्त बोल्ट के सभी उदाहरणों को भेजता है। बोल्ट को सिग्नल भेजने के लिए इस तरह के समूह का उपयोग किया जाता है। सभी समूहीकरण कार्य में शामिल होने के लिए उपयोगी है।