अपाचे फ्लूम - त्वरित गाइड
फ्लूम क्या है?
अपाचे फ्लूम एक उपकरण / सेवा / डेटा अंतर्ग्रहण तंत्र है जो बड़ी मात्रा में स्ट्रीमिंग डेटा जैसे लॉग फाइल, घटनाओं (आदि ...) को विभिन्न स्रोतों से एक केंद्रीकृत डेटा स्टोर में एकत्र करने और परिवहन के लिए है।
फ्लूम एक अत्यधिक विश्वसनीय, वितरित और विन्यास योग्य उपकरण है। यह मुख्य रूप से विभिन्न वेब सर्वर से HDFS में स्ट्रीमिंग डेटा (लॉग डेटा) की नकल करने के लिए डिज़ाइन किया गया है।
फ्लूम के अनुप्रयोग
मान लें कि एक ई-कॉमर्स वेब एप्लिकेशन किसी विशेष क्षेत्र से ग्राहक के व्यवहार का विश्लेषण करना चाहता है। ऐसा करने के लिए, उन्हें विश्लेषण के लिए उपलब्ध लॉग डेटा को Hadoop में स्थानांतरित करने की आवश्यकता होगी। यहाँ, अपाचे फ्लूम हमारे बचाव के लिए आता है।
उच्च गति पर HDFS में एप्लिकेशन सर्वर द्वारा उत्पन्न लॉग डेटा को स्थानांतरित करने के लिए फ्लूम का उपयोग किया जाता है।
फ्लूम के फायदे
यहाँ Flume के उपयोग के फायदे हैं -
अपाचे फ्लूम का उपयोग करके हम किसी भी केंद्रीयकृत स्टोर (HBase, HDFS) में डेटा स्टोर कर सकते हैं।
जब आने वाले डेटा की दर उस दर से अधिक होती है जिस पर डेटा को गंतव्य पर लिखा जा सकता है, तो फ़्लुम डेटा उत्पादकों और केंद्रीकृत दुकानों के बीच मध्यस्थ के रूप में कार्य करता है और उनके बीच डेटा का एक स्थिर प्रवाह प्रदान करता है।
फ्ल्यूम की सुविधा प्रदान करता है contextual routing।
फ्लूम में लेनदेन चैनल आधारित होते हैं, जहां प्रत्येक संदेश के लिए दो लेनदेन (एक प्रेषक और एक रिसीवर) बनाए जाते हैं। यह विश्वसनीय संदेश वितरण की गारंटी देता है।
फ्लुम विश्वसनीय, दोष सहिष्णु, स्केलेबल, प्रबंधनीय और अनुकूलन योग्य है।
फ्लूम की विशेषताएं
Flume की कुछ उल्लेखनीय विशेषताएं इस प्रकार हैं -
फ़्लुम कई वेब सर्वरों से डेटा को एक केंद्रीकृत स्टोर (HDFS, HBase) में कुशलतापूर्वक प्रवेश करता है।
Flume का उपयोग करके, हम Hadoop में तुरंत कई सर्वरों से डेटा प्राप्त कर सकते हैं।
लॉग फ़ाइलों के साथ, फ़्लुम का उपयोग फ़ेसबुक और ट्विटर जैसी सोशल नेटवर्किंग साइटों और अमेज़ॅन और फ़्लिपकार्ट जैसी ई-कॉमर्स वेबसाइटों द्वारा उत्पादित इवेंट डेटा के भारी मात्रा में आयात करने के लिए भी किया जाता है।
फ्लुम स्रोतों और गंतव्य प्रकारों के एक बड़े सेट का समर्थन करता है।
फ़्लेम मल्टी-हॉप फ्लो, फैन-इन फैन-आउट फ़्लो, रेफ़रल रूटिंग आदि का समर्थन करता है।
फ्लूम को क्षैतिज रूप से बढ़ाया जा सकता है।
Big Data,जैसा कि हम जानते हैं, बड़े डेटासेट का एक संग्रह है जिसे पारंपरिक कंप्यूटिंग तकनीकों का उपयोग करके संसाधित नहीं किया जा सकता है। बिग डेटा, जब विश्लेषण किया जाता है, तो मूल्यवान परिणाम देता है।Hadoop एक ओपन-सोर्स फ्रेमवर्क है जो सरल प्रोग्रामिंग मॉडल का उपयोग करके कंप्यूटर के समूहों में वितरित वातावरण में बिग डेटा को स्टोर और प्रोसेस करने की अनुमति देता है।
स्ट्रीमिंग / लॉग डेटा
आम तौर पर, अधिकांश डेटा का विश्लेषण किया जाता है जो विभिन्न डेटा स्रोतों जैसे एप्लिकेशन सर्वर, सोशल नेटवर्किंग साइट्स, क्लाउड सर्वर और एंटरप्राइज सर्वर द्वारा उत्पादित किया जाएगा। यह डेटा के रूप में होगाlog files तथा events।
Log file - सामान्य तौर पर, एक लॉग फ़ाइल एक है fileएक ऑपरेटिंग सिस्टम में होने वाली घटनाओं / कार्यों को सूचीबद्ध करता है। उदाहरण के लिए, वेब सर्वर लॉग फ़ाइलों में सर्वर से किए गए हर अनुरोध को सूचीबद्ध करता है।
ऐसे लॉग डेटा की कटाई पर, हम इसके बारे में जानकारी प्राप्त कर सकते हैं -
- अनुप्रयोग प्रदर्शन और विभिन्न सॉफ़्टवेयर और हार्डवेयर विफलताओं का पता लगाता है।
- उपयोगकर्ता व्यवहार और बेहतर व्यापार अंतर्दृष्टि प्राप्त करते हैं।
एचडीएफएस प्रणाली में डेटा स्थानांतरित करने की पारंपरिक विधि का उपयोग करना है putआदेश। आइए देखते हैं कि कैसे उपयोग करना हैput आदेश।
HDFS ने कमांड डाल दी
लॉग डेटा को संभालने में मुख्य चुनौती कई सर्वरों द्वारा उत्पादित इन लॉग को Hadoop वातावरण में ले जाने में है।
Hadoop File System ShellHadoop में डेटा डालने और उससे पढ़ने के लिए कमांड प्रदान करता है। आप का उपयोग करके Hadoop में डेटा सम्मिलित कर सकते हैंput जैसा कि नीचे दिखाया गया है।
$ Hadoop fs –put /path of the required file /path in HDFS where to save the file
डाल कमान के साथ समस्या
हम उपयोग कर सकते हैं putइन स्रोतों से डेटा को HDFS में स्थानांतरित करने के लिए Hadoop की कमान। लेकिन, यह निम्नलिखित कमियों से ग्रस्त है -
का उपयोग करते हुए put कमांड, हम ट्रांसफर कर सकते हैं only one file at a timeजबकि डेटा जनरेटर बहुत अधिक दर पर डेटा उत्पन्न करते हैं। चूंकि पुराने डेटा पर किए गए विश्लेषण कम सटीक हैं, इसलिए हमें वास्तविक समय में डेटा स्थानांतरित करने के लिए एक समाधान की आवश्यकता है।
अगर हम उपयोग करते हैं putआदेश, डेटा को पैक करने की आवश्यकता है और अपलोड के लिए तैयार होना चाहिए। चूंकि वेबसर्वर लगातार डेटा उत्पन्न करते हैं, यह एक बहुत मुश्किल काम है।
हमें यहां एक समाधान की आवश्यकता है जो कमियों को दूर कर सकता है put कमांड और "जेनरेटिंग डेटा" को डेटा जनरेटर से केंद्रीकृत दुकानों (विशेष रूप से एचडीएफएस) में कम देरी से स्थानांतरित करें।
HDFS के साथ समस्या
एचडीएफएस में, फ़ाइल एक निर्देशिका प्रविष्टि के रूप में मौजूद है और फ़ाइल की लंबाई को बंद होने तक शून्य माना जाएगा। उदाहरण के लिए, यदि कोई स्रोत एचडीएफएस में डेटा लिख रहा है और ऑपरेशन के बीच में (फ़ाइल को बंद किए बिना) नेटवर्क बाधित हो गया, तो फ़ाइल में लिखा डेटा खो जाएगा।
इसलिए हमें लॉग डेटा को एचडीएफएस में स्थानांतरित करने के लिए एक विश्वसनीय, कॉन्फ़िगर करने योग्य और रखरखाव योग्य प्रणाली की आवश्यकता है।
Note- POSIX फाइल सिस्टम में, जब भी हम किसी फाइल को एक्सेस कर रहे होते हैं (जैसे कि राइटिंग ऑपरेशन करते हैं), अन्य प्रोग्राम अभी भी इस फाइल (कम से कम फाइल के सहेजे गए हिस्से) को पढ़ सकते हैं। ऐसा इसलिए है क्योंकि फ़ाइल बंद होने से पहले डिस्क पर मौजूद है।
उपलब्ध समाधान
एचडीएफएस के लिए विभिन्न स्रोतों से स्ट्रीमिंग डेटा (लॉग फाइल, ईवेंट आदि आदि) भेजने के लिए, हमारे पास निम्नलिखित उपकरण उपलब्ध हैं -
फेसबुक के Scribe
Scribe एक बेहद लोकप्रिय उपकरण है जिसका उपयोग लॉग डेटा को एग्रीगेट और स्ट्रीम करने के लिए किया जाता है। यह बहुत बड़ी संख्या में नोड्स के पैमाने के लिए डिज़ाइन किया गया है और नेटवर्क और नोड विफलताओं के लिए मजबूत है।
अपाचे काफ्का
काफ्का को अपाचे सॉफ्टवेयर फाउंडेशन द्वारा विकसित किया गया है। यह एक ओपन-सोर्स मैसेज ब्रोकर है। काफ्का का उपयोग करके, हम उच्च-थ्रूपुट और कम-विलंबता के साथ फ़ीड को संभाल सकते हैं।
अपाचे फ्लूम
अपाचे फ़्लू एक उपकरण / सेवा / डेटा अंतर्ग्रहण तंत्र है जो बड़ी मात्रा में स्ट्रीमिंग डेटा जैसे लॉग डेटा, ईवेंट्स (आदि ...) को एकत्रित करने और एकत्र करने के लिए एक केंद्रीकृत डेटा स्टोर से एकत्र करता है।
यह एक अत्यधिक विश्वसनीय, वितरित और कॉन्फ़िगर करने योग्य उपकरण है जो मुख्य रूप से HDFS के विभिन्न स्रोतों से स्ट्रीमिंग डेटा को स्थानांतरित करने के लिए डिज़ाइन किया गया है।
इस ट्यूटोरियल में, हम कुछ उदाहरणों के साथ फ्लूम का उपयोग करने के तरीके के बारे में विस्तार से चर्चा करेंगे।
निम्नलिखित चित्रण में फ्लूम की मूल वास्तुकला को दर्शाया गया है। चित्रण में दिखाया गया है,data generators (जैसे कि फेसबुक, ट्विटर) डेटा उत्पन्न करते हैं जो अलग-अलग फ्लूम द्वारा एकत्र किए जाते हैं agentsउन पर चल रहा है। इसके बाद, एdata collector (जो कि एक एजेंट भी है) उन एजेंटों के डेटा को एकत्र करता है, जिन्हें एकत्रित करके HDFS या HBase जैसे केंद्रीकृत स्टोर में धकेल दिया जाता है।
स्पंदन घटना
एक event अंदर पहुंचाई गई डेटा की मूल इकाई है Flume। इसमें बाइट सरणी का एक पेलोड होता है जिसे स्रोत से गंतव्य तक वैकल्पिक हेडर के साथ पहुंचाया जाना है। एक विशिष्ट फ़्लुम घटना में निम्न संरचना होगी -
फ्लुम एजेंट
एक agentफ्लूम में एक स्वतंत्र डेमन प्रक्रिया (JVM) है। यह ग्राहकों या अन्य एजेंटों से डेटा (ईवेंट) प्राप्त करता है और इसे अपने अगले गंतव्य (सिंक या एजेंट) पर भेज देता है। फ्लुम में एक से अधिक एजेंट हो सकते हैं। निम्नलिखित आरेख एक का प्रतिनिधित्व करता हैFlume Agent
जैसा कि चित्र में दिखाया गया है कि एक फ्लुम एजेंट में तीन मुख्य घटक होते हैं, source, channel, तथा sink।
स्रोत
ए source एक एजेंट का घटक है जो डेटा जनरेटर से डेटा प्राप्त करता है और इसे फ्लूम ईवेंट के रूप में एक या अधिक चैनलों में स्थानांतरित करता है।
अपाचे फ्लूम कई प्रकार के स्रोतों का समर्थन करता है और प्रत्येक स्रोत एक निर्दिष्ट डेटा जनरेटर से घटनाओं को प्राप्त करता है।
Example - एरो स्रोत, थ्रिफ्ट स्रोत, ट्विटर 1% स्रोत आदि।
चैनल
ए channelएक क्षणिक स्टोर है जो स्रोत से घटनाओं को प्राप्त करता है और उन्हें तब तक बफर करता है जब तक कि वे सिंक द्वारा खपत नहीं होते हैं। यह स्रोतों और डूब के बीच एक सेतु का काम करता है।
ये चैनल पूरी तरह से लेन-देन करने वाले हैं और वे किसी भी स्रोत और सिंक के साथ काम कर सकते हैं।
Example - JDBC चैनल, फाइल सिस्टम चैनल, मेमोरी चैनल आदि।
सिंक
ए sinkHBase और HDFS जैसे केंद्रीकृत दुकानों में डेटा संग्रहीत करता है। यह चैनलों से डेटा (घटनाओं) का उपभोग करता है और इसे गंतव्य तक पहुंचाता है। सिंक का गंतव्य एक अन्य एजेंट या केंद्रीय भंडार हो सकता है।
Example - एचडीएफएस सिंक
Note- एक फ्लुम एजेंट में कई स्रोत, सिंक और चैनल हो सकते हैं। हमने इस ट्यूटोरियल के फ्लूम कॉन्फ़िगरेशन चैप्टर में सभी समर्थित स्रोतों, सिंक, चैनलों को सूचीबद्ध किया है।
फ्लूम एजेंट के अतिरिक्त घटक
ऊपर हमने जो चर्चा की है वह एजेंट के आदिम घटक हैं। इसके अतिरिक्त, हमारे पास कुछ और घटक हैं जो घटनाओं को डेटा जनरेटर से केंद्रीकृत दुकानों में स्थानांतरित करने में महत्वपूर्ण भूमिका निभाते हैं।
इंटरसेप्टर
इंटरसेप्टर का उपयोग फ्लूम घटनाओं को बदलने / निरीक्षण करने के लिए किया जाता है जो स्रोत और चैनल के बीच स्थानांतरित होते हैं।
चैनल चयनकर्ता
इनका उपयोग यह निर्धारित करने के लिए किया जाता है कि किस चैनल को कई चैनलों के मामले में डेटा ट्रांसफर करने का विकल्प चुनना है। दो प्रकार के चैनल चयनकर्ता हैं -
Default channel selectors - इन्हें चैनल चयनकर्ताओं के रूप में भी जाना जाता है जो वे प्रत्येक चैनल में सभी घटनाओं की नकल करते हैं।
Multiplexing channel selectors - ये चैनल को उस ईवेंट के हेडर में एड्रेस के आधार पर एक ईवेंट भेजने का निर्णय लेते हैं।
सिंक प्रोसेसर
इनका उपयोग सिंक के चयनित समूह से एक विशेष सिंक को आमंत्रित करने के लिए किया जाता है। इनका उपयोग आपके सिंक के लिए फेलओवर पथ बनाने के लिए किया जाता है या चैनल से कई सिंक में शेष घटनाओं को लोड करने के लिए किया जाता है।
फ्लूम एक ढांचा है जिसका उपयोग लॉग डेटा को एचडीएफएस में स्थानांतरित करने के लिए किया जाता है। आमतौर पर ईवेंट और लॉग डेटा लॉग सर्वर द्वारा जनरेट किए जाते हैं और इन सर्वरों पर फ्लूम एजेंट होते हैं। ये एजेंट डेटा जनरेटर से डेटा प्राप्त करते हैं।
इन एजेंटों के डेटा को एक मध्यवर्ती नोड द्वारा एकत्र किया जाएगा जिसे के रूप में जाना जाता है Collector। एजेंटों की तरह, फ्लूम में कई कलेक्टर हो सकते हैं।
अंत में, इन सभी संग्राहकों के डेटा को एकत्रित करके HBase या HDFS जैसे केंद्रीकृत स्टोर में धकेल दिया जाएगा। निम्न आरेख फ्लूम में डेटा प्रवाह की व्याख्या करता है।
मल्टी-हॉप फ्लो
फ्लूम के भीतर, कई एजेंट हो सकते हैं और अंतिम गंतव्य तक पहुंचने से पहले, एक घटना एक से अधिक एजेंटों के माध्यम से यात्रा कर सकती है। इस रूप में जाना जाता हैmulti-hop flow।
फैन-आउट फ्लो
एक स्रोत से कई चैनलों के डेटाफ़्लो के रूप में जाना जाता है fan-out flow। यह दो प्रकार का होता है -
Replicating - डेटा प्रवाह जहां सभी कॉन्फ़िगर किए गए चैनलों में डेटा को दोहराया जाएगा।
Multiplexing - डेटा प्रवाह जहां डेटा को एक चयनित चैनल पर भेजा जाएगा जो कि घटना के हेडर में उल्लिखित है।
फैन-इन फ्लो
डेटा प्रवाह जिसमें डेटा को कई स्रोतों से एक चैनल में स्थानांतरित किया जाएगा, के रूप में जाना जाता है fan-in flow।
विफलता से निपटने
प्रत्येक घटना के लिए फ्लूम में, दो लेनदेन होते हैं: एक प्रेषक पर और एक रिसीवर पर। प्रेषक रिसीवर को ईवेंट भेजता है। डेटा प्राप्त करने के तुरंत बाद, रिसीवर अपना लेनदेन शुरू करता है और प्रेषक को "प्राप्त" संकेत भेजता है। संकेत प्राप्त करने के बाद, प्रेषक अपना लेनदेन करता है। (प्रेषक तब तक अपना लेनदेन नहीं करेगा, जब तक कि उसे रिसीवर से संकेत प्राप्त न हो जाए।)
हमने पहले अध्याय में फ्लूम की वास्तुकला पर चर्चा की। इस अध्याय में, आइए देखें कि अपाचे फ्लूम को कैसे डाउनलोड करें और सेटअप करें।
आगे बढ़ने से पहले, आपको अपने सिस्टम में एक जावा वातावरण होना चाहिए। तो सबसे पहले, सुनिश्चित करें कि आपने अपने सिस्टम में जावा इंस्टॉल किया है। इस ट्यूटोरियल में कुछ उदाहरणों के लिए, हमने Hadoop HDFS (सिंक के रूप में) का उपयोग किया है। इसलिए, हम अनुशंसा करेंगे कि आप जावा के साथ Hadoop स्थापित करें। अधिक जानकारी एकत्र करने के लिए लिंक का अनुसरण करें -http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm
फ्लूम स्थापित करना
सबसे पहले, वेबसाइट से Apache Flume सॉफ़्टवेयर का नवीनतम संस्करण डाउनलोड करें https://flume.apache.org/।
चरण 1
वेबसाइट खोलें। पर क्लिक करेंdownloadमुख पृष्ठ के बाईं ओर लिंक। यह आपको Apache Flume के डाउनलोड पेज पर ले जाएगा।
चरण 2
डाउनलोड पृष्ठ में, आप अपाचे फ्लूम के बाइनरी और स्रोत फ़ाइलों के लिंक देख सकते हैं। लिंक अपाचे-फ़्ल्यूम-1.6.0-bin.tar.gz पर क्लिक करें
आपको दर्पणों की एक सूची पर पुनः निर्देशित किया जाएगा जहाँ आप इनमें से किसी भी दर्पण पर क्लिक करके अपना डाउनलोड शुरू कर सकते हैं। उसी तरह, आप Apache-Flume-1.6.0-src.tar.gz पर क्लिक करके Apache Flume का सोर्स कोड डाउनलोड कर सकते हैं ।
चरण 3
उसी निर्देशिका में फ़्लूम नाम के साथ एक निर्देशिका बनाएँ जहाँ की स्थापना निर्देशिकाएँ Hadoop, HBase, और अन्य सॉफ़्टवेयर स्थापित किए गए थे (यदि आपने पहले ही स्थापित किया है) जैसा कि नीचे दिखाया गया है।
$ mkdir Flume
चरण 4
डाउनलोड की गई टार फ़ाइलों को नीचे दिखाए गए अनुसार निकालें।
$ cd Downloads/
$ tar zxvf apache-flume-1.6.0-bin.tar.gz
$ tar zxvf apache-flume-1.6.0-src.tar.gz
चरण 5
अपाचे की सामग्री को स्थानांतरित करें-flume-1.6.0-bin.tar के लिए फ़ाइल Flumeनिर्देशिका पहले बनाई गई जैसा कि नीचे दिखाया गया है। (मान लें कि हमने Hadoop नाम के स्थानीय उपयोगकर्ता में Flume निर्देशिका बनाई है।)
$ mv apache-flume-1.6.0-bin.tar/* /home/Hadoop/Flume/
फ्लूम का विन्यास
Flume को कॉन्फ़िगर करने के लिए, हमें तीन फ़ाइलों को संशोधित करना होगा, flume-env.sh, flumeconf.properties, तथा bash.rc।
पथ / वर्गपथ की स्थापना करना
में .bashrc फ़ाइल, होम फ़ोल्डर, पथ, और फ़्लिप के लिए क्लासपैथ को नीचे दिखाए अनुसार सेट करें।
गोपनीय फ़ोल्डर
यदि आप खोलते हैं conf Apache Flume का फोल्डर, आपके पास निम्न चार फाइलें होंगी -
- flume-conf.properties.template,
- flume-env.sh.template,
- flume-env.ps1.template, और
- log4j.properties.
अब नाम बदला
flume-conf.properties.template के रूप में दर्ज करें flume-conf.properties तथा
flume-env.sh.template जैसा flume-env.sh
flume-env.sh
खुला हुआ flume-env.sh फ़ाइल और सेट करें JAVA_Home उस फ़ोल्डर में जहां जावा आपके सिस्टम में स्थापित किया गया था।
स्थापना का सत्यापन करना
के माध्यम से ब्राउज़ करके Apache Flume की स्थापना को सत्यापित करें bin फ़ोल्डर और टाइपिंग निम्न कमांड।
$ ./flume-ng
यदि आपने सफलतापूर्वक फ़्लुम स्थापित किया है, तो आपको फ़्लुम की मदद मिलेगी जैसा कि नीचे दिखाया गया है।
फ्लूम स्थापित करने के बाद, हमें कॉन्फ़िगरेशन फ़ाइल का उपयोग करके इसे कॉन्फ़िगर करने की आवश्यकता है जो कि जावा संपत्ति फ़ाइल है key-value pairs। हमें फ़ाइल में कुंजियों के मानों को पास करना होगा।
फ़्ल्यूम कॉन्फ़िगरेशन फ़ाइल में, हमें निम्न करना होगा -
- वर्तमान एजेंट के घटकों का नाम बताइए।
- स्रोत का वर्णन करें / कॉन्फ़िगर करें।
- सिंक का वर्णन करें / कॉन्फ़िगर करें।
- चैनल का वर्णन करें / कॉन्फ़िगर करें।
- स्रोत और चैनल को सिंक से बांधें।
आमतौर पर हमारे पास Flume में कई एजेंट हो सकते हैं। हम एक अद्वितीय नाम का उपयोग करके प्रत्येक एजेंट को अलग कर सकते हैं। और इस नाम का उपयोग करते हुए, हमें प्रत्येक एजेंट को कॉन्फ़िगर करना होगा।
अवयवों का नामकरण
सबसे पहले, आपको नीचे दिए गए अनुसार स्रोतों, सिंक, और एजेंट के चैनल जैसे घटकों का नाम / सूची देना होगा।
agent_name.sources = source_name
agent_name.sinks = sink_name
agent_name.channels = channel_name
फ्लुम विभिन्न स्रोतों, सिंक और चैनलों का समर्थन करता है। वे नीचे दी गई तालिका में सूचीबद्ध हैं।
सूत्रों का कहना है | चैनल | सिंक |
---|---|---|
|
|
|
आप उनमें से किसी का उपयोग कर सकते हैं। उदाहरण के लिए, यदि आप एक स्मृति चैनल के माध्यम से ट्विटर स्रोत का उपयोग करके ट्विटर डेटा को एचडीएफएस सिंक, और एजेंट नाम आईडी में स्थानांतरित कर रहे हैंTwitterAgent, फिर
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
एजेंट के घटकों को सूचीबद्ध करने के बाद, आपको उनके गुणों को मान प्रदान करके स्रोत (एस), सिंक (एस), और चैनल (एस) का वर्णन करना होगा।
स्रोत का वर्णन करना
प्रत्येक स्रोत में गुणों की एक अलग सूची होगी। "प्रकार" नाम की संपत्ति प्रत्येक स्रोत के लिए सामान्य है, और इसका उपयोग उस स्रोत के प्रकार को निर्दिष्ट करने के लिए किया जाता है जिसका हम उपयोग कर रहे हैं।
संपत्ति "प्रकार" के साथ, यह सभी के मूल्यों को प्रदान करने के लिए आवश्यक है required एक विशेष स्रोत के गुण इसे कॉन्फ़िगर करने के लिए, जैसा कि नीचे दिखाया गया है।
agent_name.sources. source_name.type = value
agent_name.sources. source_name.property2 = value
agent_name.sources. source_name.property3 = value
उदाहरण के लिए, यदि हम विचार करें twitter source, निम्नलिखित गुण हैं जिनके लिए हमें इसे कॉन्फ़िगर करने के लिए मान प्रदान करना चाहिए ।
TwitterAgent.sources.Twitter.type = Twitter (type name)
TwitterAgent.sources.Twitter.consumerKey =
TwitterAgent.sources.Twitter.consumerSecret =
TwitterAgent.sources.Twitter.accessToken =
TwitterAgent.sources.Twitter.accessTokenSecret =
सिंक का वर्णन करना
स्रोत की तरह, प्रत्येक सिंक में गुणों की एक अलग सूची होगी। "प्रकार" नाम की संपत्ति हर सिंक के लिए सामान्य है, और इसका उपयोग उस सिंक के प्रकार को निर्दिष्ट करने के लिए किया जाता है जिसका हम उपयोग कर रहे हैं। संपत्ति "प्रकार" के साथ, सभी को मूल्य प्रदान करने की आवश्यकता हैrequired एक विशेष सिंक के गुण इसे कॉन्फ़िगर करने के लिए, जैसा कि नीचे दिखाया गया है।
agent_name.sinks. sink_name.type = value
agent_name.sinks. sink_name.property2 = value
agent_name.sinks. sink_name.property3 = value
उदाहरण के लिए, यदि हम विचार करें HDFS sink, निम्नलिखित गुण हैं जिनके लिए हमें इसे कॉन्फ़िगर करने के लिए मान प्रदान करना चाहिए ।
TwitterAgent.sinks.HDFS.type = hdfs (type name)
TwitterAgent.sinks.HDFS.hdfs.path = HDFS directory’s Path to store the data
चैनल का वर्णन करना
फ्लुम विभिन्न स्रोतों को स्रोतों और सिंक के बीच डेटा स्थानांतरित करने के लिए प्रदान करता है। इसलिए, स्रोतों और चैनलों के साथ, एजेंट में उपयोग किए जाने वाले चैनल का वर्णन करना आवश्यक है।
प्रत्येक चैनल का वर्णन करने के लिए, आपको आवश्यक गुण सेट करने की आवश्यकता है, जैसा कि नीचे दिखाया गया है।
agent_name.channels.channel_name.type = value
agent_name.channels.channel_name. property2 = value
agent_name.channels.channel_name. property3 = value
उदाहरण के लिए, यदि हम विचार करें memory channel, निम्नलिखित गुण हैं जिनके लिए हमें इसे कॉन्फ़िगर करने के लिए मान प्रदान करना चाहिए ।
TwitterAgent.channels.MemChannel.type = memory (type name)
स्रोत और चैनल को बाइंडिंग
चूंकि चैनल स्रोतों को जोड़ते हैं और डूबते हैं, इसलिए दोनों को चैनल से बांधना आवश्यक है, जैसा कि नीचे दिखाया गया है।
agent_name.sources.source_name.channels = channel_name
agent_name.sinks.sink_name.channels = channel_name
निम्न उदाहरण दिखाता है कि किसी चैनल पर स्रोतों और सिंक को कैसे बांधा जाए। यहाँ, हम विचार करते हैंtwitter source, memory channel, तथा HDFS sink।
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channels = MemChannel
एक फ्लुम एजेंट शुरू करना
कॉन्फ़िगरेशन के बाद, हमें फ़्लूम एजेंट शुरू करना होगा। यह निम्नानुसार किया जाता है -
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf
Dflume.root.logger=DEBUG,console -n TwitterAgent
कहाँ -
agent - फ्लूम एजेंट शुरू करने की आज्ञा
--conf ,-c<conf> - कॉन्फिगरेशन में कॉन्फिगरेशन फाइल का इस्तेमाल करें
-f<file> - एक अनुपलब्ध फ़ाइल पथ निर्दिष्ट करता है, यदि गायब है
--name, -n <name> - ट्विटर एजेंट का नाम
-D property =value - एक जावा सिस्टम प्रॉपर्टी वैल्यू सेट करता है।
फ्लूम का उपयोग करके, हम विभिन्न सेवाओं से डेटा प्राप्त कर सकते हैं और इसे केंद्रीकृत दुकानों (HDFS और HBase) तक पहुँचा सकते हैं। यह अध्याय बताता है कि ट्विटर सेवा से डेटा कैसे प्राप्त करें और इसे अपाचे फ्लूम का उपयोग करके एचडीएफएस में संग्रहीत करें।
जैसा कि फ्लूम आर्किटेक्चर में चर्चा की गई है, एक वेबसर्वर लॉग डेटा उत्पन्न करता है और यह डेटा फ्लूम में एक एजेंट द्वारा एकत्र किया जाता है। चैनल इस डेटा को एक सिंक में रखता है, जो अंततः इसे सेंट्रलाइज्ड स्टोर्स में धकेल देता है।
इस अध्याय में दिए गए उदाहरण में, हम एक एप्लिकेशन बनाएंगे और अपाचे फ्लूम द्वारा प्रदान किए गए प्रयोगात्मक ट्विटर स्रोत का उपयोग करके इसे ट्वीट प्राप्त करेंगे। हम इन ट्वीट्स को HDFS में धकेलने के लिए इन ट्वीट्स और HDFS सिंक को बफर करने के लिए मेमोरी चैनल का उपयोग करेंगे।
ट्विटर डेटा प्राप्त करने के लिए, हमें नीचे दिए गए चरणों का पालन करना होगा -
- एक ट्विटर एप्लिकेशन बनाएं
- HDFS स्थापित करें / शुरू करें
- फ़्लू को कॉन्फ़िगर करें
Twitter अनुप्रयोग बनाना
ट्विटर से ट्वीट प्राप्त करने के लिए, ट्विटर एप्लिकेशन बनाने की आवश्यकता है। ट्विटर एप्लिकेशन बनाने के लिए नीचे दिए गए चरणों का पालन करें।
चरण 1
Twitter एप्लिकेशन बनाने के लिए, निम्न लिंक पर क्लिक करें https://apps.twitter.com/। अपने ट्विटर खाते में साइन इन करें। आपके पास ट्विटर एप्लिकेशन प्रबंधन विंडो होगी जहां आप ट्विटर ऐप्स बना सकते हैं, हटा सकते हैं और प्रबंधित कर सकते हैं।
चरण 2
पर क्लिक करें Create New Appबटन। आपको एक विंडो पर रीडायरेक्ट किया जाएगा जहां आपको एक एप्लिकेशन फॉर्म मिलेगा जिसमें आपको ऐप बनाने के लिए अपना विवरण भरना होगा। वेबसाइट का पता भरते समय, पूरा URL पैटर्न दें, उदाहरण के लिए,http://example.com.
चरण 3
विवरण भरें, स्वीकार करें Developer Agreement समाप्त होने पर, पर क्लिक करें Create your Twitter application buttonजो पृष्ठ के निचले भाग में है। अगर सब कुछ ठीक हो जाता है, तो नीचे दिए गए विवरण के साथ एक ऐप बनाया जाएगा।
चरण 4
के अंतर्गत keys and Access Tokens पृष्ठ के निचले भाग में टैब, आप नामक एक बटन का निरीक्षण कर सकते हैं Create my access token। एक्सेस टोकन जनरेट करने के लिए उस पर क्लिक करें।
चरण 5
अंत में, पर क्लिक करें Test OAuthबटन जो पृष्ठ के दाईं ओर शीर्ष पर है। यह एक पृष्ठ को ले जाएगा जो आपके प्रदर्शित करता हैConsumer key, Consumer secret, Access token, तथा Access token secret। इन विवरणों की प्रतिलिपि बनाएँ। ये फ़्लुम में एजेंट को कॉन्फ़िगर करने के लिए उपयोगी हैं।
HDFS शुरू करना
चूंकि हम HDFS में डेटा स्टोर कर रहे हैं, इसलिए हमें Hadoop को स्थापित / सत्यापित करना होगा। Hadoop को शुरू करें और Flume डेटा को स्टोर करने के लिए इसमें एक फ़ोल्डर बनाएं। Flume को कॉन्फ़िगर करने से पहले नीचे दिए गए चरणों का पालन करें।
चरण 1: Hadoop को स्थापित / सत्यापित करें
Hadoop स्थापित करें । यदि Hadoop आपके सिस्टम में पहले से इंस्टॉल है, तो Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।
$ hadoop version
यदि आपके सिस्टम में Hadoop सम्मिलित है, और यदि आपने पथ चर निर्धारित किया है, तो आपको निम्न आउटपुट प्राप्त होंगे -
Hadoop 2.6.0
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar
चरण 2: Hadoop शुरू करना
के माध्यम से ब्राउज़ करें sbin Hadoop और स्टार्ट यार्न और Hadoop dfs (वितरित फाइल सिस्टम) की निर्देशिका जैसा कि नीचे दिखाया गया है।
cd /$Hadoop_Home/sbin/
$ start-dfs.sh
localhost: starting namenode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-namenode-localhost.localdomain.out
localhost: starting datanode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-datanode-localhost.localdomain.out
Starting secondary namenodes [0.0.0.0]
starting secondarynamenode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-secondarynamenode-localhost.localdomain.out
$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to
/home/Hadoop/hadoop/logs/yarn-Hadoop-resourcemanager-localhost.localdomain.out
localhost: starting nodemanager, logging to
/home/Hadoop/hadoop/logs/yarn-Hadoop-nodemanager-localhost.localdomain.out
चरण 3: एचडीएफएस में एक निर्देशिका बनाएं
Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। इसके माध्यम से ब्राउज़ करें और नाम के साथ एक निर्देशिका बनाएंtwitter_data नीचे दिखाए अनुसार आवश्यक पथ में।
$cd /$Hadoop_Home/bin/
$ hdfs dfs -mkdir hdfs://localhost:9000/user/Hadoop/twitter_data
फ्लूम का विन्यास
हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण में अपाचे फ्लूम नामक एक प्रायोगिक स्रोत का उपयोग किया गया हैTwitter 1% Firehose मेमोरी चैनल और एचडीएफएस सिंक।
ट्विटर 1% फायरहॉश स्रोत
यह स्रोत अत्यधिक प्रयोगात्मक है। यह स्ट्रीमिंग एपीआई और लगातार डाउनलोड ट्वीट्स का उपयोग करके 1% सैंपल ट्विटर फायरहोज़ से जोड़ता है, उन्हें एवरो प्रारूप में परिवर्तित करता है, और एवरो घटनाओं को डाउनस्ट्रीम फ्लूम सिंक में भेजता है।
हम इस स्रोत को डिफ़ॉल्ट रूप से फ्लूम की स्थापना के साथ प्राप्त करेंगे। jar इस स्रोत से संबंधित फाइलें अंदर स्थित हो सकती हैं lib फ़ोल्डर नीचे दिखाया गया है।
वर्गपथ की स्थापना
ठीक classpath चर lib में Flume का फोल्डर Flume-env.sh नीचे दिखाए अनुसार।
export CLASSPATH=$CLASSPATH:/FLUME_HOME/lib/*
इस स्रोत को इस तरह के विवरण की आवश्यकता है Consumer key, Consumer secret, Access token, तथा Access token secretएक ट्विटर आवेदन की। इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -
Channels
Source type : org.apache.flume.source.twitter.TwitterSource
consumerKey - OAuth उपभोक्ता कुंजी
consumerSecret - ओउथ उपभोक्ता रहस्य
accessToken - ओउथ पहुंच टोकन
accessTokenSecret - ओउथ टोकन रहस्य
maxBatchSize- ट्विटर संदेशों की अधिकतम संख्या जो एक ट्विटर बैच में होनी चाहिए। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।
maxBatchDurationMillis- बैच बंद करने से पहले प्रतीक्षा करने के लिए अधिकतम मिलीसेकंड की संख्या। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।
चैनल
हम मेमोरी चैनल का उपयोग कर रहे हैं। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को मान प्रदान करना होगा ।
type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में, प्रकार हैMemChannel।
Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।
TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।
HDFS सिंक
यह सिंक HDFS में डेटा लिखता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा ।
Channel
type - एचडीएफएस
hdfs.path - HDFS में निर्देशिका का पथ जहां डेटा संग्रहीत किया जाना है।
और हम परिदृश्य के आधार पर कुछ वैकल्पिक मान प्रदान कर सकते हैं। नीचे दिए गए एचडीएफएस सिंक के वैकल्पिक गुण हैं जो हम अपने एप्लिकेशन में कॉन्फ़िगर कर रहे हैं।
fileType - यह हमारे एचडीएफएस फ़ाइल का आवश्यक फ़ाइल प्रारूप है। SequenceFile, DataStream तथा CompressedStreamइस धारा के साथ तीन प्रकार उपलब्ध हैं। हमारे उदाहरण में, हम उदाहरण का उपयोग कर रहे हैंDataStream।
writeFormat - या तो पाठ या लेखन योग्य हो सकता है।
batchSize- यह HDFS में फ्लश होने से पहले किसी फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 100 है।
rollsize- यह एक रोल को ट्रिगर करने के लिए फ़ाइल का आकार है। यह डिफ़ॉल्ट मान 100 है।
rollCount- यह लुढ़कने से पहले फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 10 है।
उदाहरण - विन्यास फाइल
नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंtwitter.conf Flume के गोपनीय फ़ोल्डर में।
# Naming the components on the current agent.
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
# Describing/Configuring the source
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey = Your OAuth consumer key
TwitterAgent.sources.Twitter.consumerSecret = Your OAuth consumer secret
TwitterAgent.sources.Twitter.accessToken = Your OAuth consumer key access token
TwitterAgent.sources.Twitter.accessTokenSecret = Your OAuth consumer key access token secret
TwitterAgent.sources.Twitter.keywords = tutorials point,java, bigdata, mapreduce, mahout, hbase, nosql
# Describing/Configuring the sink
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/twitter_data/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000
# Describing/Configuring the channel
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100
# Binding the source and sink to the channel
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel
क्रियान्वयन
फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।
$ cd $FLUME_HOME
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf
Dflume.root.logger=DEBUG,console -n TwitterAgent
अगर सब कुछ ठीक रहा तो एचडीएफएस में ट्वीट्स की स्ट्रीमिंग शुरू हो जाएगी। नीचे दिए गए ट्वीट्स को लाते समय कमांड प्रॉम्प्ट विंडो का स्नैपशॉट है।
एचडीएफएस का सत्यापन
आप नीचे दिए गए URL का उपयोग करके Hadoop व्यवस्थापन वेब UI तक पहुँच सकते हैं।
http://localhost:50070/
नाम के ड्रॉपडाउन पर क्लिक करें Utilitiesपृष्ठ के दाईं ओर। आप नीचे दिए गए स्नैपशॉट में दिखाए गए अनुसार दो विकल्प देख सकते हैं।
पर क्लिक करें Browse the file systemऔर एचडीएफएस निर्देशिका का पथ दर्ज करें जहां आपने ट्वीट संग्रहीत किए हैं। हमारे उदाहरण में, रास्ता होगा/user/Hadoop/twitter_data/। फिर, आप एचडीएफएस में संग्रहीत ट्विटर लॉग फ़ाइलों की सूची नीचे दिए गए अनुसार देख सकते हैं।
पिछले अध्याय में, हमने देखा है कि ट्विटर स्रोत से HDFS में डेटा कैसे लाया जाए। यह अध्याय बताता है कि डेटा कैसे लाया जाएSequence generator।
आवश्यक शर्तें
इस अध्याय में दिए गए उदाहरण को चलाने के लिए, आपको इंस्टॉल करने की आवश्यकता है HDFS साथ में Flume। इसलिए, Hadoop स्थापना को सत्यापित करें और आगे बढ़ने से पहले HDFS शुरू करें। (एचडीएफएस कैसे शुरू करें, यह जानने के लिए पिछले अध्याय का संदर्भ लें)।
फ्लूम का विन्यास
हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण a का उपयोग करता हैsequence generator source, ए memory channel, और एक HDFS sink।
अनुक्रम जेनरेटर स्रोत
यह वह स्रोत है जो लगातार घटनाओं को उत्पन्न करता है। यह एक काउंटर को बनाए रखता है जो 0 से शुरू होता है और 1 से वृद्धि होती है। इसका उपयोग परीक्षण उद्देश्य के लिए किया जाता है। इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -
Channels
Source type - seq
चैनल
हम उपयोग कर रहे हैं memoryचैनल। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को एक मूल्य प्रदान करना होगा । नीचे दिए गए गुणों की सूची है जो आपको स्मृति चैनल को कॉन्फ़िगर करते समय आपूर्ति करने की आवश्यकता है -
type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में प्रकार MemChannel है।
Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 है। (वैकल्पिक)
TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट 100 है। (वैकल्पिक)।
HDFS सिंक
यह सिंक HDFS में डेटा लिखता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा ।
Channel
type - एचडीएफएस
hdfs.path - HDFS में निर्देशिका का पथ जहां डेटा संग्रहीत किया जाना है।
और हम परिदृश्य के आधार पर कुछ वैकल्पिक मान प्रदान कर सकते हैं। नीचे दिए गए एचडीएफएस सिंक के वैकल्पिक गुण हैं जो हम अपने एप्लिकेशन में कॉन्फ़िगर कर रहे हैं।
fileType - यह हमारे एचडीएफएस फ़ाइल का आवश्यक फ़ाइल प्रारूप है। SequenceFile, DataStream तथा CompressedStreamइस धारा के साथ तीन प्रकार उपलब्ध हैं। हमारे उदाहरण में, हम उदाहरण का उपयोग कर रहे हैंDataStream।
writeFormat - या तो पाठ या लेखन योग्य हो सकता है।
batchSize- यह HDFS में फ्लश होने से पहले किसी फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 100 है।
rollsize- यह एक रोल को ट्रिगर करने के लिए फ़ाइल का आकार है। यह डिफ़ॉल्ट मान 100 है।
rollCount- यह लुढ़कने से पहले फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 10 है।
उदाहरण - विन्यास फाइल
नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंseq_gen .conf Flume के गोपनीय फ़ोल्डर में।
# Naming the components on the current agent
SeqGenAgent.sources = SeqSource
SeqGenAgent.channels = MemChannel
SeqGenAgent.sinks = HDFS
# Describing/Configuring the source
SeqGenAgent.sources.SeqSource.type = seq
# Describing/Configuring the sink
SeqGenAgent.sinks.HDFS.type = hdfs
SeqGenAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/seqgen_data/
SeqGenAgent.sinks.HDFS.hdfs.filePrefix = log
SeqGenAgent.sinks.HDFS.hdfs.rollInterval = 0
SeqGenAgent.sinks.HDFS.hdfs.rollCount = 10000
SeqGenAgent.sinks.HDFS.hdfs.fileType = DataStream
# Describing/Configuring the channel
SeqGenAgent.channels.MemChannel.type = memory
SeqGenAgent.channels.MemChannel.capacity = 1000
SeqGenAgent.channels.MemChannel.transactionCapacity = 100
# Binding the source and sink to the channel
SeqGenAgent.sources.SeqSource.channels = MemChannel
SeqGenAgent.sinks.HDFS.channel = MemChannel
क्रियान्वयन
फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।
$ cd $FLUME_HOME
$./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/seq_gen.conf
--name SeqGenAgent
यदि सब कुछ ठीक हो जाता है, तो स्रोत अनुक्रम संख्या उत्पन्न करना शुरू कर देता है जिसे लॉग फ़ाइलों के रूप में एचडीएफएस में धकेल दिया जाएगा।
नीचे दिए गए कमांड प्रॉम्प्ट द्वारा एचडीएफएस में अनुक्रम जनरेटर द्वारा उत्पन्न डेटा को प्राप्त करने का एक स्नैपशॉट है।
एचडीएफएस का सत्यापन
आप निम्न URL का उपयोग करके Hadoop व्यवस्थापन वेब UI तक पहुँच सकते हैं -
http://localhost:50070/
नाम के ड्रॉपडाउन पर क्लिक करें Utilitiesपृष्ठ के दाईं ओर। आप नीचे दिए गए चित्र में दिखाए गए अनुसार दो विकल्प देख सकते हैं।
पर क्लिक करें Browse the file system और HDFS निर्देशिका का पथ दर्ज करें जहां आपने अनुक्रम जनरेटर द्वारा उत्पन्न डेटा संग्रहीत किया है।
हमारे उदाहरण में, रास्ता होगा /user/Hadoop/ seqgen_data /। फिर, आप अनुक्रम जनरेटर द्वारा उत्पन्न लॉग फ़ाइलों की सूची देख सकते हैं, नीचे दिए गए अनुसार एचडीएफएस में संग्रहीत।
फ़ाइल की सामग्री का सत्यापन
इन सभी लॉग फ़ाइलों में अनुक्रमिक प्रारूप में नंबर होते हैं। आप फ़ाइल सिस्टम में इन फ़ाइल की सामग्री को सत्यापित कर सकते हैंcat जैसा कि नीचे दिखाया गया है।
यह अध्याय यह समझाने के लिए एक उदाहरण लेता है कि आप घटनाओं को कैसे उत्पन्न कर सकते हैं और बाद में उन्हें कंसोल में लॉग इन करें। इसके लिए, हम उपयोग कर रहे हैंNetCat स्रोत और logger सिंक।
आवश्यक शर्तें
इस अध्याय में दिए गए उदाहरण को चलाने के लिए, आपको इंस्टॉल करने की आवश्यकता है Flume।
फ्लूम का विन्यास
हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण a का उपयोग करता हैNetCat Source, Memory channel, और ए logger sink।
नेटकैट स्रोत
नेटकैट स्रोत को कॉन्फ़िगर करते समय, हमें स्रोत को कॉन्फ़िगर करते समय एक पोर्ट निर्दिष्ट करना होगा। अब स्रोत (नेटकैट स्रोत) दिए गए पोर्ट को सुनता है और प्रत्येक पोर्ट को हम उस पोर्ट में एक व्यक्तिगत घटना के रूप में दर्ज करता है और उसे निर्दिष्ट चैनल के माध्यम से सिंक में स्थानांतरित करता है।
इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -
channels
Source type - नेटकैट
bind - होस्ट नाम या आईपी पते को बांधने के लिए।
port - पोर्ट नंबर जिससे हम स्रोत को सुनना चाहते हैं।
चैनल
हम उपयोग कर रहे हैं memoryचैनल। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को एक मूल्य प्रदान करना होगा । नीचे दिए गए गुणों की सूची है जो आपको स्मृति चैनल को कॉन्फ़िगर करते समय आपूर्ति करने की आवश्यकता है -
type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में, प्रकार हैMemChannel।
Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 है। (वैकल्पिक)
TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट मान 100 है। (वैकल्पिक)
लकड़हारा सिंक
यह सिंक इसमें पारित सभी घटनाओं को लॉग करता है। आम तौर पर, इसका उपयोग परीक्षण या डिबगिंग उद्देश्य के लिए किया जाता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा।
Channel
type - लकड़हारा
उदाहरण विन्यास फाइल
नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंnetcat.conf Flume के गोपनीय फ़ोल्डर में।
# Naming the components on the current agent
NetcatAgent.sources = Netcat
NetcatAgent.channels = MemChannel
NetcatAgent.sinks = LoggerSink
# Describing/Configuring the source
NetcatAgent.sources.Netcat.type = netcat
NetcatAgent.sources.Netcat.bind = localhost
NetcatAgent.sources.Netcat.port = 56565
# Describing/Configuring the sink
NetcatAgent.sinks.LoggerSink.type = logger
# Describing/Configuring the channel
NetcatAgent.channels.MemChannel.type = memory
NetcatAgent.channels.MemChannel.capacity = 1000
NetcatAgent.channels.MemChannel.transactionCapacity = 100
# Bind the source and sink to the channel
NetcatAgent.sources.Netcat.channels = MemChannel
NetcatAgent.sinks. LoggerSink.channel = MemChannel
क्रियान्वयन
फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।
$ cd $FLUME_HOME
$ ./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/netcat.conf
--name NetcatAgent -Dflume.root.logger=INFO,console
यदि सब कुछ ठीक हो जाता है, तो स्रोत दिए गए पोर्ट को सुनना शुरू कर देता है। इस मामले में, यह है56565। नीचे एक नेटकाट स्रोत के कमांड प्रॉम्प्ट विंडो का स्नैपशॉट दिया गया है जो कि 56565 पोर्ट को शुरू और सुन रहा है।
स्रोत को डेटा पास करना
NetCat स्रोत में डेटा पास करने के लिए, आपको कॉन्फ़िगरेशन फ़ाइल में दिए गए पोर्ट को खोलना होगा। एक अलग टर्मिनल खोलें और स्रोत (56565) से कनेक्ट करेंcurlआदेश। जब कनेक्शन सफल होता है, तो आपको एक संदेश मिलेगा "connected" जैसा की नीचे दिखाया गया।
$ curl telnet://localhost:56565
connected
अब आप अपनी डेटा लाइन को लाइन में प्रवेश कर सकते हैं (प्रत्येक लाइन के बाद, आपको एंटर दबाना होगा)। NetCat स्रोत प्रत्येक पंक्ति को एक व्यक्तिगत घटना के रूप में प्राप्त करता है और आपको एक संदेश प्राप्त होगा "OK"।
जब भी आपको पासिंग डेटा के साथ किया जाता है, तो आप दबाकर कंसोल से बाहर निकल सकते हैं (Ctrl+C)। नीचे दिया गया कंसोल का स्नैपशॉट है जहां हमने स्रोत का उपयोग करके कनेक्ट किया हैcurl आदेश।
उपरोक्त कंसोल में दर्ज की गई प्रत्येक पंक्ति को स्रोत द्वारा एक व्यक्तिगत घटना के रूप में प्राप्त किया जाएगा। जब से हमने इस्तेमाल किया हैLogger सिंक, इन घटनाओं को निर्दिष्ट चैनल (इस मामले में मेमोरी चैनल) के माध्यम से कंसोल (स्रोत कंसोल) पर लॉग इन किया जाएगा।
निम्न स्नैपशॉट NetCat कंसोल दिखाता है जहाँ ईवेंट लॉग किए गए हैं।