अपाचे फ्लूम - त्वरित गाइड

फ्लूम क्या है?

अपाचे फ्लूम एक उपकरण / सेवा / डेटा अंतर्ग्रहण तंत्र है जो बड़ी मात्रा में स्ट्रीमिंग डेटा जैसे लॉग फाइल, घटनाओं (आदि ...) को विभिन्न स्रोतों से एक केंद्रीकृत डेटा स्टोर में एकत्र करने और परिवहन के लिए है।

फ्लूम एक अत्यधिक विश्वसनीय, वितरित और विन्यास योग्य उपकरण है। यह मुख्य रूप से विभिन्न वेब सर्वर से HDFS में स्ट्रीमिंग डेटा (लॉग डेटा) की नकल करने के लिए डिज़ाइन किया गया है।

फ्लूम के अनुप्रयोग

मान लें कि एक ई-कॉमर्स वेब एप्लिकेशन किसी विशेष क्षेत्र से ग्राहक के व्यवहार का विश्लेषण करना चाहता है। ऐसा करने के लिए, उन्हें विश्लेषण के लिए उपलब्ध लॉग डेटा को Hadoop में स्थानांतरित करने की आवश्यकता होगी। यहाँ, अपाचे फ्लूम हमारे बचाव के लिए आता है।

उच्च गति पर HDFS में एप्लिकेशन सर्वर द्वारा उत्पन्न लॉग डेटा को स्थानांतरित करने के लिए फ्लूम का उपयोग किया जाता है।

फ्लूम के फायदे

यहाँ Flume के उपयोग के फायदे हैं -

  • अपाचे फ्लूम का उपयोग करके हम किसी भी केंद्रीयकृत स्टोर (HBase, HDFS) में डेटा स्टोर कर सकते हैं।

  • जब आने वाले डेटा की दर उस दर से अधिक होती है जिस पर डेटा को गंतव्य पर लिखा जा सकता है, तो फ़्लुम डेटा उत्पादकों और केंद्रीकृत दुकानों के बीच मध्यस्थ के रूप में कार्य करता है और उनके बीच डेटा का एक स्थिर प्रवाह प्रदान करता है।

  • फ्ल्यूम की सुविधा प्रदान करता है contextual routing

  • फ्लूम में लेनदेन चैनल आधारित होते हैं, जहां प्रत्येक संदेश के लिए दो लेनदेन (एक प्रेषक और एक रिसीवर) बनाए जाते हैं। यह विश्वसनीय संदेश वितरण की गारंटी देता है।

  • फ्लुम विश्वसनीय, दोष सहिष्णु, स्केलेबल, प्रबंधनीय और अनुकूलन योग्य है।

फ्लूम की विशेषताएं

Flume की कुछ उल्लेखनीय विशेषताएं इस प्रकार हैं -

  • फ़्लुम कई वेब सर्वरों से डेटा को एक केंद्रीकृत स्टोर (HDFS, HBase) में कुशलतापूर्वक प्रवेश करता है।

  • Flume का उपयोग करके, हम Hadoop में तुरंत कई सर्वरों से डेटा प्राप्त कर सकते हैं।

  • लॉग फ़ाइलों के साथ, फ़्लुम का उपयोग फ़ेसबुक और ट्विटर जैसी सोशल नेटवर्किंग साइटों और अमेज़ॅन और फ़्लिपकार्ट जैसी ई-कॉमर्स वेबसाइटों द्वारा उत्पादित इवेंट डेटा के भारी मात्रा में आयात करने के लिए भी किया जाता है।

  • फ्लुम स्रोतों और गंतव्य प्रकारों के एक बड़े सेट का समर्थन करता है।

  • फ़्लेम मल्टी-हॉप फ्लो, फैन-इन फैन-आउट फ़्लो, रेफ़रल रूटिंग आदि का समर्थन करता है।

  • फ्लूम को क्षैतिज रूप से बढ़ाया जा सकता है।

Big Data,जैसा कि हम जानते हैं, बड़े डेटासेट का एक संग्रह है जिसे पारंपरिक कंप्यूटिंग तकनीकों का उपयोग करके संसाधित नहीं किया जा सकता है। बिग डेटा, जब विश्लेषण किया जाता है, तो मूल्यवान परिणाम देता है।Hadoop एक ओपन-सोर्स फ्रेमवर्क है जो सरल प्रोग्रामिंग मॉडल का उपयोग करके कंप्यूटर के समूहों में वितरित वातावरण में बिग डेटा को स्टोर और प्रोसेस करने की अनुमति देता है।

स्ट्रीमिंग / लॉग डेटा

आम तौर पर, अधिकांश डेटा का विश्लेषण किया जाता है जो विभिन्न डेटा स्रोतों जैसे एप्लिकेशन सर्वर, सोशल नेटवर्किंग साइट्स, क्लाउड सर्वर और एंटरप्राइज सर्वर द्वारा उत्पादित किया जाएगा। यह डेटा के रूप में होगाlog files तथा events

Log file - सामान्य तौर पर, एक लॉग फ़ाइल एक है fileएक ऑपरेटिंग सिस्टम में होने वाली घटनाओं / कार्यों को सूचीबद्ध करता है। उदाहरण के लिए, वेब सर्वर लॉग फ़ाइलों में सर्वर से किए गए हर अनुरोध को सूचीबद्ध करता है।

ऐसे लॉग डेटा की कटाई पर, हम इसके बारे में जानकारी प्राप्त कर सकते हैं -

  • अनुप्रयोग प्रदर्शन और विभिन्न सॉफ़्टवेयर और हार्डवेयर विफलताओं का पता लगाता है।
  • उपयोगकर्ता व्यवहार और बेहतर व्यापार अंतर्दृष्टि प्राप्त करते हैं।

एचडीएफएस प्रणाली में डेटा स्थानांतरित करने की पारंपरिक विधि का उपयोग करना है putआदेश। आइए देखते हैं कि कैसे उपयोग करना हैput आदेश।

HDFS ने कमांड डाल दी

लॉग डेटा को संभालने में मुख्य चुनौती कई सर्वरों द्वारा उत्पादित इन लॉग को Hadoop वातावरण में ले जाने में है।

Hadoop File System ShellHadoop में डेटा डालने और उससे पढ़ने के लिए कमांड प्रदान करता है। आप का उपयोग करके Hadoop में डेटा सम्मिलित कर सकते हैंput जैसा कि नीचे दिखाया गया है।

$ Hadoop fs –put /path of the required file  /path in HDFS where to save the file

डाल कमान के साथ समस्या

हम उपयोग कर सकते हैं putइन स्रोतों से डेटा को HDFS में स्थानांतरित करने के लिए Hadoop की कमान। लेकिन, यह निम्नलिखित कमियों से ग्रस्त है -

  • का उपयोग करते हुए put कमांड, हम ट्रांसफर कर सकते हैं only one file at a timeजबकि डेटा जनरेटर बहुत अधिक दर पर डेटा उत्पन्न करते हैं। चूंकि पुराने डेटा पर किए गए विश्लेषण कम सटीक हैं, इसलिए हमें वास्तविक समय में डेटा स्थानांतरित करने के लिए एक समाधान की आवश्यकता है।

  • अगर हम उपयोग करते हैं putआदेश, डेटा को पैक करने की आवश्यकता है और अपलोड के लिए तैयार होना चाहिए। चूंकि वेबसर्वर लगातार डेटा उत्पन्न करते हैं, यह एक बहुत मुश्किल काम है।

हमें यहां एक समाधान की आवश्यकता है जो कमियों को दूर कर सकता है put कमांड और "जेनरेटिंग डेटा" को डेटा जनरेटर से केंद्रीकृत दुकानों (विशेष रूप से एचडीएफएस) में कम देरी से स्थानांतरित करें।

HDFS के साथ समस्या

एचडीएफएस में, फ़ाइल एक निर्देशिका प्रविष्टि के रूप में मौजूद है और फ़ाइल की लंबाई को बंद होने तक शून्य माना जाएगा। उदाहरण के लिए, यदि कोई स्रोत एचडीएफएस में डेटा लिख ​​रहा है और ऑपरेशन के बीच में (फ़ाइल को बंद किए बिना) नेटवर्क बाधित हो गया, तो फ़ाइल में लिखा डेटा खो जाएगा।

इसलिए हमें लॉग डेटा को एचडीएफएस में स्थानांतरित करने के लिए एक विश्वसनीय, कॉन्फ़िगर करने योग्य और रखरखाव योग्य प्रणाली की आवश्यकता है।

Note- POSIX फाइल सिस्टम में, जब भी हम किसी फाइल को एक्सेस कर रहे होते हैं (जैसे कि राइटिंग ऑपरेशन करते हैं), अन्य प्रोग्राम अभी भी इस फाइल (कम से कम फाइल के सहेजे गए हिस्से) को पढ़ सकते हैं। ऐसा इसलिए है क्योंकि फ़ाइल बंद होने से पहले डिस्क पर मौजूद है।

उपलब्ध समाधान

एचडीएफएस के लिए विभिन्न स्रोतों से स्ट्रीमिंग डेटा (लॉग फाइल, ईवेंट आदि आदि) भेजने के लिए, हमारे पास निम्नलिखित उपकरण उपलब्ध हैं -

फेसबुक के Scribe

Scribe एक बेहद लोकप्रिय उपकरण है जिसका उपयोग लॉग डेटा को एग्रीगेट और स्ट्रीम करने के लिए किया जाता है। यह बहुत बड़ी संख्या में नोड्स के पैमाने के लिए डिज़ाइन किया गया है और नेटवर्क और नोड विफलताओं के लिए मजबूत है।

अपाचे काफ्का

काफ्का को अपाचे सॉफ्टवेयर फाउंडेशन द्वारा विकसित किया गया है। यह एक ओपन-सोर्स मैसेज ब्रोकर है। काफ्का का उपयोग करके, हम उच्च-थ्रूपुट और कम-विलंबता के साथ फ़ीड को संभाल सकते हैं।

अपाचे फ्लूम

अपाचे फ़्लू एक उपकरण / सेवा / डेटा अंतर्ग्रहण तंत्र है जो बड़ी मात्रा में स्ट्रीमिंग डेटा जैसे लॉग डेटा, ईवेंट्स (आदि ...) को एकत्रित करने और एकत्र करने के लिए एक केंद्रीकृत डेटा स्टोर से एकत्र करता है।

यह एक अत्यधिक विश्वसनीय, वितरित और कॉन्फ़िगर करने योग्य उपकरण है जो मुख्य रूप से HDFS के विभिन्न स्रोतों से स्ट्रीमिंग डेटा को स्थानांतरित करने के लिए डिज़ाइन किया गया है।

इस ट्यूटोरियल में, हम कुछ उदाहरणों के साथ फ्लूम का उपयोग करने के तरीके के बारे में विस्तार से चर्चा करेंगे।

निम्नलिखित चित्रण में फ्लूम की मूल वास्तुकला को दर्शाया गया है। चित्रण में दिखाया गया है,data generators (जैसे कि फेसबुक, ट्विटर) डेटा उत्पन्न करते हैं जो अलग-अलग फ्लूम द्वारा एकत्र किए जाते हैं agentsउन पर चल रहा है। इसके बाद, एdata collector (जो कि एक एजेंट भी है) उन एजेंटों के डेटा को एकत्र करता है, जिन्हें एकत्रित करके HDFS या HBase जैसे केंद्रीकृत स्टोर में धकेल दिया जाता है।

स्पंदन घटना

एक event अंदर पहुंचाई गई डेटा की मूल इकाई है Flume। इसमें बाइट सरणी का एक पेलोड होता है जिसे स्रोत से गंतव्य तक वैकल्पिक हेडर के साथ पहुंचाया जाना है। एक विशिष्ट फ़्लुम घटना में निम्न संरचना होगी -

फ्लुम एजेंट

एक agentफ्लूम में एक स्वतंत्र डेमन प्रक्रिया (JVM) है। यह ग्राहकों या अन्य एजेंटों से डेटा (ईवेंट) प्राप्त करता है और इसे अपने अगले गंतव्य (सिंक या एजेंट) पर भेज देता है। फ्लुम में एक से अधिक एजेंट हो सकते हैं। निम्नलिखित आरेख एक का प्रतिनिधित्व करता हैFlume Agent

जैसा कि चित्र में दिखाया गया है कि एक फ्लुम एजेंट में तीन मुख्य घटक होते हैं, source, channel, तथा sink

स्रोत

source एक एजेंट का घटक है जो डेटा जनरेटर से डेटा प्राप्त करता है और इसे फ्लूम ईवेंट के रूप में एक या अधिक चैनलों में स्थानांतरित करता है।

अपाचे फ्लूम कई प्रकार के स्रोतों का समर्थन करता है और प्रत्येक स्रोत एक निर्दिष्ट डेटा जनरेटर से घटनाओं को प्राप्त करता है।

Example - एरो स्रोत, थ्रिफ्ट स्रोत, ट्विटर 1% स्रोत आदि।

चैनल

channelएक क्षणिक स्टोर है जो स्रोत से घटनाओं को प्राप्त करता है और उन्हें तब तक बफर करता है जब तक कि वे सिंक द्वारा खपत नहीं होते हैं। यह स्रोतों और डूब के बीच एक सेतु का काम करता है।

ये चैनल पूरी तरह से लेन-देन करने वाले हैं और वे किसी भी स्रोत और सिंक के साथ काम कर सकते हैं।

Example - JDBC चैनल, फाइल सिस्टम चैनल, मेमोरी चैनल आदि।

सिंक

sinkHBase और HDFS जैसे केंद्रीकृत दुकानों में डेटा संग्रहीत करता है। यह चैनलों से डेटा (घटनाओं) का उपभोग करता है और इसे गंतव्य तक पहुंचाता है। सिंक का गंतव्य एक अन्य एजेंट या केंद्रीय भंडार हो सकता है।

Example - एचडीएफएस सिंक

Note- एक फ्लुम एजेंट में कई स्रोत, सिंक और चैनल हो सकते हैं। हमने इस ट्यूटोरियल के फ्लूम कॉन्फ़िगरेशन चैप्टर में सभी समर्थित स्रोतों, सिंक, चैनलों को सूचीबद्ध किया है।

फ्लूम एजेंट के अतिरिक्त घटक

ऊपर हमने जो चर्चा की है वह एजेंट के आदिम घटक हैं। इसके अतिरिक्त, हमारे पास कुछ और घटक हैं जो घटनाओं को डेटा जनरेटर से केंद्रीकृत दुकानों में स्थानांतरित करने में महत्वपूर्ण भूमिका निभाते हैं।

इंटरसेप्टर

इंटरसेप्टर का उपयोग फ्लूम घटनाओं को बदलने / निरीक्षण करने के लिए किया जाता है जो स्रोत और चैनल के बीच स्थानांतरित होते हैं।

चैनल चयनकर्ता

इनका उपयोग यह निर्धारित करने के लिए किया जाता है कि किस चैनल को कई चैनलों के मामले में डेटा ट्रांसफर करने का विकल्प चुनना है। दो प्रकार के चैनल चयनकर्ता हैं -

  • Default channel selectors - इन्हें चैनल चयनकर्ताओं के रूप में भी जाना जाता है जो वे प्रत्येक चैनल में सभी घटनाओं की नकल करते हैं।

  • Multiplexing channel selectors - ये चैनल को उस ईवेंट के हेडर में एड्रेस के आधार पर एक ईवेंट भेजने का निर्णय लेते हैं।

सिंक प्रोसेसर

इनका उपयोग सिंक के चयनित समूह से एक विशेष सिंक को आमंत्रित करने के लिए किया जाता है। इनका उपयोग आपके सिंक के लिए फेलओवर पथ बनाने के लिए किया जाता है या चैनल से कई सिंक में शेष घटनाओं को लोड करने के लिए किया जाता है।

फ्लूम एक ढांचा है जिसका उपयोग लॉग डेटा को एचडीएफएस में स्थानांतरित करने के लिए किया जाता है। आमतौर पर ईवेंट और लॉग डेटा लॉग सर्वर द्वारा जनरेट किए जाते हैं और इन सर्वरों पर फ्लूम एजेंट होते हैं। ये एजेंट डेटा जनरेटर से डेटा प्राप्त करते हैं।

इन एजेंटों के डेटा को एक मध्यवर्ती नोड द्वारा एकत्र किया जाएगा जिसे के रूप में जाना जाता है Collector। एजेंटों की तरह, फ्लूम में कई कलेक्टर हो सकते हैं।

अंत में, इन सभी संग्राहकों के डेटा को एकत्रित करके HBase या HDFS जैसे केंद्रीकृत स्टोर में धकेल दिया जाएगा। निम्न आरेख फ्लूम में डेटा प्रवाह की व्याख्या करता है।

मल्टी-हॉप फ्लो

फ्लूम के भीतर, कई एजेंट हो सकते हैं और अंतिम गंतव्य तक पहुंचने से पहले, एक घटना एक से अधिक एजेंटों के माध्यम से यात्रा कर सकती है। इस रूप में जाना जाता हैmulti-hop flow

फैन-आउट फ्लो

एक स्रोत से कई चैनलों के डेटाफ़्लो के रूप में जाना जाता है fan-out flow। यह दो प्रकार का होता है -

  • Replicating - डेटा प्रवाह जहां सभी कॉन्फ़िगर किए गए चैनलों में डेटा को दोहराया जाएगा।

  • Multiplexing - डेटा प्रवाह जहां डेटा को एक चयनित चैनल पर भेजा जाएगा जो कि घटना के हेडर में उल्लिखित है।

फैन-इन फ्लो

डेटा प्रवाह जिसमें डेटा को कई स्रोतों से एक चैनल में स्थानांतरित किया जाएगा, के रूप में जाना जाता है fan-in flow

विफलता से निपटने

प्रत्येक घटना के लिए फ्लूम में, दो लेनदेन होते हैं: एक प्रेषक पर और एक रिसीवर पर। प्रेषक रिसीवर को ईवेंट भेजता है। डेटा प्राप्त करने के तुरंत बाद, रिसीवर अपना लेनदेन शुरू करता है और प्रेषक को "प्राप्त" संकेत भेजता है। संकेत प्राप्त करने के बाद, प्रेषक अपना लेनदेन करता है। (प्रेषक तब तक अपना लेनदेन नहीं करेगा, जब तक कि उसे रिसीवर से संकेत प्राप्त न हो जाए।)

हमने पहले अध्याय में फ्लूम की वास्तुकला पर चर्चा की। इस अध्याय में, आइए देखें कि अपाचे फ्लूम को कैसे डाउनलोड करें और सेटअप करें।

आगे बढ़ने से पहले, आपको अपने सिस्टम में एक जावा वातावरण होना चाहिए। तो सबसे पहले, सुनिश्चित करें कि आपने अपने सिस्टम में जावा इंस्टॉल किया है। इस ट्यूटोरियल में कुछ उदाहरणों के लिए, हमने Hadoop HDFS (सिंक के रूप में) का उपयोग किया है। इसलिए, हम अनुशंसा करेंगे कि आप जावा के साथ Hadoop स्थापित करें। अधिक जानकारी एकत्र करने के लिए लिंक का अनुसरण करें -http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

फ्लूम स्थापित करना

सबसे पहले, वेबसाइट से Apache Flume सॉफ़्टवेयर का नवीनतम संस्करण डाउनलोड करें https://flume.apache.org/।

चरण 1

वेबसाइट खोलें। पर क्लिक करेंdownloadमुख पृष्ठ के बाईं ओर लिंक। यह आपको Apache Flume के डाउनलोड पेज पर ले जाएगा।

चरण 2

डाउनलोड पृष्ठ में, आप अपाचे फ्लूम के बाइनरी और स्रोत फ़ाइलों के लिंक देख सकते हैं। लिंक अपाचे-फ़्ल्यूम-1.6.0-bin.tar.gz पर क्लिक करें

आपको दर्पणों की एक सूची पर पुनः निर्देशित किया जाएगा जहाँ आप इनमें से किसी भी दर्पण पर क्लिक करके अपना डाउनलोड शुरू कर सकते हैं। उसी तरह, आप Apache-Flume-1.6.0-src.tar.gz पर क्लिक करके Apache Flume का सोर्स कोड डाउनलोड कर सकते हैं ।

चरण 3

उसी निर्देशिका में फ़्लूम नाम के साथ एक निर्देशिका बनाएँ जहाँ की स्थापना निर्देशिकाएँ Hadoop, HBase, और अन्य सॉफ़्टवेयर स्थापित किए गए थे (यदि आपने पहले ही स्थापित किया है) जैसा कि नीचे दिखाया गया है।

$ mkdir Flume

चरण 4

डाउनलोड की गई टार फ़ाइलों को नीचे दिखाए गए अनुसार निकालें।

$ cd Downloads/ 
$ tar zxvf apache-flume-1.6.0-bin.tar.gz  
$ tar zxvf apache-flume-1.6.0-src.tar.gz

चरण 5

अपाचे की सामग्री को स्थानांतरित करें-flume-1.6.0-bin.tar के लिए फ़ाइल Flumeनिर्देशिका पहले बनाई गई जैसा कि नीचे दिखाया गया है। (मान लें कि हमने Hadoop नाम के स्थानीय उपयोगकर्ता में Flume निर्देशिका बनाई है।)

$ mv apache-flume-1.6.0-bin.tar/* /home/Hadoop/Flume/

फ्लूम का विन्यास

Flume को कॉन्फ़िगर करने के लिए, हमें तीन फ़ाइलों को संशोधित करना होगा, flume-env.sh, flumeconf.properties, तथा bash.rc

पथ / वर्गपथ की स्थापना करना

में .bashrc फ़ाइल, होम फ़ोल्डर, पथ, और फ़्लिप के लिए क्लासपैथ को नीचे दिखाए अनुसार सेट करें।

गोपनीय फ़ोल्डर

यदि आप खोलते हैं conf Apache Flume का फोल्डर, आपके पास निम्न चार फाइलें होंगी -

  • flume-conf.properties.template,
  • flume-env.sh.template,
  • flume-env.ps1.template, और
  • log4j.properties.

अब नाम बदला

  • flume-conf.properties.template के रूप में दर्ज करें flume-conf.properties तथा

  • flume-env.sh.template जैसा flume-env.sh

flume-env.sh

खुला हुआ flume-env.sh फ़ाइल और सेट करें JAVA_Home उस फ़ोल्डर में जहां जावा आपके सिस्टम में स्थापित किया गया था।

स्थापना का सत्यापन करना

के माध्यम से ब्राउज़ करके Apache Flume की स्थापना को सत्यापित करें bin फ़ोल्डर और टाइपिंग निम्न कमांड।

$ ./flume-ng

यदि आपने सफलतापूर्वक फ़्लुम स्थापित किया है, तो आपको फ़्लुम की मदद मिलेगी जैसा कि नीचे दिखाया गया है।

फ्लूम स्थापित करने के बाद, हमें कॉन्फ़िगरेशन फ़ाइल का उपयोग करके इसे कॉन्फ़िगर करने की आवश्यकता है जो कि जावा संपत्ति फ़ाइल है key-value pairs। हमें फ़ाइल में कुंजियों के मानों को पास करना होगा।

फ़्ल्यूम कॉन्फ़िगरेशन फ़ाइल में, हमें निम्न करना होगा -

  • वर्तमान एजेंट के घटकों का नाम बताइए।
  • स्रोत का वर्णन करें / कॉन्फ़िगर करें।
  • सिंक का वर्णन करें / कॉन्फ़िगर करें।
  • चैनल का वर्णन करें / कॉन्फ़िगर करें।
  • स्रोत और चैनल को सिंक से बांधें।

आमतौर पर हमारे पास Flume में कई एजेंट हो सकते हैं। हम एक अद्वितीय नाम का उपयोग करके प्रत्येक एजेंट को अलग कर सकते हैं। और इस नाम का उपयोग करते हुए, हमें प्रत्येक एजेंट को कॉन्फ़िगर करना होगा।

अवयवों का नामकरण

सबसे पहले, आपको नीचे दिए गए अनुसार स्रोतों, सिंक, और एजेंट के चैनल जैसे घटकों का नाम / सूची देना होगा।

agent_name.sources = source_name 
agent_name.sinks = sink_name 
agent_name.channels = channel_name

फ्लुम विभिन्न स्रोतों, सिंक और चैनलों का समर्थन करता है। वे नीचे दी गई तालिका में सूचीबद्ध हैं।

सूत्रों का कहना है चैनल सिंक
  • एवरो सोर्स
  • थ्रिफ्ट सोर्स
  • Exec स्रोत
  • जेएमएस स्रोत
  • स्पूलिंग डायरेक्टरी सोर्स
  • Twitter 1% फ़ायरहॉश स्रोत
  • कफका स्रोत
  • नेटकैट स्रोत
  • अनुक्रम जेनरेटर स्रोत
  • Syslog स्रोत
  • Syslog टीसीपी स्रोत
  • मल्टीपॉर्ट Syslog टीसीपी स्रोत
  • Syslog UDP स्रोत
  • HTTP स्रोत
  • तनाव का स्रोत
  • विरासत के सूत्र
  • थ्रिफ्ट लिगेसी सोर्स
  • कस्टम स्रोत
  • स्रोत बताएं
  • मेमोरी चैनल
  • JDBC चैनल
  • काफ्का चैनल
  • फाइल चैनल
  • स्पिलबल मेमोरी चैनल
  • छद्म लेनदेन चैनल
  • HDFS सिंक
  • हाइव सिंक
  • लकड़हारा सिंक
  • एवरो सिंक
  • थ्रिफ्ट सिंक
  • आईआरसी सिंक
  • फ़ाइल रोल सिंक
  • नल सींक
  • HBaseSink
  • AsyncHBaseSink
  • MorphlineSolrSink
  • ElasticSearchSink
  • पतंग डेटासैट सिंक
  • कफका सिंक

आप उनमें से किसी का उपयोग कर सकते हैं। उदाहरण के लिए, यदि आप एक स्मृति चैनल के माध्यम से ट्विटर स्रोत का उपयोग करके ट्विटर डेटा को एचडीएफएस सिंक, और एजेंट नाम आईडी में स्थानांतरित कर रहे हैंTwitterAgent, फिर

TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS

एजेंट के घटकों को सूचीबद्ध करने के बाद, आपको उनके गुणों को मान प्रदान करके स्रोत (एस), सिंक (एस), और चैनल (एस) का वर्णन करना होगा।

स्रोत का वर्णन करना

प्रत्येक स्रोत में गुणों की एक अलग सूची होगी। "प्रकार" नाम की संपत्ति प्रत्येक स्रोत के लिए सामान्य है, और इसका उपयोग उस स्रोत के प्रकार को निर्दिष्ट करने के लिए किया जाता है जिसका हम उपयोग कर रहे हैं।

संपत्ति "प्रकार" के साथ, यह सभी के मूल्यों को प्रदान करने के लिए आवश्यक है required एक विशेष स्रोत के गुण इसे कॉन्फ़िगर करने के लिए, जैसा कि नीचे दिखाया गया है।

agent_name.sources. source_name.type = value 
agent_name.sources. source_name.property2 = value 
agent_name.sources. source_name.property3 = value

उदाहरण के लिए, यदि हम विचार करें twitter source, निम्नलिखित गुण हैं जिनके लिए हमें इसे कॉन्फ़िगर करने के लिए मान प्रदान करना चाहिए

TwitterAgent.sources.Twitter.type = Twitter (type name) 
TwitterAgent.sources.Twitter.consumerKey =  
TwitterAgent.sources.Twitter.consumerSecret = 
TwitterAgent.sources.Twitter.accessToken =   
TwitterAgent.sources.Twitter.accessTokenSecret =

सिंक का वर्णन करना

स्रोत की तरह, प्रत्येक सिंक में गुणों की एक अलग सूची होगी। "प्रकार" नाम की संपत्ति हर सिंक के लिए सामान्य है, और इसका उपयोग उस सिंक के प्रकार को निर्दिष्ट करने के लिए किया जाता है जिसका हम उपयोग कर रहे हैं। संपत्ति "प्रकार" के साथ, सभी को मूल्य प्रदान करने की आवश्यकता हैrequired एक विशेष सिंक के गुण इसे कॉन्फ़िगर करने के लिए, जैसा कि नीचे दिखाया गया है।

agent_name.sinks. sink_name.type = value 
agent_name.sinks. sink_name.property2 = value 
agent_name.sinks. sink_name.property3 = value

उदाहरण के लिए, यदि हम विचार करें HDFS sink, निम्नलिखित गुण हैं जिनके लिए हमें इसे कॉन्फ़िगर करने के लिए मान प्रदान करना चाहिए

TwitterAgent.sinks.HDFS.type = hdfs (type name)  
TwitterAgent.sinks.HDFS.hdfs.path = HDFS directory’s Path to store the data

चैनल का वर्णन करना

फ्लुम विभिन्न स्रोतों को स्रोतों और सिंक के बीच डेटा स्थानांतरित करने के लिए प्रदान करता है। इसलिए, स्रोतों और चैनलों के साथ, एजेंट में उपयोग किए जाने वाले चैनल का वर्णन करना आवश्यक है।

प्रत्येक चैनल का वर्णन करने के लिए, आपको आवश्यक गुण सेट करने की आवश्यकता है, जैसा कि नीचे दिखाया गया है।

agent_name.channels.channel_name.type = value 
agent_name.channels.channel_name. property2 = value 
agent_name.channels.channel_name. property3 = value

उदाहरण के लिए, यदि हम विचार करें memory channel, निम्नलिखित गुण हैं जिनके लिए हमें इसे कॉन्फ़िगर करने के लिए मान प्रदान करना चाहिए

TwitterAgent.channels.MemChannel.type = memory (type name)

स्रोत और चैनल को बाइंडिंग

चूंकि चैनल स्रोतों को जोड़ते हैं और डूबते हैं, इसलिए दोनों को चैनल से बांधना आवश्यक है, जैसा कि नीचे दिखाया गया है।

agent_name.sources.source_name.channels = channel_name 
agent_name.sinks.sink_name.channels = channel_name

निम्न उदाहरण दिखाता है कि किसी चैनल पर स्रोतों और सिंक को कैसे बांधा जाए। यहाँ, हम विचार करते हैंtwitter source, memory channel, तथा HDFS sink

TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channels = MemChannel

एक फ्लुम एजेंट शुरू करना

कॉन्फ़िगरेशन के बाद, हमें फ़्लूम एजेंट शुरू करना होगा। यह निम्नानुसार किया जाता है -

$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf 
Dflume.root.logger=DEBUG,console -n TwitterAgent

कहाँ -

  • agent - फ्लूम एजेंट शुरू करने की आज्ञा

  • --conf ,-c<conf> - कॉन्फिगरेशन में कॉन्फिगरेशन फाइल का इस्तेमाल करें

  • -f<file> - एक अनुपलब्ध फ़ाइल पथ निर्दिष्ट करता है, यदि गायब है

  • --name, -n <name> - ट्विटर एजेंट का नाम

  • -D property =value - एक जावा सिस्टम प्रॉपर्टी वैल्यू सेट करता है।

फ्लूम का उपयोग करके, हम विभिन्न सेवाओं से डेटा प्राप्त कर सकते हैं और इसे केंद्रीकृत दुकानों (HDFS और HBase) तक पहुँचा सकते हैं। यह अध्याय बताता है कि ट्विटर सेवा से डेटा कैसे प्राप्त करें और इसे अपाचे फ्लूम का उपयोग करके एचडीएफएस में संग्रहीत करें।

जैसा कि फ्लूम आर्किटेक्चर में चर्चा की गई है, एक वेबसर्वर लॉग डेटा उत्पन्न करता है और यह डेटा फ्लूम में एक एजेंट द्वारा एकत्र किया जाता है। चैनल इस डेटा को एक सिंक में रखता है, जो अंततः इसे सेंट्रलाइज्ड स्टोर्स में धकेल देता है।

इस अध्याय में दिए गए उदाहरण में, हम एक एप्लिकेशन बनाएंगे और अपाचे फ्लूम द्वारा प्रदान किए गए प्रयोगात्मक ट्विटर स्रोत का उपयोग करके इसे ट्वीट प्राप्त करेंगे। हम इन ट्वीट्स को HDFS में धकेलने के लिए इन ट्वीट्स और HDFS सिंक को बफर करने के लिए मेमोरी चैनल का उपयोग करेंगे।

ट्विटर डेटा प्राप्त करने के लिए, हमें नीचे दिए गए चरणों का पालन करना होगा -

  • एक ट्विटर एप्लिकेशन बनाएं
  • HDFS स्थापित करें / शुरू करें
  • फ़्लू को कॉन्फ़िगर करें

Twitter अनुप्रयोग बनाना

ट्विटर से ट्वीट प्राप्त करने के लिए, ट्विटर एप्लिकेशन बनाने की आवश्यकता है। ट्विटर एप्लिकेशन बनाने के लिए नीचे दिए गए चरणों का पालन करें।

चरण 1

Twitter एप्लिकेशन बनाने के लिए, निम्न लिंक पर क्लिक करें https://apps.twitter.com/। अपने ट्विटर खाते में साइन इन करें। आपके पास ट्विटर एप्लिकेशन प्रबंधन विंडो होगी जहां आप ट्विटर ऐप्स बना सकते हैं, हटा सकते हैं और प्रबंधित कर सकते हैं।

चरण 2

पर क्लिक करें Create New Appबटन। आपको एक विंडो पर रीडायरेक्ट किया जाएगा जहां आपको एक एप्लिकेशन फॉर्म मिलेगा जिसमें आपको ऐप बनाने के लिए अपना विवरण भरना होगा। वेबसाइट का पता भरते समय, पूरा URL पैटर्न दें, उदाहरण के लिए,http://example.com.

चरण 3

विवरण भरें, स्वीकार करें Developer Agreement समाप्त होने पर, पर क्लिक करें Create your Twitter application buttonजो पृष्ठ के निचले भाग में है। अगर सब कुछ ठीक हो जाता है, तो नीचे दिए गए विवरण के साथ एक ऐप बनाया जाएगा।

चरण 4

के अंतर्गत keys and Access Tokens पृष्ठ के निचले भाग में टैब, आप नामक एक बटन का निरीक्षण कर सकते हैं Create my access token। एक्सेस टोकन जनरेट करने के लिए उस पर क्लिक करें।

चरण 5

अंत में, पर क्लिक करें Test OAuthबटन जो पृष्ठ के दाईं ओर शीर्ष पर है। यह एक पृष्ठ को ले जाएगा जो आपके प्रदर्शित करता हैConsumer key, Consumer secret, Access token, तथा Access token secret। इन विवरणों की प्रतिलिपि बनाएँ। ये फ़्लुम में एजेंट को कॉन्फ़िगर करने के लिए उपयोगी हैं।

HDFS शुरू करना

चूंकि हम HDFS में डेटा स्टोर कर रहे हैं, इसलिए हमें Hadoop को स्थापित / सत्यापित करना होगा। Hadoop को शुरू करें और Flume डेटा को स्टोर करने के लिए इसमें एक फ़ोल्डर बनाएं। Flume को कॉन्फ़िगर करने से पहले नीचे दिए गए चरणों का पालन करें।

चरण 1: Hadoop को स्थापित / सत्यापित करें

Hadoop स्थापित करें । यदि Hadoop आपके सिस्टम में पहले से इंस्टॉल है, तो Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।

$ hadoop version

यदि आपके सिस्टम में Hadoop सम्‍मिलित है, और यदि आपने पथ चर निर्धारित किया है, तो आपको निम्न आउटपुट प्राप्त होंगे -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar

चरण 2: Hadoop शुरू करना

के माध्यम से ब्राउज़ करें sbin Hadoop और स्टार्ट यार्न और Hadoop dfs (वितरित फाइल सिस्टम) की निर्देशिका जैसा कि नीचे दिखाया गया है।

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to 
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to 
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-secondarynamenode-localhost.localdomain.out
  
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to 
   /home/Hadoop/hadoop/logs/yarn-Hadoop-resourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to 
   /home/Hadoop/hadoop/logs/yarn-Hadoop-nodemanager-localhost.localdomain.out

चरण 3: एचडीएफएस में एक निर्देशिका बनाएं

Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। इसके माध्यम से ब्राउज़ करें और नाम के साथ एक निर्देशिका बनाएंtwitter_data नीचे दिखाए अनुसार आवश्यक पथ में।

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/user/Hadoop/twitter_data

फ्लूम का विन्यास

हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण में अपाचे फ्लूम नामक एक प्रायोगिक स्रोत का उपयोग किया गया हैTwitter 1% Firehose मेमोरी चैनल और एचडीएफएस सिंक।

ट्विटर 1% फायरहॉश स्रोत

यह स्रोत अत्यधिक प्रयोगात्मक है। यह स्ट्रीमिंग एपीआई और लगातार डाउनलोड ट्वीट्स का उपयोग करके 1% सैंपल ट्विटर फायरहोज़ से जोड़ता है, उन्हें एवरो प्रारूप में परिवर्तित करता है, और एवरो घटनाओं को डाउनस्ट्रीम फ्लूम सिंक में भेजता है।

हम इस स्रोत को डिफ़ॉल्ट रूप से फ्लूम की स्थापना के साथ प्राप्त करेंगे। jar इस स्रोत से संबंधित फाइलें अंदर स्थित हो सकती हैं lib फ़ोल्डर नीचे दिखाया गया है।

वर्गपथ की स्थापना

ठीक classpath चर lib में Flume का फोल्डर Flume-env.sh नीचे दिखाए अनुसार।

export CLASSPATH=$CLASSPATH:/FLUME_HOME/lib/*

इस स्रोत को इस तरह के विवरण की आवश्यकता है Consumer key, Consumer secret, Access token, तथा Access token secretएक ट्विटर आवेदन की। इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -

  • Channels

  • Source type : org.apache.flume.source.twitter.TwitterSource

  • consumerKey - OAuth उपभोक्ता कुंजी

  • consumerSecret - ओउथ उपभोक्ता रहस्य

  • accessToken - ओउथ पहुंच टोकन

  • accessTokenSecret - ओउथ टोकन रहस्य

  • maxBatchSize- ट्विटर संदेशों की अधिकतम संख्या जो एक ट्विटर बैच में होनी चाहिए। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।

  • maxBatchDurationMillis- बैच बंद करने से पहले प्रतीक्षा करने के लिए अधिकतम मिलीसेकंड की संख्या। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।

चैनल

हम मेमोरी चैनल का उपयोग कर रहे हैं। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को मान प्रदान करना होगा

  • type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में, प्रकार हैMemChannel

  • Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।

  • TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।

HDFS सिंक

यह सिंक HDFS में डेटा लिखता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा

  • Channel

  • type - एचडीएफएस

  • hdfs.path - HDFS में निर्देशिका का पथ जहां डेटा संग्रहीत किया जाना है।

और हम परिदृश्य के आधार पर कुछ वैकल्पिक मान प्रदान कर सकते हैं। नीचे दिए गए एचडीएफएस सिंक के वैकल्पिक गुण हैं जो हम अपने एप्लिकेशन में कॉन्फ़िगर कर रहे हैं।

  • fileType - यह हमारे एचडीएफएस फ़ाइल का आवश्यक फ़ाइल प्रारूप है। SequenceFile, DataStream तथा CompressedStreamइस धारा के साथ तीन प्रकार उपलब्ध हैं। हमारे उदाहरण में, हम उदाहरण का उपयोग कर रहे हैंDataStream

  • writeFormat - या तो पाठ या लेखन योग्य हो सकता है।

  • batchSize- यह HDFS में फ्लश होने से पहले किसी फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 100 है।

  • rollsize- यह एक रोल को ट्रिगर करने के लिए फ़ाइल का आकार है। यह डिफ़ॉल्ट मान 100 है।

  • rollCount- यह लुढ़कने से पहले फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 10 है।

उदाहरण - विन्यास फाइल

नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंtwitter.conf Flume के गोपनीय फ़ोल्डर में।

# Naming the components on the current agent. 
TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS
  
# Describing/Configuring the source 
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey = Your OAuth consumer key
TwitterAgent.sources.Twitter.consumerSecret = Your OAuth consumer secret 
TwitterAgent.sources.Twitter.accessToken = Your OAuth consumer key access token 
TwitterAgent.sources.Twitter.accessTokenSecret = Your OAuth consumer key access token secret 
TwitterAgent.sources.Twitter.keywords = tutorials point,java, bigdata, mapreduce, mahout, hbase, nosql
  
# Describing/Configuring the sink 

TwitterAgent.sinks.HDFS.type = hdfs 
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/twitter_data/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream 
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text 
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0 
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000 
 
# Describing/Configuring the channel 
TwitterAgent.channels.MemChannel.type = memory 
TwitterAgent.channels.MemChannel.capacity = 10000 
TwitterAgent.channels.MemChannel.transactionCapacity = 100
  
# Binding the source and sink to the channel 
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel

क्रियान्वयन

फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।

$ cd $FLUME_HOME 
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf 
Dflume.root.logger=DEBUG,console -n TwitterAgent

अगर सब कुछ ठीक रहा तो एचडीएफएस में ट्वीट्स की स्ट्रीमिंग शुरू हो जाएगी। नीचे दिए गए ट्वीट्स को लाते समय कमांड प्रॉम्प्ट विंडो का स्नैपशॉट है।

एचडीएफएस का सत्यापन

आप नीचे दिए गए URL का उपयोग करके Hadoop व्यवस्थापन वेब UI तक पहुँच सकते हैं।

http://localhost:50070/

नाम के ड्रॉपडाउन पर क्लिक करें Utilitiesपृष्ठ के दाईं ओर। आप नीचे दिए गए स्नैपशॉट में दिखाए गए अनुसार दो विकल्प देख सकते हैं।

पर क्लिक करें Browse the file systemऔर एचडीएफएस निर्देशिका का पथ दर्ज करें जहां आपने ट्वीट संग्रहीत किए हैं। हमारे उदाहरण में, रास्ता होगा/user/Hadoop/twitter_data/। फिर, आप एचडीएफएस में संग्रहीत ट्विटर लॉग फ़ाइलों की सूची नीचे दिए गए अनुसार देख सकते हैं।

पिछले अध्याय में, हमने देखा है कि ट्विटर स्रोत से HDFS में डेटा कैसे लाया जाए। यह अध्याय बताता है कि डेटा कैसे लाया जाएSequence generator

आवश्यक शर्तें

इस अध्याय में दिए गए उदाहरण को चलाने के लिए, आपको इंस्टॉल करने की आवश्यकता है HDFS साथ में Flume। इसलिए, Hadoop स्थापना को सत्यापित करें और आगे बढ़ने से पहले HDFS शुरू करें। (एचडीएफएस कैसे शुरू करें, यह जानने के लिए पिछले अध्याय का संदर्भ लें)।

फ्लूम का विन्यास

हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण a का उपयोग करता हैsequence generator source, ए memory channel, और एक HDFS sink

अनुक्रम जेनरेटर स्रोत

यह वह स्रोत है जो लगातार घटनाओं को उत्पन्न करता है। यह एक काउंटर को बनाए रखता है जो 0 से शुरू होता है और 1 से वृद्धि होती है। इसका उपयोग परीक्षण उद्देश्य के लिए किया जाता है। इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -

  • Channels

  • Source type - seq

चैनल

हम उपयोग कर रहे हैं memoryचैनल। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को एक मूल्य प्रदान करना होगा । नीचे दिए गए गुणों की सूची है जो आपको स्मृति चैनल को कॉन्फ़िगर करते समय आपूर्ति करने की आवश्यकता है -

  • type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में प्रकार MemChannel है।

  • Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 है। (वैकल्पिक)

  • TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट 100 है। (वैकल्पिक)।

HDFS सिंक

यह सिंक HDFS में डेटा लिखता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा

  • Channel

  • type - एचडीएफएस

  • hdfs.path - HDFS में निर्देशिका का पथ जहां डेटा संग्रहीत किया जाना है।

और हम परिदृश्य के आधार पर कुछ वैकल्पिक मान प्रदान कर सकते हैं। नीचे दिए गए एचडीएफएस सिंक के वैकल्पिक गुण हैं जो हम अपने एप्लिकेशन में कॉन्फ़िगर कर रहे हैं।

  • fileType - यह हमारे एचडीएफएस फ़ाइल का आवश्यक फ़ाइल प्रारूप है। SequenceFile, DataStream तथा CompressedStreamइस धारा के साथ तीन प्रकार उपलब्ध हैं। हमारे उदाहरण में, हम उदाहरण का उपयोग कर रहे हैंDataStream

  • writeFormat - या तो पाठ या लेखन योग्य हो सकता है।

  • batchSize- यह HDFS में फ्लश होने से पहले किसी फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 100 है।

  • rollsize- यह एक रोल को ट्रिगर करने के लिए फ़ाइल का आकार है। यह डिफ़ॉल्ट मान 100 है।

  • rollCount- यह लुढ़कने से पहले फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 10 है।

उदाहरण - विन्यास फाइल

नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंseq_gen .conf Flume के गोपनीय फ़ोल्डर में।

# Naming the components on the current agent 

SeqGenAgent.sources = SeqSource   
SeqGenAgent.channels = MemChannel 
SeqGenAgent.sinks = HDFS 
 
# Describing/Configuring the source 
SeqGenAgent.sources.SeqSource.type = seq
  
# Describing/Configuring the sink
SeqGenAgent.sinks.HDFS.type = hdfs 
SeqGenAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/seqgen_data/
SeqGenAgent.sinks.HDFS.hdfs.filePrefix = log 
SeqGenAgent.sinks.HDFS.hdfs.rollInterval = 0
SeqGenAgent.sinks.HDFS.hdfs.rollCount = 10000
SeqGenAgent.sinks.HDFS.hdfs.fileType = DataStream 
 
# Describing/Configuring the channel 
SeqGenAgent.channels.MemChannel.type = memory 
SeqGenAgent.channels.MemChannel.capacity = 1000 
SeqGenAgent.channels.MemChannel.transactionCapacity = 100 
 
# Binding the source and sink to the channel 
SeqGenAgent.sources.SeqSource.channels = MemChannel
SeqGenAgent.sinks.HDFS.channel = MemChannel

क्रियान्वयन

फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।

$ cd $FLUME_HOME 
$./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/seq_gen.conf 
   --name SeqGenAgent

यदि सब कुछ ठीक हो जाता है, तो स्रोत अनुक्रम संख्या उत्पन्न करना शुरू कर देता है जिसे लॉग फ़ाइलों के रूप में एचडीएफएस में धकेल दिया जाएगा।

नीचे दिए गए कमांड प्रॉम्प्ट द्वारा एचडीएफएस में अनुक्रम जनरेटर द्वारा उत्पन्न डेटा को प्राप्त करने का एक स्नैपशॉट है।

एचडीएफएस का सत्यापन

आप निम्न URL का उपयोग करके Hadoop व्यवस्थापन वेब UI तक पहुँच सकते हैं -

http://localhost:50070/

नाम के ड्रॉपडाउन पर क्लिक करें Utilitiesपृष्ठ के दाईं ओर। आप नीचे दिए गए चित्र में दिखाए गए अनुसार दो विकल्प देख सकते हैं।

पर क्लिक करें Browse the file system और HDFS निर्देशिका का पथ दर्ज करें जहां आपने अनुक्रम जनरेटर द्वारा उत्पन्न डेटा संग्रहीत किया है।

हमारे उदाहरण में, रास्ता होगा /user/Hadoop/ seqgen_data /। फिर, आप अनुक्रम जनरेटर द्वारा उत्पन्न लॉग फ़ाइलों की सूची देख सकते हैं, नीचे दिए गए अनुसार एचडीएफएस में संग्रहीत।

फ़ाइल की सामग्री का सत्यापन

इन सभी लॉग फ़ाइलों में अनुक्रमिक प्रारूप में नंबर होते हैं। आप फ़ाइल सिस्टम में इन फ़ाइल की सामग्री को सत्यापित कर सकते हैंcat जैसा कि नीचे दिखाया गया है।

यह अध्याय यह समझाने के लिए एक उदाहरण लेता है कि आप घटनाओं को कैसे उत्पन्न कर सकते हैं और बाद में उन्हें कंसोल में लॉग इन करें। इसके लिए, हम उपयोग कर रहे हैंNetCat स्रोत और logger सिंक।

आवश्यक शर्तें

इस अध्याय में दिए गए उदाहरण को चलाने के लिए, आपको इंस्टॉल करने की आवश्यकता है Flume

फ्लूम का विन्यास

हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण a का उपयोग करता हैNetCat Source, Memory channel, और ए logger sink

नेटकैट स्रोत

नेटकैट स्रोत को कॉन्फ़िगर करते समय, हमें स्रोत को कॉन्फ़िगर करते समय एक पोर्ट निर्दिष्ट करना होगा। अब स्रोत (नेटकैट स्रोत) दिए गए पोर्ट को सुनता है और प्रत्येक पोर्ट को हम उस पोर्ट में एक व्यक्तिगत घटना के रूप में दर्ज करता है और उसे निर्दिष्ट चैनल के माध्यम से सिंक में स्थानांतरित करता है।

इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -

  • channels

  • Source type - नेटकैट

  • bind - होस्ट नाम या आईपी पते को बांधने के लिए।

  • port - पोर्ट नंबर जिससे हम स्रोत को सुनना चाहते हैं।

चैनल

हम उपयोग कर रहे हैं memoryचैनल। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को एक मूल्य प्रदान करना होगा । नीचे दिए गए गुणों की सूची है जो आपको स्मृति चैनल को कॉन्फ़िगर करते समय आपूर्ति करने की आवश्यकता है -

  • type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में, प्रकार हैMemChannel

  • Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 है। (वैकल्पिक)

  • TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट मान 100 है। (वैकल्पिक)

लकड़हारा सिंक

यह सिंक इसमें पारित सभी घटनाओं को लॉग करता है। आम तौर पर, इसका उपयोग परीक्षण या डिबगिंग उद्देश्य के लिए किया जाता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा।

  • Channel

  • type - लकड़हारा

उदाहरण विन्यास फाइल

नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंnetcat.conf Flume के गोपनीय फ़ोल्डर में।

# Naming the components on the current agent
NetcatAgent.sources = Netcat   
NetcatAgent.channels = MemChannel 
NetcatAgent.sinks = LoggerSink  

# Describing/Configuring the source 
NetcatAgent.sources.Netcat.type = netcat 
NetcatAgent.sources.Netcat.bind = localhost
NetcatAgent.sources.Netcat.port = 56565  

# Describing/Configuring the sink 
NetcatAgent.sinks.LoggerSink.type = logger  

# Describing/Configuring the channel 
NetcatAgent.channels.MemChannel.type = memory 
NetcatAgent.channels.MemChannel.capacity = 1000 
NetcatAgent.channels.MemChannel.transactionCapacity = 100 
 
# Bind the source and sink to the channel 
NetcatAgent.sources.Netcat.channels = MemChannel
NetcatAgent.sinks. LoggerSink.channel = MemChannel

क्रियान्वयन

फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।

$ cd $FLUME_HOME
$ ./bin/flume-ng agent --conf $FLUME_CONF --conf-file $FLUME_CONF/netcat.conf 
   --name NetcatAgent -Dflume.root.logger=INFO,console

यदि सब कुछ ठीक हो जाता है, तो स्रोत दिए गए पोर्ट को सुनना शुरू कर देता है। इस मामले में, यह है56565। नीचे एक नेटकाट स्रोत के कमांड प्रॉम्प्ट विंडो का स्नैपशॉट दिया गया है जो कि 56565 पोर्ट को शुरू और सुन रहा है।

स्रोत को डेटा पास करना

NetCat स्रोत में डेटा पास करने के लिए, आपको कॉन्फ़िगरेशन फ़ाइल में दिए गए पोर्ट को खोलना होगा। एक अलग टर्मिनल खोलें और स्रोत (56565) से कनेक्ट करेंcurlआदेश। जब कनेक्शन सफल होता है, तो आपको एक संदेश मिलेगा "connected" जैसा की नीचे दिखाया गया।

$ curl telnet://localhost:56565 
connected

अब आप अपनी डेटा लाइन को लाइन में प्रवेश कर सकते हैं (प्रत्येक लाइन के बाद, आपको एंटर दबाना होगा)। NetCat स्रोत प्रत्येक पंक्ति को एक व्यक्तिगत घटना के रूप में प्राप्त करता है और आपको एक संदेश प्राप्त होगा "OK"।

जब भी आपको पासिंग डेटा के साथ किया जाता है, तो आप दबाकर कंसोल से बाहर निकल सकते हैं (Ctrl+C)। नीचे दिया गया कंसोल का स्नैपशॉट है जहां हमने स्रोत का उपयोग करके कनेक्ट किया हैcurl आदेश।

उपरोक्त कंसोल में दर्ज की गई प्रत्येक पंक्ति को स्रोत द्वारा एक व्यक्तिगत घटना के रूप में प्राप्त किया जाएगा। जब से हमने इस्तेमाल किया हैLogger सिंक, इन घटनाओं को निर्दिष्ट चैनल (इस मामले में मेमोरी चैनल) के माध्यम से कंसोल (स्रोत कंसोल) पर लॉग इन किया जाएगा।

निम्न स्नैपशॉट NetCat कंसोल दिखाता है जहाँ ईवेंट लॉग किए गए हैं।