अपाचे फ्लूम - ट्विटर डेटा प्राप्त करना

फ्लूम का उपयोग करके, हम विभिन्न सेवाओं से डेटा प्राप्त कर सकते हैं और इसे केंद्रीकृत दुकानों (HDFS और HBase) तक पहुँचा सकते हैं। यह अध्याय बताता है कि ट्विटर सेवा से डेटा कैसे प्राप्त करें और इसे अपाचे फ्लूम का उपयोग करके एचडीएफएस में संग्रहीत करें।

जैसा कि फ्लूम आर्किटेक्चर में चर्चा की गई है, एक वेबसर्वर लॉग डेटा उत्पन्न करता है और यह डेटा फ्लूम में एक एजेंट द्वारा एकत्र किया जाता है। चैनल इस डेटा को एक सिंक में रखता है, जो अंततः इसे सेंट्रलाइज्ड स्टोर्स में धकेल देता है।

इस अध्याय में दिए गए उदाहरण में, हम एक एप्लिकेशन बनाएंगे और अपाचे फ्लूम द्वारा प्रदान किए गए प्रयोगात्मक ट्विटर स्रोत का उपयोग करके इसे ट्वीट प्राप्त करेंगे। हम इन ट्वीट्स को HDFS में धकेलने के लिए इन ट्वीट्स और HDFS सिंक को बफर करने के लिए मेमोरी चैनल का उपयोग करेंगे।

ट्विटर डेटा प्राप्त करने के लिए, हमें नीचे दिए गए चरणों का पालन करना होगा -

  • एक ट्विटर एप्लिकेशन बनाएं
  • HDFS स्थापित करें / शुरू करें
  • फ़्लू को कॉन्फ़िगर करें

Twitter अनुप्रयोग बनाना

ट्विटर से ट्वीट प्राप्त करने के लिए, ट्विटर एप्लिकेशन बनाने की आवश्यकता है। ट्विटर एप्लिकेशन बनाने के लिए नीचे दिए गए चरणों का पालन करें।

चरण 1

Twitter एप्लिकेशन बनाने के लिए, निम्न लिंक पर क्लिक करें https://apps.twitter.com/। अपने ट्विटर खाते में साइन इन करें। आपके पास ट्विटर एप्लिकेशन प्रबंधन विंडो होगी जहां आप ट्विटर ऐप्स बना सकते हैं, हटा सकते हैं और प्रबंधित कर सकते हैं।

चरण 2

पर क्लिक करें Create New Appबटन। आपको एक विंडो पर रीडायरेक्ट किया जाएगा जहां आपको एक एप्लिकेशन फॉर्म मिलेगा जिसमें आपको ऐप बनाने के लिए अपना विवरण भरना होगा। वेबसाइट का पता भरते समय, पूरा URL पैटर्न दें, उदाहरण के लिए,http://example.com.

चरण 3

विवरण भरें, स्वीकार करें Developer Agreement समाप्त होने पर, पर क्लिक करें Create your Twitter application buttonजो पृष्ठ के निचले भाग में है। अगर सब कुछ ठीक हो जाता है, तो नीचे दिए गए विवरण के साथ एक ऐप बनाया जाएगा।

चरण 4

के अंतर्गत keys and Access Tokens पृष्ठ के निचले भाग में टैब, आप नामक एक बटन का निरीक्षण कर सकते हैं Create my access token। एक्सेस टोकन जनरेट करने के लिए उस पर क्लिक करें।

चरण 5

अंत में, पर क्लिक करें Test OAuthबटन जो पृष्ठ के दाईं ओर शीर्ष पर है। यह एक पृष्ठ को ले जाएगा जो आपके प्रदर्शित करता हैConsumer key, Consumer secret, Access token, तथा Access token secret। इन विवरणों की प्रतिलिपि बनाएँ। ये फ़्लुम में एजेंट को कॉन्फ़िगर करने के लिए उपयोगी हैं।

HDFS शुरू करना

चूंकि हम HDFS में डेटा स्टोर कर रहे हैं, इसलिए हमें Hadoop को स्थापित / सत्यापित करना होगा। Hadoop को शुरू करें और Flume डेटा को स्टोर करने के लिए इसमें एक फ़ोल्डर बनाएं। Flume को कॉन्फ़िगर करने से पहले नीचे दिए गए चरणों का पालन करें।

चरण 1: Hadoop को स्थापित / सत्यापित करें

Hadoop स्थापित करें । यदि Hadoop आपके सिस्टम में पहले से इंस्टॉल है, तो Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।

$ hadoop version

यदि आपके सिस्टम में Hadoop सम्‍मिलित है, और यदि आपने पथ चर निर्धारित किया है, तो आपको निम्न आउटपुट प्राप्त होंगे -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar

चरण 2: Hadoop शुरू करना

के माध्यम से ब्राउज़ करें sbin Hadoop और स्टार्ट यार्न और Hadoop dfs (वितरित फाइल सिस्टम) की निर्देशिका जैसा कि नीचे दिखाया गया है।

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to 
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to 
   /home/Hadoop/hadoop/logs/hadoop-Hadoop-secondarynamenode-localhost.localdomain.out
  
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to 
   /home/Hadoop/hadoop/logs/yarn-Hadoop-resourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to 
   /home/Hadoop/hadoop/logs/yarn-Hadoop-nodemanager-localhost.localdomain.out

चरण 3: एचडीएफएस में एक निर्देशिका बनाएं

Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। इसके माध्यम से ब्राउज़ करें और नाम के साथ एक निर्देशिका बनाएंtwitter_data नीचे दिखाए अनुसार आवश्यक पथ में।

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/user/Hadoop/twitter_data

फ्लूम का विन्यास

हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण में अपाचे फ्लूम नामक एक प्रायोगिक स्रोत का उपयोग किया गया हैTwitter 1% Firehose मेमोरी चैनल और एचडीएफएस सिंक।

ट्विटर 1% फायरहॉश स्रोत

यह स्रोत अत्यधिक प्रयोगात्मक है। यह स्ट्रीमिंग एपीआई और लगातार डाउनलोड ट्वीट्स का उपयोग करके 1% सैंपल ट्विटर फायरहोज़ से जोड़ता है, उन्हें एवरो प्रारूप में परिवर्तित करता है, और एवरो घटनाओं को डाउनस्ट्रीम फ्लूम सिंक में भेजता है।

हम इस स्रोत को डिफ़ॉल्ट रूप से फ्लूम की स्थापना के साथ प्राप्त करेंगे। jar इस स्रोत से संबंधित फाइलें अंदर स्थित हो सकती हैं lib फ़ोल्डर नीचे दिखाया गया है।

वर्गपथ की स्थापना

ठीक classpath चर lib में Flume का फोल्डर Flume-env.sh नीचे दिखाए अनुसार।

export CLASSPATH=$CLASSPATH:/FLUME_HOME/lib/*

इस स्रोत को इस तरह के विवरण की आवश्यकता है Consumer key, Consumer secret, Access token, तथा Access token secretएक ट्विटर आवेदन की। इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -

  • Channels

  • Source type : org.apache.flume.source.twitter.TwitterSource

  • consumerKey - OAuth उपभोक्ता कुंजी

  • consumerSecret - ओउथ उपभोक्ता रहस्य

  • accessToken - ओउथ पहुंच टोकन

  • accessTokenSecret - ओउथ टोकन रहस्य

  • maxBatchSize- ट्विटर संदेशों की अधिकतम संख्या जो एक ट्विटर बैच में होनी चाहिए। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।

  • maxBatchDurationMillis- बैच बंद करने से पहले प्रतीक्षा करने के लिए अधिकतम मिलीसेकंड की संख्या। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।

चैनल

हम मेमोरी चैनल का उपयोग कर रहे हैं। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को मान प्रदान करना होगा

  • type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में, प्रकार हैMemChannel

  • Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।

  • TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।

HDFS सिंक

यह सिंक HDFS में डेटा लिखता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा

  • Channel

  • type - एचडीएफएस

  • hdfs.path - HDFS में निर्देशिका का पथ जहां डेटा संग्रहीत किया जाना है।

और हम परिदृश्य के आधार पर कुछ वैकल्पिक मान प्रदान कर सकते हैं। नीचे दिए गए एचडीएफएस सिंक के वैकल्पिक गुण हैं जो हम अपने एप्लिकेशन में कॉन्फ़िगर कर रहे हैं।

  • fileType - यह हमारे एचडीएफएस फ़ाइल का आवश्यक फ़ाइल प्रारूप है। SequenceFile, DataStream तथा CompressedStreamइस धारा के साथ तीन प्रकार उपलब्ध हैं। हमारे उदाहरण में, हम उदाहरण का उपयोग कर रहे हैंDataStream

  • writeFormat - या तो पाठ या लेखन योग्य हो सकता है।

  • batchSize- यह HDFS में फ्लश होने से पहले किसी फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 100 है।

  • rollsize- यह एक रोल को ट्रिगर करने के लिए फ़ाइल का आकार है। यह डिफ़ॉल्ट मान 100 है।

  • rollCount- यह लुढ़कने से पहले फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 10 है।

उदाहरण - विन्यास फाइल

नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंtwitter.conf Flume के गोपनीय फ़ोल्डर में।

# Naming the components on the current agent. 
TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS
  
# Describing/Configuring the source 
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey = Your OAuth consumer key
TwitterAgent.sources.Twitter.consumerSecret = Your OAuth consumer secret 
TwitterAgent.sources.Twitter.accessToken = Your OAuth consumer key access token 
TwitterAgent.sources.Twitter.accessTokenSecret = Your OAuth consumer key access token secret 
TwitterAgent.sources.Twitter.keywords = tutorials point,java, bigdata, mapreduce, mahout, hbase, nosql
  
# Describing/Configuring the sink 

TwitterAgent.sinks.HDFS.type = hdfs 
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/twitter_data/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream 
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text 
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0 
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000 
 
# Describing/Configuring the channel 
TwitterAgent.channels.MemChannel.type = memory 
TwitterAgent.channels.MemChannel.capacity = 10000 
TwitterAgent.channels.MemChannel.transactionCapacity = 100
  
# Binding the source and sink to the channel 
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel

क्रियान्वयन

फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।

$ cd $FLUME_HOME 
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf 
Dflume.root.logger=DEBUG,console -n TwitterAgent

अगर सब कुछ ठीक रहा तो एचडीएफएस में ट्वीट्स की स्ट्रीमिंग शुरू हो जाएगी। नीचे दिए गए ट्वीट्स को लाते समय कमांड प्रॉम्प्ट विंडो का स्नैपशॉट है।

एचडीएफएस का सत्यापन

आप नीचे दिए गए URL का उपयोग करके Hadoop व्यवस्थापन वेब UI तक पहुँच सकते हैं।

http://localhost:50070/

नाम के ड्रॉपडाउन पर क्लिक करें Utilitiesपृष्ठ के दाईं ओर। आप नीचे दिए गए स्नैपशॉट में दिखाए गए अनुसार दो विकल्प देख सकते हैं।

पर क्लिक करें Browse the file systemऔर एचडीएफएस निर्देशिका का पथ दर्ज करें जहां आपने ट्वीट संग्रहीत किए हैं। हमारे उदाहरण में, रास्ता होगा/user/Hadoop/twitter_data/। फिर, आप एचडीएफएस में संग्रहीत ट्विटर लॉग फ़ाइलों की सूची नीचे दिए गए अनुसार देख सकते हैं।