अपाचे फ्लूम - ट्विटर डेटा प्राप्त करना
फ्लूम का उपयोग करके, हम विभिन्न सेवाओं से डेटा प्राप्त कर सकते हैं और इसे केंद्रीकृत दुकानों (HDFS और HBase) तक पहुँचा सकते हैं। यह अध्याय बताता है कि ट्विटर सेवा से डेटा कैसे प्राप्त करें और इसे अपाचे फ्लूम का उपयोग करके एचडीएफएस में संग्रहीत करें।
जैसा कि फ्लूम आर्किटेक्चर में चर्चा की गई है, एक वेबसर्वर लॉग डेटा उत्पन्न करता है और यह डेटा फ्लूम में एक एजेंट द्वारा एकत्र किया जाता है। चैनल इस डेटा को एक सिंक में रखता है, जो अंततः इसे सेंट्रलाइज्ड स्टोर्स में धकेल देता है।
इस अध्याय में दिए गए उदाहरण में, हम एक एप्लिकेशन बनाएंगे और अपाचे फ्लूम द्वारा प्रदान किए गए प्रयोगात्मक ट्विटर स्रोत का उपयोग करके इसे ट्वीट प्राप्त करेंगे। हम इन ट्वीट्स को HDFS में धकेलने के लिए इन ट्वीट्स और HDFS सिंक को बफर करने के लिए मेमोरी चैनल का उपयोग करेंगे।
ट्विटर डेटा प्राप्त करने के लिए, हमें नीचे दिए गए चरणों का पालन करना होगा -
- एक ट्विटर एप्लिकेशन बनाएं
- HDFS स्थापित करें / शुरू करें
- फ़्लू को कॉन्फ़िगर करें
Twitter अनुप्रयोग बनाना
ट्विटर से ट्वीट प्राप्त करने के लिए, ट्विटर एप्लिकेशन बनाने की आवश्यकता है। ट्विटर एप्लिकेशन बनाने के लिए नीचे दिए गए चरणों का पालन करें।
चरण 1
Twitter एप्लिकेशन बनाने के लिए, निम्न लिंक पर क्लिक करें https://apps.twitter.com/। अपने ट्विटर खाते में साइन इन करें। आपके पास ट्विटर एप्लिकेशन प्रबंधन विंडो होगी जहां आप ट्विटर ऐप्स बना सकते हैं, हटा सकते हैं और प्रबंधित कर सकते हैं।
चरण 2
पर क्लिक करें Create New Appबटन। आपको एक विंडो पर रीडायरेक्ट किया जाएगा जहां आपको एक एप्लिकेशन फॉर्म मिलेगा जिसमें आपको ऐप बनाने के लिए अपना विवरण भरना होगा। वेबसाइट का पता भरते समय, पूरा URL पैटर्न दें, उदाहरण के लिए,http://example.com.
चरण 3
विवरण भरें, स्वीकार करें Developer Agreement समाप्त होने पर, पर क्लिक करें Create your Twitter application buttonजो पृष्ठ के निचले भाग में है। अगर सब कुछ ठीक हो जाता है, तो नीचे दिए गए विवरण के साथ एक ऐप बनाया जाएगा।
चरण 4
के अंतर्गत keys and Access Tokens पृष्ठ के निचले भाग में टैब, आप नामक एक बटन का निरीक्षण कर सकते हैं Create my access token। एक्सेस टोकन जनरेट करने के लिए उस पर क्लिक करें।
चरण 5
अंत में, पर क्लिक करें Test OAuthबटन जो पृष्ठ के दाईं ओर शीर्ष पर है। यह एक पृष्ठ को ले जाएगा जो आपके प्रदर्शित करता हैConsumer key, Consumer secret, Access token, तथा Access token secret। इन विवरणों की प्रतिलिपि बनाएँ। ये फ़्लुम में एजेंट को कॉन्फ़िगर करने के लिए उपयोगी हैं।
HDFS शुरू करना
चूंकि हम HDFS में डेटा स्टोर कर रहे हैं, इसलिए हमें Hadoop को स्थापित / सत्यापित करना होगा। Hadoop को शुरू करें और Flume डेटा को स्टोर करने के लिए इसमें एक फ़ोल्डर बनाएं। Flume को कॉन्फ़िगर करने से पहले नीचे दिए गए चरणों का पालन करें।
चरण 1: Hadoop को स्थापित / सत्यापित करें
Hadoop स्थापित करें । यदि Hadoop आपके सिस्टम में पहले से इंस्टॉल है, तो Hadoop संस्करण कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें, जैसा कि नीचे दिखाया गया है।
$ hadoop version
यदि आपके सिस्टम में Hadoop सम्मिलित है, और यदि आपने पथ चर निर्धारित किया है, तो आपको निम्न आउटपुट प्राप्त होंगे -
Hadoop 2.6.0
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar
चरण 2: Hadoop शुरू करना
के माध्यम से ब्राउज़ करें sbin Hadoop और स्टार्ट यार्न और Hadoop dfs (वितरित फाइल सिस्टम) की निर्देशिका जैसा कि नीचे दिखाया गया है।
cd /$Hadoop_Home/sbin/
$ start-dfs.sh
localhost: starting namenode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-namenode-localhost.localdomain.out
localhost: starting datanode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-datanode-localhost.localdomain.out
Starting secondary namenodes [0.0.0.0]
starting secondarynamenode, logging to
/home/Hadoop/hadoop/logs/hadoop-Hadoop-secondarynamenode-localhost.localdomain.out
$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to
/home/Hadoop/hadoop/logs/yarn-Hadoop-resourcemanager-localhost.localdomain.out
localhost: starting nodemanager, logging to
/home/Hadoop/hadoop/logs/yarn-Hadoop-nodemanager-localhost.localdomain.out
चरण 3: एचडीएफएस में एक निर्देशिका बनाएं
Hadoop DFS में, आप कमांड का उपयोग करके डायरेक्टरी बना सकते हैं mkdir। इसके माध्यम से ब्राउज़ करें और नाम के साथ एक निर्देशिका बनाएंtwitter_data नीचे दिखाए अनुसार आवश्यक पथ में।
$cd /$Hadoop_Home/bin/
$ hdfs dfs -mkdir hdfs://localhost:9000/user/Hadoop/twitter_data
फ्लूम का विन्यास
हमें स्रोत, चैनल और सिंक को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके कॉन्फ़िगर करना होगा confफ़ोल्डर। इस अध्याय में दिए गए उदाहरण में अपाचे फ्लूम नामक एक प्रायोगिक स्रोत का उपयोग किया गया हैTwitter 1% Firehose मेमोरी चैनल और एचडीएफएस सिंक।
ट्विटर 1% फायरहॉश स्रोत
यह स्रोत अत्यधिक प्रयोगात्मक है। यह स्ट्रीमिंग एपीआई और लगातार डाउनलोड ट्वीट्स का उपयोग करके 1% सैंपल ट्विटर फायरहोज़ से जोड़ता है, उन्हें एवरो प्रारूप में परिवर्तित करता है, और एवरो घटनाओं को डाउनस्ट्रीम फ्लूम सिंक में भेजता है।
हम इस स्रोत को डिफ़ॉल्ट रूप से फ्लूम की स्थापना के साथ प्राप्त करेंगे। jar इस स्रोत से संबंधित फाइलें अंदर स्थित हो सकती हैं lib फ़ोल्डर नीचे दिखाया गया है।
वर्गपथ की स्थापना
ठीक classpath चर lib में Flume का फोल्डर Flume-env.sh नीचे दिखाए अनुसार।
export CLASSPATH=$CLASSPATH:/FLUME_HOME/lib/*
इस स्रोत को इस तरह के विवरण की आवश्यकता है Consumer key, Consumer secret, Access token, तथा Access token secretएक ट्विटर आवेदन की। इस स्रोत को कॉन्फ़िगर करते समय, आपको निम्नलिखित गुणों को मान प्रदान करना होगा -
Channels
Source type : org.apache.flume.source.twitter.TwitterSource
consumerKey - OAuth उपभोक्ता कुंजी
consumerSecret - ओउथ उपभोक्ता रहस्य
accessToken - ओउथ पहुंच टोकन
accessTokenSecret - ओउथ टोकन रहस्य
maxBatchSize- ट्विटर संदेशों की अधिकतम संख्या जो एक ट्विटर बैच में होनी चाहिए। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।
maxBatchDurationMillis- बैच बंद करने से पहले प्रतीक्षा करने के लिए अधिकतम मिलीसेकंड की संख्या। डिफ़ॉल्ट मान 1000 (वैकल्पिक) है।
चैनल
हम मेमोरी चैनल का उपयोग कर रहे हैं। मेमोरी चैनल को कॉन्फ़िगर करने के लिए, आपको चैनल के प्रकार को मान प्रदान करना होगा ।
type- यह चैनल का प्रकार रखता है। हमारे उदाहरण में, प्रकार हैMemChannel।
Capacity- यह चैनल में संग्रहीत घटनाओं की अधिकतम संख्या है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।
TransactionCapacity- यह अधिकतम घटनाओं की संख्या है जिसे चैनल स्वीकार या भेजता है। इसका डिफ़ॉल्ट मान 100 (वैकल्पिक) है।
HDFS सिंक
यह सिंक HDFS में डेटा लिखता है। इस सिंक को कॉन्फ़िगर करने के लिए, आपको निम्नलिखित विवरण प्रदान करना होगा ।
Channel
type - एचडीएफएस
hdfs.path - HDFS में निर्देशिका का पथ जहां डेटा संग्रहीत किया जाना है।
और हम परिदृश्य के आधार पर कुछ वैकल्पिक मान प्रदान कर सकते हैं। नीचे दिए गए एचडीएफएस सिंक के वैकल्पिक गुण हैं जो हम अपने एप्लिकेशन में कॉन्फ़िगर कर रहे हैं।
fileType - यह हमारे एचडीएफएस फ़ाइल का आवश्यक फ़ाइल प्रारूप है। SequenceFile, DataStream तथा CompressedStreamइस धारा के साथ तीन प्रकार उपलब्ध हैं। हमारे उदाहरण में, हम उदाहरण का उपयोग कर रहे हैंDataStream।
writeFormat - या तो पाठ या लेखन योग्य हो सकता है।
batchSize- यह HDFS में फ्लश होने से पहले किसी फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 100 है।
rollsize- यह एक रोल को ट्रिगर करने के लिए फ़ाइल का आकार है। यह डिफ़ॉल्ट मान 100 है।
rollCount- यह लुढ़कने से पहले फ़ाइल में लिखी गई घटनाओं की संख्या है। इसका डिफ़ॉल्ट मान 10 है।
उदाहरण - विन्यास फाइल
नीचे दिया गया कॉन्फ़िगरेशन फ़ाइल का एक उदाहरण है। इस सामग्री को कॉपी करें और इस रूप में सहेजेंtwitter.conf Flume के गोपनीय फ़ोल्डर में।
# Naming the components on the current agent.
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
# Describing/Configuring the source
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey = Your OAuth consumer key
TwitterAgent.sources.Twitter.consumerSecret = Your OAuth consumer secret
TwitterAgent.sources.Twitter.accessToken = Your OAuth consumer key access token
TwitterAgent.sources.Twitter.accessTokenSecret = Your OAuth consumer key access token secret
TwitterAgent.sources.Twitter.keywords = tutorials point,java, bigdata, mapreduce, mahout, hbase, nosql
# Describing/Configuring the sink
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:9000/user/Hadoop/twitter_data/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000
# Describing/Configuring the channel
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100
# Binding the source and sink to the channel
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel
क्रियान्वयन
फ़्ल्यूम होम निर्देशिका के माध्यम से ब्राउज़ करें और नीचे दिखाए गए अनुसार एप्लिकेशन निष्पादित करें।
$ cd $FLUME_HOME
$ bin/flume-ng agent --conf ./conf/ -f conf/twitter.conf
Dflume.root.logger=DEBUG,console -n TwitterAgent
अगर सब कुछ ठीक रहा तो एचडीएफएस में ट्वीट्स की स्ट्रीमिंग शुरू हो जाएगी। नीचे दिए गए ट्वीट्स को लाते समय कमांड प्रॉम्प्ट विंडो का स्नैपशॉट है।
एचडीएफएस का सत्यापन
आप नीचे दिए गए URL का उपयोग करके Hadoop व्यवस्थापन वेब UI तक पहुँच सकते हैं।
http://localhost:50070/
नाम के ड्रॉपडाउन पर क्लिक करें Utilitiesपृष्ठ के दाईं ओर। आप नीचे दिए गए स्नैपशॉट में दिखाए गए अनुसार दो विकल्प देख सकते हैं।
पर क्लिक करें Browse the file systemऔर एचडीएफएस निर्देशिका का पथ दर्ज करें जहां आपने ट्वीट संग्रहीत किए हैं। हमारे उदाहरण में, रास्ता होगा/user/Hadoop/twitter_data/। फिर, आप एचडीएफएस में संग्रहीत ट्विटर लॉग फ़ाइलों की सूची नीचे दिए गए अनुसार देख सकते हैं।