MapReduce - त्वरित गाइड
MapReduce अनुप्रयोगों को लिखने के लिए एक प्रोग्रामिंग मॉडल है जो बिग डेटा को कई नोड्स पर समानांतर में संसाधित कर सकता है। MapReduce जटिल डेटा के विशाल मात्रा के विश्लेषण के लिए विश्लेषणात्मक क्षमता प्रदान करता है।
बिग डेटा क्या है?
बिग डेटा बड़े डेटासेट का एक संग्रह है जिसे पारंपरिक कंप्यूटिंग तकनीकों का उपयोग करके संसाधित नहीं किया जा सकता है। उदाहरण के लिए, डेटा या फेसबुक और यूट्यूब की मात्रा को दैनिक आधार पर इकट्ठा करने और प्रबंधित करने की आवश्यकता होती है, बिग डेटा की श्रेणी में आ सकती है। हालांकि, बिग डेटा केवल स्केल और वॉल्यूम के बारे में नहीं है, इसमें निम्न पहलुओं में से एक या अधिक शामिल हैं - वेग, विविधता, वॉल्यूम और जटिलता।
MapReduce क्यों?
पारंपरिक एंटरप्राइज़ सिस्टम में आमतौर पर डेटा को संग्रहीत और संसाधित करने के लिए एक केंद्रीकृत सर्वर होता है। निम्नलिखित चित्रण में एक पारंपरिक उद्यम प्रणाली का एक योजनाबद्ध दृष्टिकोण दर्शाया गया है। पारंपरिक मॉडल निश्चित रूप से स्केलेबल डेटा की बड़ी मात्रा को संसाधित करने के लिए उपयुक्त नहीं है और इसे मानक डेटाबेस सर्वर द्वारा समायोजित नहीं किया जा सकता है। इसके अलावा, केंद्रीकृत प्रणाली एक साथ कई फ़ाइलों को संसाधित करते समय बहुत अधिक अड़चन पैदा करती है।
Google ने MapReduce नामक एल्गोरिथम का उपयोग करके इस अड़चन के मुद्दे को हल किया। MapReduce एक कार्य को छोटे भागों में विभाजित करता है और उन्हें कई कंप्यूटरों को सौंपता है। बाद में, परिणाम एक स्थान पर एकत्र किए जाते हैं और परिणाम डेटासेट बनाने के लिए एकीकृत किया जाता है।
MapReduce कैसे काम करती है?
MapReduce एल्गोरिथ्म में दो महत्वपूर्ण कार्य हैं, अर्थात् मानचित्र और कमी।
मैप कार्य डेटा का एक सेट लेता है और इसे डेटा के दूसरे सेट में परिवर्तित करता है, जहां व्यक्तिगत तत्व ट्यूपल्स (कुंजी-मूल्य जोड़े) में टूट जाते हैं।
Reduce task एक इनपुट के रूप में Map से आउटपुट लेता है और उन डेटा tuples (की-वैल्यू पेयर) को tuples के एक छोटे से सेट में जोड़ता है।
नक्शा कार्य के बाद कम किया गया कार्य हमेशा किया जाता है।
आइए अब हम प्रत्येक चरण पर एक नज़र डालें और उनके महत्व को समझने का प्रयास करें।
Input Phase - यहां हमारे पास एक रिकॉर्ड रीडर है जो प्रत्येक रिकॉर्ड को एक इनपुट फ़ाइल में ट्रांसलेट करता है और कीपर डेटा को की-वैल्यू पेयर के रूप में मैपर को भेजता है।
Map - मानचित्र एक उपयोगकर्ता-परिभाषित फ़ंक्शन है, जो कि-वैल्यू जोड़े की एक श्रृंखला लेता है और उनमें से प्रत्येक को शून्य या अधिक कुंजी-वैल्यू जोड़े बनाने के लिए प्रोसेस करता है।
Intermediate Keys - वे मैपर द्वारा उत्पन्न की-वैल्यू पेयर को इंटरमीडिएट की के रूप में जाना जाता है।
Combiner- एक कंबाइन स्थानीय रेड्यूसर का एक प्रकार है जो मानचित्र चरण से समान डेटा को पहचानने योग्य सेटों में समूहित करता है। यह मैपर से मध्यवर्ती कुंजियों को इनपुट के रूप में लेता है और एक मैपर के छोटे दायरे में मूल्यों को एकत्र करने के लिए उपयोगकर्ता-परिभाषित कोड लागू करता है। यह मुख्य MapReduce एल्गोरिथ्म का हिस्सा नहीं है; यह वैकल्पिक है।
Shuffle and Sort- Reducer कार्य फेरबदल और क्रमबद्ध कदम के साथ शुरू होता है। यह स्थानीय मशीन पर समूहीकृत कुंजी-मूल्य जोड़े डाउनलोड करता है, जहां Reducer चल रहा है। अलग-अलग कुंजी-मूल्य जोड़े एक बड़ी डेटा सूची में कुंजी द्वारा सॉर्ट किए जाते हैं। डेटा सूची समतुल्य कुंजियों को एक साथ समूहित करती है ताकि उनके मान Reducer कार्य में आसानी से पुनरावृत्त हो सकें।
Reducer- Reducer इनपुट के रूप में समूहीकृत कुंजी-मूल्य युग्मित डेटा लेता है और उनमें से प्रत्येक पर Reducer फ़ंक्शन चलाता है। यहां, डेटा को कई तरीकों से एकत्रित, फ़िल्टर और संयोजित किया जा सकता है, और इसके लिए विस्तृत प्रसंस्करण की आवश्यकता होती है। एक बार निष्पादन समाप्त होने के बाद, यह अंतिम चरण में शून्य या अधिक कुंजी-मूल्य जोड़े देता है।
Output Phase - आउटपुट चरण में, हमारे पास एक आउटपुट फॉर्मेटर है जो Reducer फ़ंक्शन से अंतिम कुंजी-मूल्य जोड़े का अनुवाद करता है और उन्हें एक रिकॉर्ड लेखक का उपयोग करके फ़ाइल पर लिखता है।
आइए एक छोटे आरेख की सहायता से दो कार्यों को समझने का प्रयास करें।
MapReduce-उदाहरण
आइए हम MapReduce की शक्ति को समझने के लिए एक वास्तविक दुनिया का उदाहरण लेते हैं। ट्विटर को प्रति दिन लगभग 500 मिलियन ट्वीट मिलते हैं, जो प्रति सेकंड लगभग 3000 ट्वीट्स हैं। निम्नलिखित दृष्टांत से पता चलता है कि ट्वीटर MapReduce की मदद से अपने ट्वीट का प्रबंधन कैसे करता है।
चित्रण में दिखाया गया है, MapReduce एल्गोरिथ्म निम्नलिखित क्रियाएं करता है -
Tokenize - टोकन के नक्शे में ट्वीट्स को टोकन कर उन्हें कुंजी-मूल्य जोड़े के रूप में लिखते हैं।
Filter - टोकन के नक्शे से अवांछित शब्दों को फ़िल्टर करता है और फ़िल्टर किए गए मानचित्रों को कुंजी-मूल्य जोड़े के रूप में लिखता है।
Count - प्रति शब्द एक टोकन काउंटर बनाता है।
Aggregate Counters - छोटे प्रबंधनीय इकाइयों में समान काउंटर मूल्यों का एक समूह तैयार करता है।
MapReduce एल्गोरिथ्म में दो महत्वपूर्ण कार्य हैं, अर्थात् मानचित्र और कमी।
- मैप टास्क मैपर क्लास के माध्यम से किया जाता है
- रिड्यूसर क्लास के माध्यम से कम कार्य किया जाता है।
मैपर वर्ग इनपुट लेता है, इसे टोकन करता है, मैप करता है और इसे सॉर्ट करता है। मैपर वर्ग के आउटपुट का उपयोग Reducer वर्ग द्वारा इनपुट के रूप में किया जाता है, जो बदले में जोड़े को खोजता है और उन्हें कम करता है।
MapReduce विभिन्न गणितीय एल्गोरिदम को एक कार्य को छोटे भागों में विभाजित करने और उन्हें कई प्रणालियों में असाइन करने के लिए लागू करता है। तकनीकी शब्दों में, MapReduce एल्गोरिथ्म मानचित्र और कार्यों को उचित सर्वर में क्लस्टर में भेजने में मदद करता है।
इन गणितीय एल्गोरिदम में निम्नलिखित शामिल हो सकते हैं -
- Sorting
- Searching
- Indexing
- TF-IDF
छंटाई
डेटा को संसाधित करने और उसका विश्लेषण करने के लिए छाँटना मूल MapReduce एल्गोरिदम में से एक है। MapReduce एल्गोरिथ्म को क्रमबद्ध करने के लिए स्वचालित रूप से उनकी कुंजी द्वारा मैपर से आउटपुट की-वैल्यू जोड़े को सॉर्ट करने के लिए छाँटने वाले औजार।
मैपर वर्ग में ही छंटाई के तरीके लागू होते हैं।
शफल और सॉर्ट चरण में, मैपर वर्ग में मूल्यों को टोकन करने के बाद, ए Context वर्ग (उपयोगकर्ता-परिभाषित वर्ग) एक संग्रह के रूप में मिलान योग्य कुंजी एकत्र करता है।
समान कुंजी-मूल्य जोड़े (मध्यवर्ती कुंजी) को इकट्ठा करने के लिए, मैपर वर्ग की मदद लेता है RawComparator मुख्य-मूल्य जोड़े को सॉर्ट करने के लिए क्लास।
किसी दिए गए Reducer के लिए मध्यवर्ती की-वैल्यू पेयर का सेट Hadoop द्वारा स्वचालित रूप से कुंजी-मान (K2, {V2, V2,…}) बनाने के लिए सॉर्ट किया जाता है, ताकि वे Reducer के समक्ष प्रस्तुत किए जा सकें।
खोज कर
MapReduce एल्गोरिथ्म में खोज एक महत्वपूर्ण भूमिका निभाता है। यह कंबाइन चरण (वैकल्पिक) और Reducer चरण में मदद करता है। आइए हम यह समझने की कोशिश करें कि खोज एक उदाहरण की मदद से कैसे काम करता है।
उदाहरण
निम्न उदाहरण से पता चलता है कि MapReduce किसी कर्मचारी के डेटासेट में सबसे अधिक वेतन पाने वाले कर्मचारी के विवरण का पता लगाने के लिए खोज एल्गोरिदम को कैसे नियोजित करता है।
मान लें कि हमारे पास चार अलग-अलग फ़ाइलों में कर्मचारी डेटा है - ए, बी, सी, और डी। हमें यह भी मान लें कि सभी डेटाबेस तालिकाओं से बार-बार कर्मचारी डेटा आयात करने के कारण सभी चार फ़ाइलों में डुप्लिकेट कर्मचारी रिकॉर्ड हैं। निम्नलिखित दृष्टांत देखें।
The Map phaseप्रत्येक इनपुट फ़ाइल को संसाधित करता है और कुंजी-मूल्य जोड़े में कर्मचारी डेटा प्रदान करता है (<k, v>: <एम्प नाम, वेतन>)। निम्नलिखित दृष्टांत देखें।
The combiner phase(खोज तकनीक) मैप चरण से इनपुट को कर्मचारी के नाम और वेतन के साथ एक महत्वपूर्ण-मूल्य जोड़ी के रूप में स्वीकार करेगा। खोज तकनीक का उपयोग करते हुए, कॉम्बिनर प्रत्येक फ़ाइल में उच्चतम वेतन वाले कर्मचारी को खोजने के लिए सभी कर्मचारी वेतन की जांच करेगा। निम्नलिखित स्निपेट देखें।
<k: employee name, v: salary>
Max= the salary of an first employee. Treated as max salary
if(v(second employee).salary > Max){
Max = v(salary);
}
else{
Continue checking;
}
अपेक्षित परिणाम इस प्रकार है -
|
Reducer phase- प्रत्येक फ़ाइल को फॉर्म में, आपको उच्चतम वेतनभोगी कर्मचारी मिलेगा। अतिरेक से बचने के लिए, सभी <k, v> जोड़े की जांच करें और यदि कोई हो, तो डुप्लिकेट प्रविष्टियों को समाप्त करें। समान एल्गोरिथ्म का उपयोग चार <k, v> जोड़े के बीच किया जाता है, जो चार इनपुट फ़ाइलों से आ रहे हैं। अंतिम आउटपुट निम्नानुसार होना चाहिए -
<gopal, 50000>
इंडेक्सिंग
आम तौर पर इंडेक्सिंग का उपयोग किसी विशेष डेटा और उसके पते को इंगित करने के लिए किया जाता है। यह एक विशेष मैपर के लिए इनपुट फाइलों पर बैच इंडेक्सिंग करता है।
MapReduce में सामान्य रूप से उपयोग की जाने वाली अनुक्रमण तकनीक के रूप में जानी जाती है inverted index.Google और बिंग जैसे सर्च इंजन उल्टे इंडेक्सिंग तकनीक का उपयोग करते हैं। आइए हम यह समझने की कोशिश करें कि एक सरल उदाहरण की मदद से अनुक्रमण कैसे काम करता है।
उदाहरण
निम्नलिखित पाठ उल्टे अनुक्रमण के लिए इनपुट है। यहाँ T [0], T [1] और t [2] फ़ाइल नाम हैं और उनकी सामग्री दोहरे उद्धरण चिह्नों में है।
T[0] = "it is what it is"
T[1] = "what is it"
T[2] = "it is a banana"
इंडेक्सिंग एल्गोरिथ्म को लागू करने के बाद, हमें निम्न आउटपुट मिलते हैं -
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
यहाँ "a": {2} का तात्पर्य "a" T [2] फ़ाइल में दिखाई देता है। इसी तरह, ":" है, {0, 1, 2} का तात्पर्य "है" शब्द "टी [0], टी [1] और टी [2] फाइलों में दिखाई देता है।
TF-आईडीएफ
TF-IDF एक टेक्स्ट प्रोसेसिंग एल्गोरिथ्म है जो टर्म फ़्रीक्वेंसी के लिए छोटा है - उलटा डॉक्यूमेंट फ़्रीक्वेंसी। यह सामान्य वेब विश्लेषण एल्गोरिदम में से एक है। यहाँ, 'आवृति' शब्द से तात्पर्य किसी दस्तावेज़ में किसी शब्द के प्रकट होने की संख्या से है।
टर्म फ़्रीक्वेंसी (TF)
यह मापता है कि किसी दस्तावेज़ में कोई विशेष शब्द कितनी बार होता है। यह उस दस्तावेज़ में शब्दों की कुल संख्या से विभाजित दस्तावेज़ में दिखाई देने वाले शब्दों की संख्या से गणना की जाती है।
TF(the) = (Number of times term the ‘the’ appears in a document) / (Total number of terms in the document)
उलटा दस्तावेज़ आवृत्ति (आईडीएफ)
यह एक शब्द के महत्व को मापता है। इसकी गणना पाठ डेटाबेस में दस्तावेजों की संख्या से विभाजित की जाती है जहां दस्तावेजों की संख्या एक विशिष्ट शब्द दिखाई देती है।
TF की गणना करते समय, सभी शब्दों को समान रूप से महत्वपूर्ण माना जाता है। इसका मतलब है कि, TF सामान्य शब्दों की आवृत्ति की गणना करता है जैसे ",", "ए", "क्या", इत्यादि। इस प्रकार हमें निम्नलिखित शब्दों को जानना चाहिए, जबकि दुर्लभ शब्दों को स्केल करते हुए, निम्नलिखित की गणना करके -
IDF(the) = log_e(Total number of documents / Number of documents with term ‘the’ in it).
एक छोटे से उदाहरण की मदद से एल्गोरिथ्म को नीचे समझाया गया है।
उदाहरण
एक दस्तावेज पर विचार करें जिसमें 1000 शब्द हों, जिसमें शब्द हो hive50 बार दिखाई देता है। के लिए TFhive तब (50/1000) = 0.05 है।
अब, मान लें कि हमारे पास 10 मिलियन दस्तावेज और शब्द हैं hiveइनमें से 1000 में दिखाई देता है। फिर, आईडीएफ को लॉग (10,000,000 / 1,000) = 4 के रूप में गणना की जाती है।
टीएफ-आईडीएफ वजन इन मात्राओं का उत्पाद है - 0.05 × 4 = 0.20।
MapReduce केवल Linux फ्लेवर्ड ऑपरेटिंग सिस्टम पर काम करता है और यह एक Hadoop फ्रेमवर्क के साथ इनबिल्ट आता है। हमें Hadoop ढांचे को स्थापित करने के लिए निम्न चरणों का पालन करने की आवश्यकता है।
जावा स्थापना का सत्यापन
Hadoop को स्थापित करने से पहले जावा को आपके सिस्टम पर इंस्टॉल किया जाना चाहिए। आपके सिस्टम पर जावा स्थापित है या नहीं, यह जांचने के लिए निम्नलिखित कमांड का उपयोग करें।
$ java –version
यदि जावा आपके सिस्टम पर पहले से इंस्टॉल है, तो आपको निम्न प्रतिक्रिया देखने को मिलती है -
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
यदि आपके पास जावा आपके सिस्टम पर स्थापित नहीं है, तो नीचे दिए गए चरणों का पालन करें।
जावा को स्थापित करना
चरण 1
निम्न लिंक से जावा का नवीनतम संस्करण डाउनलोड करें - यह लिंक ।
डाउनलोड करने के बाद, आप फ़ाइल का पता लगा सकते हैं jdk-7u71-linux-x64.tar.gz आपके डाउनलोड फ़ोल्डर में।
चरण 2
Jdk-7u71-linux-x64.gz की सामग्री को निकालने के लिए निम्न आदेशों का उपयोग करें।
$ cd Downloads/
$ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
चरण 3
जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट पर जाएं और निम्न कमांड टाइप करें -
$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exit
चरण 4
PATH और JAVA_HOME चर सेट करने के लिए, ~ / .bashrc फ़ाइल में निम्न कमांड जोड़ें।
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
वर्तमान चल रहे सिस्टम में सभी परिवर्तन लागू करें।
$ source ~/.bashrc
चरण 5
जावा विकल्प को कॉन्फ़िगर करने के लिए निम्नलिखित कमांड का उपयोग करें -
# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2
# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar
अब कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें java -version टर्मिनल से।
Hadoop स्थापना का सत्यापन
MapReduce को स्थापित करने से पहले Hadoop को आपके सिस्टम पर इंस्टॉल किया जाना चाहिए। आइए निम्नलिखित कमांड का उपयोग करके Hadoop इंस्टॉलेशन को सत्यापित करें -
$ hadoop version
यदि Hadoop आपके सिस्टम पर पहले से इंस्टॉल है, तो आपको निम्न प्रतिक्रिया मिलेगी -
Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
यदि आपके सिस्टम पर Hadoop स्थापित नहीं है, तो निम्न चरणों के साथ आगे बढ़ें।
Hadoop डाउनलोड करना
अपाचे सॉफ्टवेयर फाउंडेशन से Hadoop 2.4.1 डाउनलोड करें और निम्नलिखित कमांड का उपयोग करके अपनी सामग्री निकालें।
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
छद्म वितरित मोड में Hadoop स्थापित करना
छद्म वितरित मोड में Hadoop 2.4.1 को स्थापित करने के लिए निम्न चरणों का उपयोग किया जाता है।
चरण 1 - Hadoop की स्थापना
आप निम्न कमांड को ~ / .bashrc फ़ाइल में जोड़कर Hadoop परिवेश चर सेट कर सकते हैं।
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
वर्तमान चल रहे सिस्टम में सभी परिवर्तन लागू करें।
$ source ~/.bashrc
चरण 2 - Hadoop कॉन्फ़िगरेशन
आप "HADOOP_HOME / etc / hadoop" स्थान में सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। आपको अपने Hadoop बुनियादी ढांचे के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में उपयुक्त परिवर्तन करने की आवश्यकता है।
$ cd $HADOOP_HOME/etc/hadoop
जावा का उपयोग करके Hadoop कार्यक्रमों को विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh अपने सिस्टम में जावा के स्थान के साथ JAVA_HOME मान को प्रतिस्थापित करके फ़ाइल।
export JAVA_HOME=/usr/local/java
आपको Hadoop को कॉन्फ़िगर करने के लिए निम्न फ़ाइलों को संपादित करना होगा -
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
कोर-site.xml
core-site.xml में निम्नलिखित जानकारी है
- Hadoop उदाहरण के लिए उपयोग किया गया पोर्ट नंबर
- फ़ाइल सिस्टम के लिए आवंटित मेमोरी
- डेटा संग्रहीत करने के लिए मेमोरी सीमा
- पढ़ने / लिखने का आकार बफ़र्स
कोर- site.xml खोलें और <कॉन्फ़िगरेशन> और </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000 </value>
</property>
</configuration>
HDFS-site.xml
hdfs-site.xml में निम्नलिखित जानकारी है -
- प्रतिकृति डेटा का मूल्य
- नामदान मार्ग
- आपके स्थानीय फ़ाइल सिस्टम का डेटाटोड पथ (वह स्थान जहाँ आप Hadoop infra को संग्रहित करना चाहते हैं)
आइए हम निम्नलिखित आंकड़ों को मानते हैं।
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
इस फ़ाइल को खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
</property>
</configuration>
Note - उपरोक्त फ़ाइल में, सभी संपत्ति मूल्य उपयोगकर्ता-परिभाषित हैं और आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।
सूत-site.xml
इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। यार्न- site.xml फ़ाइल खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
इस फ़ाइल का उपयोग MapReduce के ढांचे को निर्दिष्ट करने के लिए किया जाता है। डिफ़ॉल्ट रूप से, Hadoop में यार्न-site.xml का टेम्प्लेट होता है। सबसे पहले, आपको निम्न आदेश का उपयोग करके फ़ाइल को mapred-site.xml.template से mapred-site.xml फ़ाइल में कॉपी करने की आवश्यकता है।
$ cp mapred-site.xml.template mapred-site.xml
Mapred-site.xml फ़ाइल खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop स्थापना का सत्यापन
Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।
चरण 1 - नाम नोड सेटअप
निम्नानुसार कमांड "hdfs namenode -format" का उपयोग करके नेमेनोड सेट करें -
$ cd ~ $ hdfs namenode -format
अपेक्षित परिणाम इस प्रकार है -
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
चरण 2 - सत्यापन Hadoop dfs
अपने Hadoop फ़ाइल सिस्टम को शुरू करने के लिए निम्न कमांड निष्पादित करें।
$ start-dfs.sh
अपेक्षित उत्पादन निम्नानुसार है -
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
चरण 3 - यार्न स्क्रिप्ट का सत्यापन
यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न डेमन शुरू हो जाएंगे।
$ start-yarn.sh
अपेक्षित उत्पादन निम्नानुसार है -
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
चरण 4 - ब्राउज़र पर Hadoop तक पहुँचना
Hadoop तक पहुंचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। अपने ब्राउज़र पर Hadoop सेवाएं प्राप्त करने के लिए निम्न URL का उपयोग करें।
http://localhost:50070/
निम्न स्क्रीनशॉट Hadoop ब्राउज़र को दिखाता है।
चरण 5 - एक क्लस्टर के सभी अनुप्रयोगों को सत्यापित करें
किसी क्लस्टर के सभी अनुप्रयोगों तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा का उपयोग करने के लिए निम्न URL का उपयोग करें।
http://localhost:8088/
निम्न स्क्रीनशॉट एक Hadoop क्लस्टर ब्राउज़र दिखाता है।
इस अध्याय में, हम उन कक्षाओं और उनके तरीकों पर एक नज़र डालेंगे जो मैपरेडेस प्रोग्रामिंग के संचालन में शामिल हैं। हम मुख्य रूप से निम्नलिखित पर अपना ध्यान केंद्रित रखेंगे -
- JobContext इंटरफ़ेस
- जॉब क्लास
- मैपर क्लास
- Reducer वर्ग
JobContext इंटरफ़ेस
JobContext इंटरफ़ेस सभी वर्गों के लिए सुपर इंटरफ़ेस है, जो MapReduce में विभिन्न नौकरियों को परिभाषित करता है। यह आपको नौकरी के बारे में केवल पढ़ने का दृष्टिकोण देता है जो कि काम करते समय प्रदान किया जाता है।
JobContext इंटरफ़ेस के उप-इंटरफ़ेस निम्नलिखित हैं।
क्र.सं. | उपप्रकार का विवरण |
---|---|
1। | MapContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT> उस संदर्भ को परिभाषित करता है जो मैपर को दिया जाता है। |
2। | ReduceContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT> संदर्भ को परिभाषित करता है जो Reducer को दिया जाता है। |
जॉब क्लास मुख्य वर्ग है जो जॉब कॉन्टेक्स्ट इंटरफेस को लागू करता है।
जॉब क्लास
MapReduce API में जॉब क्लास सबसे महत्वपूर्ण क्लास है। यह उपयोगकर्ता को नौकरी को कॉन्फ़िगर करने, जमा करने, उसके निष्पादन को नियंत्रित करने और राज्य को क्वेरी करने की अनुमति देता है। सेट विधियां केवल तब तक काम करती हैं जब तक कि नौकरी प्रस्तुत नहीं की जाती है, बाद में वे एक IllegalStateException फेंक देंगे।
आम तौर पर, उपयोगकर्ता एप्लिकेशन बनाता है, नौकरी के विभिन्न पहलुओं का वर्णन करता है, और फिर नौकरी को प्रस्तुत करता है और इसकी प्रगति की निगरानी करता है।
नौकरी प्रस्तुत करने का एक उदाहरण इस प्रकार है -
// Create a new Job
Job job = new Job(new Configuration());
job.setJarByClass(MyJob.class);
// Specify various job-specific parameters
job.setJobName("myjob");
job.setInputPath(new Path("in"));
job.setOutputPath(new Path("out"));
job.setMapperClass(MyJob.MyMapper.class);
job.setReducerClass(MyJob.MyReducer.class);
// Submit the job, then poll for progress until the job is complete
job.waitForCompletion(true);
कंस्ट्रक्टर्स
जॉब क्लास के निर्माता सारांश निम्नलिखित हैं।
S.No | कंस्ट्रक्टर सारांश |
---|---|
1 | Job() |
2 | Job(कॉन्फ़िगरेशन कॉन्फिग) |
3 | Job(कॉन्फ़िगरेशन मान, स्ट्रिंग नाम |
तरीकों
जॉब क्लास के कुछ महत्वपूर्ण तरीके इस प्रकार हैं -
S.No | विधि का वर्णन |
---|---|
1 | getJobName() उपयोगकर्ता-निर्दिष्ट नौकरी का नाम। |
2 | getJobState() नौकरी की वर्तमान स्थिति लौटाता है। |
3 | isComplete() नौकरी खत्म हो गई है या नहीं, इसकी जांच करें। |
4 | setInputFormatClass() नौकरी के लिए InputFormat सेट करता है। |
5 | setJobName(String name) उपयोगकर्ता-निर्दिष्ट कार्य नाम सेट करता है। |
6 | setOutputFormatClass() कार्य के लिए आउटपुट स्वरूप सेट करता है। |
7 | setMapperClass(Class) नौकरी के लिए मैपर सेट करता है। |
8 | setReducerClass(Class) कार्य के लिए Reducer सेट करता है। |
9 | setPartitionerClass(Class) नौकरी के लिए पार्टीशनर सेट करता है। |
10 | setCombinerClass(Class) जॉब के लिए कंबाइनर सेट करता है। |
मैपर क्लास
मैपर वर्ग मानचित्र नौकरी को परिभाषित करता है। मध्यवर्ती कुंजी-मूल्य जोड़े के एक सेट में मैप्स इनपुट कुंजी-मूल्य जोड़े। मानचित्र व्यक्तिगत कार्य हैं जो इनपुट रिकॉर्ड को मध्यवर्ती रिकॉर्ड में बदलते हैं। रूपांतरित मध्यवर्ती रिकॉर्ड्स को इनपुट रिकॉर्ड्स के समान प्रकार की आवश्यकता नहीं है। एक दी गई इनपुट जोड़ी शून्य या कई आउटपुट जोड़े के लिए मैप कर सकती है।
तरीका
mapमैपर वर्ग की सबसे प्रमुख विधि है। सिंटैक्स को नीचे परिभाषित किया गया है -
map(KEYIN key, VALUEIN value, org.apache.hadoop.mapreduce.Mapper.Context context)
इस विधि को इनपुट स्प्लिट में प्रत्येक की-वैल्यू पेयर के लिए एक बार कहा जाता है।
Reducer वर्ग
Reducer वर्ग MapReduce में Reduce कार्य को परिभाषित करता है। यह मध्यवर्ती मानों के एक सेट को कम करता है जो मानों के एक छोटे समूह की कुंजी साझा करता है। Reducer कार्यान्वयन JobContext.getConfiguration () विधि के माध्यम से किसी कार्य के लिए कॉन्फ़िगरेशन तक पहुँच सकता है। एक Reducer के तीन प्राथमिक चरण हैं - शफल, सॉर्ट और कम करें।
Shuffle - Reducer नेटवर्क पर HTTP का उपयोग करके प्रत्येक मैपर से सॉर्ट किए गए आउटपुट को कॉपी करता है।
Sort- फ्रेमवर्क मर्ज-सॉर्ट करता है Reducer निविष्टियाँ कुंजी द्वारा (क्योंकि अलग-अलग मैपर में समान कुंजी आउटपुट हो सकती है)। फेरबदल और सॉर्ट चरण एक साथ होते हैं, अर्थात, जबकि आउटपुट प्राप्त किए जा रहे हैं, वे मर्ज किए जाते हैं।
Reduce - इस चरण में कम (ऑब्जेक्ट, Iterable, Context) विधि को प्रत्येक के लिए कहा जाता है <कुंजी, (मानों का संग्रह)> क्रमबद्ध इनपुट में।
तरीका
reduceReducer वर्ग की सबसे प्रमुख विधि है। सिंटैक्स को नीचे परिभाषित किया गया है -
reduce(KEYIN key, Iterable<VALUEIN> values, org.apache.hadoop.mapreduce.Reducer.Context context)
कुंजी-मूल्य जोड़े के संग्रह पर प्रत्येक कुंजी के लिए एक बार इस विधि को बुलाया जाता है।
MapReduce एक ऐसा ढांचा है, जो एक विश्वसनीय तरीके से कमोडिटी हार्डवेयर के बड़े समूहों पर डेटा के विशाल मात्रा को संसाधित करने के लिए एप्लिकेशन लिखने के लिए उपयोग किया जाता है। यह अध्याय जावा का उपयोग करके Hadoop ढांचे में MapReduce के संचालन के माध्यम से ले जाता है।
MapReduce एल्गोरिथम
आमतौर पर MapReduce paradigm उन मानचित्रों को कम करने वाले कार्यक्रमों को कंप्यूटर पर भेजने पर आधारित होता है जहाँ वास्तविक डेटा रहता है।
MapReduce की नौकरी के दौरान, Hadoop मैप और कार्य को क्लस्टर में उपयुक्त सर्वर पर भेजता है।
फ़्रेम डेटा-पासिंग के सभी विवरणों को प्रबंधित करता है जैसे कार्य जारी करना, कार्य पूरा करना सत्यापित करना और नोड्स के बीच क्लस्टर के आसपास डेटा की प्रतिलिपि बनाना।
अधिकांश कंप्यूटिंग नेटवर्क ट्रैफ़िक को कम करने वाले स्थानीय डिस्क पर डेटा के साथ नोड्स पर होता है।
दिए गए कार्य को पूरा करने के बाद, क्लस्टर एक उचित परिणाम बनाने के लिए डेटा एकत्र करता है और कम करता है, और इसे Hadoop सर्वर पर वापस भेजता है।
इनपुट्स और आउटपुट (जावा परिप्रेक्ष्य)
MapReduce ढांचा कुंजी-मूल्य जोड़े पर संचालित होता है, अर्थात, फ्रेमवर्क नौकरी के इनपुट को कुंजी-मूल्य जोड़े के सेट के रूप में देखता है और कुंजी-मूल्य जोड़ी के एक सेट का उत्पादन करता है, जो कि विभिन्न प्रकारों के अनुसार होता है।
कुंजी और मूल्य वर्गों को फ्रेमवर्क द्वारा क्रमबद्ध करना पड़ता है और इसलिए, इसे लिखने योग्य इंटरफ़ेस को लागू करना आवश्यक है। इसके अतिरिक्त, प्रमुख वर्गों को रूपरेखा द्वारा छांटने की सुविधा के लिए WritableComparable इंटरफ़ेस को लागू करना है।
MapReduce जॉब का इनपुट और आउटपुट फॉर्मेट दोनों ही कुंजी-वैल्यू पेयर के रूप में हैं -
(इनपुट) <k1, v1> -> नक्शा -> <k2, v2> -> कम -> <k3, v3> (आउटपुट)।
इनपुट | उत्पादन | |
---|---|---|
नक्शा | <k1, v1> | सूची (<k2, v2>) |
कम करना | <k2, सूची (v2)> | सूची (<k3, v3>) |
MapReduce कार्यान्वयन
निम्न तालिका एक संगठन की बिजली की खपत के बारे में डेटा दिखाती है। तालिका में मासिक विद्युत खपत और लगातार पांच वर्षों के लिए वार्षिक औसत शामिल है।
जनवरी | फ़रवरी | मार्च | अप्रैल | मई | जून | जुलाई | अगस्त | सितम्बर | अक्टूबर | नवम्बर | दिसम्बर | औसत | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1979 | 23 | 23 | 2 | 43 | 24 | 25 | 26 | 26 | 26 | 26 | 25 | 26 | 25 |
1980 | 26 | 27 | 28 | 28 | 28 | 30 | 31 | 31 | 31 | 30 | 30 | 30 | 29 |
1981 | 31 | 32 | 32 | 32 | 33 | 34 | 35 | 36 | 36 | 34 | 34 | 34 | 34 |
1984 | 39 | 38 | 39 | 39 | 39 | 41 | 42 | 43 | 40 | 39 | 38 | 38 | 40 |
1985 | 38 | 39 | 39 | 39 | 39 | 41 | 41 | 41 | 00 | 40 | 39 | 39 | 45 |
हमें अधिकतम उपयोग का वर्ष, न्यूनतम उपयोग का वर्ष, और इसी तरह के अन्य कार्यों को खोजने के लिए दिए गए तालिका में इनपुट डेटा को संसाधित करने के लिए एप्लिकेशन लिखना होगा। यह कार्य प्रोग्रामर के लिए रिकॉर्ड की मात्रा के साथ आसान है, क्योंकि वे केवल आवश्यक उत्पादन करने के लिए तर्क लिखेंगे, और लिखित एप्लिकेशन को डेटा पास करेंगे।
चलिए अब इनपुट डेटा के पैमाने को बढ़ाते हैं। मान लें कि हमें किसी विशेष राज्य के सभी बड़े पैमाने के उद्योगों की विद्युत खपत का विश्लेषण करना है। जब हम ऐसे बल्क डेटा को प्रोसेस करने के लिए एप्लिकेशन लिखते हैं,
उन्हें निष्पादित करने में बहुत समय लगेगा।
जब हम स्रोत से नेटवर्क सर्वर पर डेटा स्थानांतरित करेंगे तो भारी नेटवर्क ट्रैफ़िक होगा।
इन समस्याओं को हल करने के लिए, हमारे पास MapReduce ढांचा है।
इनपुट डेटा
उपरोक्त डेटा के रूप में सहेजा गया है sample.txtऔर इनपुट के रूप में दिया गया। इनपुट फ़ाइल नीचे दिखाया गया है।
1979 | 23 | 23 | 2 | 43 | 24 | 25 | 26 | 26 | 26 | 26 | 25 | 26 | 25 |
1980 | 26 | 27 | 28 | 28 | 28 | 30 | 31 | 31 | 31 | 30 | 30 | 30 | 29 |
1981 | 31 | 32 | 32 | 32 | 33 | 34 | 35 | 36 | 36 | 34 | 34 | 34 | 34 |
1984 | 39 | 38 | 39 | 39 | 39 | 41 | 42 | 43 | 40 | 39 | 38 | 38 | 40 |
1985 | 38 | 39 | 39 | 39 | 39 | 41 | 41 | 41 | 00 | 40 | 39 | 39 | 45 |
उदाहरण कार्यक्रम
नमूना डेटा के लिए निम्न प्रोग्राम MapReduce ढांचे का उपयोग करता है।
package hadoop;
import java.util.*;
import java.io.IOException;
import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;
public class ProcessUnits
{
//Mapper class
public static class E_EMapper extends MapReduceBase implements
Mapper<LongWritable, /*Input key Type */
Text, /*Input value Type*/
Text, /*Output key Type*/
IntWritable> /*Output value Type*/
{
//Map function
public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException
{
String line = value.toString();
String lasttoken = null;
StringTokenizer s = new StringTokenizer(line,"\t");
String year = s.nextToken();
while(s.hasMoreTokens()){
lasttoken=s.nextToken();
}
int avgprice = Integer.parseInt(lasttoken);
output.collect(new Text(year), new IntWritable(avgprice));
}
}
//Reducer class
public static class E_EReduce extends MapReduceBase implements
Reducer< Text, IntWritable, Text, IntWritable >
{
//Reduce function
public void reduce(Text key, Iterator <IntWritable> values, OutputCollector>Text, IntWritable> output, Reporter reporter) throws IOException
{
int maxavg=30;
int val=Integer.MIN_VALUE;
while (values.hasNext())
{
if((val=values.next().get())>maxavg)
{
output.collect(key, new IntWritable(val));
}
}
}
}
//Main function
public static void main(String args[])throws Exception
{
JobConf conf = new JobConf(Eleunits.class);
conf.setJobName("max_eletricityunits");
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
conf.setMapperClass(E_EMapper.class);
conf.setCombinerClass(E_EReduce.class);
conf.setReducerClass(E_EReduce.class);
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);
FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
JobClient.runJob(conf);
}
}
उपरोक्त कार्यक्रम में सहेजें ProcessUnits.java। कार्यक्रम का संकलन और निष्पादन नीचे दिया गया है।
ProcessUnits प्रोग्राम का संकलन और निष्पादन
आइए हम मान लें कि हम Hadoop उपयोगकर्ता (जैसे / घर / हैडूप) की होम डायरेक्टरी में हैं।
उपरोक्त कार्यक्रम को संकलित करने और निष्पादित करने के लिए नीचे दिए गए चरणों का पालन करें।
Step 1 - संकलित जावा कक्षाओं को संग्रहीत करने के लिए निर्देशिका बनाने के लिए निम्न कमांड का उपयोग करें।
$ mkdir units
Step 2- Hadoop-core-1.2.1.jar डाउनलोड करें, जो MapReduce प्रोग्राम को संकलित करने और निष्पादित करने के लिए उपयोग किया जाता है। Jvn को mvnrepository.com से डाउनलोड करें । हमें लगता है कि डाउनलोड फोल्डर / होम / हडूप / है।
Step 3 - निम्नलिखित आदेशों को संकलित करने के लिए उपयोग किया जाता है ProcessUnits.java कार्यक्रम और कार्यक्रम के लिए एक जार बनाने के लिए।
$ javac -classpath hadoop-core-1.2.1.jar -d units ProcessUnits.java
$ jar -cvf units.jar -C units/ .
Step 4 - एचडीएफएस में इनपुट डायरेक्टरी बनाने के लिए निम्न कमांड का उपयोग किया जाता है।
$HADOOP_HOME/bin/hadoop fs -mkdir input_dir
Step 5 - निम्नलिखित कमांड का उपयोग नामित इनपुट फ़ाइल को कॉपी करने के लिए किया जाता है sample.txt एचडीएफएस की इनपुट डायरेक्टरी में।
$HADOOP_HOME/bin/hadoop fs -put /home/hadoop/sample.txt input_dir
Step 6 - इनपुट डायरेक्टरी में फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग किया जाता है
$HADOOP_HOME/bin/hadoop fs -ls input_dir/
Step 7 - इनपुट डायरेक्टरी से इनपुट फाइल्स लेकर Eleunit_max एप्लिकेशन को चलाने के लिए निम्न कमांड का उपयोग किया जाता है।
$HADOOP_HOME/bin/hadoop jar units.jar hadoop.ProcessUnits input_dir output_dir
फ़ाइल निष्पादित होने तक कुछ समय तक प्रतीक्षा करें। निष्पादन के बाद, आउटपुट में कई इनपुट विभाजन, मानचित्र कार्य, Reducer कार्य आदि होते हैं।
INFO mapreduce.Job: Job job_1414748220717_0002
completed successfully
14/10/31 06:02:52
INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=61
FILE: Number of bytes written=279400
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=546
HDFS: Number of bytes written=40
HDFS: Number of read operations=9
HDFS: Number of large read operations=0
HDFS: Number of write operations=2 Job Counters
Launched map tasks=2
Launched reduce tasks=1
Data-local map tasks=2
Total time spent by all maps in occupied slots (ms)=146137
Total time spent by all reduces in occupied slots (ms)=441
Total time spent by all map tasks (ms)=14613
Total time spent by all reduce tasks (ms)=44120
Total vcore-seconds taken by all map tasks=146137
Total vcore-seconds taken by all reduce tasks=44120
Total megabyte-seconds taken by all map tasks=149644288
Total megabyte-seconds taken by all reduce tasks=45178880
Map-Reduce Framework
Map input records=5
Map output records=5
Map output bytes=45
Map output materialized bytes=67
Input split bytes=208
Combine input records=5
Combine output records=5
Reduce input groups=5
Reduce shuffle bytes=6
Reduce input records=5
Reduce output records=5
Spilled Records=10
Shuffled Maps =2
Failed Shuffles=0
Merged Map outputs=2
GC time elapsed (ms)=948
CPU time spent (ms)=5160
Physical memory (bytes) snapshot=47749120
Virtual memory (bytes) snapshot=2899349504
Total committed heap usage (bytes)=277684224
File Output Format Counters
Bytes Written=40
Step 8 - आउटपुट फोल्डर में परिणामी फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग किया जाता है।
$HADOOP_HOME/bin/hadoop fs -ls output_dir/
Step 9 - आउटपुट को देखने के लिए निम्न कमांड का उपयोग किया जाता है Part-00000फ़ाइल। यह फाइल HDFS द्वारा जनरेट की गई है।
$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00000
निम्नलिखित MapReduce कार्यक्रम द्वारा उत्पन्न उत्पादन है -
1981 | 34 |
1984 | 40 |
1985 | 45 |
Step 10 - एचडीएफएस से स्थानीय फ़ाइल सिस्टम में आउटपुट फ़ोल्डर की प्रतिलिपि बनाने के लिए निम्न कमांड का उपयोग किया जाता है।
$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00000/bin/hadoop dfs -get output_dir /home/hadoop
एक विभाजनक एक इनपुट डेटासेट के प्रसंस्करण में एक शर्त की तरह काम करता है। विभाजन चरण मानचित्र चरण के बाद और कटौती चरण से पहले होता है।
विभाजनकर्ताओं की संख्या Reducers की संख्या के बराबर है। इसका मतलब है कि एक विभाजनक डेटा को रीड्यूसर की संख्या के अनुसार विभाजित करेगा। इसलिए, एक एकल पार्टीशनर से पारित डेटा एक एकल Reducer द्वारा संसाधित किया जाता है।
विभाजनर
एक विभाजक मध्यवर्ती मानचित्र-आउटपुट के प्रमुख-मूल्य जोड़े को विभाजित करता है। यह उपयोगकर्ता-परिभाषित स्थिति का उपयोग करके डेटा का विभाजन करता है, जो हैश फ़ंक्शन की तरह काम करता है। विभाजन की कुल संख्या नौकरी के लिए Reducer कार्यों की संख्या के समान है। हमें समझने के लिए एक उदाहरण लेते हैं कि विभाजनकर्ता कैसे काम करता है।
MapReduce Partitioner कार्यान्वयन
सुविधा के लिए, मान लें कि हमारे पास निम्न डेटा के साथ कर्मचारी नामक एक छोटी तालिका है। हम इस नमूना डेटा का उपयोग हमारे इनपुट डेटासेट के रूप में करेंगे ताकि यह प्रदर्शित हो सके कि विभाजनकर्ता कैसे काम करता है।
ईद | नाम | उम्र | लिंग | वेतन |
---|---|---|---|---|
1201 | गोपाल | 45 | पुरुष | 50,000 |
1202 | मनीषा | 40 | महिला | 50,000 |
1203 | खलील | 34 | पुरुष | 30,000 |
1204 | प्रशांत | 30 | पुरुष | 30,000 |
1205 | किरण | 20 | पुरुष | 40,000 |
1206 | लक्ष्मी | 25 | महिला | 35,000 |
1207 | Bhavya | 20 | महिला | 15,000 |
1208 | रेशमा | 19 | महिला | 15,000 |
1209 | क्रांति | 22 | पुरुष | 22,000 |
1210 | सतीश | 24 | पुरुष | 25,000 |
1211 | कृष्णा | 25 | पुरुष | 25,000 |
1212 | अरशद | 28 | पुरुष | 20,000 |
1213 | लावण्या | 18 | महिला | 8000 |
हमें विभिन्न आयु समूहों (उदाहरण के लिए, 20 से नीचे, 21 से 30 के बीच, 30 से ऊपर) में लिंग द्वारा उच्चतम वेतनभोगी कर्मचारी को खोजने के लिए इनपुट डेटासेट को संसाधित करने के लिए एक आवेदन लिखना होगा।
इनपुट डेटा
उपरोक्त डेटा के रूप में सहेजा गया है input.txt "/ home / hadoop / hadoopPartitioner" निर्देशिका में और इनपुट के रूप में दिया गया है।
1201 | गोपाल | 45 | पुरुष | 50000 |
1202 | मनीषा | 40 | महिला | 51000 |
1203 | खलील | 34 | पुरुष | 30000 |
1204 | प्रशांत | 30 | पुरुष | 31000 |
1205 | किरण | 20 | पुरुष | 40000 |
1206 | लक्ष्मी | 25 | महिला | 35000 |
1207 | Bhavya | 20 | महिला | 15000 |
1208 | रेशमा | 19 | महिला | 14000 |
1209 | क्रांति | 22 | पुरुष | 22000 |
1210 | सतीश | 24 | पुरुष | 25000 |
1211 | कृष्णा | 25 | पुरुष | 26000 |
1212 | अरशद | 28 | पुरुष | 20000 |
1213 | लावण्या | 18 | महिला | 8000 |
दिए गए इनपुट के आधार पर, कार्यक्रम की एल्गोरिथम व्याख्या निम्नलिखित है।
मानचित्र कार्य
जब हम टेक्स्ट फाइल में टेक्स्ट डेटा रखते हैं तो मैप टास्क इनपुट के रूप में की-वैल्यू पेयर को स्वीकार करता है। इस मानचित्र कार्य के लिए इनपुट निम्नानुसार है -
Input - कुंजी एक पैटर्न होगा जैसे "कोई विशेष कुंजी + फ़ाइल नाम + लाइन नंबर" (उदाहरण: कुंजी = @ input1) और मान उस रेखा में डेटा होगा (उदाहरण: मान = 1201 \ t गोपाल \ t 45 \ t पुरुष \ t 50000)।
Method - इस मानचित्र कार्य का संचालन निम्नानुसार है -
को पढ़िए value (रिकॉर्ड डेटा), जो एक स्ट्रिंग में तर्क सूची से इनपुट मान के रूप में आता है।
स्प्लिट फ़ंक्शन का उपयोग करके, लिंग और स्टोर को एक स्ट्रिंग चर में अलग करें।
String[] str = value.toString().split("\t", -3);
String gender=str[3];
लिंग की जानकारी और रिकॉर्ड डेटा भेजें value मानचित्र कार्य से आउटपुट की-वैल्यू पेयर के रूप में partition task।
context.write(new Text(gender), new Text(value));
पाठ फ़ाइल में सभी रिकॉर्ड के लिए उपरोक्त सभी चरणों को दोहराएं।
Output - आपको लिंग डेटा और की-वैल्यू जोड़े के रूप में रिकॉर्ड डेटा मूल्य मिलेगा।
विभाजनकर्ता कार्य
पार्टीशन टास्क को मैप इनपुट से की-वैल्यू पेयर को उसके इनपुट के रूप में स्वीकार किया जाता है। विभाजन का तात्पर्य डेटा को खंडों में विभाजित करना है। विभाजनों के दिए गए सशर्त मानदंडों के अनुसार, इनपुट की-वैल्यू पेयर किए गए डेटा को आयु मानदंडों के आधार पर तीन भागों में विभाजित किया जा सकता है।
Input - कुंजी-मूल्य जोड़े के संग्रह में पूरा डेटा।
की = रिकॉर्ड में जेंडर फील्ड वैल्यू।
मूल्य = पूरे लिंग का रिकॉर्ड डेटा मूल्य।
Method - विभाजन तर्क की प्रक्रिया निम्नानुसार चलती है।
- इनपुट की-वैल्यू जोड़ी से आयु क्षेत्र मान पढ़ें।
String[] str = value.toString().split("\t");
int age = Integer.parseInt(str[2]);
निम्नलिखित स्थितियों के साथ आयु मान की जाँच करें।
- 20 से कम या बराबर उम्र
- 20 से अधिक उम्र और 30 से कम या उसके बराबर।
- आयु 30 से अधिक।
if(age<=20)
{
return 0;
}
else if(age>20 && age<=30)
{
return 1 % numReduceTasks;
}
else
{
return 2 % numReduceTasks;
}
Output- कुंजी-मूल्य जोड़े के पूरे डेटा को कुंजी-मूल्य जोड़े के तीन संग्रह में विभाजित किया गया है। Reducer प्रत्येक संग्रह पर व्यक्तिगत रूप से काम करता है।
कार्य कम करें
विभाजनकर्ता कार्यों की संख्या Reducer कार्यों की संख्या के बराबर है। यहां हमारे पास तीन विभाजन कार्य हैं और इसलिए हमारे पास निष्पादन के लिए तीन Reducer कार्य हैं।
Input - Reducer तीन-कुंजी जोड़े के विभिन्न संग्रह के साथ तीन बार निष्पादित करेगा।
रिकॉर्ड में कुंजी = लिंग क्षेत्र मान।
मूल्य = उस लिंग का पूरा रिकॉर्ड डेटा।
Method - प्रत्येक संग्रह पर निम्नलिखित तर्क लागू किए जाएंगे।
- प्रत्येक रिकॉर्ड का वेतन क्षेत्र मान पढ़ें।
String [] str = val.toString().split("\t", -3);
Note: str[4] have the salary field value.
अधिकतम चर के साथ वेतन की जांच करें। यदि str [4] अधिकतम वेतन है, तो str [4] को अधिकतम असाइन करें, अन्यथा चरण छोड़ें।
if(Integer.parseInt(str[4])>max)
{
max=Integer.parseInt(str[4]);
}
प्रत्येक प्रमुख संग्रह के लिए चरण 1 और 2 दोहराएं (पुरुष और महिला प्रमुख संग्रह हैं)। इन तीन चरणों को निष्पादित करने के बाद, आपको पुरुष कुंजी संग्रह से एक अधिकतम वेतन और महिला कुंजी संग्रह से एक अधिकतम वेतन मिलेगा।
context.write(new Text(key), new IntWritable(max));
Output- अंत में, आपको विभिन्न आयु समूहों के तीन संग्रह में कुंजी-मूल्य जोड़ी डेटा का एक सेट मिलेगा। इसमें पुरुष संग्रह से अधिकतम वेतन और क्रमशः प्रत्येक आयु वर्ग में महिला संग्रह से अधिकतम वेतन शामिल है।
मैप, पार्टिशनर और रिड्यूस कार्यों को निष्पादित करने के बाद, कुंजी-मूल्य जोड़ी डेटा के तीन संग्रह आउटपुट के रूप में तीन अलग-अलग फाइलों में संग्रहीत किए जाते हैं।
सभी तीन कार्यों को मैपरेडेस नौकरियों के रूप में माना जाता है। इन नौकरियों की निम्नलिखित आवश्यकताओं और विनिर्देशों को विन्यास में निर्दिष्ट किया जाना चाहिए -
- कार्य नाम
- कुंजी और मूल्यों के इनपुट और आउटपुट प्रारूप
- मानचित्र, कमी और विभाजन कार्यों के लिए अलग-अलग कक्षाएं
Configuration conf = getConf();
//Create Job
Job job = new Job(conf, "topsal");
job.setJarByClass(PartitionerExample.class);
// File Input and Output paths
FileInputFormat.setInputPaths(job, new Path(arg[0]));
FileOutputFormat.setOutputPath(job,new Path(arg[1]));
//Set Mapper class and Output format for key-value pair.
job.setMapperClass(MapClass.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//set partitioner statement
job.setPartitionerClass(CaderPartitioner.class);
//Set Reducer class and Input/Output format for key-value pair.
job.setReducerClass(ReduceClass.class);
//Number of Reducer tasks.
job.setNumReduceTasks(3);
//Input and Output format for data
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
उदाहरण कार्यक्रम
निम्न प्रोग्राम दिखाता है कि MapReduce प्रोग्राम में दिए गए मानदंडों के लिए पार्टीशनर्स को कैसे लागू किया जाए।
package partitionerexample;
import java.io.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.mapreduce.lib.input.*;
import org.apache.hadoop.mapreduce.lib.output.*;
import org.apache.hadoop.util.*;
public class PartitionerExample extends Configured implements Tool
{
//Map class
public static class MapClass extends Mapper<LongWritable,Text,Text,Text>
{
public void map(LongWritable key, Text value, Context context)
{
try{
String[] str = value.toString().split("\t", -3);
String gender=str[3];
context.write(new Text(gender), new Text(value));
}
catch(Exception e)
{
System.out.println(e.getMessage());
}
}
}
//Reducer class
public static class ReduceClass extends Reducer<Text,Text,Text,IntWritable>
{
public int max = -1;
public void reduce(Text key, Iterable <Text> values, Context context) throws IOException, InterruptedException
{
max = -1;
for (Text val : values)
{
String [] str = val.toString().split("\t", -3);
if(Integer.parseInt(str[4])>max)
max=Integer.parseInt(str[4]);
}
context.write(new Text(key), new IntWritable(max));
}
}
//Partitioner class
public static class CaderPartitioner extends
Partitioner < Text, Text >
{
@Override
public int getPartition(Text key, Text value, int numReduceTasks)
{
String[] str = value.toString().split("\t");
int age = Integer.parseInt(str[2]);
if(numReduceTasks == 0)
{
return 0;
}
if(age<=20)
{
return 0;
}
else if(age>20 && age<=30)
{
return 1 % numReduceTasks;
}
else
{
return 2 % numReduceTasks;
}
}
}
@Override
public int run(String[] arg) throws Exception
{
Configuration conf = getConf();
Job job = new Job(conf, "topsal");
job.setJarByClass(PartitionerExample.class);
FileInputFormat.setInputPaths(job, new Path(arg[0]));
FileOutputFormat.setOutputPath(job,new Path(arg[1]));
job.setMapperClass(MapClass.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//set partitioner statement
job.setPartitionerClass(CaderPartitioner.class);
job.setReducerClass(ReduceClass.class);
job.setNumReduceTasks(3);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
System.exit(job.waitForCompletion(true)? 0 : 1);
return 0;
}
public static void main(String ar[]) throws Exception
{
int res = ToolRunner.run(new Configuration(), new PartitionerExample(),ar);
System.exit(0);
}
}
उपरोक्त कोड को इस प्रकार सेव करें PartitionerExample.java"/ घर / हैडूप / हडूपार्टिशनर" में। कार्यक्रम का संकलन और निष्पादन नीचे दिया गया है।
संकलन और निष्पादन
आइए हम मान लें कि हम Hadoop उपयोगकर्ता की होम निर्देशिका में हैं (उदाहरण के लिए, / home / hadoop)।
उपरोक्त कार्यक्रम को संकलित करने और निष्पादित करने के लिए नीचे दिए गए चरणों का पालन करें।
Step 1- Hadoop-core-1.2.1.jar डाउनलोड करें, जो MapReduce प्रोग्राम को संकलित करने और निष्पादित करने के लिए उपयोग किया जाता है। आप jvn को mvnrepository.com से डाउनलोड कर सकते हैं ।
मान लें कि डाउनलोड किया गया फोल्डर “/ home / hadoop / hadoopPartitioner” है
Step 2 - प्रोग्राम को कंपाइल करने के लिए निम्न कमांड का उपयोग किया जाता है PartitionerExample.java और कार्यक्रम के लिए एक जार बनाना।
$ javac -classpath hadoop-core-1.2.1.jar -d ProcessUnits.java $ jar -cvf PartitionerExample.jar -C .
Step 3 - एचडीएफएस में इनपुट डायरेक्टरी बनाने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop fs -mkdir input_dir
Step 4 - नाम इनपुट फ़ाइल की प्रतिलिपि बनाने के लिए निम्न आदेश का उपयोग करें input.txt एचडीएफएस की इनपुट डायरेक्टरी में।
$HADOOP_HOME/bin/hadoop fs -put /home/hadoop/hadoopPartitioner/input.txt input_dir
Step 5 - इनपुट डायरेक्टरी में फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop fs -ls input_dir/
Step 6 - इनपुट डायरेक्टरी से इनपुट फाइल लेकर टॉप सैलरी एप्लिकेशन को चलाने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop jar PartitionerExample.jar partitionerexample.PartitionerExample input_dir/input.txt output_dir
फ़ाइल निष्पादित होने तक कुछ समय तक प्रतीक्षा करें। निष्पादन के बाद, आउटपुट में कई इनपुट विभाजन, मानचित्र कार्य और Reducer कार्य शामिल हैं।
15/02/04 15:19:51 INFO mapreduce.Job: Job job_1423027269044_0021 completed successfully
15/02/04 15:19:52 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=467
FILE: Number of bytes written=426777
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=480
HDFS: Number of bytes written=72
HDFS: Number of read operations=12
HDFS: Number of large read operations=0
HDFS: Number of write operations=6
Job Counters
Launched map tasks=1
Launched reduce tasks=3
Data-local map tasks=1
Total time spent by all maps in occupied slots (ms)=8212
Total time spent by all reduces in occupied slots (ms)=59858
Total time spent by all map tasks (ms)=8212
Total time spent by all reduce tasks (ms)=59858
Total vcore-seconds taken by all map tasks=8212
Total vcore-seconds taken by all reduce tasks=59858
Total megabyte-seconds taken by all map tasks=8409088
Total megabyte-seconds taken by all reduce tasks=61294592
Map-Reduce Framework
Map input records=13
Map output records=13
Map output bytes=423
Map output materialized bytes=467
Input split bytes=119
Combine input records=0
Combine output records=0
Reduce input groups=6
Reduce shuffle bytes=467
Reduce input records=13
Reduce output records=6
Spilled Records=26
Shuffled Maps =3
Failed Shuffles=0
Merged Map outputs=3
GC time elapsed (ms)=224
CPU time spent (ms)=3690
Physical memory (bytes) snapshot=553816064
Virtual memory (bytes) snapshot=3441266688
Total committed heap usage (bytes)=334102528
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=361
File Output Format Counters
Bytes Written=72
Step 7 - आउटपुट फोल्डर में परिणामी फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop fs -ls output_dir/
आपको तीन फ़ाइलों में आउटपुट मिलेगा क्योंकि आप अपने प्रोग्राम में तीन पार्टीटर्स और तीन रेड्यूसर का उपयोग कर रहे हैं।
Step 8 - आउटपुट को देखने के लिए निम्न कमांड का उपयोग करें Part-00000फ़ाइल। यह फाइल HDFS द्वारा जनरेट की गई है।
$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00000
Output in Part-00000
Female 15000
Male 40000
आउटपुट को देखने के लिए निम्न कमांड का उपयोग करें Part-00001 फ़ाइल।
$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00001
Output in Part-00001
Female 35000
Male 31000
आउटपुट को देखने के लिए निम्न कमांड का उपयोग करें Part-00002 फ़ाइल।
$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00002
Output in Part-00002
Female 51000
Male 50000
एक कंबाइनर, जिसे एक के रूप में भी जाना जाता है semi-reducer, एक वैकल्पिक वर्ग है जो मैप क्लास से इनपुट्स को स्वीकार करके संचालित होता है और उसके बाद आउटपुट की-वैल्यू जोड़े को Reducer वर्ग को पास करता है।
एक Combiner का मुख्य कार्य मैप आउटपुट रिकॉर्ड को एक ही कुंजी के साथ संक्षेप में प्रस्तुत करना है। कॉम्बिनर का आउटपुट (की-वैल्यू कलेक्शन) नेटवर्क पर इनपुट के रूप में वास्तविक Reducer कार्य को भेजा जाएगा।
combiner
कम्बाइन क्लास का इस्तेमाल मैप और रिड्यूस के बीच डेटा ट्रांसफर की मात्रा को कम करने के लिए मैप क्लास और रिड्यूस क्लास के बीच में किया जाता है। आमतौर पर, मैप टास्क का आउटपुट बड़ा होता है और कम किए गए टास्क में ट्रांसफर किया गया डेटा ज्यादा होता है।
निम्न MapReduce कार्य आरेख COMBINER PHASE दिखाता है।
कैसे काम करता है कंबाइन?
यहाँ कैसे MapReduce Combiner काम करता है पर एक संक्षिप्त सारांश है -
एक कॉम्बिनर में एक पूर्वनिर्धारित इंटरफ़ेस नहीं होता है और इसे Reducer इंटरफ़ेस के कम () विधि को लागू करना चाहिए।
प्रत्येक मैप आउटपुट कुंजी पर एक कॉम्बिनर संचालित होता है। इसमें Reducer वर्ग के समान आउटपुट कुंजी-मूल्य प्रकार होने चाहिए।
एक कॉम्बिनर बड़े डेटासेट से सारांश जानकारी का उत्पादन कर सकता है क्योंकि यह मूल मैप आउटपुट को बदल देता है।
हालाँकि, कम्बाइन वैकल्पिक है, फिर भी यह कम चरण के लिए कई समूहों में डेटा को अलग करने में मदद करता है, जिससे प्रक्रिया करना आसान हो जाता है।
MapReduce Combiner कार्यान्वयन
निम्नलिखित उदाहरण कॉम्बीनेर्स के बारे में एक सैद्धांतिक विचार प्रदान करता है। चलिए मान लेते हैं कि हमारे पास निम्नलिखित इनपुट टेक्स्ट फ़ाइल है जिसका नाम हैinput.txt MapReduce के लिए।
What do you mean by Object
What do you know about Java
What is Java Virtual Machine
How Java enabled High Performance
Combiner के साथ MapReduce कार्यक्रम के महत्वपूर्ण चरणों पर नीचे चर्चा की गई है।
रिकॉर्ड रीडर
यह MapReduce का पहला चरण है जहां रिकॉर्ड रीडर इनपुट टेक्स्ट फाइल से हर लाइन को टेक्स्ट के रूप में पढ़ता है और की-वैल्यू पेयर के रूप में आउटपुट देता है।
Input - इनपुट फ़ाइल से लाइन पाठ द्वारा लाइन।
Output- कुंजी-मूल्य जोड़े बनाता है। निम्नलिखित अपेक्षित कुंजी-मूल्य जोड़े का सेट है।
<1, What do you mean by Object>
<2, What do you know about Java>
<3, What is Java Virtual Machine>
<4, How Java enabled High Performance>
नक्शा चरण
मैप चरण रिकॉर्ड रीडर से इनपुट लेता है, इसे संसाधित करता है, और कुंजी-मूल्य जोड़े के दूसरे सेट के रूप में आउटपुट का उत्पादन करता है।
Input - निम्नलिखित की-वैल्यू पेयर रिकॉर्ड रीडर से लिया गया इनपुट है।
<1, What do you mean by Object>
<2, What do you know about Java>
<3, What is Java Virtual Machine>
<4, How Java enabled High Performance>
मैप चरण प्रत्येक कुंजी-मूल्य जोड़ी को पढ़ता है, प्रत्येक शब्द को StringTokenizer का उपयोग करके मूल्य से विभाजित करता है, प्रत्येक शब्द को कुंजी के रूप में मानता है और उस शब्द के मूल्य के रूप में गिनता है। निम्न कोड स्निपेट Mapper वर्ग और मानचित्र फ़ंक्शन को दर्शाता है।
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException
{
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens())
{
word.set(itr.nextToken());
context.write(word, one);
}
}
}
Output - अपेक्षित आउटपुट निम्नानुसार है -
<What,1> <do,1> <you,1> <mean,1> <by,1> <Object,1>
<What,1> <do,1> <you,1> <know,1> <about,1> <Java,1>
<What,1> <is,1> <Java,1> <Virtual,1> <Machine,1>
<How,1> <Java,1> <enabled,1> <High,1> <Performance,1>
कंबाइन फेज
संयोजन चरण मानचित्र चरण से प्रत्येक कुंजी-मान जोड़ी लेता है, इसे संसाधित करता है, और आउटपुट के रूप में उत्पादन करता है key-value collection जोड़े।
Input - निम्नलिखित कुंजी-मूल्य जोड़ी नक्शा चरण से लिया गया इनपुट है।
<What,1> <do,1> <you,1> <mean,1> <by,1> <Object,1>
<What,1> <do,1> <you,1> <know,1> <about,1> <Java,1>
<What,1> <is,1> <Java,1> <Virtual,1> <Machine,1>
<How,1> <Java,1> <enabled,1> <High,1> <Performance,1>
संयोजन चरण प्रत्येक कुंजी-मूल्य जोड़ी को पढ़ता है, संग्रह के रूप में कुंजी और मूल्यों के रूप में सामान्य शब्दों को जोड़ता है। आमतौर पर, एक Combiner के लिए कोड और ऑपरेशन Reducer के समान होता है। निम्नलिखित मैपर, कॉम्बिनर और रेड्यूसर वर्ग घोषणा के लिए कोड स्निपेट है।
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
Output - अपेक्षित आउटपुट निम्नानुसार है -
<What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,1,1,1>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>
Reducer चरण
Reducer चरण संयोजन चरण से प्रत्येक कुंजी-मूल्य संग्रह जोड़ी लेता है, इसे संसाधित करता है, और आउटपुट को कुंजी-मूल्य जोड़े के रूप में पारित करता है। ध्यान दें कि कंबाइन कार्यक्षमता Reducer के समान है।
Input - निम्नलिखित की-वैल्यू पेयर संयोजन चरण से लिया गया इनपुट है।
<What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,1,1,1>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>
Reducer चरण प्रत्येक कुंजी-मूल्य जोड़ी को पढ़ता है। कॉम्बिनर के लिए कोड स्निपेट निम्नलिखित है।
public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>
{
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException
{
int sum = 0;
for (IntWritable val : values)
{
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
Output - Reducer चरण से अपेक्षित आउटपुट निम्नानुसार है -
<What,3> <do,2> <you,2> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,3>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>
रिकॉर्ड लेखक
यह MapReduce का अंतिम चरण है जहां रिकॉर्ड राइटर Reducer चरण से प्रत्येक कुंजी-मूल्य जोड़ी लिखता है और आउटपुट को पाठ के रूप में भेजता है।
Input - आउटपुट प्रारूप के साथ Reducer चरण से प्रत्येक कुंजी-मूल्य जोड़ी।
Output- यह आपको टेक्स्ट फॉर्मेट में की-वैल्यू पेयर देता है। निम्नलिखित अपेक्षित उत्पादन है।
What 3
do 2
you 2
mean 1
by 1
Object 1
know 1
about 1
Java 3
is 1
Virtual 1
Machine 1
How 1
enabled 1
High 1
Performance 1
उदाहरण कार्यक्रम
निम्नलिखित कोड ब्लॉक एक प्रोग्राम में शब्दों की संख्या को गिनता है।
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException
{
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens())
{
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>
{
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException
{
int sum = 0;
for (IntWritable val : values)
{
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception
{
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
उपरोक्त कार्यक्रम को इस प्रकार सहेजें WordCount.java। कार्यक्रम का संकलन और निष्पादन नीचे दिया गया है।
संकलन और निष्पादन
आइए हम मान लें कि हम Hadoop उपयोगकर्ता की होम निर्देशिका में हैं (उदाहरण के लिए, / home / hadoop)।
उपरोक्त कार्यक्रम को संकलित करने और निष्पादित करने के लिए नीचे दिए गए चरणों का पालन करें।
Step 1 - संकलित जावा कक्षाओं को संग्रहीत करने के लिए निर्देशिका बनाने के लिए निम्न कमांड का उपयोग करें।
$ mkdir units
Step 2- Hadoop-core-1.2.1.jar डाउनलोड करें, जो MapReduce प्रोग्राम को संकलित करने और निष्पादित करने के लिए उपयोग किया जाता है। आप jvn को mvnrepository.com से डाउनलोड कर सकते हैं ।
मान लें कि डाउनलोड किया गया फोल्डर / होम / हैडऑप / है।
Step 3 - संकलन करने के लिए निम्न कमांड का उपयोग करें WordCount.java कार्यक्रम और कार्यक्रम के लिए एक जार बनाने के लिए।
$ javac -classpath hadoop-core-1.2.1.jar -d units WordCount.java
$ jar -cvf units.jar -C units/ .
Step 4 - एचडीएफएस में इनपुट डायरेक्टरी बनाने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop fs -mkdir input_dir
Step 5 - नाम इनपुट फ़ाइल की प्रतिलिपि बनाने के लिए निम्न आदेश का उपयोग करें input.txt एचडीएफएस की इनपुट डायरेक्टरी में।
$HADOOP_HOME/bin/hadoop fs -put /home/hadoop/input.txt input_dir
Step 6 - इनपुट डायरेक्टरी में फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop fs -ls input_dir/
Step 7 - इनपुट डायरेक्टरी से इनपुट फाइल लेकर वर्ड काउंट एप्लिकेशन को चलाने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop jar units.jar hadoop.ProcessUnits input_dir output_dir
फ़ाइल निष्पादित होने तक कुछ समय तक प्रतीक्षा करें। निष्पादन के बाद, आउटपुट में कई इनपुट विभाजन, मानचित्र कार्य और Reducer कार्य शामिल हैं।
Step 8 - आउटपुट फोल्डर में परिणामी फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग करें।
$HADOOP_HOME/bin/hadoop fs -ls output_dir/
Step 9 - आउटपुट को देखने के लिए निम्न कमांड का उपयोग करें Part-00000फ़ाइल। यह फाइल HDFS द्वारा जनरेट की गई है।
$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00000
निम्नलिखित MapReduce कार्यक्रम द्वारा उत्पन्न उत्पादन है।
What 3
do 2
you 2
mean 1
by 1
Object 1
know 1
about 1
Java 3
is 1
Virtual 1
Machine 1
How 1
enabled 1
High 1
Performance 1
यह अध्याय Hadoop प्रशासन को बताता है जिसमें HDFS और MapReduce प्रशासन दोनों शामिल हैं।
एचडीएफएस प्रशासन में एचडीएफएस फ़ाइल संरचना, स्थानों और अद्यतन की गई फ़ाइलों की निगरानी शामिल है।
MapReduce प्रशासन में आवेदनों की सूची, नोड्स के कॉन्फ़िगरेशन, आवेदन की स्थिति आदि की निगरानी शामिल है।
HDFS मॉनिटरिंग
HDFS (Hadoop वितरित फ़ाइल सिस्टम) में उपयोगकर्ता निर्देशिकाएं, इनपुट फ़ाइलें और आउटपुट फ़ाइलें हैं। MapReduce कमांड का उपयोग करें,put तथा get, भंडारण और पुनः प्राप्त करने के लिए।
"/ $ HADOOP_HOME / sbin" पर कमांड "start-all.sh" पास करके Hadoop फ्रेमवर्क (डेमन) शुरू करने के बाद, ब्राउज़र "http: // localhost: 50070" पर निम्न URL पास करें। आपको अपने ब्राउज़र पर निम्न स्क्रीन देखनी चाहिए।
निम्न स्क्रीनशॉट दिखाता है कि ब्राउज़ एचडीएफएस कैसे ब्राउज़ करें।
निम्न स्क्रीनशॉट एचडीएफएस की फ़ाइल संरचना दिखाते हैं। यह "/ user / hadoop" निर्देशिका में फाइलों को दिखाता है।
निम्न स्क्रीनशॉट एक क्लस्टर में डेटा जानकारी को दिखाता है। यहां आप इसके कॉन्फ़िगरेशन और क्षमता के साथ एक नोड पा सकते हैं।
MapReduce नौकरी की निगरानी
MapReduce एप्लिकेशन नौकरियों का एक संग्रह है (मैप जॉब, कंबाइनर, पार्टीशनर और जॉब कम करें)। निम्नलिखित की निगरानी करना और उसे बनाए रखना अनिवार्य है -
- डेटनोड का कॉन्फ़िगरेशन जहां एप्लिकेशन उपयुक्त है।
- प्रति आवेदन में उपयोग किए जाने वाले डेटा और संसाधनों की संख्या।
इन सभी चीजों पर नजर रखने के लिए यह जरूरी है कि हमारे पास एक यूजर इंटरफेस होना चाहिए। "/ $ HADOOP_HOME / sbin" पर कमांड "start-all.sh" पास करके Hadoop फ्रेमवर्क शुरू करने के बाद, निम्न URL को ब्राउज़र "http: // localhost: 8080" पर दें। आपको अपने ब्राउज़र पर निम्न स्क्रीन देखनी चाहिए।
उपरोक्त स्क्रीनशॉट में, हाथ का सूचक एप्लिकेशन आईडी पर है। अपने ब्राउज़र पर निम्न स्क्रीन खोजने के लिए बस इस पर क्लिक करें। यह निम्नलिखित का वर्णन करता है -
जिस पर उपयोगकर्ता वर्तमान अनुप्रयोग चला रहा है
आवेदन का नाम
उस एप्लिकेशन का प्रकार
वर्तमान स्थिति, अंतिम स्थिति
आवेदन शुरू होने का समय, बीता हुआ (पूर्ण समय), अगर यह निगरानी के समय पूरा हो गया है
इस आवेदन का इतिहास, यानी, लॉग जानकारी
और अंत में, नोड जानकारी, यानी, नोड्स जो एप्लिकेशन को चलाने में भाग लेते हैं।
निम्नलिखित स्क्रीनशॉट एक विशेष आवेदन का विवरण दिखाता है -
निम्नलिखित स्क्रीनशॉट में वर्तमान में चल रही नोड्स जानकारी का वर्णन है। यहां, स्क्रीनशॉट में केवल एक नोड होता है। एक हैंड पॉइंटर, रनिंग नोड के लोकलहोस्ट एड्रेस को दिखाता है।