Hadoop - स्ट्रीमिंग
Hadoop स्ट्रीमिंग एक उपयोगिता है जो Hadoop वितरण के साथ आती है। यह उपयोगिता आपको मैपर और / या रिड्यूसर के रूप में किसी भी निष्पादन योग्य या स्क्रिप्ट के साथ मैप / कम करने की नौकरियों को बनाने और चलाने की अनुमति देती है।
उदाहरण पायथन का उपयोग करना
Hadoop स्ट्रीमिंग के लिए, हम शब्द-गणना समस्या पर विचार कर रहे हैं। Hadoop में किसी भी काम के दो चरण होने चाहिए: मैपर और रेड्यूसर। हमने हैडॉप के तहत इसे चलाने के लिए मयेर और अजगर स्क्रिप्ट में रिड्यूसर के लिए कोड लिखे हैं। एक भी पर्ल और रूबी में एक ही लिख सकता है।
मैपर फेज कोड
!/usr/bin/python
import sys
# Input takes from standard input for myline in sys.stdin:
# Remove whitespace either side
myline = myline.strip()
# Break the line into words
words = myline.split()
# Iterate the words list
for myword in words:
# Write the results to standard output
print '%s\t%s' % (myword, 1)
सुनिश्चित करें कि इस फ़ाइल में निष्पादन अनुमति है (chmod + x / home / expert / hadoop-1.2.1 / mapper.py)।
Reducer चरण कोड
#!/usr/bin/python
from operator import itemgetter
import sys
current_word = ""
current_count = 0
word = ""
# Input takes from standard input for myline in sys.stdin:
# Remove whitespace either side
myline = myline.strip()
# Split the input we got from mapper.py word,
count = myline.split('\t', 1)
# Convert count variable to integer
try:
count = int(count)
except ValueError:
# Count was not a number, so silently ignore this line continue
if current_word == word:
current_count += count
else:
if current_word:
# Write result to standard output print '%s\t%s' % (current_word, current_count)
current_count = count
current_word = word
# Do not forget to output the last word if needed!
if current_word == word:
print '%s\t%s' % (current_word, current_count)
Happop होम डायरेक्टरी में mapper.py और reducer.py में mapper और reducer कोड सहेजें। सुनिश्चित करें कि इन फ़ाइलों का निष्पादन अनुमति है (chmod + x mapper.py और chmod + x reducer.py)। चूंकि अजगर इंडेंटेशन सेंसिटिव होता है, इसलिए उसी कोड को नीचे दिए गए लिंक से डाउनलोड किया जा सकता है।
वर्डकाउंट प्रोग्राम का निष्पादन
$ $HADOOP_HOME/bin/hadoop jar contrib/streaming/hadoop-streaming-1.
2.1.jar \
-input input_dirs \
-output output_dir \
-mapper <path/mapper.py \
-reducer <path/reducer.py
जहां "\" का उपयोग स्पष्ट पठनीयता के लिए लाइन निरंतरता के लिए किया जाता है।
उदाहरण के लिए,
./bin/hadoop jar contrib/streaming/hadoop-streaming-1.2.1.jar -input myinput -output myoutput -mapper /home/expert/hadoop-1.2.1/mapper.py -reducer /home/expert/hadoop-1.2.1/reducer.py
कैसे स्ट्रीमिंग काम करता है
उपरोक्त उदाहरण में, मैपर और रेड्यूसर दोनों पायथन स्क्रिप्ट हैं जो मानक इनपुट से इनपुट को पढ़ते हैं और आउटपुट को मानक आउटपुट में उत्सर्जित करते हैं। उपयोगिता मानचित्र / कार्य को कम करेगी, कार्य को एक उपयुक्त क्लस्टर में प्रस्तुत करेगी और जब तक यह पूरा नहीं हो जाता तब तक कार्य की प्रगति की निगरानी करें।
जब मैपर के लिए एक स्क्रिप्ट निर्दिष्ट की जाती है, तो मैपर आरंभीकृत होने पर प्रत्येक मैपर कार्य स्क्रिप्ट को एक अलग प्रक्रिया के रूप में लॉन्च करेगा। जैसा कि मैपर कार्य चलता है, यह अपने इनपुट को लाइनों में परिवर्तित करता है और प्रक्रिया के मानक इनपुट (STDIN) को लाइनें फ़ीड करता है। इस बीच, मैपर प्रक्रिया के मानक आउटपुट (STDOUT) से लाइन-ओरिएंटेड आउटपुट को इकट्ठा करता है और प्रत्येक लाइन को एक की / वैल्यू पेयर में परिवर्तित करता है, जिसे मैपर के आउटपुट के रूप में एकत्र किया जाता है। डिफ़ॉल्ट रूप से, पहले टैब वर्ण तक एक पंक्ति का उपसर्ग कुंजी है और शेष पंक्ति (टैब वर्ण को छोड़कर) का मान होगा। यदि पंक्ति में कोई टैब वर्ण नहीं है, तो संपूर्ण पंक्ति को कुंजी माना जाता है और मान शून्य है। हालाँकि, इसे एक जरूरत के अनुसार अनुकूलित किया जा सकता है।
जब कोई स्क्रिप्ट रिड्यूसर के लिए निर्दिष्ट की जाती है, तो प्रत्येक रिड्यूसर कार्य स्क्रिप्ट को एक अलग प्रक्रिया के रूप में लॉन्च करेगा, फिर रिड्यूसर को आरंभीकृत किया जाता है। जैसा कि reducer कार्य चलाता है, यह अपनी इनपुट कुंजी / मान जोड़े को लाइनों में परिवर्तित करता है और प्रक्रिया के मानक इनपुट (STDIN) को लाइनें खिलाता है। इस बीच, रिड्यूसर प्रक्रिया के मानक आउटपुट (STDOUT) से लाइन-उन्मुख आउटपुट एकत्र करता है, प्रत्येक पंक्ति को एक कुंजी / मान जोड़ी में परिवर्तित करता है, जिसे रिड्यूसर के आउटपुट के रूप में एकत्र किया जाता है। डिफ़ॉल्ट रूप से, पहले टैब वर्ण तक एक पंक्ति का उपसर्ग कुंजी है और शेष पंक्ति (टैब वर्ण को छोड़कर) मान है। हालाँकि, इसे विशिष्ट आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है।
महत्वपूर्ण कमांड
मापदंडों | विकल्प | विवरण |
---|---|---|
-इनपुट निर्देशिका / फ़ाइल-नाम | अपेक्षित | मैपर के लिए इनपुट स्थान। |
-आउटपुट निर्देशिका-नाम | अपेक्षित | Reducer के लिए आउटपुट स्थान। |
- निष्पादन योग्य या स्क्रिप्ट या JavaClassName | अपेक्षित | मैपर निष्पादन योग्य। |
-लेखक निष्पादन योग्य या स्क्रिप्ट या JavaClassName | अपेक्षित | Reducer निष्पादन योग्य। |
फ़ाइल फ़ाइल-नाम | ऐच्छिक | मैपर, रिड्यूसर या कंबाइन निष्पादन योग्य बनाता है जो स्थानीय रूप से कंप्यूट नोड्स पर उपलब्ध है। |
-इनपुटफॉर्मट JavaClassName | ऐच्छिक | आपके द्वारा आपूर्ति की जाने वाली कक्षा को पाठ वर्ग की कुंजी / मान जोड़े वापस करना चाहिए। यदि निर्दिष्ट नहीं है, तो TextInputFormat डिफ़ॉल्ट के रूप में उपयोग किया जाता है। |
-आउटपुटफॉर्मैट JavaClassName | ऐच्छिक | आपके द्वारा आपूर्ति की जाने वाली कक्षा में पाठ वर्ग के प्रमुख / मूल्य जोड़े होने चाहिए। यदि निर्दिष्ट नहीं है, तो TextOutputformat डिफ़ॉल्ट के रूप में उपयोग किया जाता है। |
-पार्टिशनर JavaClassName | ऐच्छिक | क्लास जो यह निर्धारित करती है कि किस कुंजी को कम किया जाए। |
-कंबिनेटर स्ट्रीमिंगकॉम्ब या JavaClassName | ऐच्छिक | मानचित्र आउटपुट के लिए कंबाइन निष्पादन योग्य। |
-cmdenv नाम = मान | ऐच्छिक | स्ट्रीमिंग आदेशों के लिए पर्यावरण चर देता है। |
-inputreader | ऐच्छिक | बैकवर्ड-संगतता के लिए: एक रिकॉर्ड रीडर क्लास (इनपुट प्रारूप वर्ग के बजाय) निर्दिष्ट करता है। |
-verbose | ऐच्छिक | वाचाल उत्पादन। |
-lazyOutput | ऐच्छिक | उत्पादन आलसी बनाता है। उदाहरण के लिए, यदि आउटपुट स्वरूप FileOutputFormat पर आधारित है, तो आउटपुट फाइल केवल पहले कॉल पर output.collect (या Context.write) पर बनाई जाती है। |
-numReduceTasks | ऐच्छिक | Reducers की संख्या निर्दिष्ट करता है। |
-mapdebug | ऐच्छिक | नक्शा कार्य विफल होने पर कॉल करने के लिए स्क्रिप्ट। |
-reducedebug | ऐच्छिक | टास्क फेल होने पर कॉल करने की स्क्रिप्ट। |