Hadoop - स्ट्रीमिंग

Hadoop स्ट्रीमिंग एक उपयोगिता है जो Hadoop वितरण के साथ आती है। यह उपयोगिता आपको मैपर और / या रिड्यूसर के रूप में किसी भी निष्पादन योग्य या स्क्रिप्ट के साथ मैप / कम करने की नौकरियों को बनाने और चलाने की अनुमति देती है।

उदाहरण पायथन का उपयोग करना

Hadoop स्ट्रीमिंग के लिए, हम शब्द-गणना समस्या पर विचार कर रहे हैं। Hadoop में किसी भी काम के दो चरण होने चाहिए: मैपर और रेड्यूसर। हमने हैडॉप के तहत इसे चलाने के लिए मयेर और अजगर स्क्रिप्ट में रिड्यूसर के लिए कोड लिखे हैं। एक भी पर्ल और रूबी में एक ही लिख सकता है।

मैपर फेज कोड

!/usr/bin/python

import sys

# Input takes from standard input for myline in sys.stdin: 
   # Remove whitespace either side 
   myline = myline.strip() 

   # Break the line into words 
   words = myline.split() 

   # Iterate the words list
   for myword in words:
      # Write the results to standard output 
      print '%s\t%s' % (myword, 1)

सुनिश्चित करें कि इस फ़ाइल में निष्पादन अनुमति है (chmod + x / home / expert / hadoop-1.2.1 / mapper.py)।

Reducer चरण कोड

#!/usr/bin/python

from operator import itemgetter 
import sys 

current_word = ""
current_count = 0 
word = "" 

# Input takes from standard input for myline in sys.stdin: 
   # Remove whitespace either side 
   myline = myline.strip() 

   # Split the input we got from mapper.py word, 
   count = myline.split('\t', 1) 

   # Convert count variable to integer 
   try: 
      count = int(count) 

   except ValueError: 
      # Count was not a number, so silently ignore this line continue

   if current_word == word: 
   current_count += count 
   else: 
      if current_word: 
         # Write result to standard output print '%s\t%s' % (current_word, current_count) 
   
      current_count = count
      current_word = word

# Do not forget to output the last word if needed! 
if current_word == word: 
   print '%s\t%s' % (current_word, current_count)

Happop होम डायरेक्टरी में mapper.py और reducer.py में mapper और reducer कोड सहेजें। सुनिश्चित करें कि इन फ़ाइलों का निष्पादन अनुमति है (chmod + x mapper.py और chmod + x reducer.py)। चूंकि अजगर इंडेंटेशन सेंसिटिव होता है, इसलिए उसी कोड को नीचे दिए गए लिंक से डाउनलोड किया जा सकता है।

वर्डकाउंट प्रोग्राम का निष्पादन

$ $HADOOP_HOME/bin/hadoop jar contrib/streaming/hadoop-streaming-1.
2.1.jar \
   -input input_dirs \ 
   -output output_dir \ 
   -mapper <path/mapper.py \ 
   -reducer <path/reducer.py

जहां "\" का उपयोग स्पष्ट पठनीयता के लिए लाइन निरंतरता के लिए किया जाता है।

उदाहरण के लिए,

./bin/hadoop jar contrib/streaming/hadoop-streaming-1.2.1.jar -input myinput -output myoutput -mapper /home/expert/hadoop-1.2.1/mapper.py -reducer /home/expert/hadoop-1.2.1/reducer.py

कैसे स्ट्रीमिंग काम करता है

उपरोक्त उदाहरण में, मैपर और रेड्यूसर दोनों पायथन स्क्रिप्ट हैं जो मानक इनपुट से इनपुट को पढ़ते हैं और आउटपुट को मानक आउटपुट में उत्सर्जित करते हैं। उपयोगिता मानचित्र / कार्य को कम करेगी, कार्य को एक उपयुक्त क्लस्टर में प्रस्तुत करेगी और जब तक यह पूरा नहीं हो जाता तब तक कार्य की प्रगति की निगरानी करें।

जब मैपर के लिए एक स्क्रिप्ट निर्दिष्ट की जाती है, तो मैपर आरंभीकृत होने पर प्रत्येक मैपर कार्य स्क्रिप्ट को एक अलग प्रक्रिया के रूप में लॉन्च करेगा। जैसा कि मैपर कार्य चलता है, यह अपने इनपुट को लाइनों में परिवर्तित करता है और प्रक्रिया के मानक इनपुट (STDIN) को लाइनें फ़ीड करता है। इस बीच, मैपर प्रक्रिया के मानक आउटपुट (STDOUT) से लाइन-ओरिएंटेड आउटपुट को इकट्ठा करता है और प्रत्येक लाइन को एक की / वैल्यू पेयर में परिवर्तित करता है, जिसे मैपर के आउटपुट के रूप में एकत्र किया जाता है। डिफ़ॉल्ट रूप से, पहले टैब वर्ण तक एक पंक्ति का उपसर्ग कुंजी है और शेष पंक्ति (टैब वर्ण को छोड़कर) का मान होगा। यदि पंक्ति में कोई टैब वर्ण नहीं है, तो संपूर्ण पंक्ति को कुंजी माना जाता है और मान शून्य है। हालाँकि, इसे एक जरूरत के अनुसार अनुकूलित किया जा सकता है।

जब कोई स्क्रिप्ट रिड्यूसर के लिए निर्दिष्ट की जाती है, तो प्रत्येक रिड्यूसर कार्य स्क्रिप्ट को एक अलग प्रक्रिया के रूप में लॉन्च करेगा, फिर रिड्यूसर को आरंभीकृत किया जाता है। जैसा कि reducer कार्य चलाता है, यह अपनी इनपुट कुंजी / मान जोड़े को लाइनों में परिवर्तित करता है और प्रक्रिया के मानक इनपुट (STDIN) को लाइनें खिलाता है। इस बीच, रिड्यूसर प्रक्रिया के मानक आउटपुट (STDOUT) से लाइन-उन्मुख आउटपुट एकत्र करता है, प्रत्येक पंक्ति को एक कुंजी / मान जोड़ी में परिवर्तित करता है, जिसे रिड्यूसर के आउटपुट के रूप में एकत्र किया जाता है। डिफ़ॉल्ट रूप से, पहले टैब वर्ण तक एक पंक्ति का उपसर्ग कुंजी है और शेष पंक्ति (टैब वर्ण को छोड़कर) मान है। हालाँकि, इसे विशिष्ट आवश्यकताओं के अनुसार अनुकूलित किया जा सकता है।

महत्वपूर्ण कमांड

मापदंडों विकल्प विवरण
-इनपुट निर्देशिका / फ़ाइल-नाम अपेक्षित मैपर के लिए इनपुट स्थान।
-आउटपुट निर्देशिका-नाम अपेक्षित Reducer के लिए आउटपुट स्थान।
- निष्पादन योग्य या स्क्रिप्ट या JavaClassName अपेक्षित मैपर निष्पादन योग्य।
-लेखक निष्पादन योग्य या स्क्रिप्ट या JavaClassName अपेक्षित Reducer निष्पादन योग्य।
फ़ाइल फ़ाइल-नाम ऐच्छिक मैपर, रिड्यूसर या कंबाइन निष्पादन योग्य बनाता है जो स्थानीय रूप से कंप्यूट नोड्स पर उपलब्ध है।
-इनपुटफॉर्मट JavaClassName ऐच्छिक आपके द्वारा आपूर्ति की जाने वाली कक्षा को पाठ वर्ग की कुंजी / मान जोड़े वापस करना चाहिए। यदि निर्दिष्ट नहीं है, तो TextInputFormat डिफ़ॉल्ट के रूप में उपयोग किया जाता है।
-आउटपुटफॉर्मैट JavaClassName ऐच्छिक आपके द्वारा आपूर्ति की जाने वाली कक्षा में पाठ वर्ग के प्रमुख / मूल्य जोड़े होने चाहिए। यदि निर्दिष्ट नहीं है, तो TextOutputformat डिफ़ॉल्ट के रूप में उपयोग किया जाता है।
-पार्टिशनर JavaClassName ऐच्छिक क्लास जो यह निर्धारित करती है कि किस कुंजी को कम किया जाए।
-कंबिनेटर स्ट्रीमिंगकॉम्ब या JavaClassName ऐच्छिक मानचित्र आउटपुट के लिए कंबाइन निष्पादन योग्य।
-cmdenv नाम = मान ऐच्छिक स्ट्रीमिंग आदेशों के लिए पर्यावरण चर देता है।
-inputreader ऐच्छिक बैकवर्ड-संगतता के लिए: एक रिकॉर्ड रीडर क्लास (इनपुट प्रारूप वर्ग के बजाय) निर्दिष्ट करता है।
-verbose ऐच्छिक वाचाल उत्पादन।
-lazyOutput ऐच्छिक उत्पादन आलसी बनाता है। उदाहरण के लिए, यदि आउटपुट स्वरूप FileOutputFormat पर आधारित है, तो आउटपुट फाइल केवल पहले कॉल पर output.collect (या Context.write) पर बनाई जाती है।
-numReduceTasks ऐच्छिक Reducers की संख्या निर्दिष्ट करता है।
-mapdebug ऐच्छिक नक्शा कार्य विफल होने पर कॉल करने के लिए स्क्रिप्ट।
-reducedebug ऐच्छिक टास्क फेल होने पर कॉल करने की स्क्रिप्ट।