MapReduce - संयोजन

एक कंबाइनर, जिसे अ semi-reducer, एक वैकल्पिक वर्ग है, जो मैप क्लास से इनपुट्स को स्वीकार करके संचालित होता है और उसके बाद आउटपुट की-वैल्यू जोड़े को Reducer क्लास में भेजता है।

एक Combiner का मुख्य कार्य मैप आउटपुट रिकॉर्ड को एक ही कुंजी के साथ संक्षेप में प्रस्तुत करना है। कॉम्बिनर का आउटपुट (की-वैल्यू कलेक्शन) नेटवर्क पर इनपुट के रूप में वास्तविक Reducer टास्क के लिए भेजा जाएगा।

combiner

मैप और श्रेणी के बीच डेटा ट्रांसफर की मात्रा को कम करने के लिए मैप क्लास और रिड्यूस क्लास के बीच कंबाइन क्लास का उपयोग किया जाता है। आमतौर पर, मैप टास्क का आउटपुट बड़ा होता है और कम किए गए टास्क में ट्रांसफर किया गया डेटा ज्यादा होता है।

निम्न MapReduce कार्य आरेख COMBINER PHASE दिखाता है।

कैसे काम करता है कंबाइन?

यहाँ कैसे MapReduce Combiner काम करता है पर एक संक्षिप्त सारांश है -

  • एक कॉम्बिनर में एक पूर्वनिर्धारित इंटरफ़ेस नहीं होता है और उसे Reducer इंटरफ़ेस के कम () विधि को लागू करना चाहिए।

  • प्रत्येक मैप आउटपुट कुंजी पर एक कॉम्बिनर संचालित होता है। इसमें Reducer वर्ग के समान आउटपुट कुंजी-मूल्य प्रकार होने चाहिए।

  • एक कॉम्बिनर बड़े डेटासेट से सारांश जानकारी का उत्पादन कर सकता है क्योंकि यह मूल मैप आउटपुट को बदल देता है।

हालाँकि, कम्बाइन वैकल्पिक है, फिर भी यह कम चरण के लिए कई समूहों में डेटा को अलग करने में मदद करता है, जिससे प्रक्रिया करना आसान हो जाता है।

MapReduce Combiner कार्यान्वयन

निम्न उदाहरण कॉम्बीनेर्स के बारे में एक सैद्धांतिक विचार प्रदान करता है। चलिए मान लेते हैं कि हमारे पास निम्नलिखित इनपुट टेक्स्ट फ़ाइल है जिसका नाम हैinput.txt MapReduce के लिए।

What do you mean by Object
What do you know about Java
What is Java Virtual Machine
How Java enabled High Performance

Combiner के साथ MapReduce कार्यक्रम के महत्वपूर्ण चरणों पर नीचे चर्चा की गई है।

रिकॉर्ड रीडर

यह MapReduce का पहला चरण है जहां रिकॉर्ड रीडर इनपुट टेक्स्ट फाइल से प्रत्येक लाइन को टेक्स्ट के रूप में पढ़ता है और कुंजी-वैल्यू जोड़े के रूप में आउटपुट देता है।

Input - इनपुट फ़ाइल से लाइन पाठ द्वारा लाइन।

Output- कुंजी-मूल्य जोड़े बनाता है। निम्नलिखित कुंजी-मूल्य जोड़े का सेट है।

<1, What do you mean by Object>
<2, What do you know about Java>
<3, What is Java Virtual Machine>
<4, How Java enabled High Performance>

नक्शा चरण

मैप चरण रिकॉर्ड रीडर से इनपुट लेता है, इसे संसाधित करता है, और कुंजी-मूल्य जोड़े के एक और सेट के रूप में आउटपुट का उत्पादन करता है।

Input - निम्नलिखित की-वैल्यू पेयर रिकॉर्ड रीडर से लिया गया इनपुट है।

<1, What do you mean by Object>
<2, What do you know about Java>
<3, What is Java Virtual Machine>
<4, How Java enabled High Performance>

मैप चरण प्रत्येक कुंजी-मूल्य जोड़ी को पढ़ता है, प्रत्येक शब्द को StringTokenizer का उपयोग करके मान से विभाजित करता है, प्रत्येक शब्द को कुंजी के रूप में मानता है और उस शब्द की संख्या को मूल्य के रूप में मानता है। निम्न कोड स्निपेट Mapper वर्ग और मानचित्र फ़ंक्शन को दर्शाता है।

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
{
   private final static IntWritable one = new IntWritable(1);
   private Text word = new Text();
   
   public void map(Object key, Text value, Context context) throws IOException, InterruptedException 
   {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) 
      {
         word.set(itr.nextToken());
         context.write(word, one);
      }
   }
}

Output - अपेक्षित आउटपुट निम्नानुसार है -

<What,1> <do,1> <you,1> <mean,1> <by,1> <Object,1>
<What,1> <do,1> <you,1> <know,1> <about,1> <Java,1>
<What,1> <is,1> <Java,1> <Virtual,1> <Machine,1>
<How,1> <Java,1> <enabled,1> <High,1> <Performance,1>

कंबाइन फेज

संयोजन चरण मानचित्र चरण से प्रत्येक कुंजी-मान जोड़ी लेता है, इसे संसाधित करता है, और आउटपुट के रूप में उत्पादन करता है key-value collection जोड़े।

Input - निम्नलिखित कुंजी-मूल्य जोड़ी इनपुट चरण से लिया गया है।

<What,1> <do,1> <you,1> <mean,1> <by,1> <Object,1>
<What,1> <do,1> <you,1> <know,1> <about,1> <Java,1>
<What,1> <is,1> <Java,1> <Virtual,1> <Machine,1>
<How,1> <Java,1> <enabled,1> <High,1> <Performance,1>

संयोजन चरण प्रत्येक कुंजी-मूल्य जोड़ी को पढ़ता है, संग्रह के रूप में कुंजी और मूल्यों के रूप में सामान्य शब्दों को जोड़ता है। आमतौर पर, एक Combiner के लिए कोड और ऑपरेशन Reducer के समान होता है। निम्नलिखित मैपर, कॉम्बिनर और रेड्यूसर वर्ग घोषणा के लिए कोड स्निपेट है।

job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);

Output - अपेक्षित आउटपुट निम्नानुसार है -

<What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,1,1,1>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>

Reducer चरण

Reducer चरण संयोजन चरण से प्रत्येक कुंजी-मान संग्रह जोड़ी लेता है, इसे संसाधित करता है, और आउटपुट को कुंजी-मूल्य जोड़े के रूप में पारित करता है। ध्यान दें कि कंबाइन कार्यक्षमता Reducer के समान है।

Input - निम्नलिखित की-वैल्यू पेयर संयोजन चरण से लिया गया इनपुट है।

<What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,1,1,1>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>

Reducer चरण प्रत्येक कुंजी-मूल्य जोड़ी को पढ़ता है। कॉम्बिनर के लिए कोड स्निपेट निम्नलिखित है।

public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
{
   private IntWritable result = new IntWritable();
   
   public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException 
   {
      int sum = 0;
      for (IntWritable val : values) 
      {
         sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
   }
}

Output - Reducer चरण से अपेक्षित आउटपुट निम्नानुसार है -

<What,3> <do,2> <you,2> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,3>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>

रिकॉर्ड लेखक

यह MapReduce का अंतिम चरण है जहां रिकॉर्ड राइटर Reducer चरण से प्रत्येक कुंजी-मूल्य जोड़ी लिखता है और आउटपुट को पाठ के रूप में भेजता है।

Input - आउटपुट प्रारूप के साथ Reducer चरण से प्रत्येक कुंजी-मूल्य जोड़ी।

Output- यह आपको टेक्स्ट फॉर्मेट में की-वैल्यू पेयर देता है। निम्नलिखित अपेक्षित उत्पादन है।

What           3
do             2
you            2
mean           1
by             1
Object         1
know           1
about          1
Java           3
is             1
Virtual        1
Machine        1
How            1
enabled        1
High           1
Performance    1

उदाहरण कार्यक्रम

निम्नलिखित कोड ब्लॉक एक प्रोग्राम में शब्दों की संख्या को गिनता है।

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
   public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
   {
      private final static IntWritable one = new IntWritable(1);
      private Text word = new Text();
      
      public void map(Object key, Text value, Context context) throws IOException, InterruptedException 
      {
         StringTokenizer itr = new StringTokenizer(value.toString());
         while (itr.hasMoreTokens()) 
         {
            word.set(itr.nextToken());
            context.write(word, one);
         }
      }
   }
   
   public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
   {
      private IntWritable result = new IntWritable();
      public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException 
      {
         int sum = 0;
         for (IntWritable val : values) 
         {
            sum += val.get();
         }
         result.set(sum);
         context.write(key, result);
      }
   }
   
   public static void main(String[] args) throws Exception 
   {
      Configuration conf = new Configuration();
      Job job = Job.getInstance(conf, "word count");
		
      job.setJarByClass(WordCount.class);
      job.setMapperClass(TokenizerMapper.class);
      job.setCombinerClass(IntSumReducer.class);
      job.setReducerClass(IntSumReducer.class);
		
      job.setOutputKeyClass(Text.class);
      job.setOutputValueClass(IntWritable.class);
		
      FileInputFormat.addInputPath(job, new Path(args[0]));
      FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
      System.exit(job.waitForCompletion(true) ? 0 : 1);
   }
}

उपरोक्त कार्यक्रम को इस प्रकार सहेजें WordCount.java। कार्यक्रम का संकलन और निष्पादन नीचे दिया गया है।

संकलन और निष्पादन

आइए हम मान लें कि हम Hadoop उपयोगकर्ता की होम निर्देशिका में हैं (उदाहरण के लिए, / home / hadoop)।

उपरोक्त कार्यक्रम को संकलित करने और निष्पादित करने के लिए नीचे दिए गए चरणों का पालन करें।

Step 1 - संकलित जावा कक्षाओं को संग्रहीत करने के लिए निर्देशिका बनाने के लिए निम्न कमांड का उपयोग करें।

$ mkdir units

Step 2- Hadoop-core-1.2.1.jar डाउनलोड करें, जो MapReduce प्रोग्राम को संकलित करने और निष्पादित करने के लिए उपयोग किया जाता है। आप jvn को mvnrepository.com से डाउनलोड कर सकते हैं ।

मान लें कि डाउनलोड किया गया फ़ोल्डर / होम / हैडऑप / है।

Step 3 - संकलन करने के लिए निम्न कमांड का उपयोग करें WordCount.java कार्यक्रम और कार्यक्रम के लिए एक जार बनाने के लिए।

$ javac -classpath hadoop-core-1.2.1.jar -d units WordCount.java
$ jar -cvf units.jar -C units/ .

Step 4 - एचडीएफएस में इनपुट डायरेक्टरी बनाने के लिए निम्न कमांड का उपयोग करें।

$HADOOP_HOME/bin/hadoop fs -mkdir input_dir

Step 5 - नामित इनपुट फ़ाइल को कॉपी करने के लिए निम्न कमांड का उपयोग करें input.txt एचडीएफएस की इनपुट डायरेक्टरी में।

$HADOOP_HOME/bin/hadoop fs -put /home/hadoop/input.txt input_dir

Step 6 - इनपुट डायरेक्टरी में फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग करें।

$HADOOP_HOME/bin/hadoop fs -ls input_dir/

Step 7 - इनपुट डायरेक्टरी से इनपुट फाइल लेकर वर्ड काउंट एप्लिकेशन को चलाने के लिए निम्न कमांड का उपयोग करें।

$HADOOP_HOME/bin/hadoop jar units.jar hadoop.ProcessUnits input_dir output_dir

फ़ाइल निष्पादित होने तक कुछ समय तक प्रतीक्षा करें। निष्पादन के बाद, आउटपुट में कई इनपुट विभाजन, मानचित्र कार्य और Reducer कार्य शामिल हैं।

Step 8 - आउटपुट फ़ोल्डर में परिणामी फाइलों को सत्यापित करने के लिए निम्न कमांड का उपयोग करें।

$HADOOP_HOME/bin/hadoop fs -ls output_dir/

Step 9 - आउटपुट को देखने के लिए निम्न कमांड का उपयोग करें Part-00000फ़ाइल। यह फाइल HDFS द्वारा जनरेट की गई है।

$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00000

निम्नलिखित MapReduce कार्यक्रम द्वारा उत्पन्न उत्पादन है।

What           3
do             2
you            2
mean           1
by             1
Object         1
know           1
about          1
Java           3
is             1
Virtual        1
Machine        1
How            1
enabled        1
High           1
Performance    1