MapReduce-결합기

결합기, 일명 semi-reducer, Map 클래스의 입력을 수락 한 후 출력 키-값 쌍을 Reducer 클래스에 전달하여 작동하는 선택적 클래스입니다.

Combiner의 주요 기능은 동일한 키로 맵 출력 레코드를 요약하는 것입니다. 결합기의 출력 (키-값 수집)은 네트워크를 통해 실제 Reducer 작업에 입력으로 전송됩니다.

결합기

Combiner 클래스는 Map 클래스와 Reduce 클래스 사이에서 사용되어 Map과 Reduce 사이의 데이터 전송량을 줄입니다. 일반적으로 맵 작업의 출력이 크고 축소 작업으로 전송되는 데이터가 높습니다.

다음 MapReduce 작업 다이어그램은 COMBINER PHASE를 보여줍니다.

컴 바이 너는 어떻게 작동합니까?

다음은 MapReduce Combiner의 작동 방식에 대한 간략한 요약입니다.

  • 컴 바이 너에는 미리 정의 된 인터페이스가 없으며 Reducer 인터페이스의 reduce () 메서드를 구현해야합니다.

  • 컴 바이 너는 각 맵 출력 키에서 작동합니다. Reducer 클래스와 동일한 출력 키-값 유형이 있어야합니다.

  • 결합기는 원래 Map 출력을 대체하기 때문에 대규모 데이터 세트에서 요약 정보를 생성 할 수 있습니다.

Combiner는 선택 사항이지만 Reduce 단계를 위해 데이터를 여러 그룹으로 분리하는 데 도움이되므로 처리가 더 쉽습니다.

MapReduce Combiner 구현

다음 예제는 결합기에 대한 이론적 아이디어를 제공합니다. 다음과 같은 입력 텍스트 파일이 있다고 가정하겠습니다.input.txt MapReduce 용.

What do you mean by Object
What do you know about Java
What is Java Virtual Machine
How Java enabled High Performance

Combiner를 사용한 MapReduce 프로그램의 중요한 단계는 아래에서 설명합니다.

레코드 리더

이것은 레코드 리더가 입력 텍스트 파일의 모든 행을 텍스트로 읽고 키-값 쌍으로 출력을 산출하는 MapReduce의 첫 번째 단계입니다.

Input − 입력 파일에서 한 줄씩 텍스트.

Output− 키-값 쌍을 형성합니다. 다음은 예상되는 키-값 쌍의 집합입니다.

<1, What do you mean by Object>
<2, What do you know about Java>
<3, What is Java Virtual Machine>
<4, How Java enabled High Performance>

지도 단계

Map 단계는 레코드 리더에서 입력을 받아 처리하고 출력을 다른 키-값 쌍 세트로 생성합니다.

Input − 다음 키-값 쌍은 레코드 리더에서 가져온 입력입니다.

<1, What do you mean by Object>
<2, What do you know about Java>
<3, What is Java Virtual Machine>
<4, How Java enabled High Performance>

Map 단계는 각 키-값 쌍을 읽고 StringTokenizer를 사용하여 값에서 각 단어를 나누고 각 단어를 키로 취급하고 해당 단어의 개수를 값으로 처리합니다. 다음 코드 스 니펫은 Mapper 클래스와지도 함수를 보여줍니다.

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
{
   private final static IntWritable one = new IntWritable(1);
   private Text word = new Text();
   
   public void map(Object key, Text value, Context context) throws IOException, InterruptedException 
   {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) 
      {
         word.set(itr.nextToken());
         context.write(word, one);
      }
   }
}

Output − 예상 출력은 다음과 같습니다 −

<What,1> <do,1> <you,1> <mean,1> <by,1> <Object,1>
<What,1> <do,1> <you,1> <know,1> <about,1> <Java,1>
<What,1> <is,1> <Java,1> <Virtual,1> <Machine,1>
<How,1> <Java,1> <enabled,1> <High,1> <Performance,1>

결합기 단계

Combiner 단계는 Map 단계에서 각 키-값 쌍을 가져 와서 처리하고 다음과 같이 출력을 생성합니다. key-value collection 한 쌍.

Input − 다음 키-값 쌍은 매핑 단계에서 가져온 입력입니다.

<What,1> <do,1> <you,1> <mean,1> <by,1> <Object,1>
<What,1> <do,1> <you,1> <know,1> <about,1> <Java,1>
<What,1> <is,1> <Java,1> <Virtual,1> <Machine,1>
<How,1> <Java,1> <enabled,1> <High,1> <Performance,1>

Combiner 단계는 각 키-값 쌍을 읽고 공통 단어를 키로, 값을 컬렉션으로 결합합니다. 일반적으로 Combiner의 코드 및 작업은 Reducer의 코드와 작업과 유사합니다. 다음은 Mapper, Combiner 및 Reducer 클래스 선언에 대한 코드 조각입니다.

job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);

Output − 예상 출력은 다음과 같습니다 −

<What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,1,1,1>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>

감속기 단계

Reducer 단계는 Combiner 단계에서 각 키-값 컬렉션 쌍을 가져 와서 처리하고 출력을 키-값 쌍으로 전달합니다. Combiner 기능은 Reducer와 동일합니다.

Input − 다음 키-값 쌍은 결합기 단계에서 가져온 입력입니다.

<What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,1,1,1>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>

Reducer 단계는 각 키-값 쌍을 읽습니다. 다음은 Combiner의 코드 스 니펫입니다.

public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
{
   private IntWritable result = new IntWritable();
   
   public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException 
   {
      int sum = 0;
      for (IntWritable val : values) 
      {
         sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
   }
}

Output − Reducer 단계에서 예상되는 출력은 다음과 같습니다. −

<What,3> <do,2> <you,2> <mean,1> <by,1> <Object,1>
<know,1> <about,1> <Java,3>
<is,1> <Virtual,1> <Machine,1>
<How,1> <enabled,1> <High,1> <Performance,1>

기록 작가

이것은 레코드 작성자가 Reducer 단계에서 모든 키-값 쌍을 작성하고 출력을 텍스트로 보내는 MapReduce의 마지막 단계입니다.

Input − 출력 형식과 함께 Reducer 단계의 각 키-값 쌍.

Output− 텍스트 형식으로 키-값 쌍을 제공합니다. 다음은 예상 출력입니다.

What           3
do             2
you            2
mean           1
by             1
Object         1
know           1
about          1
Java           3
is             1
Virtual        1
Machine        1
How            1
enabled        1
High           1
Performance    1

예제 프로그램

다음 코드 블록은 프로그램의 단어 수를 계산합니다.

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
   public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
   {
      private final static IntWritable one = new IntWritable(1);
      private Text word = new Text();
      
      public void map(Object key, Text value, Context context) throws IOException, InterruptedException 
      {
         StringTokenizer itr = new StringTokenizer(value.toString());
         while (itr.hasMoreTokens()) 
         {
            word.set(itr.nextToken());
            context.write(word, one);
         }
      }
   }
   
   public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
   {
      private IntWritable result = new IntWritable();
      public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException 
      {
         int sum = 0;
         for (IntWritable val : values) 
         {
            sum += val.get();
         }
         result.set(sum);
         context.write(key, result);
      }
   }
   
   public static void main(String[] args) throws Exception 
   {
      Configuration conf = new Configuration();
      Job job = Job.getInstance(conf, "word count");
		
      job.setJarByClass(WordCount.class);
      job.setMapperClass(TokenizerMapper.class);
      job.setCombinerClass(IntSumReducer.class);
      job.setReducerClass(IntSumReducer.class);
		
      job.setOutputKeyClass(Text.class);
      job.setOutputValueClass(IntWritable.class);
		
      FileInputFormat.addInputPath(job, new Path(args[0]));
      FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
      System.exit(job.waitForCompletion(true) ? 0 : 1);
   }
}

위 프로그램을 다른 이름으로 저장 WordCount.java. 프로그램의 컴파일 및 실행은 다음과 같습니다.

컴파일 및 실행

Hadoop 사용자의 홈 디렉토리 (예 : / home / hadoop)에 있다고 가정 해 보겠습니다.

위의 프로그램을 컴파일하고 실행하려면 아래 단계를 따르십시오.

Step 1 − 컴파일 된 자바 클래스를 저장할 디렉토리를 생성하려면 다음 명령을 사용하십시오.

$ mkdir units

Step 2− MapReduce 프로그램을 컴파일하고 실행하는 데 사용되는 Hadoop-core-1.2.1.jar를 다운로드합니다. mvnrepository.com 에서 jar를 다운로드 할 수 있습니다 .

다운로드 한 폴더가 / home / hadoop /이라고 가정하겠습니다.

Step 3 − 다음 명령을 사용하여 WordCount.java 프로그램을 만들고 프로그램에 대한 jar를 만듭니다.

$ javac -classpath hadoop-core-1.2.1.jar -d units WordCount.java
$ jar -cvf units.jar -C units/ .

Step 4 − 다음 명령을 사용하여 HDFS에서 입력 디렉토리를 생성합니다.

$HADOOP_HOME/bin/hadoop fs -mkdir input_dir

Step 5 − 다음 명령을 사용하여 이름이 지정된 입력 파일을 복사합니다. input.txt HDFS의 입력 디렉토리에 있습니다.

$HADOOP_HOME/bin/hadoop fs -put /home/hadoop/input.txt input_dir

Step 6 − 다음 명령을 사용하여 입력 디렉토리의 파일을 확인합니다.

$HADOOP_HOME/bin/hadoop fs -ls input_dir/

Step 7 − 다음 명령을 사용하여 입력 디렉토리에서 입력 파일을 가져 와서 단어 수 응용 프로그램을 실행합니다.

$HADOOP_HOME/bin/hadoop jar units.jar hadoop.ProcessUnits input_dir output_dir

파일이 실행될 때까지 잠시 기다리십시오. 실행 후 출력에는 여러 입력 분할, Map 작업 및 Reducer 작업이 포함됩니다.

Step 8 − 다음 명령을 사용하여 출력 폴더에서 결과 파일을 확인합니다.

$HADOOP_HOME/bin/hadoop fs -ls output_dir/

Step 9 − 다음 명령을 사용하여 출력을 확인하십시오. Part-00000파일. 이 파일은 HDFS에서 생성됩니다.

$HADOOP_HOME/bin/hadoop fs -cat output_dir/part-00000

다음은 MapReduce 프로그램에서 생성 된 출력입니다.

What           3
do             2
you            2
mean           1
by             1
Object         1
know           1
about          1
Java           3
is             1
Virtual        1
Machine        1
How            1
enabled        1
High           1
Performance    1