MapReduce-설치
MapReduce는 Linux 기반 운영 체제에서만 작동하며 Hadoop Framework가 내장되어 있습니다. Hadoop 프레임 워크를 설치하려면 다음 단계를 수행해야합니다.
JAVA 설치 확인
Hadoop을 설치하기 전에 Java가 시스템에 설치되어 있어야합니다. 다음 명령을 사용하여 시스템에 Java가 설치되어 있는지 확인하십시오.
$ java –version
Java가 이미 시스템에 설치되어있는 경우 다음 응답이 표시됩니다.
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
시스템에 Java가 설치되어 있지 않은 경우 아래 단계를 따르십시오.
자바 설치
1 단계
다음 링크- 이 링크 에서 최신 버전의 Java를 다운로드하십시오 .
다운로드 후 파일을 찾을 수 있습니다. jdk-7u71-linux-x64.tar.gz 다운로드 폴더에 있습니다.
2 단계
다음 명령을 사용하여 jdk-7u71-linux-x64.gz의 내용을 추출하십시오.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
3 단계
모든 사용자가 Java를 사용할 수 있도록하려면 "/ usr / local /"위치로 이동해야합니다. 루트로 이동하여 다음 명령을 입력하십시오-
$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exit
4 단계
PATH 및 JAVA_HOME 변수를 설정하려면 ~ / .bashrc 파일에 다음 명령을 추가하십시오.
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
현재 실행중인 시스템에 모든 변경 사항을 적용합니다.
$ source ~/.bashrc
5 단계
다음 명령을 사용하여 Java 대안을 구성하십시오-
# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2
# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar
이제 명령을 사용하여 설치를 확인하십시오. java -version 터미널에서.
Hadoop 설치 확인
MapReduce를 설치하기 전에 시스템에 Hadoop이 설치되어 있어야합니다. 다음 명령을 사용하여 Hadoop 설치를 확인하겠습니다.
$ hadoop version
Hadoop이 이미 시스템에 설치되어있는 경우 다음 응답을 받게됩니다.
Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
시스템에 Hadoop이 설치되지 않은 경우 다음 단계를 진행하십시오.
Hadoop 다운로드
Apache Software Foundation에서 Hadoop 2.4.1을 다운로드하고 다음 명령을 사용하여 컨텐츠를 추출하십시오.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
의사 분산 모드에서 Hadoop 설치
다음 단계는 의사 분산 모드에서 Hadoop 2.4.1을 설치하는 데 사용됩니다.
1 단계-Hadoop 설정
~ / .bashrc 파일에 다음 명령을 추가하여 Hadoop 환경 변수를 설정할 수 있습니다.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
현재 실행중인 시스템에 모든 변경 사항을 적용합니다.
$ source ~/.bashrc
2 단계-Hadoop 구성
"$ HADOOP_HOME / etc / hadoop"위치에서 모든 Hadoop 구성 파일을 찾을 수 있습니다. Hadoop 인프라에 따라 해당 구성 파일을 적절하게 변경해야합니다.
$ cd $HADOOP_HOME/etc/hadoop
Java를 사용하여 Hadoop 프로그램을 개발하려면 다음에서 Java 환경 변수를 재설정해야합니다. hadoop-env.sh JAVA_HOME 값을 시스템의 Java 위치로 대체하여 파일.
export JAVA_HOME=/usr/local/java
Hadoop을 구성하려면 다음 파일을 편집해야합니다.
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
core-site.xml
core-site.xml에는 다음 정보가 포함되어 있습니다.
- Hadoop 인스턴스에 사용되는 포트 번호
- 파일 시스템에 할당 된 메모리
- 데이터 저장을위한 메모리 제한
- 읽기 / 쓰기 버퍼 크기
core-site.xml을 열고 <configuration> 및 </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000 </value>
</property>
</configuration>
hdfs-site.xml
hdfs-site.xml은 다음 정보를 포함합니다-
- 복제 데이터의 가치
- 네임 노드 경로
- 로컬 파일 시스템의 데이터 노드 경로 (Hadoop 인프라를 저장하려는 위치)
다음 데이터를 가정 해 보겠습니다.
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
이 파일을 열고 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
</property>
</configuration>
Note − 위 파일에서 모든 속성 값은 사용자가 정의하고 Hadoop 인프라에 따라 변경할 수 있습니다.
yarn-site.xml
이 파일은 yarn을 Hadoop으로 구성하는 데 사용됩니다. yarn-site.xml 파일을 열고 <configuration>, </ configuration> 태그 사이에 다음 특성을 추가하십시오.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
이 파일은 우리가 사용하는 MapReduce 프레임 워크를 지정하는 데 사용됩니다. 기본적으로 Hadoop에는 yarn-site.xml의 템플릿이 포함되어 있습니다. 먼저 다음 명령을 사용하여 mapred-site.xml.template에서 mapred-site.xml 파일로 파일을 복사해야합니다.
$ cp mapred-site.xml.template mapred-site.xml
mapred-site.xml 파일을 열고 <configuration>, </ configuration> 태그 사이에 다음 속성을 추가합니다.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop 설치 확인
다음 단계는 Hadoop 설치를 확인하는 데 사용됩니다.
1 단계-이름 노드 설정
다음과 같이 "hdfs namenode -format"명령을 사용하여 namenode를 설정하십시오.
$ cd ~
$ hdfs namenode -format
예상 결과는 다음과 같습니다.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
2 단계-Hadoop dfs 확인
다음 명령을 실행하여 Hadoop 파일 시스템을 시작합니다.
$ start-dfs.sh
예상 출력은 다음과 같습니다.
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
3 단계-Yarn 스크립트 확인
다음 명령은 yarn 스크립트를 시작하는 데 사용됩니다. 이 명령을 실행하면 yarn 데몬이 시작됩니다.
$ start-yarn.sh
예상 출력은 다음과 같습니다.
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
4 단계-브라우저에서 Hadoop 액세스
Hadoop에 액세스하기위한 기본 포트 번호는 50070입니다. 다음 URL을 사용하여 브라우저에서 Hadoop 서비스를 가져옵니다.
http://localhost:50070/
다음 스크린 샷은 Hadoop 브라우저를 보여줍니다.
5 단계-클러스터의 모든 애플리케이션 확인
클러스터의 모든 애플리케이션에 액세스하기위한 기본 포트 번호는 8088입니다.이 서비스를 사용하려면 다음 URL을 사용하십시오.
http://localhost:8088/
다음 스크린 샷은 Hadoop 클러스터 브라우저를 보여줍니다.