MapReduce - स्थापना
MapReduce केवल Linux फ्लेवर्ड ऑपरेटिंग सिस्टम पर काम करता है और यह एक Hadoop फ्रेमवर्क के साथ इनबिल्ट आता है। हमें Hadoop ढांचे को स्थापित करने के लिए निम्न चरणों का पालन करने की आवश्यकता है।
जावा स्थापना का सत्यापन
Hadoop को स्थापित करने से पहले जावा को आपके सिस्टम पर इंस्टॉल किया जाना चाहिए। आपके सिस्टम पर जावा स्थापित है या नहीं, यह जांचने के लिए निम्नलिखित कमांड का उपयोग करें।
$ java –version
यदि जावा आपके सिस्टम पर पहले से इंस्टॉल है, तो आपको निम्न प्रतिक्रिया देखने को मिलती है -
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
यदि आपके पास जावा आपके सिस्टम पर स्थापित नहीं है, तो नीचे दिए गए चरणों का पालन करें।
जावा को स्थापित करना
चरण 1
निम्नलिखित लिंक से जावा का नवीनतम संस्करण डाउनलोड करें - यह लिंक ।
डाउनलोड करने के बाद, आप फ़ाइल का पता लगा सकते हैं jdk-7u71-linux-x64.tar.gz आपके डाउनलोड फ़ोल्डर में।
चरण 2
Jdk-7u71-linux-x64.gz की सामग्री को निकालने के लिए निम्न आदेशों का उपयोग करें।
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
चरण 3
जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "usr / स्थानीय /" स्थान पर ले जाना होगा। रूट पर जाएं और निम्न कमांड टाइप करें -
$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exit
चरण 4
PATH और JAVA_HOME चर सेट करने के लिए, ~ / .bashrc फ़ाइल में निम्न कमांड जोड़ें।
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
वर्तमान चल रहे सिस्टम में सभी परिवर्तन लागू करें।
$ source ~/.bashrc
चरण 5
जावा विकल्प को कॉन्फ़िगर करने के लिए निम्नलिखित कमांड्स का उपयोग करें -
# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2
# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar
अब कमांड का उपयोग करके स्थापना को सत्यापित करें java -version टर्मिनल से।
Hadoop स्थापना का सत्यापन
MapReduce को स्थापित करने से पहले Hadoop को आपके सिस्टम पर इंस्टॉल किया जाना चाहिए। आइए निम्नलिखित कमांड का उपयोग करके Hadoop इंस्टॉलेशन को सत्यापित करें -
$ hadoop version
यदि आपके सिस्टम पर Hadoop पहले से ही स्थापित है, तो आपको निम्न प्रतिक्रिया मिलेगी -
Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
यदि आपके सिस्टम पर Hadoop स्थापित नहीं है, तो निम्न चरणों के साथ आगे बढ़ें।
Hadoop डाउनलोड करना
अपाचे सॉफ्टवेयर फाउंडेशन से Hadoop 2.4.1 डाउनलोड करें और निम्नलिखित कमांड का उपयोग करके अपनी सामग्री निकालें।
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
छद्म वितरित मोड में Hadoop स्थापित करना
छद्म वितरित मोड में Hadoop 2.4.1 को स्थापित करने के लिए निम्न चरणों का उपयोग किया जाता है।
चरण 1 - Hadoop की स्थापना
आप निम्न कमांड को ~ / .bashrc फ़ाइल में जोड़कर Hadoop परिवेश चर सेट कर सकते हैं।
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
वर्तमान चल रहे सिस्टम में सभी परिवर्तन लागू करें।
$ source ~/.bashrc
चरण 2 - Hadoop कॉन्फ़िगरेशन
आप "HADOOP_HOME / etc / hadoop" स्थान में सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। आपको अपने Hadoop बुनियादी ढांचे के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में उपयुक्त परिवर्तन करने की आवश्यकता है।
$ cd $HADOOP_HOME/etc/hadoop
जावा का उपयोग करके Hadoop कार्यक्रमों को विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh अपने सिस्टम में जावा के स्थान के साथ JAVA_HOME मान को प्रतिस्थापित करके फ़ाइल।
export JAVA_HOME=/usr/local/java
आपको Hadoop को कॉन्फ़िगर करने के लिए निम्न फ़ाइलों को संपादित करना होगा -
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
कोर-site.xml
core-site.xml में निम्नलिखित जानकारी है
- Hadoop उदाहरण के लिए उपयोग किया गया पोर्ट नंबर
- फ़ाइल सिस्टम के लिए आवंटित मेमोरी
- डेटा संग्रहीत करने के लिए मेमोरी सीमा
- पढ़ने / लिखने का आकार बफ़र्स
कोर- site.xml खोलें और <कॉन्फ़िगरेशन> और </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000 </value>
</property>
</configuration>
HDFS-site.xml
hdfs-site.xml में निम्नलिखित जानकारी है -
- प्रतिकृति डेटा का मूल्य
- नामदान का मार्ग
- आपके स्थानीय फ़ाइल सिस्टम का डेटाटोड पथ (वह स्थान जहाँ आप Hadoop infra को संग्रहित करना चाहते हैं)
आइए हम निम्नलिखित आंकड़ों को मानते हैं।
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
इस फ़ाइल को खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
</property>
</configuration>
Note - उपरोक्त फ़ाइल में, सभी संपत्ति मूल्य उपयोगकर्ता-परिभाषित हैं और आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।
सूत-site.xml
इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। यार्न-site.xml फ़ाइल खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
इस फ़ाइल का उपयोग हम उपयोग कर रहे MapReduce ढांचे को निर्दिष्ट करने के लिए किया जाता है। डिफ़ॉल्ट रूप से, Hadoop में यार्न-site.xml का टेम्प्लेट होता है। सबसे पहले, आपको निम्न आदेश का उपयोग करके फाइल को mapred-site.xml.template से mapred-site.xml फाइल में कॉपी करना होगा।
$ cp mapred-site.xml.template mapred-site.xml
Mapred-site.xml फ़ाइल खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Hadoop स्थापना का सत्यापन
Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।
चरण 1 - नाम नोड सेटअप
"एचडीएफ़एस नामेनोडे -फॉर्म" कमांड का उपयोग करके नेमोडोड सेट करें: -
$ cd ~
$ hdfs namenode -format
अपेक्षित परिणाम इस प्रकार है -
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
चरण 2 - सत्यापन Hadoop dfs
अपने Hadoop फ़ाइल सिस्टम को शुरू करने के लिए निम्न कमांड निष्पादित करें।
$ start-dfs.sh
अपेक्षित उत्पादन निम्नानुसार है -
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
चरण 3 - यार्न स्क्रिप्ट का सत्यापन
यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न डेमन शुरू हो जाएंगे।
$ start-yarn.sh
अपेक्षित उत्पादन निम्नानुसार है -
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
चरण 4 - ब्राउज़र पर Hadoop तक पहुँचना
Hadoop तक पहुंचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। अपने ब्राउज़र पर Hadoop सेवाएं प्राप्त करने के लिए निम्न URL का उपयोग करें।
http://localhost:50070/
निम्न स्क्रीनशॉट Hadoop ब्राउज़र को दिखाता है।
चरण 5 - एक क्लस्टर के सभी अनुप्रयोगों को सत्यापित करें
किसी क्लस्टर के सभी अनुप्रयोगों तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा का उपयोग करने के लिए निम्न URL का उपयोग करें।
http://localhost:8088/
निम्न स्क्रीनशॉट एक Hadoop क्लस्टर ब्राउज़र दिखाता है।