महावत - पर्यावरण

यह अध्याय आपको सिखाता है कि कैसे सेटअप करना है। जावा और हाडोप महावत के पूर्वापेक्षाएँ हैं। नीचे दिए गए जावा, हडोप और महाउट को डाउनलोड और इंस्टॉल करने के चरण दिए गए हैं।

पूर्व-स्थापना सेटअप

Hadoop को Linux वातावरण में स्थापित करने से पहले, हमें लिनक्स का उपयोग करके सेट करना होगा ssh(सुरक्षित कवच)। लिनक्स पर्यावरण की स्थापना के लिए नीचे दिए गए चरणों का पालन करें।

एक उपयोगकर्ता बनाना

Hadoop फ़ाइल सिस्टम को Unix फ़ाइल सिस्टम से अलग करने के लिए Hadoop के लिए एक अलग उपयोगकर्ता बनाने की अनुशंसा की जाती है। उपयोगकर्ता बनाने के लिए नीचे दिए गए चरणों का पालन करें:

  • कमांड "su" का उपयोग करके ओपन रूट।

  • कमांड का उपयोग करके रूट खाते से एक उपयोगकर्ता बनाएं “useradd username”

  • अब आप कमांड का उपयोग करके एक मौजूदा उपयोगकर्ता खाता खोल सकते हैं “su username”

  • लिनक्स टर्मिनल खोलें और उपयोगकर्ता बनाने के लिए निम्न कमांड टाइप करें।

$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

SSH सेटअप और मुख्य पीढ़ी

SSH सेटअप को एक क्लस्टर पर अलग-अलग संचालन करने के लिए आवश्यक है जैसे शुरू करना, रोकना, और डेमन शेल संचालन वितरित करना। Hadoop के विभिन्न उपयोगकर्ताओं को प्रमाणित करने के लिए, Hadoop उपयोगकर्ता के लिए सार्वजनिक / निजी कुंजी जोड़ी प्रदान करना और इसे विभिन्न उपयोगकर्ताओं के साथ साझा करना आवश्यक है।

SSH का उपयोग करके एक महत्वपूर्ण मान युग्म बनाने के लिए निम्न आदेशों का उपयोग किया जाता है, सार्वजनिक कुंजी प्रपत्र id_rsa.pub को अधिकृत_कीप्स पर कॉपी करें, और मालिक को, क्रमशः अधिकृत_की फ़ाइल में अनुमतियाँ पढ़ें और लिखें।

$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

सत्यापित कर रहा है ssh

ssh localhost

जावा को स्थापित करना

Hadoop और HBase के लिए जावा मुख्य शर्त है। सबसे पहले, आपको "जावा-वर्सन" का उपयोग करके अपने सिस्टम में जावा के अस्तित्व को सत्यापित करना चाहिए। जावा वर्जन कमांड का सिंटैक्स नीचे दिया गया है।

$ java -version

यह निम्नलिखित उत्पादन करना चाहिए।

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

यदि आपके पास अपने सिस्टम में जावा इंस्टॉल नहीं है, तो जावा इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें।

Step 1

निम्नलिखित लिंक पर जाकर जावा (JDK <नवीनतम संस्करण> - X64.tar.gz) डाउनलोड करें: ओरेकल

फिर jdk-7u71-linux-x64.tar.gz is downloaded अपने सिस्टम पर।

Step 2

आम तौर पर, आपको डाउनलोड किए गए जावा फ़ाइल डाउनलोड फ़ोल्डर में मिलते हैं। इसे सत्यापित करें और निकालेंjdk-7u71-linux-x64.gz निम्न आदेशों का उपयोग करके फ़ाइल।

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Step 3

जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट खोलें, और निम्न कमांड टाइप करें।

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Step 4

स्थापित करने के लिए PATH तथा JAVA_HOME चर, निम्नलिखित कमांड को इसमें जोड़ें ~/.bashrc file

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin

अब, सत्यापित करें java -version ऊपर बताए अनुसार टर्मिनल से कमांड।

Hadoop डाउनलोड करना

जावा स्थापित करने के बाद, आपको प्रारंभ में Hadoop स्थापित करने की आवश्यकता है। नीचे दिखाए गए अनुसार "Hadoop संस्करण" कमांड का उपयोग करके Hadoop के अस्तित्व को सत्यापित करें।

hadoop version

यह निम्नलिखित उत्पादन का उत्पादन करना चाहिए:

Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar

यदि आपका सिस्टम Hadoop का पता लगाने में असमर्थ है, तो Hadoop को डाउनलोड करें और इसे अपने सिस्टम पर इंस्टॉल करें। ऐसा करने के लिए नीचे दिए गए आदेशों का पालन करें।

निम्नलिखित कमांड का उपयोग करके अपाचे सॉफ्टवेयर फाउंडेशन से हडूप-2.6.0 डाउनलोड करें और निकालें।

$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit

Hadoop स्थापित करना

किसी भी आवश्यक मोड में Hadoop स्थापित करें। यहां, हम छद्म-वितरित मोड में HBase कार्यक्षमता का प्रदर्शन कर रहे हैं, इसलिए छद्म-वितरित मोड में Hadoop स्थापित करें।

इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें Hadoop 2.4.1 आपके सिस्टम पर।

चरण 1: Hadoop की स्थापना

आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

अब, वर्तमान में चल रहे सिस्टम में सभी परिवर्तनों को लागू करें।

$ source ~/.bashrc

चरण 2: Hadoop कॉन्फ़िगरेशन

आप "HADOOP_HOME / etc / hadoop" स्थान पर सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। यह आपके Hadoop इन्फ्रास्ट्रक्चर के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में परिवर्तन करने के लिए आवश्यक है।

$ cd $HADOOP_HOME/etc/hadoop

जावा में Hadoop प्रोग्राम विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh फ़ाइल को प्रतिस्थापित करके JAVA_HOME आपके सिस्टम में जावा के स्थान के साथ मूल्य।

export JAVA_HOME=/usr/local/jdk1.7.0_71

नीचे दिए गए फाइलों की सूची है जिन्हें आपको Hadoop को कॉन्फ़िगर करने के लिए संपादित करना है।

core-site.xml

core-site.xml फ़ाइल में Hadoop उदाहरण के लिए उपयोग की जाने वाली पोर्ट संख्या, फ़ाइल सिस्टम के लिए आवंटित मेमोरी, डेटा संग्रहीत करने के लिए मेमोरी की सीमा और रीड / राइट बफ़र्स के आकार जैसी जानकारी शामिल है।

कोर- site.xml खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xm

hdfs-site.xmlफ़ाइल में आपके स्थानीय फ़ाइल सिस्टम के प्रतिकृति डेटा, नामेनोड पथ और डेटाैनोड पथ के मूल्य जैसी जानकारी होती है। इसका अर्थ है वह स्थान जहाँ आप Hadoop अवसंरचना को संग्रहीत करना चाहते हैं।

आइए हम निम्नलिखित आंकड़ों को मानते हैं:

dfs.replication (data replication value) = 1

(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

इस फ़ाइल को खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
	
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
	
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

Note:उपरोक्त फ़ाइल में, सभी संपत्ति मान उपयोगकर्ता परिभाषित हैं। आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।

mapred-site.xml

इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। Mapred-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

इस फ़ाइल का उपयोग यह निर्दिष्ट करने के लिए किया जाता है कि हम किस MapReduce ढांचे का उपयोग कर रहे हैं। डिफ़ॉल्ट रूप से, Hadoop में mapred-site.xml का टेम्प्लेट होता है। सबसे पहले, फ़ाइल से कॉपी करना आवश्यक हैmapred-site.xml.template सेवा mapred-site.xml निम्न कमांड का उपयोग करके फ़ाइल।

$ cp mapred-site.xml.template mapred-site.xml

खुला हुआ mapred-site.xml फ़ाइल और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Hadoop स्थापना का सत्यापन

Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।

चरण 1: नाम नोड सेटअप

निम्नानुसार कमांड "hdfs namenode -format" का उपयोग करके नेमेनोड सेट करें:

$ cd ~
$ hdfs namenode -format

अपेक्षित परिणाम इस प्रकार है:

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain
1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

चरण 2: सत्यापन Hadoop dfs

Dfs शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। यह कमांड आपकी Hadoop फाइल सिस्टम को शुरू करता है।

$ start-dfs.sh

अपेक्षित आउटपुट निम्नानुसार है:

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

चरण 3: यार्न स्क्रिप्ट का सत्यापन

यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न दानव शुरू हो जाएंगे।

$ start-yarn.sh

अपेक्षित आउटपुट निम्नानुसार है:

starting yarn daemons
starting resource manager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

चरण 4: ब्राउज़र पर Hadoop तक पहुँचना

हडूप तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। अपने ब्राउज़र पर Hadoop सेवाएँ प्राप्त करने के लिए निम्न URL का उपयोग करें।

http://localhost:50070/

चरण 5: क्लस्टर के लिए सभी एप्लिकेशन सत्यापित करें

क्लस्टर के सभी एप्लिकेशन को एक्सेस करने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा पर जाने के लिए निम्न URL का उपयोग करें।

http://localhost:8088/

डाउनलोडिंग महावत

Mahout वेबसाइट Mahout में उपलब्ध है । वेबसाइट में दिए गए लिंक से डाउनलोड करें। यहाँ वेबसाइट का स्क्रीनशॉट दिया गया है।

चरण 1

लिंक से अपाचे महावत डाउनलोड करें http://mirror.nexcess.net/apache/mahout/ निम्नलिखित कमांड का उपयोग करना।

[Hadoop@localhost ~]$ wget
http://mirror.nexcess.net/apache/mahout/0.9/mahout-distribution-0.9.tar.gz

फिर mahout-distribution-0.9.tar.gz आपके सिस्टम में डाउनलोड हो जाएगा।

चरण 2

फ़ोल्डर के माध्यम से ब्राउज़ करें जहाँ mahout-distribution-0.9.tar.gz जैसा कि नीचे दिखाया गया है डाउनलोड की गई जार फ़ाइल को संग्रहीत और निकालें।

[Hadoop@localhost ~]$ tar zxvf mahout-distribution-0.9.tar.gz

मावेन रिपोजिटरी

नीचे दिया गया pom.xml है जो ग्रहण का उपयोग करके अपाचे महतो का निर्माण करता है।

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-core</artifactId>
   <version>0.9</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-math</artifactId>
   <version>${mahout.version}</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-integration</artifactId>
   <version>${mahout.version}</version>
</dependency>