Hadoop - एनवायरनमेंट सेटअप

Hadoop GNU / Linux प्लेटफ़ॉर्म और इसके फ्लेवर्स द्वारा समर्थित है। इसलिए, हमें Hadoop वातावरण की स्थापना के लिए एक Linux ऑपरेटिंग सिस्टम स्थापित करना होगा। यदि आपके पास लिनक्स के अलावा एक ओएस है, तो आप इसमें एक वर्चुअलबॉक्स सॉफ़्टवेयर स्थापित कर सकते हैं और वर्चुअलबॉक्स के अंदर लिनक्स रख सकते हैं।

पूर्व-स्थापना सेटअप

Hadoop को Linux वातावरण में स्थापित करने से पहले, हमें लिनक्स का उपयोग करना होगा ssh(सुरक्षित कवच)। लिनक्स पर्यावरण की स्थापना के लिए नीचे दिए गए चरणों का पालन करें।

एक उपयोगकर्ता बनाना

शुरुआत में, Hadoop फाइल सिस्टम को Unix फ़ाइल सिस्टम से अलग करने के लिए Hadoop के लिए एक अलग उपयोगकर्ता बनाने की सिफारिश की गई है। उपयोगकर्ता बनाने के लिए नीचे दिए गए चरणों का पालन करें -

  • कमांड "su" का उपयोग करके रूट खोलें।

  • "Useradd उपयोगकर्ता नाम" कमांड का उपयोग करके रूट खाते से एक उपयोगकर्ता बनाएं।

  • अब आप "su उपयोगकर्ता नाम" कमांड का उपयोग करके एक मौजूदा उपयोगकर्ता खाता खोल सकते हैं।

लिनक्स टर्मिनल खोलें और उपयोगकर्ता बनाने के लिए निम्न कमांड टाइप करें।

$ su 
   password: 
# useradd hadoop 
# passwd hadoop 
   New passwd: 
   Retype new passwd

SSH सेटअप और मुख्य पीढ़ी

SSH सेटअप को एक क्लस्टर पर अलग-अलग संचालन करने के लिए आवश्यक है जैसे शुरू करना, रोकना, वितरित डेमन शेल संचालन। Hadoop के विभिन्न उपयोगकर्ताओं को प्रमाणित करने के लिए, Hadoop उपयोगकर्ता के लिए सार्वजनिक / निजी कुंजी जोड़ी प्रदान करना और इसे विभिन्न उपयोगकर्ताओं के साथ साझा करना आवश्यक है।

एसएसएच का उपयोग करके एक महत्वपूर्ण मूल्य युग्म उत्पन्न करने के लिए निम्न कमांड का उपयोग किया जाता है। सार्वजनिक कुंजियों की प्रतिलिपि id_rsa.pub को अधिकृत_keys पर लिखें, और मालिक को क्रमशः अधिकृत_की फ़ाइल में पढ़ने और लिखने की अनुमति प्रदान करें।

$ ssh-keygen -t rsa 
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
$ chmod 0600 ~/.ssh/authorized_keys

जावा को स्थापित करना

Hadoop के लिए Java मुख्य शर्त है। सबसे पहले, आपको "java -version" कमांड का उपयोग करके अपने सिस्टम में जावा के अस्तित्व को सत्यापित करना चाहिए। जावा संस्करण कमांड का सिंटैक्स नीचे दिया गया है।

$ java -version

यदि सब कुछ क्रम में है, तो यह आपको निम्नलिखित आउटपुट देगा।

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

यदि आपके सिस्टम में जावा स्थापित नहीं है, तो जावा स्थापित करने के लिए नीचे दिए गए चरणों का पालन करें।

चरण 1

निम्नलिखित लिंक www.oracle.com पर जाकर java (JDK <नवीनतम संस्करण> - X64.tar.gz) डाउनलोड करें

फिर jdk-7u71-linux-x64.tar.gz आपके सिस्टम में डाउनलोड हो जाएगा।

चरण 2

आम तौर पर आपको डाउनलोड फ़ोल्डर में डाउनलोड की गई जावा फ़ाइल मिलेगी। इसे सत्यापित करें और निकालेंjdk-7u71-linux-x64.gz निम्न आदेशों का उपयोग करके फ़ाइल।

$ cd Downloads/ 
$ ls 
jdk-7u71-linux-x64.gz 

$ tar zxf jdk-7u71-linux-x64.gz 
$ ls 
jdk1.7.0_71   jdk-7u71-linux-x64.gz

चरण 3

जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट खोलें, और निम्न कमांड टाइप करें।

$ su 
password: 
# mv jdk1.7.0_71 /usr/local/ 
# exit

चरण 4

स्थापित करने के लिए PATH तथा JAVA_HOME चर, निम्नलिखित कमांड को इसमें जोड़ें ~/.bashrc फ़ाइल।

export JAVA_HOME=/usr/local/jdk1.7.0_71 
export PATH=$PATH:$JAVA_HOME/bin

अब वर्तमान में चल रहे सिस्टम में सभी परिवर्तनों को लागू करें।

$ source ~/.bashrc

चरण 5

जावा विकल्प को कॉन्फ़िगर करने के लिए निम्नलिखित कमांड का उपयोग करें -

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2

# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar

अब ऊपर बताए अनुसार टर्मिनल से जावा-वर्जन कमांड को सत्यापित करें।

Hadoop डाउनलोड करना

निम्नलिखित कमांड का उपयोग करके अपाचे सॉफ्टवेयर फाउंडेशन से Hadoop 2.4.1 को डाउनलोड करें और निकालें।

$ su 
password: 
# cd /usr/local 
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/ 
hadoop-2.4.1.tar.gz 
# tar xzf hadoop-2.4.1.tar.gz 
# mv hadoop-2.4.1/* to hadoop/ 
# exit

Hadoop ऑपरेशन मोड

एक बार जब आप Hadoop को डाउनलोड कर लेते हैं, तो आप अपने Hadoop क्लस्टर को तीन समर्थित मोड्स में से एक में संचालित कर सकते हैं -

  • Local/Standalone Mode - अपने सिस्टम में Hadoop डाउनलोड करने के बाद, डिफ़ॉल्ट रूप से, इसे स्टैंडअलोन मोड में कॉन्फ़िगर किया गया है और इसे एक सिंगल जावा प्रोसेस के रूप में चलाया जा सकता है।

  • Pseudo Distributed Mode- यह एक मशीन पर वितरित सिमुलेशन है। प्रत्येक Hadoop डेमन जैसे HDfs, यार्न, MapReduce आदि, एक अलग जावा प्रक्रिया के रूप में चलेंगे। यह विधा विकास के लिए उपयोगी है।

  • Fully Distributed Mode- यह मोड क्लस्टर के रूप में न्यूनतम दो या अधिक मशीनों के साथ पूरी तरह से वितरित किया जाता है। हम आने वाले अध्यायों में इस विधा पर विस्तार से बात करेंगे।

स्टैंडअलोन मोड में Hadoop स्थापित करना

यहां हम इंस्टॉलेशन की चर्चा करेंगे Hadoop 2.4.1 स्टैंडअलोन मोड में।

कोई डेमॉन नहीं चल रहा है और सब कुछ एक ही जेवीएम में चलता है। स्टैंडअलोन मोड विकास के दौरान मैपरेड कार्यक्रम चलाने के लिए उपयुक्त है, क्योंकि यह उन्हें परीक्षण और डिबग करना आसान है।

Hadoop की स्थापना

आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।

export HADOOP_HOME=/usr/local/hadoop

आगे बढ़ने से पहले, आपको यह सुनिश्चित करने की आवश्यकता है कि Hadoop ठीक काम कर रहा है। बस निम्नलिखित आदेश जारी करें -

$ hadoop version

यदि आपके सेटअप में सब कुछ ठीक है, तो आपको निम्नलिखित परिणाम देखना चाहिए -

Hadoop 2.4.1 
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 
Compiled by hortonmu on 2013-10-07T06:28Z 
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

इसका मतलब है कि आपका Hadoop का स्टैंडअलोन मोड सेटअप ठीक काम कर रहा है। डिफ़ॉल्ट रूप से, Hadoop को एक मशीन पर गैर-वितरित मोड में चलाने के लिए कॉन्फ़िगर किया गया है।

उदाहरण

आइए Hadoop का एक सरल उदाहरण देखें। Hadoop इंस्टॉलेशन निम्न उदाहरण देता है MapReduce jar फ़ाइल, जो MapReduce की बुनियादी कार्यक्षमता प्रदान करता है और इसका उपयोग गणना के लिए किया जा सकता है, जैसे कि पीआई मान, फ़ाइलों की दी गई सूची में शब्द मायने रखता है, आदि।

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar

चलो एक इनपुट निर्देशिका है जहां हम कुछ फ़ाइलों को धक्का देंगे और हमारी आवश्यकता उन फ़ाइलों में शब्दों की कुल संख्या की गणना करना है। कुल शब्दों की गणना करने के लिए, हमें अपना MapReduce लिखने की आवश्यकता नहीं है, बशर्ते .jar फ़ाइल में शब्द गणना के लिए कार्यान्वयन हो। आप एक ही .jar फ़ाइल का उपयोग कर अन्य उदाहरणों की कोशिश कर सकते हैं; बस समर्थित आदेश जारी करें मेपॉइड-कार्य-उदाहरण-2.2.0.jar फ़ाइल द्वारा समर्थित MapReduce कार्यात्मक कार्यक्रमों की जांच करें।

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduceexamples-2.2.0.jar

चरण 1

इनपुट निर्देशिका में अस्थायी सामग्री फ़ाइलें बनाएँ। आप यह इनपुट डायरेक्टरी बना सकते हैं कहीं भी आप काम करना चाहेंगे।

$ mkdir input 
$ cp $HADOOP_HOME/*.txt input 
$ ls -l input

यह आपकी इनपुट डायरेक्टरी में निम्नलिखित फाइलें देगा -

total 24 
-rw-r--r-- 1 root root 15164 Feb 21 10:14 LICENSE.txt 
-rw-r--r-- 1 root root   101 Feb 21 10:14 NOTICE.txt
-rw-r--r-- 1 root root  1366 Feb 21 10:14 README.txt

इन फ़ाइलों को Hadoop स्थापना होम निर्देशिका से कॉपी किया गया है। आपके प्रयोग के लिए, आपके पास फ़ाइलों के विभिन्न और बड़े सेट हो सकते हैं।

चरण 2

चलिए इनपुट निर्देशिका में उपलब्ध सभी फाइलों में शब्दों की कुल संख्या की गणना करने के लिए Hadoop प्रक्रिया शुरू करते हैं, जो इस प्रकार है -

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduceexamples-2.2.0.jar  wordcount input output

चरण 3

चरण -2 आवश्यक प्रसंस्करण करेगा और आउटपुट को आउटपुट / पार्ट-आरपीआर फ़ाइल में बचाएगा, जिसे आप उपयोग करके देख सकते हैं -

$cat output/*

यह इनपुट निर्देशिका में उपलब्ध सभी फाइलों में उपलब्ध कुल गणना के साथ सभी शब्दों को सूचीबद्ध करेगा।

"AS      4 
"Contribution" 1 
"Contributor" 1 
"Derivative 1
"Legal 1
"License"      1
"License");     1 
"Licensor"      1
"NOTICE”        1 
"Not      1 
"Object"        1 
"Source”        1 
"Work”    1 
"You"     1 
"Your")   1 
"[]"      1 
"control"       1 
"printed        1 
"submitted"     1 
(50%)     1 
(BIS),    1 
(C)       1 
(Don't)   1 
(ECCN)    1 
(INCLUDING      2 
(INCLUDING,     2 
.............

छद्म वितरित मोड में Hadoop स्थापित करना

छद्म वितरित मोड में Hadoop 2.4.1 को स्थापित करने के लिए नीचे दिए गए चरणों का पालन करें।

चरण 1 - Hadoop की स्थापना

आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।

export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 

export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
export HADOOP_INSTALL=$HADOOP_HOME

अब वर्तमान में चल रहे सिस्टम में सभी परिवर्तनों को लागू करें।

$ source ~/.bashrc

चरण 2 - Hadoop कॉन्फ़िगरेशन

आप "HADOOP_HOME / etc / hadoop" स्थान में सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। यह आपके Hadoop इन्फ्रास्ट्रक्चर के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में परिवर्तन करने के लिए आवश्यक है।

$ cd $HADOOP_HOME/etc/hadoop

जावा में Hadoop कार्यक्रमों को विकसित करने के लिए, आपको जावा पर्यावरण चर को रीसेट करना होगा hadoop-env.sh फ़ाइल को प्रतिस्थापित करके JAVA_HOME आपके सिस्टम में जावा के स्थान के साथ मूल्य।

export JAVA_HOME=/usr/local/jdk1.7.0_71

निम्न फ़ाइलों की सूची है जिन्हें आपको Hadoop को कॉन्फ़िगर करने के लिए संपादित करना है।

core-site.xml

core-site.xml फ़ाइल में Hadoop उदाहरण के लिए उपयोग की जाने वाली पोर्ट संख्या, फ़ाइल सिस्टम के लिए आवंटित मेमोरी, डेटा को संग्रहीत करने के लिए मेमोरी की सीमा और रीड / राइट बफ़र्स के आकार जैसी जानकारी शामिल है।

कोर- site.xml खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value> 
   </property>
</configuration>

hdfs-site.xml

hdfs-site.xmlफ़ाइल में प्रतिकृति डेटा का मान, नामेनोड पथ और अपने स्थानीय फ़ाइल सिस्टम के डेटाैनोड पथ जैसी जानकारी होती है। इसका अर्थ है वह स्थान जहाँ आप Hadoop अवसंरचना को संग्रहीत करना चाहते हैं।

आइए हम निम्नलिखित आंकड़ों को मानते हैं।

dfs.replication (data replication value) = 1 

(In the below given path /hadoop/ is the user name. 
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) 
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode 

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) 
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

इस फ़ाइल को खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन> </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
    
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value>
   </property>
    
   <property>
      <name>dfs.data.dir</name> 
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value> 
   </property>
</configuration>

Note - उपरोक्त फ़ाइल में, सभी संपत्ति मूल्य उपयोगकर्ता-परिभाषित हैं और आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।

yarn-site.xml

इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। यार्न-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value> 
   </property>
</configuration>

mapred-site.xml

यह फ़ाइल निर्दिष्ट करने के लिए उपयोग की जाती है कि हम किस MapReduce ढांचे का उपयोग कर रहे हैं। डिफ़ॉल्ट रूप से, Hadoop में यार्न-site.xml का टेम्प्लेट होता है। सबसे पहले, फ़ाइल से कॉपी करना आवश्यक हैmapred-site.xml.template सेवा mapred-site.xml निम्न कमांड का उपयोग करके फ़ाइल।

$ cp mapred-site.xml.template mapred-site.xml

खुला हुआ mapred-site.xml इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुणों को फ़ाइल करें और जोड़ें।

<configuration>
   <property> 
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Hadoop स्थापना का सत्यापन

Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।

चरण 1 - नाम नोड सेटअप

निम्नानुसार "hdfs namenode -format" कमांड का उपयोग करके नामेनोड सेट करें।

$ cd ~ 
$ hdfs namenode -format

अपेक्षित परिणाम इस प्रकार है।

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG:   host = localhost/192.168.1.11 
STARTUP_MSG:   args = [-format] 
STARTUP_MSG:   version = 2.4.1 
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to 
retain 1 images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 
************************************************************/

चरण 2 - सत्यापन Hadoop dfs

Dfs शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपका Hadoop फ़ाइल सिस्टम प्रारंभ हो जाएगा।

$ start-dfs.sh

अपेक्षित उत्पादन निम्नानुसार है -

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop
2.4.1/logs/hadoop-hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop
2.4.1/logs/hadoop-hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

चरण 3 - यार्न स्क्रिप्ट का सत्यापन

यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न डेमन शुरू हो जाएंगे।

$ start-yarn.sh

निम्नानुसार अपेक्षित उत्पादन -

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

चरण 4 - ब्राउज़र पर Hadoop तक पहुँचना

Hadoop तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। ब्राउज़र पर Hadoop सेवाएँ प्राप्त करने के लिए निम्न url का उपयोग करें।

http://localhost:50070/

चरण 5 - क्लस्टर के लिए सभी एप्लिकेशन सत्यापित करें

क्लस्टर के सभी अनुप्रयोगों तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा पर जाने के लिए निम्न यूआरएल का उपयोग करें।

http://localhost:8088/