Hadoop - मल्टी-नोड क्लस्टर

यह अध्याय वितरित पर्यावरण पर हडोप मल्टी-नोड क्लस्टर की स्थापना के बारे में बताता है।

जैसा कि पूरे क्लस्टर का प्रदर्शन नहीं किया जा सकता है, हम तीन प्रणालियों (एक मास्टर और दो दास) का उपयोग करके Hadoop क्लस्टर पर्यावरण की व्याख्या कर रहे हैं; नीचे उनके आईपी पते दिए गए हैं।

  • हडोप मास्टर: 192.168.1.15 (हडूप-मास्टर)
  • Hadoop गुलाम: 192.168.1.16 (हडूप-दास -1)
  • हडोप्प स्लेव: 192.168.1.17 (हडूप-स्लेव -2)

Hadoop Multi-Node क्लस्टर सेटअप के लिए नीचे दिए गए चरणों का पालन करें।

जावा स्थापित कर रहा है

Hadoop के लिए Java मुख्य शर्त है। सबसे पहले, आपको "जावा-वर्सन" का उपयोग करके अपने सिस्टम में जावा के अस्तित्व को सत्यापित करना चाहिए। जावा संस्करण कमांड का सिंटैक्स नीचे दिया गया है।

$ java -version

यदि सब कुछ ठीक काम करता है तो यह आपको निम्न आउटपुट देगा।

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

यदि आपके सिस्टम में जावा स्थापित नहीं है, तो जावा स्थापित करने के लिए दिए गए चरणों का पालन करें।

चरण 1

निम्नलिखित लिंक www.oracle.com पर जाकर java (JDK <नवीनतम संस्करण> - X64.tar.gz) डाउनलोड करें

फिर jdk-7u71-linux-x64.tar.gz आपके सिस्टम में डाउनलोड हो जाएगा।

चरण 2

आम तौर पर आपको डाउनलोड फ़ोल्डर में डाउनलोड की गई जावा फ़ाइल मिलेगी। इसे सत्यापित करें और निकालेंjdk-7u71-linux-x64.gz निम्न आदेशों का उपयोग करके फ़ाइल।

$ cd Downloads/
$ ls
jdk-7u71-Linux-x64.gz

$ tar zxf jdk-7u71-Linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-Linux-x64.gz

चरण 3

जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट खोलें, और निम्न कमांड टाइप करें।

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

चरण 4

स्थापित करने के लिए PATH तथा JAVA_HOME चर, निम्नलिखित कमांड को इसमें जोड़ें ~/.bashrc फ़ाइल।

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

अब सत्यापित करें java -versionऊपर बताए अनुसार टर्मिनल से कमांड। उपरोक्त प्रक्रिया का पालन करें और अपने सभी क्लस्टर नोड्स में जावा स्थापित करें।

उपयोगकर्ता खाता बनाना

Hadoop इंस्टॉलेशन का उपयोग करने के लिए मास्टर और स्लेव सिस्टम दोनों पर एक सिस्टम यूजर अकाउंट बनाएं।

# useradd hadoop 
# passwd hadoop

नोड्स का मानचित्रण

आपको एडिट करना होगा hosts में फाइल /etc/ सभी नोड्स पर फ़ोल्डर, प्रत्येक सिस्टम के आईपी पते को उनके मेजबान नामों के बाद निर्दिष्ट करें।

# vi /etc/hosts
enter the following lines in the /etc/hosts file.

192.168.1.109 hadoop-master 
192.168.1.145 hadoop-slave-1 
192.168.56.1 hadoop-slave-2

मुख्य आधार लॉगिन को कॉन्फ़िगर करना

प्रत्येक नोड में सेटअप ssh ऐसा है कि वे पासवर्ड के लिए किसी भी संकेत के बिना एक दूसरे के साथ संवाद कर सकते हैं।

# su hadoop 
$ ssh-keygen -t rsa 
$ ssh-copy-id -i ~/.ssh/id_rsa.pub tutorialspoint@hadoop-master 
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp1@hadoop-slave-1 
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp2@hadoop-slave-2 
$ chmod 0600 ~/.ssh/authorized_keys 
$ exit

Hadoop स्थापित करना

मास्टर सर्वर में, निम्न आदेशों का उपयोग करके Hadoop को डाउनलोड और इंस्टॉल करें।

# mkdir /opt/hadoop 
# cd /opt/hadoop/ 
# wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-1.2.0.tar.gz 
# tar -xzf hadoop-1.2.0.tar.gz 
# mv hadoop-1.2.0 hadoop
# chown -R hadoop /opt/hadoop 
# cd /opt/hadoop/hadoop/

Hadoop को कॉन्फ़िगर करना

आपको नीचे दिए गए अनुसार निम्न परिवर्तन करके Hadoop सर्वर को कॉन्फ़िगर करना होगा।

कोर-site.xml

को खोलो core-site.xml फ़ाइल और इसे नीचे दिखाए अनुसार संपादित करें।

<configuration>
   <property> 
      <name>fs.default.name</name> 
      <value>hdfs://hadoop-master:9000/</value> 
   </property> 
   <property> 
      <name>dfs.permissions</name> 
      <value>false</value> 
   </property> 
</configuration>

HDFS-site.xml

को खोलो hdfs-site.xml फ़ाइल और इसे नीचे दिखाए अनुसार संपादित करें।

<configuration>
   <property> 
      <name>dfs.data.dir</name> 
      <value>/opt/hadoop/hadoop/dfs/name/data</value> 
      <final>true</final> 
   </property> 

   <property> 
      <name>dfs.name.dir</name> 
      <value>/opt/hadoop/hadoop/dfs/name</value> 
      <final>true</final> 
   </property> 

   <property> 
      <name>dfs.replication</name> 
      <value>1</value> 
   </property> 
</configuration>

mapred-site.xml

को खोलो mapred-site.xml फ़ाइल और इसे नीचे दिखाए अनुसार संपादित करें।

<configuration>
   <property> 
      <name>mapred.job.tracker</name> 
      <value>hadoop-master:9001</value> 
   </property> 
</configuration>

hadoop-env.sh

को खोलो hadoop-env.sh नीचे दिखाए गए JAVA_HOME, HADOOP_CONF_DIR और HADOOP_OPTS फ़ाइल को संपादित करें।

Note - अपने सिस्टम विन्यास के अनुसार JAVA_HOME सेट करें।

export JAVA_HOME=/opt/jdk1.7.0_17
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
export HADOOP_CONF_DIR=/opt/hadoop/hadoop/conf

दास सेवकों पर हाडोप स्थापित करना

दिए गए आदेशों का पालन करके सभी दास सर्वरों पर Hadoop स्थापित करें।

# su hadoop 
$ cd /opt/hadoop 
$ scp -r hadoop hadoop-slave-1:/opt/hadoop 
$ scp -r hadoop hadoop-slave-2:/opt/hadoop

मास्टर सर्वर पर Hadoop को कॉन्फ़िगर करना

मास्टर सर्वर खोलें और दिए गए आदेशों का पालन करके इसे कॉन्फ़िगर करें।

# su hadoop 
$ cd /opt/hadoop/hadoop

मास्टर नोड कॉन्फ़िगर करना

$ vi etc/hadoop/masters

hadoop-master

गुलाम नोड को कॉन्फ़िगर करना

$ vi etc/hadoop/slaves

hadoop-slave-1 
hadoop-slave-2

Hadoop Master पर प्रारूप नाम नोड

# su hadoop 
$ cd /opt/hadoop/hadoop 
$ bin/hadoop namenode –format
11/10/14 10:58:07 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG: host = hadoop-master/192.168.1.109 
STARTUP_MSG: args = [-format] 
STARTUP_MSG: version = 1.2.0 
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.2 -r 1479473;
compiled by 'hortonfo' on Mon May 6 06:59:37 UTC 2013 
STARTUP_MSG: java = 1.7.0_71 

************************************************************/
11/10/14 10:58:08 INFO util.GSet: Computing capacity for map BlocksMap
editlog=/opt/hadoop/hadoop/dfs/name/current/edits
………………………………………………….
………………………………………………….
…………………………………………………. 
11/10/14 10:58:08 INFO common.Storage: Storage directory 
/opt/hadoop/hadoop/dfs/name has been successfully formatted.
11/10/14 10:58:08 INFO namenode.NameNode: 
SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop-master/192.168.1.15
************************************************************/

Hadoop सेवाएँ शुरू करना

निम्न कमांड हैडो-मास्टर पर सभी Hadoop सेवाओं को शुरू करने के लिए है।

$ cd $HADOOP_HOME/sbin
$ start-all.sh

Hadoop क्लस्टर में एक नया DataNode जोड़ना

नीचे दिए गए चरणों में एक Hadoop क्लस्टर में नए नोड्स जोड़ने के लिए दिए जाने वाले चरण हैं।

नेटवर्किंग

कुछ उपयुक्त नेटवर्क कॉन्फ़िगरेशन के साथ मौजूदा Hadoop क्लस्टर में नए नोड्स जोड़ें। निम्न नेटवर्क कॉन्फ़िगरेशन मान लें।

नए नोड कॉन्फ़िगरेशन के लिए -

IP address : 192.168.1.103 
netmask : 255.255.255.0
hostname : slave3.in

उपयोगकर्ता और SSH एक्सेस जोड़ना

एक उपयोगकर्ता जोड़ें

एक नए नोड पर, "हैडऑप" उपयोगकर्ता को जोड़ें और हडोप उपयोगकर्ता के पासवर्ड को "हैडूप123" या जो कुछ भी आप चाहते हैं उसे निम्न कमांड का उपयोग करके सेट करें।

useradd hadoop
passwd hadoop

सेटअप पासवर्ड मास्टर से नए दास के लिए कम कनेक्टिविटी।

गुरु पर निम्न कार्य करें

mkdir -p $HOME/.ssh 
chmod 700 $HOME/.ssh 
ssh-keygen -t rsa -P '' -f $HOME/.ssh/id_rsa 
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys 
chmod 644 $HOME/.ssh/authorized_keys
Copy the public key to new slave node in hadoop user $HOME directory
scp $HOME/.ssh/id_rsa.pub [email protected]:/home/hadoop/

गुलामों पर निम्न कार्य करें

हडॉप पर लॉगिन करें। यदि नहीं, तो हडूप उपयोगकर्ता में प्रवेश करें।

su hadoop ssh -X [email protected]

सार्वजनिक कुंजी की सामग्री को फ़ाइल में कॉपी करें "$HOME/.ssh/authorized_keys" और फिर निम्नलिखित आदेशों को निष्पादित करके उसी के लिए अनुमति बदलें।

cd $HOME
mkdir -p $HOME/.ssh 
chmod 700 $HOME/.ssh
cat id_rsa.pub >>$HOME/.ssh/authorized_keys 
chmod 644 $HOME/.ssh/authorized_keys

मास्टर मशीन से ssh लॉगिन चेक करें। अब जांचें कि क्या आप मास्टर से पासवर्ड के बिना नए नोड के लिए ssh कर सकते हैं।

ssh [email protected] or hadoop@slave3

नए नोड का होस्टनाम सेट करें

आप फ़ाइल में होस्टनाम सेट कर सकते हैं /etc/sysconfig/network

On new slave3 machine

NETWORKING = yes 
HOSTNAME = slave3.in

परिवर्तनों को प्रभावी बनाने के लिए, या तो मशीन को पुनरारंभ करें या संबंधित होस्टनाम के साथ एक नई मशीन को होस्टनाम कमांड चलाएं (पुनरारंभ एक अच्छा विकल्प है)।

गुलाम 3 नोड मशीन पर -

hostname slave3.in

अपडेट करें /etc/hosts निम्नलिखित पंक्तियों के साथ क्लस्टर की सभी मशीनों पर -

192.168.1.102 slave3.in slave3

अब होस्टनाम के साथ मशीन को पिंग करने की कोशिश करें कि यह आईपी के लिए हल हो रहा है या नहीं।

नई नोड मशीन पर -

ping master.in

नए नोड पर DataNode प्रारंभ करें

मैन्युअल रूप से डेटानोड डेमन का उपयोग करना शुरू करें $HADOOP_HOME/bin/hadoop-daemon.sh script। यह स्वचालित रूप से मास्टर (NameNode) से संपर्क करेगा और क्लस्टर में शामिल होगा। हमें मास्टर सर्वर में conf / दास फ़ाइल में नया नोड भी जोड़ना चाहिए। स्क्रिप्ट-आधारित कमांड नए नोड को पहचानेंगे।

नए नोड में लॉगिन करें

su hadoop or ssh -X [email protected]

निम्नलिखित कमांड का उपयोग करके एक नए जोड़े गए दास नोड पर HDFS प्रारंभ करें

./bin/hadoop-daemon.sh start datanode

एक नए नोड पर jps कमांड के आउटपुट की जांच करें। यह इस प्रकार दिखता है।

$ jps
7141 DataNode
10312 Jps

Hadoop क्लस्टर से एक DataNode हटाना

हम एक क्लस्टर को मक्खी पर एक क्लस्टर से हटा सकते हैं, जबकि यह चल रहा है, बिना किसी डेटा हानि के। एचडीएफएस एक डिकॉमीशनिंग सुविधा प्रदान करता है, जो सुनिश्चित करता है कि नोड को हटाने से सुरक्षित रूप से प्रदर्शन किया जाता है। इसका उपयोग करने के लिए, नीचे दिए गए चरणों का पालन करें -

चरण 1 - मास्टर में प्रवेश करें

मास्टर मशीन उपयोगकर्ता के लिए लॉगिन करें जहां Hadoop स्थापित है।

$ su hadoop

चरण 2 - क्लस्टर कॉन्फ़िगरेशन बदलें

क्लस्टर शुरू करने से पहले एक बहिष्कृत फ़ाइल को कॉन्फ़िगर किया जाना चाहिए। हमारे लिए dfs.hosts.exclude नाम की एक कुंजी जोड़ें$HADOOP_HOME/etc/hadoop/hdfs-site.xmlफ़ाइल। इस कुंजी से जुड़ा मान नेनोड के स्थानीय फ़ाइल सिस्टम पर एक फ़ाइल को पूर्ण पथ प्रदान करता है जिसमें उन मशीनों की एक सूची होती है जिन्हें एचडीएफएस से कनेक्ट करने की अनुमति नहीं है।

उदाहरण के लिए, इन पंक्तियों को इसमें जोड़ें etc/hadoop/hdfs-site.xml फ़ाइल।

<property> 
   <name>dfs.hosts.exclude</name> 
   <value>/home/hadoop/hadoop-1.2.1/hdfs_exclude.txt</value> 
   <description>DFS exclude</description> 
</property>

चरण 3 - मेजबानों को निर्धारित करने के लिए निर्धारित करें

प्रत्येक मशीन को डिकम्फ़ंक्शन किया जाना चाहिए, जिसे प्रत्येक पंक्ति में एक डोमेन नाम hdfs_exclude.txt द्वारा पहचानी गई फ़ाइल में जोड़ा जाना चाहिए। यह उन्हें NameNode से कनेक्ट करने से रोकेगा। की सामग्री"/home/hadoop/hadoop-1.2.1/hdfs_exclude.txt" यदि आप DataNode2 को हटाना चाहते हैं, तो फ़ाइल को नीचे दिखाया गया है।

slave2.in

चरण 4 - बल विन्यास पुनः लोड

कमांड चलाएं "$HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes" बिना उद्धरण।

$ $HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes

यह NameNode को अपने कॉन्फ़िगरेशन को फिर से पढ़ने के लिए मजबूर करेगा, जिसमें नई अपडेट की गई 'बहिष्कृत' फ़ाइल भी शामिल है। यह समय की अवधि में नोड्स को डिमोशन कर देगा, प्रत्येक नोड के ब्लॉक के लिए मशीनों पर समय की अनुमति देगा जो सक्रिय रहने के लिए निर्धारित हैं।

पर slave2.injps कमांड आउटपुट चेक करें। कुछ समय बाद, आप देखेंगे कि DataNode प्रक्रिया स्वतः बंद हो जाती है।

चरण 5 - शटडाउन नोड्स

डीकमीशन प्रक्रिया पूरी होने के बाद, डिमोशन उत्सर्जन हार्डवेयर को रखरखाव के लिए सुरक्षित रूप से बंद किया जा सकता है। डिमोशन की स्थिति की जांच करने के लिए dfsadmin को रिपोर्ट कमांड चलाएँ। निम्नलिखित कमांड डिकम्पशन नोड की स्थिति और क्लस्टर से जुड़े नोड्स का वर्णन करेगा।

$ $HADOOP_HOME/bin/hadoop dfsadmin -report

चरण 6 - संपादित फ़ाइल को फिर से बाहर करता है

एक बार मशीनों के डिमोशन हो जाने के बाद, उन्हें 'बहिष्कृत' फ़ाइल से हटाया जा सकता है। दौड़ना"$HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes"फिर से NameNode में शामिल फ़ाइल को वापस पढ़ेगा; रखरखाव पूरा हो जाने के बाद, DataNodes को क्लस्टर में फिर से शामिल होने की अनुमति देना, या क्लस्टर में अतिरिक्त क्षमता की फिर से आवश्यकता है, आदि।

Special Note- यदि उपरोक्त प्रक्रिया का पालन किया जाता है और टास्कट्रैकर प्रक्रिया अभी भी नोड पर चल रही है, तो इसे बंद करने की आवश्यकता है। एक तरीका मशीन को डिस्कनेक्ट करने का है जैसा कि हमने उपरोक्त चरणों में किया था। मास्टर स्वचालित रूप से प्रक्रिया को पहचान लेगा और मृत घोषित कर देगा। टास्कट्रैकर को हटाने के लिए समान प्रक्रिया का पालन करने की कोई आवश्यकता नहीं है क्योंकि यह DataNode की तुलना में बहुत महत्वपूर्ण नहीं है। DataNode में वह डेटा होता है जिसे आप डेटा के किसी भी नुकसान के बिना सुरक्षित रूप से निकालना चाहते हैं।

टास्कट्रैकर को किसी भी समय निम्न कमांड द्वारा फ्लाई पर चलाया / बंद किया जा सकता है।

$ $HADOOP_HOME/bin/hadoop-daemon.sh stop tasktracker
$HADOOP_HOME/bin/hadoop-daemon.sh start tasktracker