अपाचे सोलर - Hadoop पर

Hadoop के साथ Solr का भी इस्तेमाल किया जा सकता है। जैसे कि Hadoop बड़ी मात्रा में डेटा को संभालता है, Solr हमें इतने बड़े स्रोत से आवश्यक जानकारी खोजने में मदद करता है। इस खंड में, हम समझते हैं कि आप अपने सिस्टम पर Hadoop कैसे स्थापित कर सकते हैं।

Hadoop डाउनलोड करना

नीचे दिए गए चरणों को आपके सिस्टम पर Hadoop डाउनलोड करने के लिए अनुसरण किया जाना है।

Step 1- Hadoop के होमपेज पर जाएं। आप लिंक का उपयोग कर सकते हैं - www.hadoop.apache.org/ । लिंक पर क्लिक करेंReleases, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

यह आपको रीडायरेक्ट करेगा Apache Hadoop Releases वह पृष्ठ जिसमें स्रोत के दर्पणों के लिए लिंक और Hadoop के विभिन्न संस्करणों की बाइनरी फाइलें निम्नानुसार हैं -

Step 2 - Hadoop के नवीनतम संस्करण का चयन करें (हमारे ट्यूटोरियल में, यह 2.6.4 है) और इसके क्लिक करें binary link। यह आपको एक ऐसे पृष्ठ पर ले जाएगा जहाँ Hadoop बाइनरी के लिए दर्पण उपलब्ध हैं। Hadoop डाउनलोड करने के लिए इनमें से किसी एक दर्पण पर क्लिक करें।

कमांड प्रॉम्प्ट से Hadoop डाउनलोड करें

लिनक्स टर्मिनल खोलें और सुपर-उपयोगकर्ता के रूप में लॉगिन करें।

$ su 
password:

उस निर्देशिका पर जाएं जहां आपको Hadoop को स्थापित करने की आवश्यकता है, और पहले कॉपी किए गए लिंक का उपयोग करके फ़ाइल को वहां सहेजें, जैसा कि निम्नलिखित कोड ब्लॉक में दिखाया गया है।

# cd /usr/local 
# wget http://redrockdigimark.com/apachemirror/hadoop/common/hadoop-
2.6.4/hadoop-2.6.4.tar.gz

Hadoop डाउनलोड करने के बाद, इसे निम्न कमांड का उपयोग करके निकालें।

# tar zxvf hadoop-2.6.4.tar.gz  
# mkdir hadoop 
# mv hadoop-2.6.4/* to hadoop/ 
# exit

Hadoop स्थापित करना

इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें Hadoop छद्म वितरित मोड में।

चरण 1: Hadoop की स्थापना

आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।

export HADOOP_HOME = /usr/local/hadoop export
HADOOP_MAPRED_HOME = $HADOOP_HOME export
HADOOP_COMMON_HOME = $HADOOP_HOME export 
HADOOP_HDFS_HOME = $HADOOP_HOME export 
YARN_HOME = $HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR = $HADOOP_HOME/lib/native 
export PATH = $PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
export HADOOP_INSTALL = $HADOOP_HOME

इसके बाद, वर्तमान चल रहे सिस्टम में सभी परिवर्तन लागू करें।

$ source ~/.bashrc

चरण 2: Hadoop कॉन्फ़िगरेशन

आप "HADOOP_HOME / etc / hadoop" स्थान में सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। यह आपके Hadoop इन्फ्रास्ट्रक्चर के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में परिवर्तन करने के लिए आवश्यक है।

$ cd $HADOOP_HOME/etc/hadoop

जावा में Hadoop प्रोग्राम विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh फ़ाइल को प्रतिस्थापित करके JAVA_HOME आपके सिस्टम में जावा के स्थान के साथ मूल्य।

export JAVA_HOME = /usr/local/jdk1.7.0_71

निम्न फ़ाइलों की सूची है जिन्हें आपको Hadoop को कॉन्फ़िगर करने के लिए संपादित करना है -

core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml

core-site.xml

core-site.xml फ़ाइल में Hadoop उदाहरण के लिए उपयोग की जाने वाली पोर्ट संख्या, फ़ाइल सिस्टम के लिए आवंटित मेमोरी, डेटा को संग्रहीत करने के लिए मेमोरी की सीमा और पढ़ने / लिखने के बफ़र्स के आकार जैसी जानकारी शामिल है।

कोर- site.xml खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के अंदर निम्न गुण जोड़ें।

<configuration> 
   <property>     
      <name>fs.default.name</name>     
      <value>hdfs://localhost:9000</value>   
   </property> 
</configuration>

hdfs-site.xml

hdfs-site.xml फ़ाइल में प्रतिकृति डेटा का मान जैसी जानकारी है, namenode पथ, और datanodeआपके स्थानीय फ़ाइल सिस्टम के पथ। इसका अर्थ है वह स्थान जहाँ आप Hadoop अवसंरचना को संग्रहीत करना चाहते हैं।

आइए हम निम्नलिखित आंकड़ों को मानते हैं।

dfs.replication (data replication value) = 1  

(In the below given path /hadoop/ is the user name. 
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) 
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode  

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) 
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

इस फ़ाइल को खोलें और <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के अंदर निम्न गुण जोड़ें।

<configuration> 
   <property>     
      <name>dfs.replication</name>     
      <value>1</value>   
   </property>  
   
   <property>     
      <name>dfs.name.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>   
   </property>  
   
   <property>     
      <name>dfs.data.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>   
   </property> 
</configuration>

Note - उपरोक्त फ़ाइल में, सभी संपत्ति मूल्य उपयोगकर्ता-परिभाषित हैं और आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।

yarn-site.xml

इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। यार्न-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration> 
   <property>     
      <name>yarn.nodemanager.aux-services</name>     
      <value>mapreduce_shuffle</value>   
   </property> 
</configuration>

mapred-site.xml

इस फ़ाइल का उपयोग यह निर्दिष्ट करने के लिए किया जाता है कि हम किस MapReduce ढांचे का उपयोग कर रहे हैं। डिफ़ॉल्ट रूप से, Hadoop में यार्न-site.xml का टेम्प्लेट होता है। सबसे पहले, फ़ाइल से कॉपी करना आवश्यक हैmapred-site,xml.template सेवा mapred-site.xml निम्न कमांड का उपयोग करके फ़ाइल।

$ cp mapred-site.xml.template mapred-site.xml

खुला हुआ mapred-site.xml <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के अंदर निम्न गुणों को फ़ाइल करें और जोड़ें।

<configuration> 
   <property>     
      <name>mapreduce.framework.name</name>     
      <value>yarn</value>   
   </property> 
</configuration>

Hadoop स्थापना का सत्यापन

Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।

चरण 1: नाम नोड सेटअप

निम्नानुसार "hdfs namenode -format" कमांड का उपयोग करके नामेनोड सेट करें।

$ cd ~ 
$ hdfs namenode -format

अपेक्षित परिणाम इस प्रकार है।

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG:   host = localhost/192.168.1.11 
STARTUP_MSG:   args = [-format] STARTUP_MSG:   version = 2.6.4 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 
images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 
************************************************************/

चरण 2: Hadoop dfs का सत्यापन करना

Hadoop dfs को शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपका Hadoop फ़ाइल सिस्टम प्रारंभ हो जाएगा।

$ start-dfs.sh

अपेक्षित उत्पादन निम्नानुसार है -

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

चरण 3: यार्न स्क्रिप्ट का सत्यापन

यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न दानव शुरू हो जाएंगे।

$ start-yarn.sh

अपेक्षित उत्पादन निम्नानुसार है -

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.4/logs/yarn-
hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.6.4/logs/yarn-hadoop-nodemanager-localhost.out

चरण 4: ब्राउज़र पर Hadoop तक पहुँचना

Hadoop तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। ब्राउज़र पर Hadoop सेवाएँ प्राप्त करने के लिए निम्न URL का उपयोग करें।

http://localhost:50070/

होदोप पर सोलर स्थापित करना

सोलर डाउनलोड और इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें।

चरण 1

निम्नलिखित लिंक पर क्लिक करके अपाचे सोलर का होमपेज खोलें - https://lucene.apache.org/solr/

चरण 2

दबाएं download button(उपरोक्त स्क्रीनशॉट में हाइलाइट किया गया है)। क्लिक करने पर, आपको उस पृष्ठ पर भेज दिया जाएगा जहाँ आपके पास अपाचे सोलर के विभिन्न दर्पण हैं। एक दर्पण का चयन करें और उस पर क्लिक करें, जो आपको एक पृष्ठ पर रीडायरेक्ट करेगा जहां आप अपाचे सोलर के स्रोत और बाइनरी फ़ाइलों को डाउनलोड कर सकते हैं, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

चरण 3

क्लिक करने पर एक फोल्डर जिसका नाम है Solr-6.2.0.tqzआपके सिस्टम के डाउनलोड फ़ोल्डर में डाउनलोड किया जाएगा। डाउनलोड किए गए फ़ोल्डर की सामग्री निकालें।

चरण 4

Hadoop होम डायरेक्टरी में Solr नाम का एक फोल्डर बनाएं और निकाले गए फोल्डर की सामग्री को नीचे ले जाएं, जैसा कि नीचे दिखाया गया है।

$ mkdir Solr 
$ cd Downloads 
$ mv Solr-6.2.0 /home/Hadoop/

सत्यापन

के माध्यम से ब्राउज़ करें bin सोलर होम निर्देशिका का फ़ोल्डर और स्थापना का उपयोग करके सत्यापित करें version विकल्प, जैसा कि निम्नलिखित कोड ब्लॉक में दिखाया गया है।

$ cd bin/ 
$ ./Solr version 
6.2.0

घर और रास्ता तय करना

को खोलो .bashrc निम्न कमांड का उपयोग करके फ़ाइल -

[Hadoop@localhost ~]$ source ~/.bashrc

अब अपाचे सोलर के लिए घर और मार्ग निर्देशिका इस प्रकार निर्धारित करें -

export SOLR_HOME = /home/Hadoop/Solr  
export PATH = $PATH:/$SOLR_HOME/bin/

टर्मिनल खोलें और निम्नलिखित कमांड निष्पादित करें -

[Hadoop@localhost Solr]$ source ~/.bashrc

अब, आप किसी भी डायरेक्टरी से सोल्र की कमांड को निष्पादित कर सकते हैं।