HCatalog - स्थापना
सभी Hadoop उप-परियोजनाएं जैसे Hive, Pig, और HBase लिनक्स ऑपरेटिंग सिस्टम को सपोर्ट करती हैं। इसलिए, आपको अपने सिस्टम पर लिनक्स स्वाद स्थापित करने की आवश्यकता है। 26 मार्च 2013 को HCatalog का हाइव इंस्टॉलेशन के साथ विलय कर दिया गया है। संस्करण Hive-0.11.0 से, HCatalog हाइव इंस्टॉलेशन के साथ आता है। इसलिए, हाइव को स्थापित करने के लिए नीचे दिए गए चरणों का पालन करें जो बदले में स्वचालित रूप से आपके सिस्टम पर HCatalog स्थापित करेगा।
चरण 1: जावा इंस्टॉलेशन को सत्यापित करना
Hive को इंस्टॉल करने से पहले जावा को आपके सिस्टम पर इंस्टॉल किया जाना चाहिए। आप अपने सिस्टम पर पहले से जावा स्थापित है या नहीं, यह जांचने के लिए आप निम्न कमांड का उपयोग कर सकते हैं -
$ java –version
यदि जावा आपके सिस्टम पर पहले से इंस्टॉल है, तो आपको निम्न प्रतिक्रिया देखने को मिलती है -
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
यदि आपके पास जावा आपके सिस्टम पर स्थापित नहीं है, तो आपको नीचे दिए गए चरणों का पालन करने की आवश्यकता है।
चरण 2: जावा को स्थापित करना
निम्नलिखित लिंक पर जाकर जावा (JDK <नवीनतम संस्करण> - X64.tar.gz) डाउनलोड करें http://www.oracle.com/
फिर jdk-7u71-linux-x64.tar.gz आपके सिस्टम पर डाउनलोड किया जाएगा।
आम तौर पर आपको डाउनलोड किए गए जावा फ़ाइल डाउनलोड फ़ोल्डर में मिलेंगे। इसे सत्यापित करें और निकालेंjdk-7u71-linux-x64.gz निम्न आदेशों का उपयोग करके फ़ाइल।
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट खोलें, और निम्न कमांड टाइप करें।
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
स्थापित करने के लिए PATH तथा JAVA_HOME चर, निम्नलिखित कमांड को इसमें जोड़ें ~/.bashrc फ़ाइल।
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin
अब कमांड का उपयोग करके इंस्टॉलेशन को सत्यापित करें java -version ऊपर बताए अनुसार टर्मिनल से।
चरण 3: सत्यापन Hadoop स्थापना
Hive स्थापित करने से पहले आपके सिस्टम पर Hadoop स्थापित होना चाहिए। आइए निम्नलिखित कमांड का उपयोग करके Hadoop इंस्टॉलेशन को सत्यापित करें -
$ hadoop version
यदि Hadoop आपके सिस्टम पर पहले से इंस्टॉल है, तो आपको निम्न प्रतिक्रिया मिलेगी -
Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
यदि आपके सिस्टम पर Hadoop स्थापित नहीं है, तो निम्न चरणों के साथ आगे बढ़ें -
चरण 4: Hadoop डाउनलोड करना
निम्नलिखित कमांड का उपयोग करके अपाचे सॉफ्टवेयर फाउंडेशन से Hadoop 2.4.1 डाउनलोड और निकालें।
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
चरण 5: छद्म वितरित मोड में Hadoop स्थापित करना
स्थापित करने के लिए निम्न चरणों का उपयोग किया जाता है Hadoop 2.4.1 छद्म वितरित मोड में।
Hadoop की स्थापना
आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
अब वर्तमान में चल रहे सिस्टम में सभी परिवर्तनों को लागू करें।
$ source ~/.bashrc
Hadoop कॉन्फ़िगरेशन
आप "HADOOP_HOME / etc / hadoop" स्थान में सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। आपको अपने Hadoop बुनियादी ढांचे के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में उपयुक्त परिवर्तन करने की आवश्यकता है।
$ cd $HADOOP_HOME/etc/hadoop
जावा का उपयोग करके Hadoop कार्यक्रमों को विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh फ़ाइल को प्रतिस्थापित करके JAVA_HOME आपके सिस्टम में जावा के स्थान के साथ मूल्य।
export JAVA_HOME=/usr/local/jdk1.7.0_71
नीचे दी गई फ़ाइलों की सूची है जिन्हें आपको Hadoop को कॉन्फ़िगर करने के लिए संपादित करना है।
कोर-site.xml
core-site.xml फ़ाइल में Hadoop उदाहरण के लिए उपयोग की जाने वाली पोर्ट संख्या, फ़ाइल सिस्टम के लिए आवंटित मेमोरी, डेटा को संग्रहीत करने के लिए मेमोरी की सीमा और रीड / राइट बफ़र्स के आकार जैसी जानकारी शामिल है।
कोर- site.xml खोलें और <कॉन्फ़िगरेशन> और </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
HDFS-site.xml
hdfs-site.xmlफ़ाइल में प्रतिकृति डेटा के मान, नामेनोड पथ और आपके स्थानीय फ़ाइल सिस्टम के डेटाैनोड पथ जैसी जानकारी होती है। इसका अर्थ है वह स्थान जहाँ आप Hadoop अवसंरचना को संग्रहीत करना चाहते हैं।
आइए हम निम्नलिखित आंकड़ों को मानते हैं।
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
इस फ़ाइल को खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
</property>
</configuration>
Note - उपरोक्त फ़ाइल में, सभी संपत्ति मूल्य उपयोगकर्ता-परिभाषित हैं और आप अपने Hadoop बुनियादी ढांचे के अनुसार परिवर्तन कर सकते हैं।
सूत-site.xml
इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। यार्न-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
यह फ़ाइल निर्दिष्ट करने के लिए उपयोग की जाती है कि हम किस MapReduce ढांचे का उपयोग कर रहे हैं। डिफ़ॉल्ट रूप से, Hadoop में यार्न-site.xml का टेम्प्लेट होता है। सबसे पहले, आपको फ़ाइल को कॉपी करने की आवश्यकता हैmapred-site,xml.template सेवा mapred-site.xml निम्न कमांड का उपयोग करके फ़ाइल।
$ cp mapred-site.xml.template mapred-site.xml
Mapred-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
चरण 6: सत्यापन Hadoop स्थापना
Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।
नामेनोड सेटअप
निम्नानुसार कमांड "hdfs namenode -format" का उपयोग करके नेमेनोड सेट करें -
$ cd ~
$ hdfs namenode -format
अपेक्षित परिणाम इस प्रकार है -
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1
images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
Hadoop DFS का सत्यापन
डीएफएस शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपका Hadoop फ़ाइल सिस्टम प्रारंभ हो जाएगा।
$ start-dfs.sh
अपेक्षित उत्पादन निम्नानुसार है -
10/24/14 21:37:56 Starting namenodes on [localhost]
localhost: starting namenode, logging to
/home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost:
starting datanode, logging to
/home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
यार्न स्क्रिप्ट का सत्यापन
यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न डेमॉन शुरू हो जाएंगे।
$ start-yarn.sh
अपेक्षित उत्पादन निम्नानुसार है -
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/
yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to
/home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
ब्राउज़र पर Hadoop तक पहुँचना
Hadoop तक पहुंचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। अपने ब्राउज़र पर Hadoop सेवाएं प्राप्त करने के लिए निम्न URL का उपयोग करें।
http://localhost:50070/
क्लस्टर के लिए सभी आवेदन सत्यापित करें
क्लस्टर के सभी अनुप्रयोगों तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा पर जाने के लिए निम्न यूआरएल का उपयोग करें।
http://localhost:8088/
एक बार जब आप Hadoop की स्थापना के साथ किया जाता है, तो अगले चरण पर जाएं और अपने सिस्टम पर Hive स्थापित करें।
चरण 7: हाइव को डाउनलोड करना
हम इस ट्यूटोरियल में hive-0.14.0 का उपयोग करते हैं। आप इसे नीचे दिए गए लिंक पर जाकर डाउनलोड कर सकते हैंhttp://apache.petsads.us/hive/hive-0.14.0/। हमें यह मान लें कि यह डाउनलोड हो जाता है/Downloadsनिर्देशिका। यहाँ, हम Hive संग्रह डाउनलोड करते हैं जिसका नाम “apache-hive-0.14.0-bin.tar.gz“इस ट्यूटोरियल के लिए। डाउनलोड को सत्यापित करने के लिए निम्न कमांड का उपयोग किया जाता है -
$ cd Downloads
$ ls
सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है -
apache-hive-0.14.0-bin.tar.gz
चरण 8: हाइव स्थापित करना
आपके सिस्टम पर हाइव स्थापित करने के लिए निम्न चरणों की आवश्यकता होती है। मान लें कि Hive आर्काइव को डाउनलोड किया गया है/Downloads निर्देशिका।
हाइव आर्काइव को निकालना और सत्यापित करना
निम्न आदेश का उपयोग हाइव संग्रह को डाउनलोड करने और निकालने के लिए किया जाता है -
$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls
सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है -
apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
फ़ाइलों को / usr / स्थानीय / हाइव निर्देशिका में कॉपी करना
हमें सुपरयुसर "su -" से फाइल कॉपी करने की आवश्यकता है। निम्न कमांड का उपयोग एक्सट्रैक्टेड डायरेक्टरी से फाइल को कॉपी करने के लिए किया जाता है/usr/local/hive" निर्देशिका।
$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit
हाइव के लिए पर्यावरण की स्थापना
आप निम्न लाइनों को जोड़कर हाइव वातावरण सेट कर सकते हैं ~/.bashrc फ़ाइल -
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
निम्नलिखित कमांड का उपयोग ~ / .bashrc फ़ाइल को निष्पादित करने के लिए किया जाता है।
$ source ~/.bashrc
चरण 9: हाइव को कॉन्फ़िगर करना
Hadoop के साथ Hive को कॉन्फ़िगर करने के लिए, आपको एडिट करना होगा hive-env.sh फ़ाइल, जिसमें रखा गया है $HIVE_HOME/confनिर्देशिका। निम्न आदेश हाइव पर पुनर्निर्देशित करता हैconfig फ़ोल्डर और टेम्पलेट फ़ाइल की प्रतिलिपि बनाएँ -
$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh
संपादित करें hive-env.sh निम्नलिखित पंक्ति को जोड़कर फ़ाइल -
export HADOOP_HOME=/usr/local/hadoop
इसके साथ, हाइव इंस्टॉलेशन पूरा हो गया है। अब आपको मेटास्टोर को कॉन्फ़िगर करने के लिए एक बाहरी डेटाबेस सर्वर की आवश्यकता है। हम अपाचे डर्बी डेटाबेस का उपयोग करते हैं।
चरण 10: अपाचे डर्बी को डाउनलोड और इंस्टॉल करना
Apache Derby को डाउनलोड और इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें -
Downloading अपाचे डर्बी
Apache Derby को डाउनलोड करने के लिए निम्न कमांड का उपयोग किया जाता है। डाउनलोड होने में कुछ समय लगता है।
$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
डाउनलोड को सत्यापित करने के लिए निम्न कमांड का उपयोग किया जाता है -
$ ls
सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है -
db-derby-10.4.2.0-bin.tar.gz
डर्बी आर्काइव को निकालना और सत्यापित करना
निम्नलिखित आदेश डर्बी संग्रह को निकालने और सत्यापित करने के लिए उपयोग किए जाते हैं -
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls
सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है -
db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
फ़ाइलों को / usr / स्थानीय / डर्बी निर्देशिका में कॉपी करना
हमें सुपरसियर "सु -" से कॉपी करने की आवश्यकता है। निम्न कमांड का उपयोग एक्सट्रैक्टेड डायरेक्टरी से फाइल को कॉपी करने के लिए किया जाता है/usr/local/derby निर्देशिका -
$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit
डर्बी के लिए पर्यावरण की स्थापना
आप निम्नलिखित पंक्तियों को जोड़कर डर्बी पर्यावरण की स्थापना कर सकते हैं ~/.bashrc फ़ाइल -
export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar
निष्पादित करने के लिए निम्न कमांड का उपयोग किया जाता है ~/.bashrc file -
$ source ~/.bashrc
Metastore के लिए एक निर्देशिका बनाएँ
एक निर्देशिका बनाएँ data Metastore डेटा संग्रहीत करने के लिए $ DERBY_HOME निर्देशिका में।
$ mkdir $DERBY_HOME/data
डर्बी की स्थापना और पर्यावरणीय स्थापना अब पूरी हो गई है।
चरण 11: हाइव मेटास्टोर को कॉन्फ़िगर करना
मेटास्टोर को कॉन्फ़िगर करने का अर्थ है हाइव को निर्दिष्ट करना जहां डेटाबेस संग्रहीत है। आप इसे संपादित करके कर सकते हैंhive-site.xml फ़ाइल, जो में है $HIVE_HOME/confनिर्देशिका। सबसे पहले, निम्नलिखित कमांड का उपयोग करके टेम्पलेट फ़ाइल को कॉपी करें -
$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml
संपादित करें hive-site.xml और <कॉन्फ़िगरेशन> और </ कॉन्फ़िगरेशन> टैग के बीच निम्न पंक्तियाँ जोड़ें -
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create = true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
नाम से एक फ़ाइल बनाएँ jpox.properties और इसमें निम्नलिखित पंक्तियाँ जोड़ें -
javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine
चरण 12: हाइव स्थापना को सत्यापित करना
हाइव चलाने से पहले, आपको बनाने की आवश्यकता है /tmpएचडीएफएस में फ़ोल्डर और एक अलग हाइव फ़ोल्डर। यहां, हम उपयोग करते हैं/user/hive/warehouseफ़ोल्डर। आपको इन नव निर्मित फ़ोल्डरों के लिए लिखित अनुमति सेट करने की आवश्यकता है जैसा कि नीचे दिखाया गया है -
chmod g+w
अब हाइव को सत्यापित करने से पहले उन्हें एचडीएफएस में सेट करें। निम्न आदेशों का उपयोग करें -
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
निम्न आदेश का उपयोग हाइव स्थापना को सत्यापित करने के लिए किया जाता है -
$ cd $HIVE_HOME
$ bin/hive
हाइव की सफल स्थापना पर, आपको निम्नलिखित प्रतिक्रिया देखने को मिलती है -
Logging initialized using configuration in
jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/
hive-log4j.properties Hive history
=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>
आप सभी तालिकाओं को प्रदर्शित करने के लिए निम्न नमूना कमांड निष्पादित कर सकते हैं -
hive> show tables;
OK Time taken: 2.798 seconds
hive>
चरण 13: HCatalog स्थापना की जाँच करें
सिस्टम चर सेट करने के लिए निम्न कमांड का उपयोग करें HCAT_HOME HCatalog होम के लिए।
export HCAT_HOME = $HiVE_HOME/HCatalog
HCatalog स्थापना को सत्यापित करने के लिए निम्न आदेश का उपयोग करें।
cd $HCAT_HOME/bin
./hcat
यदि स्थापना सफल होती है, तो आपको निम्न आउटपुट देखने को मिलेंगे -
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
usage: hcat { -e "<query>" | -f "<filepath>" }
[ -g "<group>" ] [ -p "<perms>" ]
[ -D"<name> = <value>" ]
-D <property = value> use hadoop value for given property
-e <exec> hcat command given from command line
-f <file> hcat commands in file
-g <group> group for the db/table specified in CREATE statement
-h,--help Print help information
-p <perms> permissions for the db/table specified in CREATE statement