हाइव - त्वरित गाइड

'बिग डेटा' शब्द का इस्तेमाल बड़े डेटासेट के संग्रह के लिए किया जाता है जिसमें भारी मात्रा, उच्च वेग और विभिन्न प्रकार के डेटा शामिल हैं जो दिन-प्रतिदिन बढ़ रहे हैं। पारंपरिक डेटा प्रबंधन प्रणालियों का उपयोग करके बिग डेटा को संसाधित करना मुश्किल है। इसलिए, अपाचे सॉफ्टवेयर फाउंडेशन ने बिग डेटा प्रबंधन और प्रसंस्करण चुनौतियों को हल करने के लिए Hadoop नामक एक रूपरेखा पेश की।

Hadoop

Hadoop एक वितरित वातावरण में बिग डेटा को स्टोर और प्रोसेस करने के लिए एक ओपन-सोर्स फ्रेमवर्क है। इसमें दो मॉड्यूल शामिल हैं, एक है MapReduce और दूसरा है Hadoop Distributed File System (HDFS)।

  • MapReduce: यह कमोडिटी हार्डवेयर के बड़े समूहों पर संरचित, अर्ध-संरचित और असंरचित डेटा की बड़ी मात्रा में प्रसंस्करण के लिए एक समानांतर प्रोग्रामिंग मॉडल है।

  • HDFS:Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम, Hadoop फ्रेमवर्क का एक हिस्सा है, जो डेटासेट को स्टोर और प्रोसेस करने के लिए उपयोग किया जाता है। यह कमोडिटी हार्डवेयर पर चलने के लिए फॉल्ट-टॉलरेंट फाइल सिस्टम प्रदान करता है।

Hadoop पारिस्थितिकी तंत्र में Sqoop, Pig, और Hive जैसे विभिन्न उप-परियोजनाएँ (उपकरण) शामिल हैं जिनका उपयोग Hadoop मॉड्यूल की सहायता के लिए किया जाता है।

  • Sqoop: एचडीएफएस और आरडीबीएमएस के बीच डेटा को आयात और निर्यात करने के लिए इसका उपयोग किया जाता है।

  • Pig: यह एक प्रक्रियात्मक भाषा मंच है जिसका उपयोग MapReduce संचालन के लिए एक स्क्रिप्ट विकसित करने के लिए किया जाता है।

  • Hive: यह MapReduce संचालन करने के लिए SQL प्रकार स्क्रिप्ट विकसित करने के लिए उपयोग किया जाने वाला एक प्लेटफ़ॉर्म है।

Note: MapReduce संचालन को निष्पादित करने के विभिन्न तरीके हैं:

  • संरचित, अर्ध-संरचित और असंरचित डेटा के लिए जावा मेप्रेड कार्यक्रम का उपयोग करते हुए पारंपरिक दृष्टिकोण।
  • सुअर का उपयोग करके संरचित और अर्ध संरचित डेटा को संसाधित करने के लिए MapReduce के लिए स्क्रिप्टिंग दृष्टिकोण।
  • Hive का उपयोग करके संरचित डेटा को संसाधित करने के लिए MapReduce के लिए Hive Query Language (HiveQL या HQL)।

हाइव क्या है

Hive, Hadoop में संरचित डेटा को प्रोसेस करने के लिए एक डेटा वेयरहाउस इन्फ्रास्ट्रक्चर टूल है। यह बिग डेटा को सारांशित करने के लिए हडोप के शीर्ष पर रहता है, और क्वेरी करना और विश्लेषण करना आसान बनाता है।

शुरुआत में हाइव फेसबुक द्वारा विकसित किया गया था, बाद में अपाचे सॉफ्टवेयर फाउंडेशन ने इसे लिया और इसे अपाचे हाइव नाम के तहत एक खुले स्रोत के रूप में विकसित किया। इसका उपयोग विभिन्न कंपनियों द्वारा किया जाता है। उदाहरण के लिए, Amazon इसका उपयोग Amazon Elastic MapReduce में करता है।

छत्ता नहीं है

  • एक संबंधपरक डेटाबेस
  • OnLine लेनदेन प्रसंस्करण (OLTP) के लिए एक डिजाइन
  • वास्तविक समय के प्रश्नों और पंक्ति-स्तरीय अपडेट के लिए एक भाषा

छत्ता की विशेषताएं

  • यह एक डेटाबेस में स्कीमा और HDFS में संसाधित डेटा संग्रहीत करता है।
  • इसे OLAP के लिए डिज़ाइन किया गया है।
  • यह HiveQL या HQL नामक क्वेरी के लिए SQL प्रकार की भाषा प्रदान करता है।
  • यह परिचित, तेज, स्केलेबल और एक्स्टेंसिबल है।

हाइव की वास्तुकला

निम्नलिखित घटक आरेख में हाइव की वास्तुकला को दर्शाया गया है:

इस घटक आरेख में विभिन्न इकाइयाँ हैं। निम्न तालिका प्रत्येक इकाई का वर्णन करती है:

इकाई का नाम ऑपरेशन
प्रयोक्ता इंटरफ़ेस हाइव एक डेटा वेयरहाउस इन्फ्रास्ट्रक्चर सॉफ्टवेयर है जो उपयोगकर्ता और एचडीएफएस के बीच संपर्क बना सकता है। हाइव का समर्थन करने वाले उपयोगकर्ता इंटरफ़ेस हाइव वेब यूआई, हाइव कमांड लाइन और हाइव एचडी इनसाइट (विंडोज सर्वर में) हैं।
मेटा स्टोर हाइव संबंधित डेटाबेस सर्वर को टेबल, डेटाबेस, कॉलम के टेबल में मेटाडेटा, उनके डेटा प्रकार और एचडीएफएस मैपिंग को स्टोर करने के लिए चुनता है।
HiveQL प्रक्रिया इंजन मेटाकोर पर स्कीमा जानकारी पर क्वेरी करने के लिए HiveQL SQL के समान है। यह MapReduce कार्यक्रम के लिए पारंपरिक दृष्टिकोण के प्रतिस्थापन में से एक है। Java में MapReduce प्रोग्राम लिखने के बजाय, हम MapReduce जॉब के लिए एक क्वेरी लिख सकते हैं और इसे प्रोसेस कर सकते हैं।
निष्पादन इंजन HiveQL प्रक्रिया इंजन और MapReduce का संयोजन हिस्सा हाइव निष्पादन इंजन है। निष्पादन इंजन क्वेरी को संसाधित करता है और MapReduce परिणामों के समान परिणाम उत्पन्न करता है। यह MapReduce के स्वाद का उपयोग करता है।
HDFS या HBASE Hadoop वितरित फ़ाइल सिस्टम या HBASE फ़ाइल सिस्टम में डेटा को स्टोर करने के लिए डेटा स्टोरेज तकनीक है।

छत्ता का कार्य

निम्न चित्र में Hive और Hadoop के बीच वर्कफ़्लो को दर्शाया गया है।

निम्न तालिका परिभाषित करती है कि Hive कैसे Hadoop ढांचे के साथ बातचीत करता है:

चरण संख्या ऑपरेशन
1 Execute Query

Hive इंटरफ़ेस जैसे कमांड लाइन या वेब UI, ड्राइवर (किसी भी डेटाबेस ड्राइवर जैसे JDBC, ODBC, आदि) को निष्पादित करने के लिए क्वेरी भेजता है।

2 Get Plan

ड्राइवर क्वेरी कंपाइलर की मदद लेता है जो वाक्यविन्यास और क्वेरी प्लान या क्वेरी की आवश्यकता की जांच करने के लिए क्वेरी को पार्स करता है।

3 Get Metadata

संकलक मेटाडाटा (किसी भी डेटाबेस) को मेटाडेटा अनुरोध भेजता है।

4 Send Metadata

मेटास्टोर कंपाइलर की प्रतिक्रिया के रूप में मेटाडेटा भेजता है।

5 Send Plan

संकलक आवश्यकता की जांच करता है और चालक को योजना को भेजता है। यहाँ तक, एक क्वेरी का पार्सिंग और संकलन पूरा हो गया है।

6 Execute Plan

ड्राइवर निष्पादन योजना को निष्पादन इंजन में भेजता है।

7 Execute Job

आंतरिक रूप से, निष्पादन की प्रक्रिया एक MapReduce नौकरी है। निष्पादन इंजन जॉबट्रैक को नौकरी भेजता है, जो कि नाम नोड में है और यह इस कार्य को टास्कट्रैक को सौंपता है, जो डेटा नोड में है। यहाँ, क्वेरी MapReduce कार्य को निष्पादित करती है।

7.1 Metadata Ops

निष्पादन के दौरान, निष्पादन इंजन मेटास्टोर के साथ मेटाडेटा संचालन को निष्पादित कर सकता है।

8 Fetch Result

निष्पादन इंजन डेटा नोड्स से परिणाम प्राप्त करता है।

9 Send Results

निष्पादन इंजन ड्राइवर को उन परिणामी मूल्यों को भेजता है।

10 Send Results

ड्राइवर हाइव इंटरफेसेस के लिए परिणाम भेजता है।

सभी Hadoop उप-परियोजनाएं जैसे Hive, Pig, और HBase लिनक्स ऑपरेटिंग सिस्टम को सपोर्ट करती हैं। इसलिए, आपको किसी भी लिनक्स स्वाद वाले ओएस को स्थापित करने की आवश्यकता है। निम्न आसान चरणों को हाइव स्थापना के लिए निष्पादित किया जाता है:

चरण 1: जावा इंस्टॉलेशन को सत्यापित करना

Hive को इंस्टॉल करने से पहले जावा को आपके सिस्टम पर इंस्टॉल किया जाना चाहिए। आइए निम्नलिखित कमांड का उपयोग करके जावा इंस्टॉलेशन को सत्यापित करें:

$ java –version

यदि जावा आपके सिस्टम पर पहले से इंस्टॉल है, तो आपको निम्न प्रतिक्रिया देखने को मिलेगी:

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

यदि आपके सिस्टम में जावा स्थापित नहीं है, तो जावा स्थापित करने के लिए नीचे दिए गए चरणों का पालन करें।

जावा को स्थापित करना

चरण I:

निम्न लिंक पर जाकर java (JDK <नवीनतम संस्करण> - X64.tar.gz) डाउनलोड करें http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html।

फिर आपके सिस्टम पर jdk-7u71-linux-x64.tar.gz डाउनलोड हो जाएगा।

चरण II:

आम तौर पर आपको डाउनलोड किए गए जावा फ़ाइल डाउनलोड फ़ोल्डर में मिलेंगे। इसे सत्यापित करें और निम्न आदेशों का उपयोग करके jdk-7u71-linux-x64.gz फ़ाइल निकालें।

$ cd Downloads/
$ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

चरण III:

जावा को सभी उपयोगकर्ताओं के लिए उपलब्ध कराने के लिए, आपको इसे "/ usr / स्थानीय /" स्थान पर ले जाना होगा। रूट खोलें, और निम्न कमांड टाइप करें।

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

चरण IV:

PATH और JAVA_HOME चर सेट करने के लिए, ~ / .bashrc फ़ाइल में निम्न कमांड जोड़ें।

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

अब ऊपर बताए अनुसार टर्मिनल से कमांड जावा-वर्सन का उपयोग करके इंस्टॉलेशन को सत्यापित करें।

चरण 2: सत्यापन Hadoop स्थापना

Hive स्थापित करने से पहले आपके सिस्टम पर Hadoop स्थापित होना चाहिए। हम निम्न कमांड का उपयोग करके Hadoop इंस्टॉलेशन को सत्यापित करते हैं:

$ hadoop version

यदि Hadoop आपके सिस्टम पर पहले से ही स्थापित है, तो आपको निम्न प्रतिक्रिया मिलेगी:

Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 
Compiled by hortonmu on 2013-10-07T06:28Z 
Compiled with protoc 2.5.0 
From source with checksum 79e53ce7994d1628b240f09af91e1af4

यदि आपके सिस्टम पर Hadoop स्थापित नहीं है, तो निम्न चरणों के साथ आगे बढ़ें:

Hadoop डाउनलोड करना

निम्नलिखित कमांड का उपयोग करके अपाचे सॉफ्टवेयर फाउंडेशन से Hadoop 2.4.1 डाउनलोड और निकालें।

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

छद्म वितरित मोड में Hadoop स्थापित करना

छद्म वितरित मोड में Hadoop 2.4.1 को स्थापित करने के लिए निम्न चरणों का उपयोग किया जाता है।

चरण I: Hadoop की स्थापना

आप निम्न आदेशों को जोड़कर Hadoop वातावरण चर सेट कर सकते हैं ~/.bashrc फ़ाइल।

export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

अब वर्तमान में चल रहे सिस्टम में सभी परिवर्तनों को लागू करें।

$ source ~/.bashrc

चरण II: Hadoop कॉन्फ़िगरेशन

आप "HADOOP_HOME / etc / hadoop" स्थान में सभी Hadoop कॉन्फ़िगरेशन फ़ाइलों को पा सकते हैं। आपको अपने Hadoop बुनियादी ढांचे के अनुसार उन कॉन्फ़िगरेशन फ़ाइलों में उपयुक्त परिवर्तन करने की आवश्यकता है।

$ cd $HADOOP_HOME/etc/hadoop

जावा का उपयोग करके Hadoop कार्यक्रमों को विकसित करने के लिए, आपको जावा वातावरण चर को रीसेट करना होगा hadoop-env.sh फ़ाइल को प्रतिस्थापित करके JAVA_HOME आपके सिस्टम में जावा के स्थान के साथ मूल्य।

export JAVA_HOME=/usr/local/jdk1.7.0_71

नीचे दी गई फ़ाइलों की सूची है जिन्हें आपको Hadoop को कॉन्फ़िगर करने के लिए संपादित करना है।

core-site.xml

core-site.xml फ़ाइल में Hadoop उदाहरण के लिए उपयोग की जाने वाली पोर्ट संख्या, फ़ाइल सिस्टम के लिए आवंटित मेमोरी, डेटा को संग्रहीत करने के लिए मेमोरी की सीमा और रीड / राइट बफ़र्स के आकार जैसी जानकारी शामिल है।

कोर- site.xml खोलें और <कॉन्फ़िगरेशन> और </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>

   <property> 
      <name>fs.default.name</name> 
      <value>hdfs://localhost:9000</value> 
   </property>
   
</configuration>

hdfs-site.xml

hdfs-site.xmlफ़ाइल में प्रतिकृति डेटा के मान, नामेनोड पथ और आपके स्थानीय फ़ाइल सिस्टम के डेटाैनोड पथ जैसी जानकारी होती है। इसका मतलब उस जगह से है जहां आप हाडोप इन्फ्रा को स्टोर करना चाहते हैं।

आइए हम निम्नलिखित आंकड़ों को मानते हैं।

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

इस फ़ाइल को खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>

   <property> 
      <name>dfs.replication</name> 
      <value>1</value> 
   </property> 
   <property> 
      <name>dfs.name.dir</name> 
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> 
   </property> 
   <property> 
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > 
   </property>
   
</configuration>

Note: उपरोक्त फ़ाइल में, सभी संपत्ति मान उपयोगकर्ता-परिभाषित हैं और आप अपने Hadoop अवसंरचना के अनुसार परिवर्तन कर सकते हैं।

yarn-site.xml

इस फ़ाइल का उपयोग यार्न को Hadoop में कॉन्फ़िगर करने के लिए किया जाता है। यार्न-site.xml फ़ाइल खोलें और इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुण जोड़ें।

<configuration>

   <property> 
      <name>yarn.nodemanager.aux-services</name> 
      <value>mapreduce_shuffle</value> 
   </property>
   
</configuration>

mapred-site.xml

यह फ़ाइल निर्दिष्ट करने के लिए उपयोग की जाती है कि हम किस MapReduce ढांचे का उपयोग कर रहे हैं। डिफ़ॉल्ट रूप से, Hadoop में यार्न-site.xml का टेम्प्लेट होता है। सबसे पहले, आपको निम्न आदेश का उपयोग करके फ़ाइल को मैप किए गए-साइट, xml.template से mapred-site.xml फ़ाइल में कॉपी करने की आवश्यकता है।

$ cp mapred-site.xml.template mapred-site.xml

खुला हुआ mapred-site.xml इस फ़ाइल में <कॉन्फ़िगरेशन>, </ कॉन्फ़िगरेशन> टैग के बीच निम्न गुणों को फ़ाइल करें और जोड़ें।

<configuration>

   <property> 
      <name>mapreduce.framework.name</name> 
      <value>yarn</value> 
   </property>

</configuration>

Hadoop स्थापना का सत्यापन

Hadoop स्थापना को सत्यापित करने के लिए निम्न चरणों का उपयोग किया जाता है।

चरण I: नाम नोड सेटअप

निम्नानुसार "hdfs namenode -format" कमांड का उपयोग करके नामेनोड सेट करें।

$ cd ~ $ hdfs namenode -format

अपेक्षित परिणाम इस प्रकार है।

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG: host = localhost/192.168.1.11 
STARTUP_MSG: args = [-format] 
STARTUP_MSG: version = 2.4.1 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to 
retain 1 images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
 ************************************************************/

चरण II: Hadoop dfs का सत्यापन करना

Dfs शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपका Hadoop फ़ाइल सिस्टम प्रारंभ हो जाएगा।

$ start-dfs.sh

अपेक्षित आउटपुट निम्नानुसार है:

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

चरण III: यार्न स्क्रिप्ट का सत्यापन

यार्न स्क्रिप्ट शुरू करने के लिए निम्न कमांड का उपयोग किया जाता है। इस आदेश को निष्पादित करने से आपके यार्न डेमन शुरू हो जाएंगे।

$ start-yarn.sh

अपेक्षित आउटपुट निम्नानुसार है:

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

चरण IV: ब्राउज़र पर Hadoop तक पहुँचना

Hadoop तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 50070 है। अपने ब्राउज़र पर Hadoop सेवाएँ प्राप्त करने के लिए निम्न url का उपयोग करें।

http://localhost:50070/

चरण V: क्लस्टर के लिए सभी अनुप्रयोगों को सत्यापित करें

क्लस्टर के सभी अनुप्रयोगों तक पहुँचने के लिए डिफ़ॉल्ट पोर्ट संख्या 8088 है। इस सेवा पर जाने के लिए निम्न यूआरएल का उपयोग करें।

http://localhost:8088/

चरण 3: हाइव को डाउनलोड करना

हम इस ट्यूटोरियल में hive-0.14.0 का उपयोग करते हैं। आप इसे नीचे दिए गए लिंक पर जाकर डाउनलोड कर सकते हैंhttp://apache.petsads.us/hive/hive-0.14.0/.आइए हम यह मान लें कि यह / डाउनलोड निर्देशिका पर डाउनलोड हो जाता है। यहां, हम इस ट्यूटोरियल के लिए "Apache-hive-0.14.0-bin.tar.gz" नाम से हाइव आर्काइव डाउनलोड करते हैं। निम्न कमांड का उपयोग डाउनलोड को सत्यापित करने के लिए किया जाता है:

$ cd Downloads $ ls

सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

apache-hive-0.14.0-bin.tar.gz

चरण 4: हाइव स्थापित करना

आपके सिस्टम पर हाइव स्थापित करने के लिए निम्न चरणों की आवश्यकता होती है। मान लें कि हाइव आर्काइव / डाउनलोड डायरेक्टरी में डाउनलोड किया गया है।

हाइव आर्काइव को निकालना और सत्यापित करना

निम्न आदेश का उपयोग हाइव संग्रह को डाउनलोड करने और निकालने के लिए किया जाता है:

$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls

सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

फ़ाइलों को / usr / स्थानीय / हाइव निर्देशिका में कॉपी करना

हमें सुपर उपयोगकर्ता "सु -" से फ़ाइलों को कॉपी करने की आवश्यकता है। निम्न कमांड का उपयोग एक्सट्रैक्टेड डायरेक्टरी / usr / लोकल / हाइव ”डायरेक्टरी से फाइल कॉपी करने के लिए किया जाता है।

$ su -
passwd:

# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

हाइव के लिए वातावरण की स्थापना

आप निम्न लाइनों को जोड़कर हाइव वातावरण सेट कर सकते हैं ~/.bashrc फ़ाइल:

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

निम्नलिखित कमांड का उपयोग ~ / .bashrc फ़ाइल को निष्पादित करने के लिए किया जाता है।

$ source ~/.bashrc

चरण 5: हाइव को कॉन्फ़िगर करना

Hadoop के साथ Hive को कॉन्फ़िगर करने के लिए, आपको एडिट करना होगा hive-env.sh फ़ाइल, जिसमें रखा गया है $HIVE_HOME/confनिर्देशिका। निम्न आदेश हाइव पर पुनर्निर्देशित करता हैconfig फ़ोल्डर और टेम्पलेट फ़ाइल की प्रतिलिपि बनाएँ:

$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh

संपादित करें hive-env.sh निम्न पंक्ति जोड़कर फ़ाइल:

export HADOOP_HOME=/usr/local/hadoop

छत्ता स्थापना सफलतापूर्वक पूरा हो गया है। अब आपको मेटास्टोर को कॉन्फ़िगर करने के लिए एक बाहरी डेटाबेस सर्वर की आवश्यकता है। हम अपाचे डर्बी डेटाबेस का उपयोग करते हैं।

चरण 6: अपाचे डर्बी को डाउनलोड करना और इंस्टॉल करना

Apache Derby डाउनलोड और इंस्टॉल करने के लिए नीचे दिए गए चरणों का पालन करें:

Downloading अपाचे डर्बी

Apache Derby को डाउनलोड करने के लिए निम्न कमांड का उपयोग किया जाता है। डाउनलोड होने में कुछ समय लगता है।

$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

निम्न कमांड का उपयोग डाउनलोड को सत्यापित करने के लिए किया जाता है:

$ ls

सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

db-derby-10.4.2.0-bin.tar.gz

डर्बी संग्रह को निकालना और सत्यापित करना

निम्नलिखित आदेश डर्बी संग्रह को निकालने और सत्यापित करने के लिए उपयोग किए जाते हैं:

$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

फ़ाइलों को / usr / स्थानीय / डर्बी निर्देशिका में कॉपी करना

हमें सुपर उपयोगकर्ता "सु -" से कॉपी करने की आवश्यकता है। निम्न कमांड का उपयोग एक्सट्रैक्टेड डायरेक्टरी / usr / लोकल / डर्बी डायरेक्टरी से फाइल कॉपी करने के लिए किया जाता है:

$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

डर्बी के लिए पर्यावरण की स्थापना

आप निम्नलिखित पंक्तियों को जोड़कर डर्बी पर्यावरण की स्थापना कर सकते हैं ~/.bashrc फ़ाइल:

export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar

निष्पादित करने के लिए निम्न कमांड का उपयोग किया जाता है ~/.bashrc फ़ाइल:

$ source ~/.bashrc

Metastore को स्टोर करने के लिए एक निर्देशिका बनाएँ

मेटास्टोर डेटा संग्रहीत करने के लिए $ DERBY_HOME निर्देशिका में डेटा नाम की निर्देशिका बनाएं।

$ mkdir $DERBY_HOME/data

डर्बी की स्थापना और पर्यावरणीय स्थापना अब पूरी हो गई है।

चरण 7: हाइव के मेटास्टोर को कॉन्फ़िगर करना

मेटास्टोर को कॉन्फ़िगर करने का अर्थ है हाइव को निर्दिष्ट करना जहां डेटाबेस संग्रहीत है। आप इसे hive-site.xml फ़ाइल को संपादित करके कर सकते हैं, जो $ HIVE_HOME / conf डायरेक्टरी में है। सबसे पहले, निम्न कमांड का उपयोग करके टेम्पलेट फ़ाइल की प्रतिलिपि बनाएँ:

$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

संपादित करें hive-site.xml और <कॉन्फ़िगरेशन> और </ कॉन्फ़िगरेशन> टैग के बीच निम्न पंक्तियाँ जोड़ें:

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:derby://localhost:1527/metastore_db;create=true </value>
   <description>JDBC connect string for a JDBC metastore </description>
</property>

Jpox.properties नाम की एक फ़ाइल बनाएँ और उसमें निम्न पंक्तियाँ जोड़ें:

javax.jdo.PersistenceManagerFactoryClass =

org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

चरण 8: हाइव स्थापना को सत्यापित करना

हाइव चलाने से पहले, आपको बनाने की आवश्यकता है /tmpएचडीएफएस में फ़ोल्डर और एक अलग हाइव फ़ोल्डर। यहां, हम उपयोग करते हैं/user/hive/warehouseफ़ोल्डर। आपको इन नए बनाए गए फ़ोल्डरों के लिए लिखित अनुमति सेट करने की आवश्यकता है जैसा कि नीचे दिखाया गया है:

chmod g+w

अब हाइव को सत्यापित करने से पहले उन्हें एचडीएफएस में सेट करें। निम्नलिखित आदेशों का उपयोग करें:

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

निम्न आदेश का उपयोग हाइव स्थापना को सत्यापित करने के लिए किया जाता है:

$ cd $HIVE_HOME $ bin/hive

हाइव की सफल स्थापना पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties 
Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

सभी तालिकाओं को प्रदर्शित करने के लिए निम्न नमूना कमांड निष्पादित किया गया है:

hive> show tables; 
OK 
Time taken: 2.798 seconds 
hive>

यह अध्याय आपको हाइव में विभिन्न डेटा प्रकारों के माध्यम से ले जाता है, जो तालिका निर्माण में शामिल हैं। हाइव के सभी डेटा प्रकारों को चार प्रकारों में वर्गीकृत किया गया है, जो निम्नानुसार हैं:

  • स्तंभ प्रकार
  • Literals
  • अशक्त मान
  • जटिल प्रकार

स्तंभ प्रकार

स्तंभ प्रकार Hive के स्तंभ डेटा प्रकार के रूप में उपयोग किया जाता है। वे इस प्रकार हैं:

अभिन्न प्रकार

इंटीग्रल डेटा प्रकार, INT का उपयोग करके पूर्णांक डेटा निर्दिष्ट किया जा सकता है। जब डेटा श्रेणी INT की सीमा से अधिक हो जाती है, तो आपको BIGINT का उपयोग करना होगा और यदि डेटा श्रेणी INT से छोटी है, तो आप SMALLINT का उपयोग करें। TINYINT SMALLINT से छोटा है।

निम्न तालिका में विभिन्न INT डेटा प्रकारों को दर्शाया गया है:

प्रकार पोस्टफ़िक्स उदाहरण
TINYINT Y 10y
SMALLINT रों 10S
पूर्णांक - 10
BIGINT एल 10 एल

स्ट्रिंग प्रकार

स्ट्रिंग प्रकार डेटा प्रकार एकल उद्धरण ('') या दोहरे उद्धरण ("") का उपयोग करके निर्दिष्ट किया जा सकता है। इसमें दो डेटा प्रकार होते हैं: VARCHAR और CHAR। हाइव सी-प्रकार के भागने वाले पात्रों का अनुसरण करता है।

निम्न तालिका में विभिन्न CHAR डेटा प्रकारों को दर्शाया गया है:

डाटा प्रकार लंबाई
VARCHAR 1 से 65355 रु
CHAR 255

समय-चिह्न

यह वैकल्पिक नेनोसेकंड सटीक के साथ पारंपरिक यूनिक्स टाइमस्टैम्प का समर्थन करता है। यह java.sql.Timestamp प्रारूप "YYYY-MM-DD HH: MM: SS.ffffffff" और "yyyy-mm-dd hh: mm: ss.ffffffffff" का समर्थन करता है।

खजूर

दिनांक मानों को वर्ष / माह / दिन प्रारूप में {{YYYY-MM-DD}} के रूप में वर्णित किया गया है।

दशमलव

हाइव में DECIMAL प्रकार जावा के बिग दशमलव प्रारूप के समान है। इसका उपयोग अपरिवर्तनीय मनमानी परिशुद्धता का प्रतिनिधित्व करने के लिए किया जाता है। वाक्य रचना और उदाहरण इस प्रकार है:

DECIMAL(precision, scale)
decimal(10,0)

संघ के प्रकार

संघ विषम डेटा प्रकारों का एक संग्रह है। आप का उपयोग कर एक उदाहरण बना सकते हैंcreate union। वाक्य रचना और उदाहरण इस प्रकार है:

UNIONTYPE<int, double, array<string>, struct<a:int,b:string>>

{0:1} 
{1:2.0} 
{2:["three","four"]} 
{3:{"a":5,"b":"five"}} 
{2:["six","seven"]} 
{3:{"a":8,"b":"eight"}} 
{0:9} 
{1:10.0}

शाब्दिक

निम्नलिखित शब्द Hive में उपयोग किए जाते हैं:

फ्लोटिंग पॉइंट प्रकार

फ़्लोटिंग पॉइंट प्रकार दशमलव अंकों के साथ और कुछ नहीं हैं। आम तौर पर, इस प्रकार का डेटा DOUBLE डेटा प्रकार से बना होता है।

दशम प्रकार

-308 308

अशक्त मान

गुम मानों का प्रतिनिधित्व विशेष मूल्य NULL द्वारा किया जाता है।

जटिल प्रकार

हाइव जटिल डेटा प्रकार इस प्रकार हैं:

सरणियों

हाइव में एरे का उपयोग उसी तरह किया जाता है जैसे वे जावा में उपयोग किया जाता है।

सिंटैक्स: ARRAY <data_type>

एमएपीएस

हाइव में मैप्स जावा मैप्स के समान हैं।

सिंटैक्स: MAP <primitive_type, data_type>

structs

हाइव में संरचनाएं टिप्पणी के साथ जटिल डेटा का उपयोग करने के समान है।

सिंटैक्स: STRUCT <col_name: data_type [COMMENT col_comment], ...>

हाइव एक डेटाबेस तकनीक है जो संरचित डेटा का विश्लेषण करने के लिए डेटाबेस और तालिकाओं को परिभाषित कर सकती है। संरचित डेटा विश्लेषण के लिए विषय डेटा को सारणीबद्ध तरीके से संग्रहीत करना है, और विश्लेषण करने के लिए प्रश्नों को पास करना है। यह अध्याय बताता है कि हाइव डेटाबेस कैसे बनाया जाए। हाइव में एक डिफ़ॉल्ट डेटाबेस होता है जिसका नाम हैdefault

डेटाबेस स्टेटमेंट बनाएं

डेटाबेस बनाएँ एक कथन है जिसका उपयोग हाइव में डेटाबेस बनाने के लिए किया जाता है। हाइव में एक डेटाबेस ए हैnamespaceया तालिकाओं का संग्रह। syntax इस कथन के लिए निम्नानुसार है:

CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>

यहां, IF NOT EXISTS एक वैकल्पिक क्लॉज है, जो उपयोगकर्ता को सूचित करता है कि समान नाम वाला डेटाबेस पहले से मौजूद है। हम इस कमांड में DATABASE के स्थान पर SCHEMA का उपयोग कर सकते हैं। निम्नलिखित क्वेरी को एक डेटाबेस नाम दिया गया हैuserdb:

hive> CREATE DATABASE [IF NOT EXISTS] userdb;

or

hive> CREATE SCHEMA userdb;

डेटाबेस सूची को सत्यापित करने के लिए निम्न क्वेरी का उपयोग किया जाता है:

hive> SHOW DATABASES;
default
userdb

JDBC कार्यक्रम

डेटाबेस बनाने के लिए JDBC प्रोग्राम नीचे दिया गया है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet; 4. CREATE DATABASE
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveCreateDb {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/default", "", "");
      Statement stmt = con.createStatement();
      stmt.executeQuery("CREATE DATABASE userdb");
      System.out.println(“Database userdb created successfully.”);
      con.close();
   }
}

प्रोग्राम को HiveCreateDb.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग किया जाता है।

$ javac HiveCreateDb.java $ java HiveCreateDb

आउटपुट:

Database userdb created successfully.

यह अध्याय बताता है कि हाइव में एक डेटाबेस को कैसे छोड़ा जाए। SCHEMA और DATABASE का उपयोग समान है।

ड्रॉप डेटाबेस स्टेटमेंट

ड्रॉप डेटाबेस एक ऐसा स्टेटमेंट है जो सभी टेबलों को ड्रॉप करता है और डेटाबेस को डिलीट करता है। इसका सिंटैक्स इस प्रकार है:

DROP DATABASE StatementDROP (DATABASE|SCHEMA) [IF EXISTS] database_name 
[RESTRICT|CASCADE];

डेटाबेस को छोड़ने के लिए निम्न क्वेरीज़ का उपयोग किया जाता है। मान लेते हैं कि डेटाबेस का नाम हैuserdb

hive> DROP DATABASE IF EXISTS userdb;

निम्न क्वेरी डेटाबेस का उपयोग कर छोड़ देता है CASCADE। इसका मतलब डेटाबेस गिराने से पहले संबंधित तालिकाओं को छोड़ना है।

hive> DROP DATABASE IF EXISTS userdb CASCADE;

निम्न क्वेरी डेटाबेस का उपयोग कर छोड़ देता है SCHEMA

hive> DROP SCHEMA userdb;

यह खंड हाइव 0.6 में जोड़ा गया था।

JDBC कार्यक्रम

डेटाबेस को गिराने के लिए JDBC प्रोग्राम नीचे दिया गया है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager; 5. DROP DATABASE

public class HiveDropDb {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/default", "", "");
      Statement stmt = con.createStatement();
      stmt.executeQuery("DROP DATABASE userdb");
      System.out.println(“Drop userdb database successful.”);
      con.close();
   }
}

प्रोग्राम को HiveDropDb.java नामक फ़ाइल में सहेजें। नीचे दिए गए इस कार्यक्रम को संकलित करने और निष्पादित करने के लिए आदेश दिए गए हैं।

$ javac HiveDropDb.java $ java HiveDropDb

आउटपुट:

Drop userdb database successful.

यह अध्याय बताता है कि तालिका कैसे बनाई जाए और उसमें डेटा कैसे डाला जाए। HIVE में एक तालिका बनाने की परंपराएँ SQL का उपयोग करके तालिका बनाने के समान है।

टेबल स्टेटमेंट बनाएं

Create Table एक स्टेटमेंट है जिसका उपयोग Hive में टेबल बनाने के लिए किया जाता है। वाक्य रचना और उदाहरण इस प्रकार हैं:

वाक्य - विन्यास

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name

[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[ROW FORMAT row_format]
[STORED AS file_format]

उदाहरण

हमें मान लेते हैं कि आपको नाम की एक तालिका बनाने की आवश्यकता है employee का उपयोग करते हुए CREATE TABLEबयान। निम्न तालिका कर्मचारी तालिका में फ़ील्ड और उनके डेटा प्रकार सूचीबद्ध करती है:

अनु क्रमांक कार्यक्षेत्र नाम डाटा प्रकार
1 ईद पूर्णांक
2 नाम तार
3 वेतन फ्लोट
4 पद तार

निम्नलिखित डेटा एक टिप्पणी है, पंक्ति स्वरूपित फ़ील्ड जैसे फ़ील्ड टर्मिनेटर, लाइन्स टर्मिनेटर, और संग्रहीत फ़ाइल प्रकार।

COMMENT ‘Employee details’
FIELDS TERMINATED BY ‘\t’
LINES TERMINATED BY ‘\n’
STORED IN TEXT FILE

निम्न क्वेरी नाम की तालिका बनाती है employee उपरोक्त डेटा का उपयोग करना।

hive> CREATE TABLE IF NOT EXISTS employee ( eid int, name String,
> salary String, destination String)
> COMMENT ‘Employee details’
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY ‘\t’
> LINES TERMINATED BY ‘\n’
> STORED AS TEXTFILE;

यदि आप विकल्प नहीं जोड़ते हैं, तो हाइव उस स्थिति में बयान को अनदेखा कर देता है जब तालिका पहले से मौजूद है।

तालिका के सफल निर्माण पर, आपको निम्न प्रतिक्रिया देखने को मिलेगी:

OK
Time taken: 5.905 seconds
hive>

JDBC कार्यक्रम

तालिका बनाने के लिए JDBC कार्यक्रम का उदाहरण दिया गया है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveCreateTable {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("CREATE TABLE IF NOT EXISTS "
      +" employee ( eid int, name String, "
      +" salary String, destignation String)"
      +" COMMENT ‘Employee details’"
      +" ROW FORMAT DELIMITED"
      +" FIELDS TERMINATED BY ‘\t’"
      +" LINES TERMINATED BY ‘\n’"
      +" STORED AS TEXTFILE;");
      System.out.println(“ Table employee created.”);
      con.close();
   }
}

प्रोग्राम को HiveCreateDb.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग किया जाता है।

$ javac HiveCreateDb.java $ java HiveCreateDb

उत्पादन

Table employee created.

डेटा स्टेटमेंट लोड करें

आमतौर पर, SQL में एक टेबल बनाने के बाद, हम इन्सर्ट स्टेटमेंट का उपयोग करके डेटा डाल सकते हैं। लेकिन हाइव में, हम LOAD DATA स्टेटमेंट का उपयोग करके डेटा डाल सकते हैं।

हाइव में डेटा सम्मिलित करते समय, बल्क रिकॉर्ड को स्टोर करने के लिए LOAD DATA का उपयोग करना बेहतर होता है। डेटा लोड करने के दो तरीके हैं: एक स्थानीय फ़ाइल सिस्टम से है और दूसरा Hadoop फ़ाइल सिस्टम से है।

सिंटेक्स

लोड डेटा के लिए सिंटैक्स निम्नानुसार है:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename 
[PARTITION (partcol1=val1, partcol2=val2 ...)]
  • स्थानीय पथ को निर्दिष्ट करने के लिए स्थानीय पहचानकर्ता है। यह वैकल्पिक है।
  • OVERWRITE तालिका में डेटा को अधिलेखित करने के लिए वैकल्पिक है।
  • विभाजन वैकल्पिक है।

उदाहरण

हम निम्न डेटा को तालिका में सम्मिलित करेंगे। यह एक टेक्स्ट फाइल है जिसका नाम हैsample.txt में /home/user निर्देशिका।

1201  Gopal       45000    Technical manager
1202  Manisha     45000    Proof reader
1203  Masthanvali 40000    Technical writer
1204  Krian       40000    Hr Admin
1205  Kranthi     30000    Op Admin

निम्न क्वेरी तालिका में दिए गए पाठ को लोड करती है।

hive> LOAD DATA LOCAL INPATH '/home/user/sample.txt'
> OVERWRITE INTO TABLE employee;

सफल डाउनलोड पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

OK
Time taken: 15.905 seconds
hive>

JDBC कार्यक्रम

नीचे दिया गया JDBC प्रोग्राम टेबल में दिए गए डेटा को लोड करने के लिए है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveLoadData {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("LOAD DATA LOCAL INPATH '/home/user/sample.txt'"
      +"OVERWRITE INTO TABLE employee;");
      System.out.println("Load Data into employee successful");
      con.close();
   }
}

प्रोग्राम को HiveLoadData.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveLoadData.java $ java HiveLoadData

आउटपुट:

Load Data into employee successful

यह अध्याय बताता है कि तालिका की विशेषताओं को कैसे बदला जाए जैसे कि इसका तालिका नाम बदलना, कॉलम नाम बदलना, कॉलम जोड़ना और कॉलम हटाना या बदलना।

ऑल्टर टेबल स्टेटमेंट

इसका उपयोग हाइव में एक टेबल को बदलने के लिए किया जाता है।

वाक्य - विन्यास

किसी तालिका में संशोधित करने के लिए हम किन विशेषताओं के आधार पर कथन निम्न में से किसी भी वाक्यविन्यास को लेते हैं।

ALTER TABLE name RENAME TO new_name
ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])
ALTER TABLE name DROP [COLUMN] column_name
ALTER TABLE name CHANGE column_name new_name new_type
ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...])

नाम बदलें ... कथन

निम्न क्वेरी से तालिका का नाम बदल देता है employee सेवा emp

hive> ALTER TABLE employee RENAME TO emp;

JDBC कार्यक्रम

एक तालिका का नाम बदलने के लिए JDBC कार्यक्रम इस प्रकार है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet; 
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterRenameTo {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("ALTER TABLE employee RENAME TO emp;");
      System.out.println("Table Renamed Successfully");
      con.close();
   }
}

कार्यक्रम को HiveAlterRenameTo.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveAlterRenameTo.java $ java HiveAlterRenameTo

आउटपुट:

Table renamed successfully.

बयान बदलें

निम्न तालिका में फ़ील्ड हैं employee तालिका और यह फ़ील्ड को बोल्ड करने के लिए दिखाता है (बोल्ड में)।

कार्यक्षेत्र नाम डेटा प्रकार से परिवर्तित करें फ़ील्ड नाम बदलें डेटा प्रकार में कनवर्ट करें
ईद पूर्णांक ईद पूर्णांक
name तार ename तार
वेतन Float वेतन Double
पद तार पद तार

उपरोक्त डेटा का उपयोग करके निम्नलिखित क्वेरीज़ कॉलम नाम और कॉलम डेटा प्रकार का नाम बदल देती है:

hive> ALTER TABLE employee CHANGE name ename String;
hive> ALTER TABLE employee CHANGE salary salary Double;

JDBC कार्यक्रम

नीचे एक कॉलम बदलने के लिए JDBC प्रोग्राम दिया गया है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterChangeColumn {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("ALTER TABLE employee CHANGE name ename String;");
      stmt.executeQuery("ALTER TABLE employee CHANGE salary salary Double;");
      System.out.println("Change column successful.");
      con.close();
   }
}

प्रोग्राम को HiveAlterChangeColumn.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveAlterChangeColumn.java $ java HiveAlterChangeColumn

आउटपुट:

Change column successful.

कॉलम स्टेटमेंट जोड़ें

निम्न क्वेरी कर्मचारी तालिका के लिए विभाग नामक एक स्तंभ जोड़ता है।

hive> ALTER TABLE employee ADD COLUMNS ( 
   > dept STRING COMMENT 'Department name');

JDBC कार्यक्रम

एक तालिका में एक स्तंभ जोड़ने के लिए JDBC कार्यक्रम नीचे दिया गया है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterAddColumn {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
     // create statement
     Statement stmt = con.createStatement();
     // execute statement
     stmt.executeQuery("ALTER TABLE employee ADD COLUMNS "
     +" (dept STRING COMMENT 'Department name');");
     System.out.prinln("Add column successful.");
     con.close();
   }
}

प्रोग्राम को HiveAlterAddColumn.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveAlterAddColumn.java $ java HiveAlterAddColumn

आउटपुट:

Add column successful.

स्टेटमेंट बदलें

निम्न क्वेरी से सभी स्तंभों को हटा देता है employee तालिका और इसके साथ प्रतिस्थापित करती है emp तथा name कॉलम:

hive> ALTER TABLE employee REPLACE COLUMNS ( 
   > eid INT empid Int, 
   > ename STRING name String);

JDBC कार्यक्रम

नीचे दिए गए JDBC को बदलने का कार्यक्रम है eid के साथ कॉलम empid तथा ename के साथ कॉलम name

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterReplaceColumn {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("ALTER TABLE employee REPLACE COLUMNS "
      +" (eid INT empid Int,"
      +" ename STRING name String);");
      System.out.println(" Replace column successful");
      con.close();
   }
}

प्रोग्राम को HiveAlterReplaceColumn.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveAlterReplaceColumn.java $ java HiveAlterReplaceColumn

आउटपुट:

Replace column successful.

इस अध्याय में बताया गया है कि हाइव में एक टेबल कैसे गिराई जाती है। जब आप हाइव मेटास्टोर से एक टेबल छोड़ते हैं, तो यह टेबल / कॉलम डेटा और उनके मेटाडेटा को हटा देता है। यह एक सामान्य तालिका (मेटास्टोर में संग्रहीत) या एक बाहरी तालिका (स्थानीय फ़ाइल सिस्टम में संग्रहीत) हो सकती है; हाइव दोनों ही तरह से व्यवहार करता है, भले ही वे अपने प्रकार के हों।

ड्रॉप टेबल स्टेटमेंट

सिंटैक्स निम्नानुसार है:

DROP TABLE [IF EXISTS] table_name;

निम्न क्वेरी नाम की तालिका को गिरा देती है employee:

hive> DROP TABLE IF EXISTS employee;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

OK
Time taken: 5.3 seconds
hive>

JDBC कार्यक्रम

निम्न JDBC प्रोग्राम कर्मचारी तालिका को छोड़ देता है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveDropTable {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("DROP TABLE IF EXISTS employee;");
     System.out.println("Drop table successful.");
     con.close();
   }
}

प्रोग्राम को HiveDropTable.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveDropTable.java $ java HiveDropTable

आउटपुट:

Drop table successful

निम्न क्वेरी का उपयोग तालिकाओं की सूची को सत्यापित करने के लिए किया जाता है:

hive> SHOW TABLES;
emp
ok
Time taken: 2.1 seconds
hive>

हाइव विभाजन में तालिकाओं का आयोजन करता है। यह विभाजन तालिका, जैसे तिथि, शहर और विभाग के मूल्यों के आधार पर एक तालिका को संबंधित भागों में विभाजित करने का एक तरीका है। विभाजन का उपयोग करना, डेटा के एक हिस्से को क्वेरी करना आसान है।

तालिकाओं या विभाजन को उप-विभाजित किया गया है buckets,अधिक कुशल क्वेरी के लिए उपयोग किए जा सकने वाले डेटा को अतिरिक्त संरचना प्रदान करना। एक टेबल के कुछ कॉलम के हैश फ़ंक्शन के मूल्य के आधार पर बकेटिंग कार्य करता है।

उदाहरण के लिए, नाम की एक तालिका Tab1जिसमें आईडी, नाम, विभाग और योज (यानी जुड़ने का वर्ष) जैसे कर्मचारी डेटा शामिल हैं। मान लीजिए कि आपको 2012 में शामिल हुए सभी कर्मचारियों के विवरण को पुनः प्राप्त करना होगा। एक क्वेरी आवश्यक जानकारी के लिए पूरी तालिका खोजती है। हालाँकि, यदि आप वर्ष के साथ कर्मचारी डेटा को विभाजित करते हैं और इसे एक अलग फ़ाइल में संग्रहीत करते हैं, तो यह क्वेरी प्रसंस्करण समय को कम करता है। निम्न उदाहरण दिखाता है कि फ़ाइल और उसके डेटा को कैसे विभाजित किया जाए:

निम्न फ़ाइल में रोजगार तालिका है।

/ Tab1 / employeedata / file1

आईडी, नाम, विभाग, योजना

1, गोपाल, टीपी, 2012

2, किरन, एचआर, 2012

3, कालेल, एससी, 2013

4, प्रशांत, एससी, 2013

 

उपरोक्त डेटा को वर्ष का उपयोग करके दो फ़ाइलों में विभाजित किया गया है।

/ Tab1 / employeedata / 2012 / करें 2

1, गोपाल, टीपी, 2012

2, किरन, एचआर, 2012

 

/ Tab1 / employeedata / 2013 / file3

3, कालेल, एससी, 2013

4, प्रशांत, एससी, 2013

एक विभाजन जोड़ना

हम तालिका को बदलकर एक तालिका में विभाजन जोड़ सकते हैं। आइए हम मान लें कि हमारे पास एक तालिका हैemployee आईडी, नाम, वेतन, पदनाम, विभाग और योजना जैसे क्षेत्रों के साथ।

वाक्य - विन्यास:

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;

partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)

कर्मचारी तालिका में एक विभाजन जोड़ने के लिए निम्नलिखित क्वेरी का उपयोग किया जाता है।

hive> ALTER TABLE employee
> ADD PARTITION (year=’2012’)
> location '/2012/part2012';

एक पार्टी का नाम बदलना

इस कमांड का सिंटैक्स इस प्रकार है।

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

विभाजन का नाम बदलने के लिए निम्नलिखित क्वेरी का उपयोग किया जाता है:

hive> ALTER TABLE employee PARTITION (year=’1203’)
   > RENAME TO PARTITION (Yoj=’1203’);

एक विभाजन गिरा

विभाजन को छोड़ने के लिए निम्नलिखित सिंटैक्स का उपयोग किया जाता है:

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;

विभाजन को छोड़ने के लिए निम्नलिखित क्वेरी का उपयोग किया जाता है:

hive> ALTER TABLE employee DROP [IF EXISTS]
   > PARTITION (year=’1203’);

यह अध्याय हाइव के अंतर्निहित ऑपरेटरों की व्याख्या करता है। हाइव में चार प्रकार के ऑपरेटर हैं:

  • संबंधपरक संकारक
  • अंकगणितीय आपरेटर
  • लॉजिकल ऑपरेटर्स
  • जटिल संचालक

संबंधपरक संकारक

इन ऑपरेटरों का उपयोग दो ऑपरेंड की तुलना करने के लिए किया जाता है। निम्न तालिका हाइव में उपलब्ध रिलेशनल ऑपरेटरों का वर्णन करती है:

ऑपरेटर ओपेरंड विवरण
ए = बी सभी आदिम प्रकार यदि अभिव्यक्ति A अभिव्यक्ति B के समान है तो ठीक है अन्यथा FALSE।
ए! = बी सभी आदिम प्रकार सही है अगर अभिव्यक्ति ए अभिव्यक्ति बी के बराबर नहीं है तो एफएएलएसई।
अ <ब सभी आदिम प्रकार सही है अगर अभिव्यक्ति A अभिव्यक्ति B से कम है अन्यथा FALSE।
ए <= बी सभी आदिम प्रकार सही अगर अभिव्यक्ति A, B से कम या बराबर है तो FALSE।
ए> बी सभी आदिम प्रकार सही है अगर अभिव्यक्ति A अभिव्यक्ति B से अधिक है अन्यथा FALSE।
ए> = बी सभी आदिम प्रकार सही अगर अभिव्यक्ति A, B से अधिक या बराबर है तो FALSE।
एक NULL है सभी प्रकार के सही है अगर अभिव्यक्ति A पूर्ण रूप से अन्यथा FALSE का मूल्यांकन करती है।
एक पूर्ण नहीं है सभी प्रकार के FALSE अगर अभिव्यक्ति A पूर्ण रूप से अन्यथा अन्यथा मूल्यांकन करता है।
A LIKE B स्ट्रिंग्स सही है अगर स्ट्रिंग पैटर्न A से B से मेल खाता है अन्यथा FALSE।
A RLIKE B स्ट्रिंग्स NULL अगर A या B NULL है, तो TRUE यदि A का कोई विकल्प जावा रेगुलर एक्सप्रेशन B से मेल खाता है, अन्यथा FALSE।
एक REGEXP बी स्ट्रिंग्स RLIKE के समान।

उदाहरण

हमें मान लेते हैं employeeतालिका आईडी, नाम, वेतन, पदनाम, और विभाग के क्षेत्रों से बना है जैसा कि नीचे दिखाया गया है। कर्मचारी के विवरण को पुनः प्राप्त करने के लिए एक क्वेरी बनाएं जिसका आईडी 1205 है।

+-----+--------------+--------+---------------------------+------+
| Id  | Name         | Salary | Designation               | Dept |
+-----+--------------+------------------------------------+------+
|1201 | Gopal        | 45000  | Technical manager         | TP   |
|1202 | Manisha      | 45000  | Proofreader               | PR   |
|1203 | Masthanvali  | 40000  | Technical writer          | TP   |
|1204 | Krian        | 40000  | Hr Admin                  | HR   |
|1205 | Kranthi      | 30000  | Op Admin                  | Admin|
+-----+--------------+--------+---------------------------+------+

उपरोक्त तालिका का उपयोग करके कर्मचारी विवरण प्राप्त करने के लिए निम्नलिखित क्वेरी को निष्पादित किया गया है:

hive> SELECT * FROM employee WHERE Id=1205;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+-----+-----------+-----------+----------------------------------+
| ID  | Name      | Salary    | Designation              | Dept  |
+-----+---------------+-------+----------------------------------+
|1205 | Kranthi   | 30000     | Op Admin                 | Admin |
+-----+-----------+-----------+----------------------------------+

निम्नलिखित क्वेरी को कर्मचारी विवरण प्राप्त करने के लिए निष्पादित किया जाता है जिसका वेतन 40000 रुपये से अधिक या उसके बराबर है।

hive> SELECT * FROM employee WHERE Salary>=40000;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+-----+------------+--------+----------------------------+------+
| ID  | Name       | Salary | Designation                | Dept |
+-----+------------+--------+----------------------------+------+
|1201 | Gopal      | 45000  | Technical manager          | TP   |
|1202 | Manisha    | 45000  | Proofreader                | PR   |
|1203 | Masthanvali| 40000  | Technical writer           | TP   |
|1204 | Krian      | 40000  | Hr Admin                   | HR   |
+-----+------------+--------+----------------------------+------+

अंकगणितीय आपरेटर

ये ऑपरेटर ऑपरेंड पर विभिन्न सामान्य अंकगणितीय ऑपरेशनों का समर्थन करते हैं। वे सभी संख्या प्रकार वापस करते हैं। निम्न तालिका हाइव में उपलब्ध अंकगणितीय ऑपरेटरों का वर्णन करती है:

ऑपरेटर्स ओपेरंड विवरण
ए + बी सभी प्रकार की संख्या A और B को जोड़ने का परिणाम देता है।
ए - बी सभी प्रकार की संख्या A से B को घटाने का परिणाम देता है।
ए * बी सभी प्रकार की संख्या ए और बी को गुणा करने का परिणाम देता है।
ए / बी सभी प्रकार की संख्या A से B को विभाजित करने का परिणाम देता है।
अ% ब सभी प्रकार की संख्या बी द्वारा ए को विभाजित करने के परिणामस्वरूप अनुस्मारक देता है।
ए और बी सभी प्रकार की संख्या बिट और ए और बी के परिणाम देता है।
ए | ख सभी प्रकार की संख्या बिट वाइज A और B का परिणाम देता है।
ए ^ बी सभी प्रकार की संख्या A और B के बिटवाइज़ XOR का परिणाम देता है
~ एक सभी प्रकार की संख्या A के बिटवाइज़ नॉट का परिणाम देता है।

उदाहरण

निम्नलिखित क्वेरी में दो नंबर, 20 और 30 शामिल हैं।

hive> SELECT 20+30 ADD FROM temp;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+--------+
|   ADD  |
+--------+
|   50   |
+--------+

लॉजिकल ऑपरेटर्स

संचालक तार्किक भाव हैं। वे सभी TRUE या FALSE पर लौटते हैं।

ऑपरेटर्स ऑपरेंड विवरण
ए और बी बूलियन TRUE यदि A और B दोनों TRUE है, अन्यथा FALSE है।
A && बी बूलियन ए और बी के रूप में ही।
A या B बूलियन TRUE अगर A या B या दोनों TRUE है, अन्यथा FALSE।
ए || ख बूलियन ए या बी के समान।
ए नहीं बूलियन अगर A FALSE है तो सही, अन्यथा FALSE।
!ए बूलियन समान ए नहीं।

उदाहरण

निम्नलिखित क्वेरी का उपयोग कर्मचारी विवरण को पुनः प्राप्त करने के लिए किया जाता है जिसका विभाग टीपी है और वेतन 40000 रुपये से अधिक है।

hive> SELECT * FROM employee WHERE Salary>40000 && Dept=TP;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
+------+--------------+-------------+-------------------+--------+

जटिल संचालक

ये ऑपरेटर कॉम्प्लेक्स प्रकार के तत्वों तक पहुंचने के लिए एक अभिव्यक्ति प्रदान करते हैं।

ऑपरेटर ओपेरंड विवरण
एक [n] A एक Array है और n एक int है यह सरणी ए में nth तत्व देता है। पहले तत्व में इंडेक्स 0 है।
एम [कुंजी] M एक मानचित्र है <K, V> और कुंजी में K टाइप है यह मानचित्र में कुंजी के अनुरूप मान लौटाता है।
sx एस एक संरचना है यह S का x क्षेत्र लौटाता है।

हाइव क्वेरी लैंग्वेज (HiveQL) Hive के लिए एक मेटास्टोर में संरचित डेटा को प्रोसेस और विश्लेषण करने के लिए एक क्वेरी लैंग्वेज है। यह अध्याय बताता है कि WHERE क्लॉज के साथ SELECT स्टेटमेंट का उपयोग कैसे करें।

सेलेक्ट स्टेटमेंट का उपयोग टेबल से डेटा को पुनः प्राप्त करने के लिए किया जाता है। जहां क्लॉज एक शर्त के समान काम करता है। यह स्थिति का उपयोग करके डेटा को फ़िल्टर करता है और आपको एक परिमित परिणाम देता है। अंतर्निहित ऑपरेटर और फ़ंक्शन एक अभिव्यक्ति उत्पन्न करते हैं, जो शर्त को पूरा करता है।

वाक्य - विन्यास

नीचे दिए गए चयन क्वेरी का सिंटैक्स है:

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference 
[WHERE where_condition] 
[GROUP BY col_list] 
[HAVING having_condition] 
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]] 
[LIMIT number];

उदाहरण

आइए हम सेलेक्ट के लिए एक उदाहरण लेते हैं ... जहां क्लॉज है। मान लें कि हमारे पास नीचे दी गई आईडी, नाम, वेतन, पदनाम, और विभाग के साथ कर्मचारी तालिका है। 30000 रुपये से अधिक वेतन पाने वाले कर्मचारी विवरण को पुनः प्राप्त करने के लिए एक प्रश्न उत्पन्न करें।

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  | 
+------+--------------+-------------+-------------------+--------+

निम्नलिखित क्वेरी उपरोक्त परिदृश्य का उपयोग करते हुए कर्मचारी विवरण प्राप्त करती है:

hive> SELECT * FROM employee WHERE salary>30000;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
+------+--------------+-------------+-------------------+--------+

JDBC कार्यक्रम

JDBC प्रोग्राम को लागू करने के लिए जहां दिए गए उदाहरण के लिए क्लॉज निम्नानुसार है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveQLWhere {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      Resultset res = stmt.executeQuery("SELECT * FROM employee WHERE
      salary>30000;");
      System.out.println("Result:");
      System.out.println(" ID \t Name \t Salary \t Designation \t Dept ");
      while (res.next()) {
         System.out.println(res.getInt(1)+" "+ res.getString(2)+" "+
         res.getDouble(3)+" "+ res.getString(4)+" "+ res.getString(5));
      }
      con.close();
   }
}

प्रोग्राम को HiveQLWhere.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveQLWhere.java $ java HiveQLWhere

आउटपुट:

ID       Name           Salary      Designation          Dept
1201     Gopal          45000       Technical manager    TP
1202     Manisha        45000       Proofreader          PR
1203     Masthanvali    40000       Technical writer     TP
1204     Krian          40000       Hr Admin             HR

यह अध्याय बताता है कि एक सेलेक्ट स्टेटमेंट में ORDER BY क्लॉज का उपयोग कैसे करें। ORDER BY क्लॉज का उपयोग एक कॉलम के आधार पर विवरण प्राप्त करने और आरोही या अवरोही क्रम द्वारा सेट किए गए परिणाम को सॉर्ट करने के लिए किया जाता है।

वाक्य - विन्यास

नीचे दिए गए आदेश द्वारा आदेश का वाक्यविन्यास दिया गया है:

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference 
[WHERE where_condition] 
[GROUP BY col_list] 
[HAVING having_condition] 
[ORDER BY col_list]] 
[LIMIT number];

उदाहरण

आइए SELECT ... ORDER BY क्लॉज के लिए एक उदाहरण लेते हैं। नीचे दिए गए अनुसार कर्मचारी तालिका मान लीजिए, आईडी, नाम, वेतन, पदनाम, और विभाग नाम के साथ। विभाग के नाम का उपयोग करके कर्मचारी के विवरण को पुनः प्राप्त करने के लिए एक क्वेरी उत्पन्न करें।

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

निम्नलिखित क्वेरी उपरोक्त परिदृश्य का उपयोग करते हुए कर्मचारी विवरण प्राप्त करती है:

hive> SELECT Id, Name, Dept FROM employee ORDER BY DEPT;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
+------+--------------+-------------+-------------------+--------+

JDBC कार्यक्रम

यहां दिए गए उदाहरण के लिए ऑर्डर बाय क्लॉज लागू करने के लिए JDBC प्रोग्राम है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveQLOrderBy {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement 
      Statement stmt = con.createStatement();
      // execute statement
      Resultset res = stmt.executeQuery("SELECT * FROM employee ORDER BY
      DEPT;");
      System.out.println(" ID \t Name \t Salary \t Designation \t Dept ");
      while (res.next()) {
         System.out.println(res.getInt(1)+" "+ res.getString(2)+" "+
         res.getDouble(3)+" "+ res.getString(4)+" "+ res.getString(5));
      }
      con.close();
   }
}

प्रोग्राम को HiveQLOrderBy.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveQLOrderBy.java $ java HiveQLOrderBy

आउटपुट:

ID       Name           Salary      Designation          Dept
1205     Kranthi        30000       Op Admin             Admin
1204     Krian          40000       Hr Admin             HR
1202     Manisha        45000       Proofreader          PR
1201     Gopal          45000       Technical manager    TP
1203     Masthanvali    40000       Technical writer     TP
1204     Krian          40000       Hr Admin             HR

यह अध्याय एक सेलेक्ट स्टेटमेंट में GROUP BY क्लॉज के विवरण की व्याख्या करता है। ग्रुप बाय क्लॉज का उपयोग किसी विशेष संग्रह कॉलम का उपयोग करके सेट किए गए सभी रिकॉर्डों को समूहीकृत करने के लिए किया जाता है। इसका उपयोग अभिलेखों के समूह को क्वेरी करने के लिए किया जाता है।

वाक्य - विन्यास

ग्रुप बाय क्लॉज का सिंटैक्स इस प्रकार है:

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference 
[WHERE where_condition] 
[GROUP BY col_list] 
[HAVING having_condition] 
[ORDER BY col_list]] 
[LIMIT number];

उदाहरण

आइए हम SELECT… GROUP BY क्लॉज का एक उदाहरण लेते हैं। कर्मचारी तालिका मान लीजिए, नीचे दिए गए आईडी, नाम, वेतन, पदनाम और विभाग के साथ। प्रत्येक विभाग में कर्मचारियों की संख्या को पुनः प्राप्त करने के लिए एक क्वेरी बनाएँ।

+------+--------------+-------------+-------------------+--------+ 
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+ 
|1201  | Gopal        | 45000       | Technical manager | TP     | 
|1202  | Manisha      | 45000       | Proofreader       | PR     | 
|1203  | Masthanvali  | 40000       | Technical writer  | TP     | 
|1204  | Krian        | 45000       | Proofreader       | PR     | 
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

निम्नलिखित क्वेरी उपरोक्त परिदृश्य का उपयोग करके कर्मचारी विवरण को पुनः प्राप्त करती है।

hive> SELECT Dept,count(*) FROM employee GROUP BY DEPT;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+------+--------------+ 
| Dept | Count(*)     | 
+------+--------------+ 
|Admin |    1         | 
|PR    |    2         | 
|TP    |    3         | 
+------+--------------+

JDBC कार्यक्रम

नीचे दिए गए उदाहरण के लिए ग्रुप बाय क्लॉज को लागू करने के लिए JDBC प्रोग्राम नीचे दिया गया है।

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveQLGroupBy {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      Resultset res = stmt.executeQuery(“SELECT Dept,count(*) ”
      +“FROM employee GROUP BY DEPT; ”);
      System.out.println(" Dept \t count(*)");
      while (res.next()) {
         System.out.println(res.getString(1)+" "+ res.getInt(2)); 
      }
      con.close();
   }
}

कार्यक्रम को HiveQLGroupBy.java नामक फ़ाइल में सहेजें। इस प्रोग्राम को संकलित करने और निष्पादित करने के लिए निम्न कमांड का उपयोग करें।

$ javac HiveQLGroupBy.java $ java HiveQLGroupBy

आउटपुट:

Dept     Count(*)
 Admin       1
 PR          2
 TP          3

JOINS एक ऐसा क्लॉज है, जिसका उपयोग विशिष्ट क्षेत्रों को दो तालिकाओं से प्रत्येक के लिए मानों का उपयोग करके किया जाता है। इसका उपयोग डेटाबेस में दो या अधिक तालिकाओं से रिकॉर्ड को संयोजित करने के लिए किया जाता है।

वाक्य - विन्यास

join_table:

   table_reference JOIN table_factor [join_condition]
   | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference
   join_condition
   | table_reference LEFT SEMI JOIN table_reference join_condition
   | table_reference CROSS JOIN table_reference [join_condition]

उदाहरण

हम इस अध्याय में निम्नलिखित दो तालिकाओं का उपयोग करेंगे। ग्राहक नाम की निम्न तालिका पर विचार करें।

+----+----------+-----+-----------+----------+ 
| ID | NAME     | AGE | ADDRESS   | SALARY   | 
+----+----------+-----+-----------+----------+ 
| 1  | Ramesh   | 32  | Ahmedabad | 2000.00  |  
| 2  | Khilan   | 25  | Delhi     | 1500.00  |  
| 3  | kaushik  | 23  | Kota      | 2000.00  | 
| 4  | Chaitali | 25  | Mumbai    | 6500.00  | 
| 5  | Hardik   | 27  | Bhopal    | 8500.00  | 
| 6  | Komal    | 22  | MP        | 4500.00  | 
| 7  | Muffy    | 24  | Indore    | 10000.00 | 
+----+----------+-----+-----------+----------+

एक अन्य तालिका ORDERS पर विचार करें:

+-----+---------------------+-------------+--------+ 
|OID  | DATE                | CUSTOMER_ID | AMOUNT | 
+-----+---------------------+-------------+--------+ 
| 102 | 2009-10-08 00:00:00 |           3 | 3000   | 
| 100 | 2009-10-08 00:00:00 |           3 | 1500   | 
| 101 | 2009-11-20 00:00:00 |           2 | 1560   | 
| 103 | 2008-05-20 00:00:00 |           4 | 2060   | 
+-----+---------------------+-------------+--------+

इस प्रकार दिए गए विभिन्न प्रकार के जोड़ हैं:

  • JOIN
  • बाईं ओर का बाहरी जोड़
  • राइट कंप्यूटर शामिल हैं
  • पूरा कंप्यूटर शामिल है

में शामिल होने के

JOIN क्लॉज का उपयोग कई तालिकाओं से रिकॉर्ड को संयोजित करने और पुनः प्राप्त करने के लिए किया जाता है। JOIN SQL में OUTER JOIN के समान है। एक JOIN स्थिति को प्राथमिक कुंजी और तालिकाओं की विदेशी कुंजियों का उपयोग करके उठाया जाना है।

निम्न क्वेरी कस्टमर और आदेश तालिकाओं पर शामिल होती है, और अभिलेखों को पुनः प्राप्त करती है:

hive> SELECT c.ID, c.NAME, c.AGE, o.AMOUNT 
   > FROM CUSTOMERS c JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+----+----------+-----+--------+ 
| ID | NAME     | AGE | AMOUNT | 
+----+----------+-----+--------+ 
| 3  | kaushik  | 23  | 3000   | 
| 3  | kaushik  | 23  | 1500   | 
| 2  | Khilan   | 25  | 1560   | 
| 4  | Chaitali | 25  | 2060   | 
+----+----------+-----+--------+

बाईं ओर का बाहरी जोड़

HiveQL LEFT OUTER JOIN बाईं तालिका से सभी पंक्तियों को वापस करता है, भले ही सही तालिका में कोई मैच न हों। इसका अर्थ है, यदि ON क्लॉज सही तालिका में 0 (शून्य) रिकॉर्ड से मेल खाता है, तो JOIN परिणाम में एक पंक्ति देता है, लेकिन दाएं तालिका से प्रत्येक कॉलम में NULL के साथ।

एक बाईं ज्वाइंट बाईं तालिका से सभी मान लौटाता है, साथ ही दाईं मेज से मिलान किए गए मान, या कोई मिलान जॉइन विधेयकों के मामले में NULL।

निम्नलिखित प्रश्न ग्राहक और आदेश तालिकाओं के बीच LEFT OUTER JOIN प्रदर्शित करता है:

hive> SELECT c.ID, c.NAME, o.AMOUNT, o.DATE 
   > FROM CUSTOMERS c 
   > LEFT OUTER JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+----+----------+--------+---------------------+ 
| ID | NAME     | AMOUNT | DATE                | 
+----+----------+--------+---------------------+ 
| 1  | Ramesh   | NULL   | NULL                | 
| 2  | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 3  | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3  | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 4  | Chaitali | 2060   | 2008-05-20 00:00:00 | 
| 5  | Hardik   | NULL   | NULL                | 
| 6  | Komal    | NULL   | NULL                | 
| 7  | Muffy    | NULL   | NULL                | 
+----+----------+--------+---------------------+

राइट कंप्यूटर शामिल हैं

HiveQL राइट OUTER JOIN दाएं टेबल से सभी पंक्तियों को वापस कर देता है, भले ही बाईं तालिका में कोई मेल न हो। यदि ओन क्लॉज लेफ्ट टेबल में 0 (शून्य) रिकॉर्ड से मेल खाता है, तो JOIN परिणाम में एक पंक्ति देता है, लेकिन लेफ्ट टेबल से प्रत्येक कॉलम में NULL के साथ।

राइट जॉइन सही तालिका से सभी मान लौटाता है, साथ ही बाईं मिलान तालिका से मिलान किए गए मान, या मिलान पूर्ण नहीं होने की स्थिति में NULL देता है।

निम्नलिखित क्वेरी ग्राहक और आदेश तालिकाओं के बीच सही OUTER JOIN प्रदर्शित करती है।

hive> SELECT c.ID, c.NAME, o.AMOUNT, o.DATE 
   > FROM CUSTOMERS c 
   > RIGHT OUTER JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+------+----------+--------+---------------------+ 
| ID   | NAME     | AMOUNT | DATE                | 
+------+----------+--------+---------------------+ 
| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 | 
+------+----------+--------+---------------------+

पूरा कंप्यूटर शामिल है

हाइवेलिक फुल ओवर जॉइन, जोइन कंडीशन को पूरा करने वाले बाएँ और दाएँ दोनों बाहरी तालिकाओं के रिकॉर्ड को जोड़ती है। शामिल तालिका में दोनों तालिकाओं से सभी रिकॉर्ड शामिल हैं, या दोनों तरफ लापता मैचों के लिए NULL मूल्यों में भरता है।

निम्नलिखित प्रश्न ग्राहक और आदेश तालिकाओं के बीच पूरी तरह से शामिल हैं:

hive> SELECT c.ID, c.NAME, o.AMOUNT, o.DATE 
   > FROM CUSTOMERS c 
   > FULL OUTER JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

+------+----------+--------+---------------------+ 
| ID   | NAME     | AMOUNT | DATE                | 
+------+----------+--------+---------------------+ 
| 1    | Ramesh   | NULL   | NULL                | 
| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 | 
| 5    | Hardik   | NULL   | NULL                | 
| 6    | Komal    | NULL   | NULL                |
| 7    | Muffy    | NULL   | NULL                |  
| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 | 
+------+----------+--------+---------------------+

यह अध्याय हाइव में उपलब्ध अंतर्निहित कार्यों की व्याख्या करता है। फ़ंक्शन SQL कार्यों के समान दिखते हैं, उनके उपयोग को छोड़कर।

अंतर्निहित कार्य

हाइव निम्नलिखित अंतर्निहित कार्यों का समर्थन करता है:

वापसी प्रकार हस्ताक्षर विवरण
BIGINT दौर (डबल ए) यह दोहरे के गोल बड़े मूल्य को लौटाता है।
BIGINT मंजिल (डबल ए) यह अधिकतम BIGINT मान जो डबल से बराबर या उससे कम है, लौटाता है।
BIGINT छत (डबल ए) यह न्यूनतम BIGINT मान जो डबल से बराबर या अधिक है, लौटाता है।
दोहरा रैंड (), रैंड (इंट बीज) यह एक यादृच्छिक संख्या देता है जो पंक्ति से पंक्ति में बदलता है।
तार कॉनैट (स्ट्रिंग ए, स्ट्रिंग बी, ...) यह ए के बाद बी को समवर्ती करने के परिणामस्वरूप स्ट्रिंग लौटाता है।
तार रूट (स्ट्रिंग ए, इंट स्टार्ट) यह स्टार्ट ए की स्थिति से स्ट्रिंग ए के अंत तक ए का विकल्प देता है।
तार पदार्थ (स्ट्रिंग ए, इंट स्टार्ट, इंट लेंथ) यह दी गई लंबाई के साथ शुरू स्थिति से ए के विकल्प का विवरण देता है।
तार ऊपरी (स्ट्रिंग ए) यह ए के सभी पात्रों को ऊपरी मामले में परिवर्तित करने के परिणामस्वरूप स्ट्रिंग लौटाता है।
तार ucase (स्ट्रिंग ए) ऊपर की तरह।
तार कम (स्ट्रिंग ए) यह B के सभी वर्णों को निम्न स्थिति में परिवर्तित करने के परिणामस्वरूप स्ट्रिंग लौटाता है।
तार लोकेस (स्ट्रिंग ए) ऊपर की तरह।
तार ट्रिम (स्ट्रिंग ए) यह A के दोनों सिरों से रिक्त स्थान ट्रिमिंग के परिणामस्वरूप स्ट्रिंग लौटाता है।
तार ltrim (स्ट्रिंग A) यह ए की शुरुआत (बाएं हाथ की ओर) से ट्रिमिंग रिक्त स्थान के परिणामस्वरूप स्ट्रिंग लौटाता है।
तार आरटीआरआई (स्ट्रिंग ए) आरटीआरआई (स्ट्रिंग ए) यह ए के अंत (दाएं हाथ की ओर) से ट्रिमिंग रिक्त स्थान के परिणामस्वरूप स्ट्रिंग लौटाता है।
तार regexp_replace (स्ट्रिंग A, स्ट्रिंग B, स्ट्रिंग C) यह B के सभी सबस्ट्रिंग को बदलने के परिणामस्वरूप स्ट्रिंग देता है जो C के साथ जावा रेगुलर एक्सप्रेशन सिंटैक्स से मेल खाता है।
पूर्णांक आकार (नक्शा <केवी>) यह मानचित्र प्रकार में तत्वों की संख्या लौटाता है।
पूर्णांक आकार (सरणी <टी>) यह सरणी प्रकार में तत्वों की संख्या लौटाता है।
<टाइप> का मान कास्ट (<expr> as <type>) यह अभिव्यक्ति के परिणामों को <type> उदा। कास्ट ('1' के रूप में BIGINT) में परिवर्तित करता है, यह स्ट्रिंग '1' को अभिन्न प्रतिनिधित्व करता है। रूपांतरण सफल नहीं होने पर NULL लौटाया जाता है।
तार from_unixtime (int unixtime) यूनिक्स एपोच (1970-01-01 00:00:00 यूटीसी) से सेकंड की संख्या को वर्तमान सिस्टम टाइम ज़ोन में उस क्षण के टाइमस्टैम्प का प्रतिनिधित्व करने वाले स्ट्रिंग में "1970-01-01 00:00" के प्रारूप में परिवर्तित करें: 00 "
तार to_date (स्ट्रिंग टाइमस्टैम्प) यह टाइमस्टैम्प स्ट्रिंग का दिनांक भाग लौटाता है: to_date ("1970-01-01 00:00:00") = "1970-01-09
पूर्णांक वर्ष (स्ट्रिंग तिथि) यह एक तिथि या टाइमस्टैम्प स्ट्रिंग का वर्ष भाग देता है: वर्ष ("1970-01-01 00:00:00") = 1970, वर्ष ("1970-01-01") = 1970
पूर्णांक महीना (स्ट्रिंग तिथि) यह एक तारीख या टाइमस्टैम्प स्ट्रिंग के महीने का हिस्सा लौटाता है: महीना ("1970-11-01 00:00:00") = 11, महीना ("1970-11-01") = 11
पूर्णांक दिन (स्ट्रिंग तिथि) यह एक तिथि या टाइमस्टैम्प स्ट्रिंग के दिन का हिस्सा लौटाता है: दिन ("1970-11-01 00:00:00") = 1, दिन ("1970-11-01") = 1
तार get_json_object (स्ट्रिंग json_string, स्ट्रिंग पथ) यह निर्दिष्ट किए गए json पथ के आधार पर json स्ट्रिंग से json ऑब्जेक्ट निकालता है, और निकाले गए json ऑब्जेक्ट का json स्ट्रिंग लौटाता है। इनपुट जौन स्ट्रिंग अमान्य है, तो यह NULL देता है।

उदाहरण

निम्नलिखित प्रश्न कुछ अंतर्निहित कार्यों को प्रदर्शित करते हैं:

दौर () समारोह

hive> SELECT round(2.6) from temp;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

3.0

मंजिल () फ़ंक्शन

hive> SELECT floor(2.6) from temp;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

2.0

छत () फ़ंक्शन

hive> SELECT ceil(2.6) from temp;

क्वेरी के सफल निष्पादन पर, आपको निम्न प्रतिक्रिया देखने को मिलती है:

3.0

अलग कार्य

हाइव निम्नलिखित बिल्ट-इन का समर्थन करता है aggregate functions। इन फ़ंक्शन का उपयोग SQL एग्रीगेट फ़ंक्शन के समान है।

वापसी प्रकार हस्ताक्षर विवरण
BIGINT गिनती (*), गिनती (expr), गिनती (*) - पुनः प्राप्त पंक्तियों की कुल संख्या लौटाती है।
दोहरा योग (कॉल), योग (DISTINCT col) यह समूह में तत्वों का योग या समूह में कॉलम के अलग-अलग मूल्यों का योग देता है।
दोहरा avg (col), avg (DISTINCT col) यह समूह में तत्वों का औसत या समूह में कॉलम के अलग-अलग मूल्यों का औसत देता है।
दोहरा मिनट (col) यह समूह में कॉलम का न्यूनतम मूल्य लौटाता है।
दोहरा अधिकतम (col) यह समूह में कॉलम का अधिकतम मूल्य लौटाता है।

इस अध्याय में विचारों को बनाने और प्रबंधित करने का तरीका बताया गया है। उपयोगकर्ता की आवश्यकताओं के आधार पर दृश्य उत्पन्न किए जाते हैं। आप किसी भी परिणाम सेट डेटा को दृश्य के रूप में सहेज सकते हैं। हाइव में दृश्य का उपयोग SQL में दृश्य के समान है। यह एक मानक RDBMS अवधारणा है। हम सभी DML परिचालनों को एक दृश्य पर निष्पादित कर सकते हैं।

एक दृश्य बनाना

आप एक सेलेक्ट स्टेटमेंट निष्पादित करते समय एक दृश्य बना सकते हैं। सिंटैक्स निम्नानुसार है:

CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT table_comment]
AS SELECT ...

उदाहरण

आइए हम एक उदाहरण देखें। नीचे दिए गए अनुसार कर्मचारी तालिका मान लीजिए, फ़ील्ड आईडी, नाम, वेतन, पदनाम और विभाग के साथ। कर्मचारी विवरण प्राप्त करने के लिए एक क्वेरी उत्पन्न करें जो 30000 रुपये से अधिक का वेतन अर्जित करता है। हम परिणाम को एक दृश्य नाम में संग्रहीत करते हैं।emp_30000.

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

निम्नलिखित क्वेरी उपरोक्त परिदृश्य का उपयोग करते हुए कर्मचारी विवरण प्राप्त करती है:

hive> CREATE VIEW emp_30000 AS
   > SELECT * FROM employee
   > WHERE salary>30000;

एक दृश्य गिर रहा है

एक दृश्य छोड़ने के लिए निम्नलिखित सिंटैक्स का उपयोग करें:

DROP VIEW view_name

निम्न क्वेरी emp_30000 नामक एक दृश्य को छोड़ देती है:

hive> DROP VIEW emp_30000;

एक सूचकांक बनाना

एक सूचकांक एक तालिका के एक विशेष स्तंभ पर एक संकेतक के अलावा कुछ भी नहीं है। एक इंडेक्स बनाने का मतलब है कि किसी टेबल के किसी विशेष कॉलम पर पॉइंटर बनाना। इसका सिंटैक्स इस प्रकार है:

CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name=property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)]
[
   [ ROW FORMAT ...] STORED AS ...
   | STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]

उदाहरण

सूचकांक के लिए एक उदाहरण लेते हैं। उसी कर्मचारी तालिका का उपयोग करें जिसका उपयोग हमने पहले फ़ील्ड आईडी, नाम, वेतन, पदनाम और विभाग के साथ किया है। कर्मचारी तालिका के वेतन कॉलम पर index_salary नामक एक सूचकांक बनाएँ।

निम्नलिखित क्वेरी एक इंडेक्स बनाती है:

hive> CREATE INDEX inedx_salary ON TABLE employee(salary)
   > AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';

यह वेतन स्तंभ के लिए एक सूचक है। यदि स्तंभ को संशोधित किया गया है, तो परिवर्तनों को एक सूचकांक मान का उपयोग करके संग्रहीत किया जाता है।

एक सूचकांक छोड़ने

अनुक्रमणिका को छोड़ने के लिए निम्न सिंटैक्स का उपयोग किया जाता है:

DROP INDEX <index_name> ON <table_name>

निम्नलिखित क्वेरी index_salary नामक एक सूचकांक को छोड़ देती है:

hive> DROP INDEX index_salary ON employee;