अपाचे ताजो - त्वरित गाइड

वितरित डेटा वेयरहाउस सिस्टम

डेटा वेयरहाउस एक रिलेशनल डेटाबेस है जिसे लेनदेन प्रसंस्करण के बजाय क्वेरी और विश्लेषण के लिए डिज़ाइन किया गया है। यह डेटा का एक विषय-उन्मुख, एकीकृत, समय-संस्करण और गैर-वाष्पशील संग्रह है। यह डेटा विश्लेषकों को किसी संगठन में सूचित निर्णय लेने में मदद करता है लेकिन संबंधपरक डेटा वॉल्यूम दिन-प्रतिदिन बढ़ जाता है।

चुनौतियों से उबरने के लिए, ऑनलाइन एनालिटिकल प्रोसेसिंग (OLAP) के उद्देश्य से वितरित डेटा वेयरहाउस सिस्टम कई डेटा रिपॉजिटरी में डेटा साझा करता है। प्रत्येक डेटा वेयरहाउस एक या अधिक संगठनों से संबंधित हो सकता है। यह लोड संतुलन और स्केलेबिलिटी करता है। मेटाडेटा को दोहराया और केंद्रीय रूप से वितरित किया जाता है।

Apache Tajo एक वितरित डेटा वेयरहाउस सिस्टम है, जो स्टोरेज लेयर के रूप में Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) का उपयोग करता है और इसमें MapReduce फ्रेमवर्क के बजाय अपना स्वयं का क्वेरी एक्जीक्यूटिव इंजन है।

Hadoop पर SQL का अवलोकन

Hadoop एक ओपन-सोर्स फ्रेमवर्क है जो वितरित वातावरण में बड़े डेटा को स्टोर और प्रोसेस करने की अनुमति देता है। यह बेहद तेज और शक्तिशाली है। हालाँकि, Hadoop में सीमित क्वेरी क्षमता है, इसलिए इसका प्रदर्शन Hadoop पर SQL की सहायता से और भी बेहतर बनाया जा सकता है। यह उपयोगकर्ताओं को आसान SQL कमांड के माध्यम से Hadoop के साथ बातचीत करने की अनुमति देता है।

Hadoop अनुप्रयोगों पर SQL के कुछ उदाहरण हाइव, इम्पाला, ड्रिल, प्रेस्टो, स्पार्क, HAWQ और Apache Tajo हैं।

क्या है अपाचे ताजो

Apache Tajo एक रिलेशनल और वितरित डेटा प्रोसेसिंग फ्रेमवर्क है। यह कम विलंबता और मापनीय तदर्थ क्वेरी विश्लेषण के लिए डिज़ाइन किया गया है।

  • Tajo मानक SQL और विभिन्न डेटा स्वरूपों का समर्थन करता है। अधिकांश ताजो प्रश्नों को बिना किसी संशोधन के निष्पादित किया जा सकता है।

  • तज्यो है fault-tolerance विफल कार्यों और एक्स्टेंसिबल क्वेरी रीराइट इंजन के लिए पुनरारंभ तंत्र के माध्यम से।

  • ताजो आवश्यक कार्य करता है ETL (Extract Transform and Load process)HDFS पर संग्रहीत बड़े डेटासेट को सारांशित करने के लिए ऑपरेशन। यह हाइव / सुअर के लिए एक वैकल्पिक विकल्प है।

Tajo के नवीनतम संस्करण में जावा प्रोग्राम और Oracle और PostGreSQL जैसे तृतीय-पक्ष डेटाबेस से अधिक कनेक्टिविटी है।

Apache Tajo की विशेषताएं

Apache Tajo में निम्नलिखित विशेषताएं हैं -

  • बेहतर स्केलेबिलिटी और अनुकूलित प्रदर्शन
  • कम विलंबता
  • उपयोगकर्ता-परिभाषित कार्य
  • पंक्ति / स्तंभ भंडारण प्रसंस्करण ढांचा।
  • HiveQL और हाइव मेटास्टोर के साथ संगतता
  • सरल डेटा प्रवाह और आसान रखरखाव।

अपाचे ताजो के फायदे

Apache Tajo निम्नलिखित लाभ प्रदान करता है -

  • प्रयोग करने में आसान
  • सरलीकृत वास्तुकला
  • लागत-आधारित क्वेरी अनुकूलन
  • सदिश क्वेरी निष्पादन योजना
  • तेजी से वितरण
  • सरल I / O तंत्र और विभिन्न प्रकार के भंडारण का समर्थन करता है।
  • दोष सहिष्णुता

Apache Tajo के मामलों का उपयोग करें

अपाचे ताजो के उपयोग के कुछ मामले निम्नलिखित हैं -

डेटा भंडारण और विश्लेषण

कोरिया की एसके टेलीकॉम फर्म ने ताजो को 1.7 टेराबाइट्स मूल्य के डेटा के खिलाफ चलाया और पाया कि यह हाइव या इम्पाला की तुलना में अधिक गति के साथ प्रश्नों को पूरा कर सकता है।

डेटा की खोज

कोरियन म्यूजिक स्ट्रीमिंग सर्विस मेलन, ताजो का उपयोग विश्लेषणात्मक प्रसंस्करण के लिए करती है। Tajo, Hive की तुलना में ETL (एक्सट्रैक्ट-ट्रांसफॉर्म-लोड प्रोसेस) 1.5 से 10 गुना तेजी से काम करता है।

लॉग विश्लेषण

एक कोरियाई कंपनी ब्लूहोल स्टूडियो ने TERA विकसित किया - एक काल्पनिक मल्टीप्लेयर ऑनलाइन गेम। कंपनी गेम लॉग एनालिसिस के लिए ताज़ो का उपयोग करती है और सेवा की गुणवत्ता के प्रमुख कारणों को बाधित करती है।

भंडारण और डेटा प्रारूप

Apache Tajo निम्नलिखित डेटा स्वरूपों का समर्थन करता है -

  • JSON
  • पाठ फ़ाइल (CSV)
  • Parquet
  • अनुक्रम फ़ाइल
  • AVRO
  • प्रोटोकॉल बफर
  • अपाचे Orc

Tajo निम्नलिखित भंडारण स्वरूपों का समर्थन करता है -

  • HDFS
  • JDBC
  • अमेज़न S3
  • अपाचे HBase
  • Elasticsearch

निम्नलिखित दृष्टांत अपाचे ताजो की वास्तुकला को दर्शाते हैं।

निम्न तालिका प्रत्येक घटक का विस्तार से वर्णन करती है।

क्र.सं. घटक विवरण
1

Client

Client परिणाम प्राप्त करने के लिए Tajo मास्टर को SQL स्टेटमेंट सबमिट करता है।

2

Master

मास्टर मुख्य डेमॉन है। यह क्वेरी प्लानिंग के लिए जिम्मेदार है और श्रमिकों के लिए समन्वयक है।

3

Catalog server

तालिका और सूचकांक विवरण बनाए रखता है। यह मास्टर डेमॉन में एम्बेडेड है। कैटलॉग सर्वर अपाचे डर्बी को भंडारण परत के रूप में उपयोग करता है और जेडीबीसी क्लाइंट के माध्यम से जोड़ता है।

4

Worker

मास्टर नोड कार्यकर्ता नोड्स को कार्य सौंपता है। TajoWorker डेटा प्रोसेस करता है। जैसे ही TajoWorkers की संख्या बढ़ती है, प्रसंस्करण क्षमता भी रैखिक रूप से बढ़ जाती है।

5

Query Master

Tajo मास्टर क्वेरी मास्टर को क्वेरी असाइन करता है। क्वेरी मास्टर वितरित निष्पादन योजना को नियंत्रित करने के लिए जिम्मेदार है। यह TaskRunner को लॉन्च करता है और TaskRunner को कार्य शेड्यूल करता है। क्वेरी मास्टर की मुख्य भूमिका चल रहे कार्यों की निगरानी करना और उन्हें मास्टर नोड को रिपोर्ट करना है।

6

Node Managers

कार्यकर्ता नोड के संसाधन का प्रबंधन करता है। यह नोड को अनुरोध आवंटित करने पर निर्णय लेता है।

7

TaskRunner

एक स्थानीय क्वेरी निष्पादन इंजन के रूप में कार्य करता है। इसका उपयोग क्वेरी प्रक्रिया को चलाने और मॉनिटर करने के लिए किया जाता है। टास्करनर एक समय में एक कार्य करता है।

इसकी तीन मुख्य विशेषताएं हैं -

  • तार्किक योजना - एक निष्पादन ब्लॉक जिसने कार्य बनाया।
  • एक टुकड़ा - एक इनपुट पथ, एक ऑफसेट सीमा और स्कीमा।
  • URIs प्राप्त करता है
8

Query Executor

इसका उपयोग किसी क्वेरी को निष्पादित करने के लिए किया जाता है।

9

Storage service

ताजो को अंतर्निहित डेटा संग्रहण जोड़ता है।

कार्यप्रवाह

Tajo, Hadoop Distributed File System (HDFS) को स्टोरेज लेयर के रूप में उपयोग करता है और इसमें MapRuce फ्रेमवर्क के बजाय अपना स्वयं का क्वेरी एक्ज़ेक्यूट इंजन है। एक ताज़ो क्लस्टर में एक मास्टर नोड और क्लस्टर नोड्स में कई कार्यकर्ता होते हैं।

मास्टर मुख्य रूप से क्वेरी योजना और श्रमिकों के लिए समन्वयक के लिए जिम्मेदार है। मास्टर एक क्वेरी को छोटे कार्यों में विभाजित करता है और श्रमिकों को सौंपता है। प्रत्येक कार्यकर्ता के पास एक स्थानीय क्वेरी इंजन होता है जो भौतिक ऑपरेटरों के निर्देशित एसाइक्लिक ग्राफ को निष्पादित करता है।

इसके अलावा, Tajo वितरित डेटा प्रवाह को MapReduce की तुलना में अधिक लचीला नियंत्रित कर सकता है और अनुक्रमण तकनीकों का समर्थन करता है।

Tajo के वेब-आधारित इंटरफ़ेस में निम्नलिखित क्षमताएं हैं -

  • सबमिट किए गए प्रश्नों की योजना कैसे बनाई जाए, यह जानने का विकल्प
  • यह पता लगाने का विकल्प कि प्रश्नों को नोड्स में कैसे वितरित किया जाता है
  • क्लस्टर और नोड्स की स्थिति की जांच करने का विकल्प

Apache Tajo को स्थापित करने के लिए, आपके पास अपने सिस्टम पर निम्नलिखित सॉफ्टवेयर होना चाहिए -

  • Hadoop संस्करण 2.3 या अधिक
  • जावा संस्करण 1.7 या उच्चतर
  • लिनक्स या मैक ओएस

आइए अब हम ताज़ो को स्थापित करने के लिए निम्न चरणों को जारी रखते हैं।

जावा स्थापना का सत्यापन

उम्मीद है, आपने पहले ही जावा संस्करण 8 को अपनी मशीन पर स्थापित कर लिया है। अब, आपको इसे सत्यापित करके आगे बढ़ने की आवश्यकता है।

सत्यापित करने के लिए, निम्नलिखित कमांड का उपयोग करें -

$ java -version

यदि जावा आपकी मशीन पर सफलतापूर्वक स्थापित है, तो आप स्थापित जावा का वर्तमान संस्करण देख सकते हैं। यदि जावा स्थापित नहीं है, तो अपनी मशीन पर जावा 8 को स्थापित करने के लिए इन चरणों का पालन करें।

JDK डाउनलोड करें

निम्नलिखित लिंक पर जाकर JDK का नवीनतम संस्करण डाउनलोड करें और फिर, नवीनतम संस्करण डाउनलोड करें।

https://www.oracle.com

नवीनतम संस्करण है JDK 8u 92 और फ़ाइल है “jdk-8u92-linux-x64.tar.gz”। कृपया अपनी मशीन पर फ़ाइल डाउनलोड करें। इसके बाद, फ़ाइलों को निकालें और उन्हें एक विशेष निर्देशिका में स्थानांतरित करें। अब, जावा विकल्प सेट करें। अंत में, जावा आपकी मशीन पर स्थापित है।

Hadoop स्थापना का सत्यापन

आप पहले ही स्थापित कर चुके हैं Hadoopआपके सिस्टम पर। अब, निम्न कमांड का उपयोग करके इसे सत्यापित करें -

$ hadoop version

यदि आपके सेटअप में सब कुछ ठीक है, तो आप Hadoop का संस्करण देख सकते हैं। यदि Hadoop स्थापित नहीं है, तो निम्न लिंक पर जाकर Hadoop को डाउनलोड और स्थापित करें -https://www.apache.org

अपाचे ताज़ो इंस्टालेशन

अपाचे ताजो दो निष्पादन मोड प्रदान करता है - स्थानीय मोड और पूरी तरह से वितरित मोड। Java और Hadoop की स्थापना की पुष्टि करने के बाद, अपनी मशीन पर Tajo क्लस्टर स्थापित करने के लिए निम्न चरणों के साथ आगे बढ़ें। एक स्थानीय मोड Tajo उदाहरण के लिए बहुत आसान कॉन्फ़िगरेशन की आवश्यकता होती है।

निम्नलिखित लिंक पर जाकर ताजो का नवीनतम संस्करण डाउनलोड करें - https://www.apache.org/dyn/closer.cgi/tajo

अब आप फ़ाइल डाउनलोड कर सकते हैं “tajo-0.11.3.tar.gz” आपकी मशीन से।

टार फ़ाइल निकालें

निम्नलिखित कमांड का उपयोग करके टार फ़ाइल को निकालें -

$ cd opt/ $ tar tajo-0.11.3.tar.gz 
$ cd tajo-0.11.3

पर्यावरण चर सेट करें

निम्न परिवर्तन जोड़ें “conf/tajo-env.sh” फ़ाइल

$ cd tajo-0.11.3 
$ vi conf/tajo-env.sh
 
# Hadoop home. Required 
export HADOOP_HOME = /Users/path/to/Hadoop/hadoop-2.6.2
 
# The java implementation to use.  Required. 
export JAVA_HOME = /path/to/jdk1.8.0_92.jdk/

यहाँ, आपको Hadoop और Java पथ को निर्दिष्ट करना होगा “tajo-env.sh”फ़ाइल। परिवर्तन किए जाने के बाद, फ़ाइल को सहेजें और टर्मिनल को छोड़ दें।

Tajo सर्वर शुरू करें

Tajo सर्वर लॉन्च करने के लिए, निम्न कमांड निष्पादित करें -

$ bin/start-tajo.sh

आपको निम्नलिखित के समान प्रतिक्रिया प्राप्त होगी -

Starting single TajoMaster 
starting master, logging to /Users/path/to/Tajo/tajo-0.11.3/bin/../ 
localhost: starting worker, logging to /Users/path/toe/Tajo/tajo-0.11.3/bin/../logs/
 
Tajo master web UI: http://local:26080 
Tajo Client Service: local:26002

अब, चल रहे डेमों को देखने के लिए कमांड "jps" टाइप करें।

$ jps  
1010 TajoWorker 
1140 Jps 
933 TajoMaster

ताज़ो शैल लॉन्च

Tajo शेल क्लाइंट लॉन्च करने के लिए, निम्न कमांड का उपयोग करें -

$ bin/tsql

आपको निम्न आउटपुट प्राप्त होंगे -

welcome to
   _____ ___  _____ ___ 
  /_  _/ _  |/_  _/   / 
   / // /_| |_/ // / / 
  /_//_/ /_/___/ \__/  0.11.3
  
Try \? for help.

ताजो शेल छोड़ो

Tsql छोड़ने के लिए निम्नलिखित आदेश निष्पादित करें -

default> \q 
bye!

यहां, डिफ़ॉल्ट ताजो में कैटलॉग को संदर्भित करता है।

वेब यूआई

Tajo वेब UI लॉन्च करने के लिए निम्न URL टाइप करें - http://localhost:26080/

अब आपको निम्न स्क्रीन दिखाई देगी जो कि ExecuteQuery विकल्प के समान है।

ताजो को रोको

Tajo सर्वर को रोकने के लिए, निम्नलिखित कमांड का उपयोग करें -

$ bin/stop-tajo.sh

आपको निम्न प्रतिक्रिया मिलेगी -

localhost: stopping worker 
stopping master

ताजो का विन्यास Hadoop के विन्यास प्रणाली पर आधारित है। यह अध्याय ताजो कॉन्फ़िगरेशन सेटिंग्स को विस्तार से बताता है।

मूल सेटिंग्स

ताजो निम्नलिखित दो विन्यास फाइल का उपयोग करता है -

  • कैटलॉग- site.xml - कैटलॉग सर्वर के लिए कॉन्फ़िगरेशन।
  • tajo-site.xml - अन्य Tajo मॉड्यूल के लिए कॉन्फ़िगरेशन।

वितरित मोड कॉन्फ़िगरेशन

वितरित मोड सेटअप Hadoop वितरित फ़ाइल सिस्टम (HDFS) पर चलता है। चलो ताजो वितरित मोड सेटअप को कॉन्फ़िगर करने के लिए चरणों का पालन करें।

Tajo-site.xml

यह फ़ाइल उपलब्ध है @ /path/to/tajo/confनिर्देशिका और अन्य Tajo मॉड्यूल के लिए विन्यास के रूप में कार्य करता है। वितरित मोड में Tajo तक पहुँचने के लिए, निम्न परिवर्तनों को लागू करें“tajo-site.xml”

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://hostname:port/tajo</value> 
</property>
  
<property> 
   <name>tajo.master.umbilical-rpc.address</name> 
   <value>hostname:26001</value> 
</property> 
 
<property> 
   <name>tajo.master.client-rpc.address</name> 
   <value>hostname:26002</value> 
</property>
  
<property> 
   <name>tajo.catalog.client-rpc.address</name> 
   <value>hostname:26005</value> 
</property>

मास्टर नोड कॉन्फ़िगरेशन

ताजो एक प्राथमिक भंडारण प्रकार के रूप में एचडीएफएस का उपयोग करता है। कॉन्फ़िगरेशन निम्नानुसार है और इसमें जोड़ा जाना चाहिए“tajo-site.xml”

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://namenode_hostname:port/path</value> 
</property>

कैटलॉग कॉन्फ़िगरेशन

यदि आप कैटलॉग सेवा को अनुकूलित करना चाहते हैं, तो कॉपी करें $path/to/Tajo/conf/catalogsite.xml.template सेवा $path/to/Tajo/conf/catalog-site.xml और आवश्यकतानुसार किसी भी निम्नलिखित विन्यास को जोड़ें।

उदाहरण के लिए, यदि आप उपयोग करते हैं “Hive catalog store” Tajo तक पहुँचने के लिए, तो विन्यास निम्नलिखित की तरह होना चाहिए -

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.HCatalogStore</value> 
</property>

अगर आपको स्टोर करने की आवश्यकता है MySQL कैटलॉग, फिर निम्नलिखित परिवर्तन लागू करें -

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.MySQLStore</value> 
</property> 

<property> 
   <name>tajo.catalog.jdbc.connection.id</name> 
   <value><mysql user name></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.connection.password</name> 
   <value><mysql user password></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.uri</name> 
   <value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
      ?createDatabaseIfNotExist = true</value> 
</property>

इसी तरह, आप कॉन्फ़िगरेशन फ़ाइल में अन्य Tajo समर्थित कैटलॉग पंजीकृत कर सकते हैं।

कार्यकर्ता विन्यास

डिफ़ॉल्ट रूप से, TajoWorker स्थानीय फ़ाइल सिस्टम पर अस्थायी डेटा संग्रहीत करता है। इसे "tajo-site.xml" फ़ाइल में निम्नानुसार परिभाषित किया गया है -

<property> 
   <name>tajo.worker.tmpdir.locations</name> 
   <value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value> 
</property>

प्रत्येक कार्यकर्ता संसाधन के कार्य चलाने की क्षमता बढ़ाने के लिए, निम्नलिखित विन्यास चुनें -

<property> 
   <name>tajo.worker.resource.cpu-cores</name> 
   <value>12</value> 
</property>
 
<property> 
   <name>tajo.task.resource.min.memory-mb</name> 
   <value>2000</value> 
</property>
  
<property> 
   <name>tajo.worker.resource.disks</name> 
   <value>4</value> 
</property>

ताज़ो कार्यकर्ता को समर्पित मोड में चलाने के लिए, निम्नलिखित विन्यास चुनें -

<property> 
   <name>tajo.worker.resource.dedicated</name> 
   <value>true</value> 
</property>

इस अध्याय में, हम ताजो शेल कमांड को विस्तार से समझेंगे।

Tajo शेल कमांड को निष्पादित करने के लिए, आपको निम्नलिखित कमांड्स का उपयोग करके Tajo सर्वर और Tajo शेल शुरू करने की आवश्यकता है -

सर्वर प्रारंभ करें

$ bin/start-tajo.sh

शैल प्रारंभ करें

$ bin/tsql

उपरोक्त आदेश अब निष्पादन के लिए तैयार हैं।

मेटा कमांड

आइए अब चर्चा करते हैं Meta Commands। Tsql meta कमांड एक बैकस्लैश के साथ शुरू होता है(‘\’)

हेल्प कमांड

“\?” कमांड का उपयोग हेल्प ऑप्शन को दिखाने के लिए किया जाता है।

Query

default> \?

Result

उपरोक्त \?Tajo में सभी बेसिक यूसेज ऑप्शन को कमांड लिस्ट करें। आपको निम्न आउटपुट प्राप्त होंगे -

सूची डेटाबेस

ताजो में सभी डेटाबेस को सूचीबद्ध करने के लिए, निम्नलिखित कमांड का उपयोग करें -

Query

default> \l

Result

आपको निम्न आउटपुट प्राप्त होंगे -

information_schema 
default

वर्तमान में, हमने कोई डेटाबेस नहीं बनाया है, इसलिए यह ताजो डेटाबेस में निर्मित दो दिखाता है।

वर्तमान डेटाबेस

\c विकल्प का उपयोग वर्तमान डेटाबेस नाम को प्रदर्शित करने के लिए किया जाता है।

Query

default> \c

Result

अब आप उपयोगकर्ता "उपयोगकर्ता नाम" के रूप में डेटाबेस "डिफ़ॉल्ट" से जुड़े हैं।

अंतर्निहित कार्य सूची

सभी अंतर्निहित फ़ंक्शन को सूचीबद्ध करने के लिए, क्वेरी निम्नानुसार लिखें -

Query

default> \df

Result

आपको निम्न आउटपुट प्राप्त होंगे -

फ़ंक्शन का वर्णन करें

\df function name - यह क्वेरी दिए गए फ़ंक्शन का पूरा विवरण देता है।

Query

default> \df sqrt

Result

आपको निम्न आउटपुट प्राप्त होंगे -

टर्मिनल से बाहर निकलें

टर्मिनल छोड़ने के लिए, निम्नलिखित प्रश्न टाइप करें -

Query

default> \q

Result

आपको निम्न आउटपुट प्राप्त होंगे -

bye!

व्यवस्थापक कमांड

तज़ो खोल प्रदान करता है \admin सभी व्यवस्थापक सुविधाओं को सूचीबद्ध करने का विकल्प।

Query

default> \admin

Result

आपको निम्न आउटपुट प्राप्त होंगे -

क्लस्टर जानकारी

ताजो में क्लस्टर जानकारी प्रदर्शित करने के लिए, निम्नलिखित क्वेरी का उपयोग करें

Query

default> \admin -cluster

Result

आपको निम्न आउटपुट प्राप्त होंगे -

गुरु दिखाओ

निम्न क्वेरी वर्तमान मास्टर जानकारी प्रदर्शित करती है।

Query

default> \admin -showmasters

Result

localhost

इसी तरह, आप अन्य व्यवस्थापक आदेशों की कोशिश कर सकते हैं।

सत्र चर

Tajo क्लाइंट एक अद्वितीय सत्र आईडी के माध्यम से मास्टर से जुड़ता है। सत्र तब तक लाइव होता है जब तक ग्राहक डिस्कनेक्ट या समाप्त नहीं हो जाता।

निम्न आदेश का उपयोग सभी सत्र चर को सूचीबद्ध करने के लिए किया जाता है।

Query

default> \set

Result

'SESSION_LAST_ACCESS_TIME' = '1470206387146' 
'CURRENT_DATABASE' = 'default' 
‘USERNAME’ = 'user' 
'SESSION_ID' = 'c60c9b20-dfba-404a-822f-182bc95d6c7c' 
'TIMEZONE' = 'Asia/Kolkata' 
'FETCH_ROWNUM' = '200' 
‘COMPRESSED_RESULT_TRANSFER' = 'false'

\set key val नाम के सत्र चर को सेट करेगा key मान के साथ val। उदाहरण के लिए,

Query

default> \set ‘current_database’='default'

Result

usage: \set [[NAME] VALUE]

यहां, आप कुंजी और मान असाइन कर सकते हैं \setआदेश। यदि आपको परिवर्तनों को वापस लाने की आवश्यकता है तो उपयोग करें\unset आदेश।

एक Tajo शेल में किसी क्वेरी को निष्पादित करने के लिए, अपना टर्मिनल खोलें और Tajo इंस्टॉल किए गए डायरेक्टरी में जाएं और फिर निम्न कमांड टाइप करें -

$ bin/tsql

अब आप निम्न कार्यक्रम में दिखाए अनुसार प्रतिक्रिया देखेंगे -

default>

अब आप अपने प्रश्नों का निष्पादन कर सकते हैं। अन्यथा आप अपने प्रश्नों को वेब कंसोल एप्लिकेशन द्वारा निम्न URL पर चला सकते हैं -http://localhost:26080/

आदिम डेटा प्रकार

Apache Tajo आदिम डेटा प्रकारों की निम्नलिखित सूची का समर्थन करता है -

क्र.सं. डेटा प्रकार और विवरण
1

integer

4 बाइट्स भंडारण के साथ पूर्णांक मान को संग्रहीत करने के लिए उपयोग किया जाता है।

2

tinyint

छोटे पूर्णांक मान 1 बाइट है

3

smallint

छोटे आकार के पूर्णांक 2 बाइट्स मान को संग्रहीत करने के लिए उपयोग किया जाता है।

4

bigint

बड़ी रेंज पूर्णांक मान में 8 बाइट्स स्टोरेज हैं।

5

boolean

सच्चा / झूठा लौटाता है।

6

real

वास्तविक मूल्य संग्रहीत करने के लिए उपयोग किया जाता है। आकार 4 बाइट्स है।

7

float

फ्लोटिंग पॉइंट प्रिसिजन वैल्यू जिसमें 4 या 8 बाइट्स स्टोरेज स्पेस है।

8

double

8 बाइट्स में संग्रहीत डबल पॉइंट सटीक मान।

9

char[(n)]

चरित्र मूल्य।

10

varchar[(n)]

चर-लंबाई वाला गैर-यूनिकोड डेटा।

1 1

number

दशमलव मान।

12

binary

बाइनरी मान।

13

date

कैलेंडर की तारीख (वर्ष, माह, दिन)।

Example - DATE '2016-08-22'

14

time

समय क्षेत्र के बिना दिन (समय, मिनट, दूसरा, मिलीसेकंड) का समय। इस प्रकार के मानों को सत्र समय क्षेत्र में पार्स और प्रस्तुत किया जाता है।

15

timezone

एक समय क्षेत्र के साथ दिन का समय (घंटा, मिनट, दूसरा, मिलीसेकंड)। इस प्रकार के मानों को मान से समय क्षेत्र का उपयोग करके प्रदान किया जाता है।

Example - टाइम '01: 02: 03.456 एशिया / कोलकाता '

16

timestamp

बिना समय क्षेत्र में दिन की तारीख और समय को शामिल किए तुरंत।

Example - टाइमस्टैम्प '2016-08-22 03: 04: 05.321'

17

text

चर-लंबाई यूनिकोड पाठ।

वांछित संचालन करने के लिए ताज़ो में निम्नलिखित ऑपरेटरों का उपयोग किया जाता है।

क्र.सं. ऑपरेटर और विवरण
1 अंकगणितीय आपरेटर

प्रेस्टो +, -, *, /,% जैसे अंकगणितीय ऑपरेटरों का समर्थन करता है।

2 संबंधपरक संकारक

<,>, <=,> =, =, <>

3 लॉजिकल ऑपरेटर्स

और, OR, नहीं

4 स्ट्रिंग ऑपरेटरों

'' '' ऑपरेटर स्ट्रिंग संघनन करता है।

5 रेंज ऑपरेटर

रेंज ऑपरेटर का उपयोग किसी विशिष्ट रेंज में मूल्य का परीक्षण करने के लिए किया जाता है। Tajo BETWEEN, IS NULL, IS NOT NULL ऑपरेटरों का समर्थन करता है।

अब तक, आप ताजो पर सरल बुनियादी प्रश्नों को चलाने के बारे में जानते थे। अगले कुछ अध्यायों में, हम निम्नलिखित SQL कार्यों पर चर्चा करेंगे -

  • गणित के कार्य
  • स्ट्रिंग फ़ंक्शंस
  • दिनांक समय कार्य
  • JSON के कार्य

गणित के फार्मूले पर गणित के कार्य संचालित होते हैं। निम्न तालिका विस्तार से कार्यों की सूची का वर्णन करती है।

क्र.सं. समारोह विवरण
1 पेट (एक्स)

X का पूर्ण मान लौटाता है।

2 cbrt (एक्स)

X की घनमूल को लौटाता है।

3 प्लस्तर लगाना (एक्स)

रिटर्न x मान निकटतम पूर्णांक तक गोल होता है।

4 मंजिल (एक्स)

रिटर्न x निकटतम पूर्णांक तक गोल हो जाता है।

5 अनुकरणीय ()

पीआई मान लौटाता है। परिणाम को दोहरे मान के रूप में लौटाया जाएगा।

6 रेडियंस (एक्स)

कोण x को डिग्री रेडियन में परिवर्तित करता है।

7 डिग्री (एक्स)

X के लिए डिग्री मान लौटाता है।

8 पॉव (एक्स, पी)

X मान के लिए value'p 'की शक्ति लौटाता है।

9 div (एक्स, वाई)

दिए गए दो x, y पूर्णांक मानों के लिए विभाजन परिणाम देता है।

10 exp (x)

आयलर का नंबर देता है e एक संख्या की शक्ति के लिए उठाया।

1 1 sqrt (एक्स)

X का वर्गमूल देता है।

12 संकेत (x)

X का साइनम फ़ंक्शन लौटाता है, वह है -

  • 0 अगर तर्क 0 है

  • 1 यदि तर्क 0 से अधिक है

  • 1 यदि तर्क 0 से कम है

13 आधुनिक (n, m)

M द्वारा विभाजित n का मापांक (शेष) लौटाता है।

14 दौर (एक्स)

एक्स के लिए गोल मूल्य देता है।

15 क्योंकि (एक्स)

लौकिक मान (x) लौटाता है।

16 असिन (एक्स)

प्रतिलोम साइन मूल्य (x) देता है।

17 acos (एक्स)

प्रतिलोम कोसाइन मान (x) देता है।

18 atan (एक्स)

प्रतिलोम स्पर्शरेखा मान (x) लौटाता है।

19 atan2 (y, x)

प्रतिलोम स्पर्शरेखा मान (y / x) देता है।

डेटा प्रकार कार्य

निम्नलिखित तालिका अपाचे ताजो में उपलब्ध डेटा प्रकार कार्यों को सूचीबद्ध करती है।

क्र.सं. समारोह विवरण
1 to_bin (एक्स)

पूर्णांक का बाइनरी प्रतिनिधित्व लौटाता है।

2 TO_CHAR (पूर्णांक, पाठ)

पूर्णांक को स्ट्रिंग में परिवर्तित करता है।

3 to_hex (एक्स)

एक्स मान को हेक्साडेसिमल में परिवर्तित करता है।

निम्नलिखित तालिका ताज़ो में स्ट्रिंग कार्यों को सूचीबद्ध करती है।

क्र.सं. समारोह विवरण
1 समतल (string1, ..., stringN)

दिए गए तारों को समेटें।

2 लंबाई (स्ट्रिंग)

दिए गए स्ट्रिंग की लंबाई लौटाता है।

3 कम (स्ट्रिंग)

स्ट्रिंग के लिए लोअरकेस प्रारूप लौटाता है।

4 ऊपरी (स्ट्रिंग)

दिए गए स्ट्रिंग के लिए अपरकेस प्रारूप लौटाता है।

5 एससीआई (स्ट्रिंग पाठ)

पाठ के पहले वर्ण का ASCII कोड लौटाता है।

6 bit_length (स्ट्रिंग पाठ)

एक स्ट्रिंग में बिट्स की संख्या लौटाता है।

7 char_length (स्ट्रिंग पाठ)

एक स्ट्रिंग में वर्णों की संख्या देता है।

8 ओकटेट_लिफ्टिंग (स्ट्रिंग पाठ)

एक स्ट्रिंग में बाइट्स की संख्या देता है।

9 पचाना (इनपुट पाठ, विधि पाठ)

की गणना करता है Digestस्ट्रिंग का हैश। यहाँ, दूसरी arg विधि हैश विधि को संदर्भित करती है।

10 initcap (स्ट्रिंग पाठ)

प्रत्येक शब्द के पहले अक्षर को ऊपरी मामले में परिवर्तित करता है।

1 1 md5 (स्ट्रिंग पाठ)

की गणना करता है MD5 स्ट्रिंग का हैश।

12 बाएं (स्ट्रिंग पाठ, इंट आकार)

स्ट्रिंग में पहले n अक्षर देता है।

13 सही (स्ट्रिंग पाठ, इंट आकार)

स्ट्रिंग में अंतिम n वर्ण लौटाता है।

14 पता लगाएँ (स्रोत पाठ, लक्ष्य पाठ, start_index)

निर्दिष्ट प्रतिस्थापन का स्थान लौटाता है।

15 स्ट्रैप्सब (स्रोत पाठ, लक्ष्य पाठ)

निर्दिष्ट स्थानापन्न के द्विआधारी स्थान को लौटाता है।

16 मूल (स्रोत पाठ, प्रारंभ सूचकांक, लंबाई)

निर्दिष्ट लंबाई के लिए सबस्ट्रिंग लौटाता है।

17 ट्रिम (स्ट्रिंग पाठ [, अक्षर पाठ])

स्ट्रिंग के प्रारंभ / अंत / दोनों सिरों से वर्ण (डिफ़ॉल्ट रूप से एक स्थान) को निकालता है।

18 विभाजित_पाठ (स्ट्रिंग पाठ, सीमांकक पाठ, क्षेत्र int)

सीमांकक पर एक स्ट्रिंग को विभाजित करता है और दिए गए फ़ील्ड (एक से गिनती) देता है।

19 regexp_replace (स्ट्रिंग पाठ, पैटर्न पाठ, प्रतिस्थापन पाठ)

एक नियमित अभिव्यक्ति पैटर्न से मिलान किए गए प्रतिस्थापन को प्रतिस्थापित करता है।

20 रिवर्स (स्ट्रिंग)

स्ट्रिंग के लिए रिवर्स ऑपरेशन किया गया।

Apache Tajo निम्नलिखित DateTime कार्यों का समर्थन करता है।

क्र.सं. समारोह विवरण
1 add_days (तारीख तारीख या टाइमस्टैम्प, इंट दिन

दिए गए दिन के मूल्य के अनुसार रिटर्न की तारीख।

2 add_months (दिनांक दिनांक या टाइमस्टैम्प, इंट माह)

दिए गए महीने के मूल्य के अनुसार रिटर्न की तारीख।

3 आज की तारीख()

आज की तारीख में लौटाता है।

4 वर्तमान समय()

आज का समय लौटाता है।

5 अर्क (तारीख / टाइमस्टैम्प से सदी)

दिए गए पैरामीटर से सदी निकालता है।

6 अर्क (तारीख / टाइमस्टैम्प से दिन)

दिए गए पैरामीटर से दिन निकालता है।

7 अर्क (तारीख / टाइमस्टैम्प से दशक)

दिए गए पैरामीटर से दशक निकालता है।

8 अर्क (दिन दहेज की तारीख / टाइमस्टैम्प)

दिए गए पैरामीटर से सप्ताह का दिन निकालता है।

9 अर्क (तारीख / टाइमस्टैम्प से डोई)

दिए गए पैरामीटर से वर्ष का दिन निकालता है।

10 अर्क का चयन करें (टाइमस्टैम्प से घंटे)

दिए गए पैरामीटर से घंटा निकालता है।

1 1 अर्क चुनें (टाइमस्टैम्प से आइसोडो)

दिए गए पैरामीटर से सप्ताह का दिन निकालता है। यह रविवार को छोड़कर दहेज के समान है। यह सप्ताह की संख्या के आईएसओ 8601 दिन से मेल खाता है।

12 अर्क का चयन करें (तिथि से अलग)

निर्दिष्ट वर्ष से आईएसओ वर्ष निकालता है। आईएसओ वर्ष ग्रेगोरियन वर्ष से अलग हो सकता है।

13 अर्क (समय से माइक्रोसेकंड)

दिए गए पैरामीटर से माइक्रोसेकंड निकालता है। भिन्नात्मक भागों सहित सेकंड फ़ील्ड, 1 000 000 से गुणा किया जाता है;

14 अर्क (सहस्राब्दी से सहस्राब्दी)

दिए गए पैरामीटर से अर्क सहस्राब्दी। एक सहस्राब्दी 1000 साल से मेल खाती है। इसलिए, तीसरी सहस्राब्दी 1 जनवरी 2001 से शुरू हुई।

15 अर्क (समय से मिलीसेकंड)

दिए गए पैरामीटर से मिलीसेकंड निकालता है।

16 अर्क (टाइमस्टैम्प से मिनट)

दिए गए पैरामीटर से मिनट निकालता है।

17 अर्क (टाइमस्टैम्प से चौथाई)

दिए गए पैरामीटर से वर्ष की तिमाही (1 - 4) निकालता है।

18 date_part (फ़ील्ड पाठ, स्रोत दिनांक या टाइमस्टैम्प या समय)

पाठ से दिनांक फ़ील्ड निकालता है।

19 अभी()

वर्तमान टाइमस्टैम्प लौटाता है।

20 to_char (टाइमस्टैम्प, प्रारूप पाठ)

पाठ को टाइमस्टैम्प परिवर्तित करता है।

21 to_date (src पाठ, प्रारूप पाठ)

पाठ को आज तक परिवर्तित करता है।

22 to_timestamp (src पाठ, प्रारूप पाठ)

पाठ को टाइमस्टैम्प में परिवर्तित करता है।

JSON फ़ंक्शन निम्न तालिका में सूचीबद्ध हैं -

क्र.सं. समारोह विवरण
1 json_extract_path_text (पाठ पर js, json_path पाठ)

निर्दिष्ट JSON पथ से JSON स्ट्रिंग से JSON स्ट्रिंग निकालता है।

2 json_array_get (json_array पाठ, सूचकांक int4)

तत्व को निर्दिष्ट इंडेक्स पर JSON सरणी में लौटाता है।

3 json_array_contains (json_ array पाठ, मान किसी भी)

निर्धारित करें कि दिए गए मान JSON सरणी में मौजूद हैं या नहीं।

4 json_array_length (json_ar ray text)

Json सरणी की लंबाई देता है।

यह खंड ताजो डीडीएल आदेशों की व्याख्या करता है। Tajo में एक अंतर्निहित डेटाबेस नाम दिया गया हैdefault

डेटाबेस स्टेटमेंट बनाएं

Create Databaseताजो में एक डेटाबेस बनाने के लिए इस्तेमाल किया जाने वाला एक बयान है। इस कथन का वाक्य विन्यास इस प्रकार है -

CREATE DATABASE [IF NOT EXISTS] <database_name>

सवाल

default> default> create database if not exists test;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

डाटाबेस ताजो में नाम स्थान है। एक डेटाबेस में एक अद्वितीय नाम के साथ कई टेबल हो सकते हैं।

वर्तमान डेटाबेस दिखाएँ

वर्तमान डेटाबेस नाम की जाँच करने के लिए, निम्नलिखित आदेश जारी करें -

सवाल

default> \c

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

You are now connected to database "default" as user “user1". 
default>

डेटाबेस से कनेक्ट करें

अब तक, आपने "परीक्षण" नाम का एक डेटाबेस बनाया है। निम्न सिंटैक्स का उपयोग "परीक्षण" डेटाबेस को जोड़ने के लिए किया जाता है।

\c <database name>

सवाल

default> \c test

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

You are now connected to database "test" as user “user1”. 
test>

अब आप डिफ़ॉल्ट डेटाबेस से परीक्षण डेटाबेस के लिए शीघ्र परिवर्तन देख सकते हैं।

ड्रॉप डेटाबेस

डेटाबेस को छोड़ने के लिए, निम्नलिखित सिंटैक्स का उपयोग करें -

DROP DATABASE <database-name>

सवाल

test> \c default 
You are now connected to database "default" as user “user1". 
default> drop database test;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

एक तालिका एक डेटा स्रोत का एक तार्किक दृश्य है। इसमें एक तार्किक स्कीमा, विभाजन, URL और विभिन्न गुण होते हैं। एक Tajo तालिका HDFS में एक निर्देशिका, एक एकल फ़ाइल, एक HBase तालिका या RDBMS तालिका हो सकती है।

ताजो निम्नलिखित दो प्रकार की तालिकाओं का समर्थन करता है -

  • बाहरी तालिका
  • आंतरिक तालिका

बाहरी तालिका

जब तालिका बनाई जाती है, तो बाहरी तालिका को स्थान गुण की आवश्यकता होती है। उदाहरण के लिए, यदि आपका डेटा पहले से ही Text / JSON फ़ाइलों या HBase तालिका के रूप में है, तो आप इसे Tajo बाहरी तालिका के रूप में पंजीकृत कर सकते हैं।

निम्न क्वेरी बाहरी तालिका निर्माण का एक उदाहरण है।

create external table sample(col1 int,col2 text,col3 int) location ‘hdfs://path/to/table';

यहाँ,

  • External keyword- इसका उपयोग बाहरी तालिका बनाने के लिए किया जाता है। यह निर्दिष्ट स्थान में एक तालिका बनाने में मदद करता है।

  • नमूना तालिका के नाम को संदर्भित करता है।

  • Location- यह HDFS, अमेज़ॅन S3, HBase या स्थानीय फ़ाइल सिस्टम के लिए एक निर्देशिका है। निर्देशिकाओं के लिए स्थान संपत्ति निर्दिष्ट करने के लिए, नीचे दिए गए URI उदाहरणों का उपयोग करें -

    • HDFS - hdfs: // लोकलहोस्ट: पोर्ट / पाथ / टू / टेबल

    • Amazon S3 - s3: // बकेट-नेम / टेबल

    • local file system - फाइल: /// पाथ / टू / टेबल

    • Openstack Swift - स्विफ्ट: // बकेट-नेम / टेबल

तालिका गुण

एक बाहरी तालिका में निम्नलिखित गुण हैं -

  • TimeZone - उपयोगकर्ता तालिका पढ़ने या लिखने के लिए एक समय क्षेत्र निर्दिष्ट कर सकते हैं।

  • Compression format- डेटा आकार को कॉम्पैक्ट बनाने के लिए उपयोग किया जाता है। उदाहरण के लिए, पाठ / json फ़ाइल का उपयोग करता हैcompression.codec संपत्ति।

आंतरिक तालिका

एक आंतरिक तालिका भी कहा जाता है Managed Table। यह एक पूर्व-परिभाषित भौतिक स्थान में बनाया गया है जिसे टेबलस्पेस कहा जाता है।

वाक्य - विन्यास

create table table1(col1 int,col2 text);

डिफ़ॉल्ट रूप से, Tajo "conf / tajo-site.xml" में स्थित "tajo.warehouse.directory" का उपयोग करता है। तालिका के लिए नया स्थान निर्दिष्ट करने के लिए, आप टेबलपेप्स कॉन्फ़िगरेशन का उपयोग कर सकते हैं।

टेबल-स्पेस

Tablespace का उपयोग स्टोरेज सिस्टम में स्थानों को परिभाषित करने के लिए किया जाता है। यह केवल आंतरिक तालिकाओं के लिए समर्थित है। आप उनके नाम से टेबलस्पेस का उपयोग कर सकते हैं। प्रत्येक टेबलस्पेस एक अलग भंडारण प्रकार का उपयोग कर सकता है। यदि आप तालिकाओं को निर्दिष्ट नहीं करते हैं, तो Tajo रूट निर्देशिका में डिफ़ॉल्ट तालिकाओं का उपयोग करता है।

टेबलस्पेस कॉन्फ़िगरेशन

आपके पास “conf/tajo-site.xml.template”ताजो में। फ़ाइल की प्रतिलिपि बनाएँ और उसका नाम बदलें“storagesite.json”। यह फ़ाइल Tablespaces के लिए कॉन्फ़िगरेशन के रूप में कार्य करेगी। Tajo डेटा प्रारूप निम्नलिखित विन्यास का उपयोग करता है -

HDFS कॉन्फ़िगरेशन

$ vi conf/storage-site.json { "spaces": { "${tablespace_name}": {  
         "uri": “hdfs://localhost:9000/path/to/Tajo"  
      } 
   } 
}

HBase कॉन्फ़िगरेशन

$ vi conf/storage-site.json { "spaces": { "${tablespace_name}": {  
         "uri": “hbase:zk://quorum1:port,quorum2:port/"  
      } 
   } 
}

पाठ फ़ाइल कॉन्फ़िगरेशन

$ vi conf/storage-site.json { "spaces": { "${tablespace_name}": {  
         “uri”: “hdfs://localhost:9000/path/to/Tajo” 
      } 
   } 
}

टेबल्स निर्माण

ताजो के आंतरिक टेबल रिकॉर्ड को केवल दूसरी तालिका से एक्सेस किया जा सकता है। आप इसे टेबलस्पेस के साथ कॉन्फ़िगर कर सकते हैं।

वाक्य - विन्यास

CREATE TABLE [IF NOT EXISTS] <table_name> [(column_list)] [TABLESPACE tablespace_name] 
[using <storage_type> [with (<key> = <value>, ...)]] [AS <select_statement>]

यहाँ,

  • IF NOT EXISTS - यह एक त्रुटि से बचा जाता है अगर एक ही तालिका पहले से ही नहीं बनाई गई है।

  • TABLESPACE - यह क्लॉज टेबलस्पेस नाम असाइन करने के लिए उपयोग किया जाता है।

  • Storage type - Tajo डेटा टेक्स्ट, JSON, HBase, Parquet, Sequencefile और ORC जैसे प्रारूपों का समर्थन करता है।

  • AS select statement - किसी अन्य तालिका से रिकॉर्ड का चयन करें।

Tablespace कॉन्फ़िगर करें

अपनी Hadoop सेवाएँ प्रारंभ करें और फ़ाइल खोलें “conf/storage-site.json”, फिर निम्नलिखित परिवर्तन जोड़ें -

$ vi conf/storage-site.json { 
   "spaces": {  
      “space1”: {  
         "uri": “hdfs://localhost:9000/path/to/Tajo" 
      } 
   } 
}

यहां, ताजो एचडीएफएस स्थान से डेटा को संदर्भित करेगा और space1टेबलस्पेस नाम है। यदि आप Hadoop सेवाएँ प्रारंभ नहीं करते हैं, तो आप टेबलस्पेस रजिस्टर नहीं कर सकते हैं।

सवाल

default> create table table1(num1 int,num2 text,num3 float) tablespace space1;

उपरोक्त क्वेरी "table1" और "space1" नामक तालिका बनाती है, जो टेबलस्पेस नाम को संदर्भित करती है।

डेटा प्रारूप

Tajo डेटा प्रारूपों का समर्थन करता है। आइए प्रत्येक प्रारूप के बारे में विस्तार से एक-एक करके देखें।

टेक्स्ट

एक वर्ण-पृथक मानों की सादे पाठ फ़ाइल पंक्तियों और स्तंभों से मिलकर एक सारणीबद्ध डेटा सेट का प्रतिनिधित्व करती है। प्रत्येक पंक्ति एक सादा पाठ रेखा है।

तालिका बनाना

default> create external table customer(id int,name text,address text,age int) 
   using text with('text.delimiter'=',') location ‘file:/Users/workspace/Tajo/customers.csv’;

यहाँ, “customers.csv” फ़ाइल ताजो संस्थापन निर्देशिका में स्थित अल्पविराम से अलग मान फ़ाइल को संदर्भित करता है।

पाठ प्रारूप का उपयोग करके आंतरिक तालिका बनाने के लिए, निम्नलिखित प्रश्न का उपयोग करें -

default> create table customer(id int,name text,address text,age int) using text;

उपरोक्त क्वेरी में, आपने कोई भी टेबलस्पेस असाइन नहीं किया है, इसलिए यह Tajo की डिफ़ॉल्ट टेबलस्पेस ले जाएगा।

गुण

एक पाठ फ़ाइल प्रारूप में निम्नलिखित गुण हैं -

  • text.delimiter- यह एक सीमांत चरित्र है। डिफ़ॉल्ट है '|'

  • compression.codec- यह एक संपीड़न प्रारूप है। डिफ़ॉल्ट रूप से, यह अक्षम है। आप निर्दिष्ट एल्गोरिथ्म का उपयोग करके सेटिंग्स बदल सकते हैं।

  • timezone - पढ़ने या लिखने के लिए इस्तेमाल की जाने वाली तालिका।

  • text.error-tolerance.max-num - सहिष्णुता के स्तर की अधिकतम संख्या।

  • text.skip.headerlines - प्रति हैडर लाइनों की संख्या को छोड़ दिया।

  • text.serde - यह क्रमबद्धता संपत्ति है।

JSON

Apache Tajo डेटा क्वेरी करने के लिए JSON फॉर्मेट का समर्थन करता है। Tajo एक JSON ऑब्जेक्ट को SQL रिकॉर्ड के रूप में मानता है। एक वस्तु एक ताजो तालिका में एक पंक्ति के बराबर होती है। चलो "array.json" पर विचार करें:

$ hdfs dfs -cat /json/array.json { 
   "num1" : 10, 
   "num2" : "simple json array", 
   "num3" : 50.5 
}

इस फ़ाइल को बनाने के बाद, Tajo शेल पर जाएँ और JSON प्रारूप का उपयोग करके तालिका बनाने के लिए निम्न क्वेरी टाइप करें।

सवाल

default> create external table sample (num1 int,num2 text,num3 float) 
   using json location ‘json/array.json’;

हमेशा याद रखें कि फ़ाइल डेटा टेबल स्कीमा के साथ मेल खाना चाहिए। अन्यथा, आप कॉलम नामों को छोड़ सकते हैं और उपयोग कर सकते हैं * जिसके लिए कॉलम सूची की आवश्यकता नहीं है।

आंतरिक तालिका बनाने के लिए, निम्नलिखित प्रश्न का उपयोग करें -

default> create table sample (num1 int,num2 text,num3 float) using json;

लकड़ी की छत

लकड़ी की छत एक स्तंभ भंडारण का प्रारूप है। Tajo आसान, तेज और कुशल पहुँच के लिए Parquet प्रारूप का उपयोग करता है।

टेबल निर्माण

निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -

CREATE TABLE parquet (num1 int,num2 text,num3 float) USING PARQUET;

लकड़ी की छत फ़ाइल प्रारूप में निम्नलिखित गुण हैं -

  • parquet.block.size - स्मृति में बफ़र किए जा रहे पंक्ति समूह का आकार।

  • parquet.page.size - पेज का आकार संपीड़न के लिए है।

  • parquet.compression - संपीड़ित एल्गोरिथ्म पृष्ठों को संपीड़ित करने के लिए उपयोग किया जाता है।

  • parquet.enable.dictionary - शब्दकोष एन्कोडिंग को सक्रिय / निष्क्रिय करना बूलियन मान है।

RCFile

RCFile रिकॉर्ड स्तंभ फ़ाइल है। इसमें बाइनरी कुंजी / मूल्य जोड़े शामिल हैं।

टेबल निर्माण

निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -

CREATE TABLE Record(num1 int,num2 text,num3 float) USING RCFILE;

RCFile के निम्नलिखित गुण हैं -

  • rcfile.serde - कस्टम deserializer वर्ग।

  • compression.codec - संपीड़न एल्गोरिदम।

  • rcfile.null - पूर्ण वर्ण।

SequenceFile

SequenceFile Hadoop में एक मूल फ़ाइल स्वरूप है जिसमें कुंजी / मान जोड़े होते हैं।

टेबल निर्माण

निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -

CREATE TABLE seq(num1 int,num2 text,num3 float) USING sequencefile;

इस अनुक्रम फ़ाइल में हाइव संगतता है। इसे हाइव में लिखा जा सकता है,

CREATE TABLE table1 (id int, name string, score float, type string) 
STORED AS sequencefile;

ओआरसी

ORC (ऑप्टिमाइज़्ड रो कॉलम) हाइव से एक स्तंभ संग्रहण प्रारूप है।

टेबल निर्माण

निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -

CREATE TABLE optimized(num1 int,num2 text,num3 float) USING ORC;

ORC प्रारूप में निम्नलिखित गुण हैं -

  • orc.max.merge.distance - ORC फ़ाइल पढ़ी जाती है, दूरी कम होने पर यह विलीन हो जाती है।

  • orc.stripe.size - यह प्रत्येक पट्टी का आकार है।

  • orc.buffer.size - डिफॉल्ट 256KB है।

  • orc.rowindex.stride - यह पंक्तियों की संख्या में ORC इंडेक्स स्ट्राइड है।

पिछले अध्याय में, आप समझ चुके हैं कि ताजो में तालिकाओं का निर्माण कैसे किया जाता है। यह अध्याय Tajo में SQL स्टेटमेंट के बारे में बताता है।

टेबल स्टेटमेंट बनाएं

तालिका बनाने के लिए आगे बढ़ने से पहले, ताजो इंस्टॉलेशन डायरेक्टरी पथ में एक पाठ फ़ाइल "students.csv" बनाएं: -

students.csv

ईद नाम पता उम्र निशान
1 एडम 23 नई सड़क 21 90
2 अमित 12 पुरानी सड़क 13 95
3 बीओबी 10 क्रॉस स्ट्रीट 12 80
4 डेविड 15 एक्सप्रेस एवेन्यू 12 85
5 ईशा 20 गार्डन स्ट्रीट 13 50
6 गंगा 25 नॉर्थ स्ट्रीट 12 55
7 जैक 2 पार्क स्ट्रीट 12 60
8 लीना 24 साउथ स्ट्रीट 12 70
9 मेरी 5 वेस्ट स्ट्रीट 12 75
10 पीटर 16 पार्क एवेन्यू 12 95

फ़ाइल बन जाने के बाद, टर्मिनल पर जाएँ और Tajo सर्वर शुरू करें और एक-एक करके खोल दें।

डेटाबेस बनाएँ

निम्नलिखित कमांड का उपयोग करके एक नया डेटाबेस बनाएं -

सवाल

default> create database sampledb; 
OK

डेटाबेस "नमूना" से कनेक्ट करें जो अब बनाया गया है।

default> \c sampledb 
You are now connected to database "sampledb" as user “user1”.

फिर, निम्नानुसार "नमूना" में एक तालिका बनाएं -

सवाल

sampledb>  create external table mytable(id int,name text,address text,age int,mark int) 
   using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

यहां, बाहरी तालिका बनाई गई है। अब, आपको बस फ़ाइल स्थान दर्ज करना होगा। अगर आपको hdfs से टेबल असाइन करना है तो फाइल की जगह hdfs का इस्तेमाल करें।

इसके बाद द “students.csv”फ़ाइल में अल्पविराम से अलग किए गए मान हैं। text.delimiter फ़ील्ड को ',' के साथ असाइन किया गया है।

आपने अब "नमूना" सफलतापूर्वक "mytable" बनाया है।

तालिका दिखाएँ

ताज़ो में टेबल दिखाने के लिए, निम्नलिखित क्वेरी का उपयोग करें।

सवाल

sampledb> \d  
mytable  
sampledb> \d mytable

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

table name: sampledb.mytable 
table uri: file:/Users/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown 
volume: 261 B
Options: 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\\N' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4

सूची तालिका

तालिका में सभी रिकॉर्ड लाने के लिए, निम्नलिखित प्रश्न टाइप करें -

सवाल

sampledb> select * from mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

तालिका विवरण सम्मिलित करें

ताज़ो सारणी में रिकॉर्ड डालने के लिए निम्न सिंटैक्स का उपयोग करता है।

वाक्य - विन्यास

create table table1 (col1 int8, col2 text, col3 text);   
--schema should be same for target table schema  
Insert overwrite into table1 select * from table2;  
                     (or)  
Insert overwrite into LOCATION '/dir/subdir' select * from table;

Tajo का सम्मिलित कथन इसके समान है INSERT INTO SELECT एसक्यूएल का बयान।

सवाल

आइए मौजूदा तालिका के तालिका डेटा को अधिलेखित करने के लिए एक तालिका बनाएं।

sampledb> create table test(sno int,name text,addr text,age int,mark int);  
OK 
sampledb> \d

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

mytable 
test

रिकॉर्ड डालें

"परीक्षण" तालिका में रिकॉर्ड सम्मिलित करने के लिए, निम्नलिखित क्वेरी टाइप करें।

सवाल

sampledb> insert overwrite into test select * from mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

Progress: 100%, response time: 0.518 sec

यहाँ, "mytable" रिकॉर्ड "परीक्षण" तालिका को अधिलेखित करता है। यदि आप "परीक्षण" तालिका नहीं बनाना चाहते हैं, तो सीधे भौतिक पथ स्थान को सम्मिलित करें जैसा कि सम्मिलित क्वेरी के लिए एक वैकल्पिक विकल्प में बताया गया है।

रिकॉर्ड प्राप्त करें

"परीक्षण" तालिका के सभी रिकॉर्डों को सूचीबद्ध करने के लिए निम्नलिखित प्रश्न का उपयोग करें -

सवाल

sampledb> select * from test;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

इस कथन का उपयोग किसी मौजूदा तालिका के कॉलम को जोड़ने, हटाने या संशोधित करने के लिए किया जाता है।

तालिका का नाम बदलने के लिए निम्नलिखित सिंटैक्स का उपयोग करें -

Alter table table1 RENAME TO table2;

सवाल

sampledb> alter table test rename to students;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

परिवर्तित तालिका नाम की जाँच करने के लिए, निम्नलिखित क्वेरी का उपयोग करें।

sampledb> \d  
mytable 
students

अब तालिका "परीक्षण" को "छात्रों" तालिका में बदल दिया गया है।

स्तंभ जोड़ें

"छात्रों" तालिका में नया कॉलम सम्मिलित करने के लिए, निम्न सिंटैक्स टाइप करें -

Alter table <table_name> ADD COLUMN <column_name> <data_type>

सवाल

sampledb> alter table students add column grade text;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

संपत्ति सेट करें

इस संपत्ति का उपयोग तालिका की संपत्ति को बदलने के लिए किया जाता है।

सवाल

sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
   'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ; 
OK

यहां, संपीड़न प्रकार और कोडेक गुण असाइन किए गए हैं।

टेक्स्ट सीमांकक गुण बदलने के लिए, निम्नलिखित का उपयोग करें -

सवाल

ALTER TABLE students  SET PROPERTY ‘text.delimiter'=',';  
OK

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

sampledb> \d students  
table name: sampledb.students 
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students 
store type: TEXT 
number of rows: 10 
volume: 228 B 
Options: 
'compression.type' = 'RECORD' 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\\N' 
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
addr TEXT 
age INT4 
mark INT4 
grade TEXT

उपरोक्त परिणाम से पता चलता है कि "SET" संपत्ति का उपयोग करके तालिका के गुणों को बदल दिया जाता है।

कथन का चयन करें

एक डेटाबेस से डेटा का चयन करने के लिए SELECT स्टेटमेंट का उपयोग किया जाता है।

चयन कथन का वाक्य विन्यास इस प्रकार है -

SELECT [distinct [all]] * | <expression> [[AS] <alias>] [, ...] 
   [FROM <table reference> [[AS] <table alias name>] [, ...]] 
   [WHERE <condition>] 
   [GROUP BY <expression> [, ...]] 
   [HAVING <condition>] 
   [ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]

कहां कारण

जहाँ तालिका से रिकॉर्ड को फ़िल्टर करने के लिए क्लॉज़ का उपयोग किया जाता है।

सवाल

sampledb> select * from mytable where id > 5;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

क्वेरी उन छात्रों के रिकॉर्ड लौटाती है जिनकी आईडी 5 से अधिक है।

सवाल

sampledb> select * from mytable where name = ‘Peter’;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

Progress: 100%, response time: 0.117 sec 
 
  id,  name,  address,   age  
------------------------------- 
10,  Peter,  16 park avenue , 12

परिणाम केवल पीटर के रिकॉर्ड को फ़िल्टर करता है।

विकृत खंड

तालिका स्तंभ में डुप्लिकेट मान हो सकते हैं। DISTINCT कीवर्ड का उपयोग केवल भिन्न (भिन्न) मानों को लौटाने के लिए किया जा सकता है।

वाक्य - विन्यास

SELECT DISTINCT column1,column2 FROM table_name;

सवाल

sampledb> select distinct age from mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

Progress: 100%, response time: 0.216 sec  
age 
------------------------------- 
13 
12

क्वेरी छात्रों की विशिष्ट आयु लौटाती है mytable

खण्ड द्वारा समूह

ग्रुप बाय क्लॉज का उपयोग समूहों में समान डेटा को व्यवस्थित करने के लिए SELECT स्टेटमेंट के सहयोग से किया जाता है।

वाक्य - विन्यास

SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;

सवाल

select age,sum(mark) as sumofmarks from mytable group by age;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

age,  sumofmarks 
------------------------------- 
13,  145 
12,  610

यहां, "mytable" कॉलम में दो प्रकार के आयु हैं - 12 और 13. अब क्वेरी उम्र के हिसाब से रिकॉर्ड बनाती है और छात्रों की इसी उम्र के लिए अंकों का योग बनाती है।

क्लाज होना

HAVING क्लॉज आपको उन शर्तों को निर्दिष्ट करने में सक्षम बनाता है जो अंतिम परिणामों में समूह परिणामों को फ़िल्टर करती हैं। WHERE क्लॉज चयनित कॉलम पर स्थितियां रखता है, जबकि HAVING क्लॉज GROUP BY क्लॉज द्वारा बनाए गए समूहों पर स्थितियां रखता है।

वाक्य - विन्यास

SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]

सवाल

sampledb> select age from mytable group by age  having  sum(mark) > 200;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

age 
------------------------------- 
12

क्वेरी उम्र के हिसाब से रिकॉर्ड बनाती है और शर्त के योग होने पर उम्र वापस कर देती है (अंक)> 200।

खण्ड द्वारा आदेश

एक या अधिक स्तंभों के आधार पर डेटा को आरोही या अवरोही क्रम में क्रमबद्ध करने के लिए ORDER BY क्लॉज का उपयोग किया जाता है। Tajo डेटाबेस डिफ़ॉल्ट रूप से आरोही क्रम में क्वेरी परिणामों को क्रमबद्ध करता है।

वाक्य - विन्यास

SELECT column-list FROM table_name  
[WHERE condition]  
[ORDER BY column1, column2, .. columnN] [ASC | DESC];

सवाल

sampledb> select * from mytable where mark > 60 order by name desc;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

क्वेरी उन छात्रों के नाम अवरोही क्रम में लौटाती है जिनके निशान 60 से अधिक हैं।

इंडेक्स स्टेटमेंट बनाएं

क्रिएट इंडेक्स स्टेटमेंट का उपयोग टेबल्स में इंडेक्स बनाने के लिए किया जाता है। इंडेक्स का उपयोग डेटा के तेजी से पुनर्प्राप्ति के लिए किया जाता है। वर्तमान संस्करण HDFS पर संग्रहीत केवल सादे पाठ स्वरूपों के लिए सूचकांक का समर्थन करता है।

वाक्य - विन्यास

CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }

सवाल

create index student_index on mytable(id);

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id 
———————————————

कॉलम के लिए असाइन किए गए इंडेक्स को देखने के लिए, निम्न क्वेरी टाइप करें।

default> \d mytable  
table name: default.mytable 
table uri: file:/Users/deiva/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown  
volume: 307 B 
Options: 
   'timezone' = 'Asia/Kolkata' 
   'text.null' = '\\N' 
   'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4   
Indexes:  
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST )

यहाँ, TWO_LEVEL_BIN_TREE विधि डिफ़ॉल्ट रूप से Tajo में उपयोग की जाती है।

ड्रॉप टेबल स्टेटमेंट

ड्रॉप टेबल स्टेटमेंट का उपयोग डेटाबेस से एक टेबल को गिराने के लिए किया जाता है।

वाक्य - विन्यास

drop table table name;

सवाल

sampledb> drop table mytable;

यह जाँचने के लिए कि क्या तालिका तालिका से हटा दी गई है, निम्नलिखित प्रश्न टाइप करें।

sampledb> \d mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

ERROR: relation 'mytable' does not exist

आप उपलब्ध Tajo तालिकाओं को सूचीबद्ध करने के लिए "\ d" कमांड का उपयोग करके क्वेरी की जांच कर सकते हैं।

यह अध्याय समग्र और खिड़की के कार्यों के बारे में विस्तार से बताता है।

एकत्रीकरण कार्य

एग्रीगेट फ़ंक्शंस इनपुट मानों के एक सेट से एक परिणाम उत्पन्न करते हैं। निम्न तालिका समग्र कार्यों की सूची का विस्तार से वर्णन करती है।

क्र.सं. समारोह विवरण
1 एवीजी (समा)

डेटा स्रोत में सभी रिकॉर्ड के एक स्तंभ का उपयोग करता है।

2 कोर (अभिव्यक्ति 1, अभिव्यक्ति 2)

संख्या जोड़े के एक सेट के बीच सहसंबंध का गुणांक लौटाता है।

3 COUNT ()

संख्या पंक्तियों को लौटाता है।

4 मैक्स (अभिव्यक्ति)

चयनित स्तंभ का सबसे बड़ा मान लौटाता है।

5 मिन (अभिव्यक्ति)

चयनित स्तंभ का सबसे छोटा मान लौटाता है।

6 योग (अभिव्यक्ति)

दिए गए कॉलम का योग लौटाता है।

7 LAST_VALUE (अभिव्यक्ति)

दिए गए कॉलम का अंतिम मान लौटाता है।

विंडो फ़ंक्शन

विंडो फ़ंक्शन पंक्तियों के एक सेट पर निष्पादित होता है और क्वेरी से प्रत्येक पंक्ति के लिए एक एकल मान लौटाता है। शब्द विंडो में फ़ंक्शन के लिए पंक्ति के सेट का अर्थ है।

क्वेरी में विंडो फ़ंक्शन, OVER () क्लॉज का उपयोग करके विंडो को परिभाषित करता है।

OVER() खंड में निम्नलिखित क्षमताएं हैं -

  • पंक्तियों के समूह बनाने के लिए विंडो विभाजन को परिभाषित करता है। (खंड द्वारा खंड)
  • एक विभाजन के भीतर आदेश पंक्तियाँ। (खंड द्वारा आदेश)

निम्न तालिका विस्तार से खिड़की के कार्यों का वर्णन करती है।

समारोह वापसी प्रकार विवरण
पद() पूर्णांक अंतराल के साथ वर्तमान पंक्ति का रिटर्न।
ROW_NUM () पूर्णांक 1 से गिनती, अपने विभाजन के भीतर वर्तमान पंक्ति लौटाता है।
सीसा (मान [, ऑफसेट पूर्णांक [, डिफ़ॉल्ट कोई भी]]) इनपुट प्रकार के समान विभाजन के भीतर वर्तमान पंक्ति के बाद पंक्तियों की भरपाई करने वाली पंक्ति पर लौटाए गए मान का मूल्यांकन किया जाता है। यदि ऐसी कोई पंक्ति नहीं है, तो डिफ़ॉल्ट मान वापस कर दिया जाएगा।
अंतराल (मान [, ऑफसेट पूर्णांक [, डिफ़ॉल्ट कोई भी]]) इनपुट प्रकार के समान विभाजन के भीतर मौजूदा पंक्ति से पहले पंक्तियों की भरपाई करने वाली पंक्ति पर लौटाए गए मान का मूल्यांकन किया जाता है।
FIRST_VALUE (मान) इनपुट प्रकार के समान इनपुट पंक्तियों का पहला मान लौटाता है।
last_value (मान) इनपुट प्रकार के समान इनपुट पंक्तियों का अंतिम मान लौटाता है।

यह अध्याय निम्नलिखित महत्वपूर्ण प्रश्नों के बारे में बताता है।

  • Predicates
  • Explain
  • Join

आइए हम आगे बढ़ें और क्वेरी करें।

विधेय

विधेय एक अभिव्यक्ति है जिसका उपयोग सच्चे / झूठे मूल्यों और UNKNOWN के मूल्यांकन के लिए किया जाता है। विधेयकों का उपयोग WHERE क्लॉज़ और HAVING क्लॉज़ और अन्य निर्माणों की खोज स्थिति में किया जाता है जहाँ बूलियन मान आवश्यक है।

विधेय में

यह निर्धारित करता है कि परीक्षण के लिए अभिव्यक्ति का मूल्य उप-वर्ग या सूची में किसी भी मूल्य से मेल खाता है या नहीं। सबक्वेरी एक साधारण सेलेक्ट स्टेटमेंट है जिसमें एक कॉलम और एक या अधिक पंक्तियों का परिणाम सेट होता है। इस स्तंभ या सूची में सभी अभिव्यक्तियों के परीक्षण के लिए अभिव्यक्ति के समान डेटा प्रकार होना चाहिए।

Syntax

IN::= 
<expression to test> [NOT] IN (<subquery>) 
| (<expression1>,...)

Query

select id,name,address from mytable where id in(2,3,4);

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id,  name,   address 
------------------------------- 
2,  Amit,  12 old street 
3,  Bob,   10 cross street 
4,  David, 15 express avenue

क्वेरी से रिकॉर्ड देता है mytable छात्रों के लिए 2,3 और 4 आईडी।

Query

select id,name,address from mytable where id not in(2,3,4);

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id,  name,  address 
------------------------------- 
1,  Adam,   23 new street 
5,  Esha,   20 garden street 
6,  Ganga,  25 north street 
7,  Jack,   2 park street 
8,  Leena,  24 south street 
9,  Mary,   5 west street 
10, Peter,  16 park avenue

उपरोक्त क्वेरी से रिकॉर्ड लौटाता है mytable जहां छात्र 2,3 और 4 में नहीं हैं।

जैसे प्रेडिक्ट करते हैं

LIKE विधेय को स्ट्रिंग मूल्य की गणना के लिए पहली अभिव्यक्ति में निर्दिष्ट स्ट्रिंग की तुलना करता है, जिसे परीक्षण के मान के रूप में संदर्भित किया जाता है, स्ट्रिंग मूल्य की गणना के लिए दूसरी अभिव्यक्ति में परिभाषित पैटर्न के साथ।

पैटर्न में वाइल्डकार्ड का कोई संयोजन हो सकता है जैसे कि -

  • अंडरलाइन प्रतीक (_), जिसका उपयोग परीक्षण के मूल्य में किसी एक वर्ण के बजाय किया जा सकता है।

  • प्रतिशत चिह्न (%), जो परीक्षण के मूल्य में शून्य या अधिक वर्णों के किसी भी स्ट्रिंग को प्रतिस्थापित करता है।

Syntax

LIKE::= 
<expression for calculating the string value> 
[NOT] LIKE 
<expression for calculating the string value> 
[ESCAPE <symbol>]

Query

select * from mytable where name like ‘A%';

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id,  name,  address,     age,  mark 
------------------------------- 
1,  Adam,  23 new street,  12,  90 
2,  Amit,  12 old street,  13,  95

क्वेरी उन छात्रों के mytable से रिकॉर्ड लौटाती है, जिनके नाम 'A' से शुरू हो रहे हैं।

Query

select * from mytable where name like ‘_a%';

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id,  name,  address,    age,  mark 
——————————————————————————————————————- 
4,  David,  15 express avenue,  12,  85 
6,  Ganga,  25 north street,    12,  55 
7,  Jack,  2 park street,       12,  60 
9,  Mary,  5 west street,       12,  75

क्वेरी से रिकॉर्ड देता है mytable उन छात्रों के नाम जिनके नाम दूसरे चरण के रूप में 'ए' से शुरू हो रहे हैं।

खोज स्थितियों में NULL मान का उपयोग करना

आइए अब समझते हैं कि खोज स्थितियों में NULL मान का उपयोग कैसे करें।

Syntax

Predicate  
IS [NOT] NULL

Query

select name from mytable where name is not null;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

name 
------------------------------- 
Adam 
Amit 
Bob 
David 
Esha 
Ganga 
Jack 
Leena 
Mary 
Peter  
(10 rows, 0.076 sec, 163 B selected)

यहां, परिणाम सही है, इसलिए यह तालिका से सभी नाम लौटाता है।

Query

चलिए अब NULL कंडीशन के साथ क्वेरी की जाँच करते हैं।

default> select name from mytable where name is null;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

name 
------------------------------- 
(0 rows, 0.068 sec, 0 B selected)

समझाना

Explainक्वेरी निष्पादन योजना प्राप्त करने के लिए उपयोग किया जाता है। यह एक बयान के तार्किक और वैश्विक योजना निष्पादन को दर्शाता है।

लॉजिकल प्लान क्वेरी

explain select * from mytable;  
explain 
-------------------------------  
   => target list: default.mytable.id (INT4), default.mytable.name (TEXT), 
      default.mytable.address (TEXT), default.mytable.age (INT4), default.mytable.mark (INT4) 
   
   => out schema: {
   (5) default.mytable.id (INT4), default.mytable.name (TEXT), default.mytable.address (TEXT), 
      default.mytable.age (INT4), default.mytable.mark (INT4)
   } 
   
   => in schema: {
	(5) default.mytable.id (INT4), default.mytable.name (TEXT), default.mytable.address (TEXT), 
      default.mytable.age (INT4), default.mytable.mark (INT4)
   }

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

क्वेरी परिणाम दिए गए तालिका के लिए एक तार्किक योजना प्रारूप दिखाता है। तार्किक योजना निम्नलिखित तीन परिणाम लौटाती है -

  • लक्ष्य सूची
  • स्कीमा से बाहर
  • स्कीमा में

वैश्विक योजना क्वेरी

explain global select * from mytable;  
explain 
------------------------------- 
------------------------------------------------------------------------------- 
Execution Block Graph (TERMINAL - eb_0000000000000_0000_000002) 
------------------------------------------------------------------------------- 
|-eb_0000000000000_0000_000002 
   |-eb_0000000000000_0000_000001 
------------------------------------------------------------------------------- 
Order of Execution 
------------------------------------------------------------------------------- 
1: eb_0000000000000_0000_000001 
2: eb_0000000000000_0000_000002 
-------------------------------------------------------------------------------  
======================================================= 
Block Id: eb_0000000000000_0000_000001 [ROOT] 
=======================================================  
SCAN(0) on default.mytable 
   
   => target list: default.mytable.id (INT4), default.mytable.name (TEXT), 
      default.mytable.address (TEXT), default.mytable.age (INT4), default.mytable.mark (INT4) 
   
   => out schema: {
	(5) default.mytable.id (INT4), default.mytable.name (TEXT),default.mytable.address (TEXT), 
      default.mytable.age (INT4), default.mytable.mark (INT4)
   } 
   
   => in schema: {
	(5) default.mytable.id (INT4), default.mytable.name (TEXT), default.mytable.address (TEXT), 
      default.mytable.age (INT4), default.mytable.mark (INT4)
   }  
======================================================= 
Block Id: eb_0000000000000_0000_000002 [TERMINAL] 
======================================================= 
(24 rows, 0.065 sec, 0 B selected)

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

यहां, ग्लोबल प्लान निष्पादन ब्लॉक आईडी, निष्पादन का क्रम और इसकी जानकारी दिखाता है।

में शामिल

SQL जॉइन का उपयोग पंक्तियों को दो या अधिक तालिकाओं से संयोजित करने के लिए किया जाता है। निम्नलिखित SQL Joins के विभिन्न प्रकार हैं -

  • आंतरिक रूप से जुड़ा
  • {LEFT | राइट | पूर्ण} OUTER JOIN
  • क्रॉस जॉइन करें
  • स्वयं सम्मिलित हों
  • प्राकृतिक जुड़ाव

जुड़ने के संचालन के लिए निम्नलिखित दो तालिकाओं पर विचार करें।

तालिका 1 - ग्राहक

ईद नाम पता उम्र
1 ग्राहक 1 23 पुरानी सड़क 21
2 ग्राहक २ 12 नई सड़क 23
3 ग्राहक ३ 10 एक्सप्रेस एवेन्यू 22
4 ग्राहक ४ 15 एक्सप्रेस एवेन्यू 22
5 ग्राहक ५ 20 गार्डन स्ट्रीट 33
6 ग्राहक 6 21 उत्तर की सड़क 25

Table2 - customer_order

ईद आदेश ID ईएम आईडी
1 1 101
2 2 102
3 3 103
4 4 104
5 5 105

अब हम आगे बढ़ते हैं और उपरोक्त दो टेबलों पर SQL ज्वाइन ऑपरेशन करते हैं।

आंतरिक रूप से जुड़ा

जब दोनों तालिकाओं में स्तंभों के बीच मेल होता है, तो इनर दोनों तालिकाओं से सभी पंक्तियों का चयन करता है।

Syntax

SELECT column_name(s) FROM table1 INNER JOIN table2 ON table1.column_name = table2.column_name;

Query

default> select c.age,c1.empid from customers c inner join customer_order c1 on c.id = c1.id;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

age,  empid 
------------------------------- 
21,  101 
23,  102 
22,  103 
22,  104 
33,  105

क्वेरी दोनों तालिकाओं से पाँच पंक्तियों से मेल खाती है। इसलिए, यह पहली तालिका से मिलान की गई पंक्तियों की आयु देता है।

बाईं ओर का बाहरी जोड़

एक बाईं बाहरी जुड़ाव "बाईं" तालिका की सभी पंक्तियों को बनाए रखता है, भले ही कोई पंक्ति "दाईं" तालिका से मेल खाती हो या नहीं।

Query

select c.name,c1.empid from customers c left outer join customer_order c1 on c.id = c1.id;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

name,       empid 
------------------------------- 
customer1,  101 
customer2,  102 
customer3,  103 
customer4,  104 
customer5,  105 
customer6,

यहां, लेफ्ट आउटर में कस्टमर्स (लेफ्ट) टेबल से रिटर्न नेम कॉलम की पंक्तियों और कस्टमर कॉलम को कस्टमर_ऑर्डर (राइट) टेबल से मैच किया गया है।

राइट आउटर जॉइन करें

एक दाईं बाहरी जुड़ाव "दाएं" तालिका की सभी पंक्तियों को बनाए रखता है, भले ही कोई पंक्ति "बाईं" तालिका से मेल खाती हो।

Query

select c.name,c1.empid from customers c right outer join customer_order c1 on c.id = c1.id;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

name,      empid 
------------------------------- 
customer1,  101 
customer2,  102 
customer3,  103 
customer4,  104 
customer5,  105

यहां, राइट आउटर जॉइन customer_order (दाएं) टेबल से एम्पिड पंक्तियों को लौटाता है और नाम कॉलम ग्राहकों की तालिका से पंक्तियों से मेल खाता है।

पूर्ण बाहरी सम्मिलित हों

पूर्ण बाहरी जुड़ाव बाईं और दाईं तालिका से सभी पंक्तियों को बनाए रखता है।

Query

select * from customers c full outer join customer_order c1 on c.id = c1.id;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

क्वेरी ग्राहकों और customer_order तालिकाओं से सभी मिलान और गैर-मिलान वाली पंक्तियाँ लौटाती है।

क्रॉस जॉइन करें

यह दो या अधिक सम्मिलित तालिकाओं से अभिलेखों के सेट का कार्टेशियन उत्पाद लौटाता है।

Syntax

SELECT *  FROM table1  CROSS JOIN table2;

Query

select orderid,name,address from customers,customer_order;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

उपरोक्त क्वेरी तालिका का कार्टेशियन उत्पाद लौटाती है।

प्राकृतिक सम्मिलित हों

एक नेचुरल जॉइन किसी भी तुलना ऑपरेटर का उपयोग नहीं करता है। यह कार्टेसियन उत्पाद जिस तरह से करता है, उसे समाप्‍त नहीं करता है। हम केवल एक प्राकृतिक जुड़ाव का प्रदर्शन कर सकते हैं यदि कम से कम एक सामान्य विशेषता है जो दोनों संबंधों के बीच मौजूद है।

Syntax

SELECT * FROM table1 NATURAL JOIN table2;

Query

select * from customers natural join customer_order;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

यहां, एक सामान्य कॉलम आईडी है जो दो तालिकाओं के बीच मौजूद है। उस सामान्य स्तंभ का उपयोग करते हुए,Natural Join दोनों तालिकाओं में मिलती है।

स्वयं सम्मिलित हों

SQL SELF JOIN का उपयोग किसी तालिका को स्वयं में शामिल करने के लिए किया जाता है जैसे कि तालिका दो तालिकाएं थीं, अस्थायी रूप से SQL कथन में कम से कम एक तालिका का नाम बदलकर।

Syntax

SELECT a.column_name, b.column_name...  
FROM table1 a, table1 b  
WHERE a.common_filed = b.common_field

Query

default> select c.id,c1.name from customers c, customers c1 where c.id = c1.id;

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id,   name 
------------------------------- 
1,   customer1 
2,   customer2 
3,   customer3 
4,   customer4 
5,   customer5 
6,   customer6

क्वेरी अपने आप में एक ग्राहक तालिका में शामिल हो जाती है।

Tajo विभिन्न भंडारण स्वरूपों का समर्थन करता है। स्टोरेज प्लगइन कॉन्फ़िगरेशन रजिस्टर करने के लिए, आपको कॉन्फ़िगरेशन फ़ाइल "स्टोरेज- site.json" में परिवर्तन जोड़ना चाहिए।

भंडारण-site.json

संरचना निम्नानुसार परिभाषित की गई है -

{ 
   "storages": { 
      “storage plugin name“: { 
         "handler": "${class name}”, "default-format": “plugin name" 
      } 
   } 
}

प्रत्येक भंडारण उदाहरण की पहचान URI द्वारा की जाती है।

PostgreSQL स्टोरेज हैंडलर

Tajo PostgreSQL स्टोरेज हैंडलर को सपोर्ट करता है। यह PostgreSQL में डेटाबेस ऑब्जेक्ट तक पहुंचने के लिए उपयोगकर्ता क्वेरी को सक्षम करता है। यह Tajo में डिफॉल्ट स्टोरेज हैंडलर है जिससे आप इसे आसानी से कॉन्फ़िगर कर सकते हैं।

विन्यास

{ 
   "spaces": {  
      "postgre": {  
         "uri": "jdbc:postgresql://hostname:port/database1"  
         "configs": {  
            "mapped_database": “sampledb”  
            "connection_properties": { 
               "user":“tajo", "password": "pwd" 
            } 
         } 
      } 
   } 
}

यहाँ, “database1” यह आपकी जानकारी के लिए है postgreSQL डेटाबेस जो डेटाबेस के लिए मैप किया जाता है “sampledb” ताजो में।

Apache Tajo HBase एकीकरण का समर्थन करता है। यह हमें ताजो में HBase टेबल तक पहुंचने में सक्षम बनाता है। HBase एक वितरित स्तंभ-उन्मुख डेटाबेस है, जो Hadoop फ़ाइल सिस्टम के शीर्ष पर बनाया गया है। यह Hadoop पारिस्थितिकी तंत्र का एक हिस्सा है जो Hadoop फ़ाइल सिस्टम में डेटा के लिए यादृच्छिक वास्तविक समय पढ़ने / लिखने की सुविधा प्रदान करता है। HBase एकीकरण को कॉन्फ़िगर करने के लिए निम्न चरणों की आवश्यकता होती है।

पर्यावरण चर सेट करें

निम्नलिखित परिवर्तनों को "conf / tajo-env.sh" फ़ाइल में जोड़ें।

$ vi conf/tajo-env.sh  
# HBase home directory. It is opitional but is required mandatorily to use HBase. 
# export HBASE_HOME = path/to/HBase

आपके द्वारा HBase पथ को शामिल किए जाने के बाद, Tajo HBase लाइब्रेरी फ़ाइल को वर्गपथ पर सेट करेगा।

एक बाहरी तालिका बनाएँ

निम्नलिखित सिंटैक्स का उपयोग करके एक बाहरी तालिका बनाएं -

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] <table_name> [(<column_name> <data_type>, ... )] 
USING hbase WITH ('table' = '<hbase_table_name>' 
, 'columns' = ':key,<column_family_name>:<qualifier_name>, ...' 
, 'hbase.zookeeper.quorum' = '<zookeeper_address>' 
, 'hbase.zookeeper.property.clientPort' = '<zookeeper_client_port>') 
[LOCATION 'hbase:zk://<hostname>:<port>/'] ;

HBase टेबल तक पहुंचने के लिए, आपको टेबलस्पेस स्थान को कॉन्फ़िगर करना होगा।

यहाँ,

  • Table- hbase मूल तालिका नाम सेट करें। यदि आप एक बाहरी तालिका बनाना चाहते हैं, तो तालिका HBase पर मौजूद होनी चाहिए।

  • Columns- कुंजी HBase पंक्ति कुंजी को संदर्भित करता है। कॉलम एंट्री की संख्या को ताजो टेबल कॉलम की संख्या के बराबर होना चाहिए।

  • hbase.zookeeper.quorum - सेट zookeeper कोरम पता।

  • hbase.zookeeper.property.clientPort - zookeeper क्लाइंट पोर्ट सेट करें।

Query

CREATE EXTERNAL TABLE students (rowkey text,id int,name text) 
USING hbase WITH ('table' = 'students', 'columns' = ':key,info:id,content:name') 
LOCATION 'hbase:zk://<hostname>:<port>/';

यहाँ, स्थान पथ फ़ील्ड zookeeper क्लाइंट पोर्ट id सेट करता है। यदि आप पोर्ट सेट नहीं करते हैं, तो Tajo hbase-site.xml फ़ाइल की संपत्ति को संदर्भित करेगा।

HBase में टेबल बनाएं

आप निम्न क्वेरी में दिखाए गए अनुसार "hbase शेल" कमांड का उपयोग करके HBase इंटरैक्टिव शेल शुरू कर सकते हैं।

Query

/bin/hbase shell

Result

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

hbase(main):001:0>

क्वेरी HBase के लिए कदम

HBase को क्वेरी करने के लिए, आपको निम्न चरणों को पूरा करना चाहिए -

Step 1 "ट्यूटोरियल" तालिका बनाने के लिए HBase शेल में निम्न कमांड्स को पाइप करें।

Query

hbase(main):001:0> create ‘students’,{NAME => ’info’},{NAME => ’content’} 
put 'students', ‘row-01', 'content:name', 'Adam' 
put 'students', ‘row-01', 'info:id', '001' 
put 'students', ‘row-02', 'content:name', 'Amit' 
put 'students', ‘row-02', 'info:id', '002' 
put 'students', ‘row-03', 'content:name', 'Bob' 
put 'students', ‘row-03', 'info:id', ‘003'

Step 2 - अब, टेबल में डेटा लोड करने के लिए hbase शेल में निम्न कमांड जारी करें।

main):001:0> cat ../hbase/hbase-students.txt | bin/hbase shell

Step 3 - अब, ताज़ो खोल पर लौटें और तालिका के मेटाडेटा को देखने के लिए निम्न कमांड निष्पादित करें -

default> \d students;  

table name: default.students 
table path: 
store type: HBASE 
number of rows: unknown 
volume: 0 B 
Options: 
   'columns' = ':key,info:id,content:name' 
   'table' = 'students'  

schema: 
rowkey  TEXT 
id  INT4 
name TEXT

Step 4 - तालिका से परिणाम प्राप्त करने के लिए, निम्नलिखित प्रश्न का उपयोग करें -

Query

default> select * from students

Result

उपरोक्त क्वेरी निम्न परिणाम लाएगी -

rowkey,  id,  name 
------------------------------- 
row-01,  001,  Adam 
row-02,  002,  Amit 
row-03   003,  Bob

Tajo, HiveCatalogStore को Apache Hive के साथ एकीकृत करने का समर्थन करता है। यह एकीकरण ताजियो को अपाचे हाइव में तालिकाओं तक पहुंचने की अनुमति देता है।

पर्यावरण चर सेट करें

निम्नलिखित परिवर्तनों को "conf / tajo-env.sh" फ़ाइल में जोड़ें।

$ vi conf/tajo-env.sh  
export HIVE_HOME = /path/to/hive

आपके द्वारा Hive पथ को शामिल करने के बाद, Tajo, Hive लाइब्रेरी फ़ाइल को classpath पर सेट करेगा।

कैटलॉग कॉन्फ़िगरेशन

निम्नलिखित परिवर्तनों को "conf / कैटलॉग- site.xml" फ़ाइल में जोड़ें।

$ vi conf/catalog-site.xml  
<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.HiveCatalogStore</value> 
</property>

एक बार जब HiveCatalogStore कॉन्फ़िगर किया गया है, तो आप ताज में हाइव की मेज तक पहुंच सकते हैं।

स्विफ्ट एक वितरित और सुसंगत वस्तु / बूँद स्टोर है। स्विफ्ट क्लाउड स्टोरेज सॉफ़्टवेयर प्रदान करता है ताकि आप एक साधारण एपीआई के साथ बहुत सारे डेटा को स्टोर और पुनः प्राप्त कर सकें। Tajo स्विफ्ट इंटीग्रेशन को सपोर्ट करता है।

निम्नलिखित स्विफ्ट एकीकरण के पूर्वापेक्षाएँ हैं -

  • Swift
  • Hadoop

कोर-site.xml

निम्न बदलावों को हडऑप "कोर-साइट.एक्सएमएल" फ़ाइल में जोड़ें -

<property> 
   <name>fs.swift.impl</name> 
   <value>org.apache.hadoop.fs.swift.snative.SwiftNativeFileSystem</value> 
   <description>File system implementation for Swift</description> 
</property>  

<property> 
   <name>fs.swift.blocksize</name> 
   <value>131072</value> 
   <description>Split size in KB</description> 
</property>

इसका उपयोग Hadoop द्वारा Swift ऑब्जेक्ट्स को एक्सेस करने के लिए किया जाएगा। आपके द्वारा स्विफ्ट परिवेश चर सेट करने के लिए Tajo निर्देशिका में सभी परिवर्तन किए जाने के बाद।

conf / Tajo-env.h

Tajo कॉन्फ़िगरेशन फ़ाइल खोलें और निम्नानुसार पर्यावरण चर सेट करें -

$ vi conf/tajo-env.h export TAJO_CLASSPATH = $HADOOP_HOME/share/hadoop/tools/lib/hadoop-openstack-x.x.x.jar

अब, Tajo स्विफ्ट का उपयोग करके डेटा को क्वेरी करने में सक्षम होगा।

तालिका बनाएं

आइये ताज़ो में स्विफ्ट वस्तुओं तक पहुँचने के लिए एक बाहरी तालिका बनाते हैं -

default> create external table swift(num1 int, num2 text, num3 float) 
   using text with ('text.delimiter' = '|') location 'swift://bucket-name/table1';

तालिका बनाए जाने के बाद, आप SQL क्वेरी चला सकते हैं।

Apache Tajo, JDBC इंटरफ़ेस को कनेक्ट करने और क्वेरी को निष्पादित करने के लिए प्रदान करता है। हम अपने जावा आधारित एप्लिकेशन से ताजो को जोड़ने के लिए उसी JDBC इंटरफ़ेस का उपयोग कर सकते हैं। आइये अब समझते हैं कि इस सेक्शन में JDBC इंटरफ़ेस का उपयोग करके अपने सैंपल Java एप्लिकेशन में कमांड को Tajo कैसे कनेक्ट करें और निष्पादित करें।

JDBC ड्राइवर डाउनलोड करें

निम्नलिखित लिंक पर जाकर JDBC ड्राइवर डाउनलोड करें - http://apache.org/dyn/closer.cgi/tajo/tajo-0.11.3/tajo-jdbc-0.11.3.jar।

अब, "tajo-jdbc-0.11.3.jar" फ़ाइल को आपकी मशीन पर डाउनलोड किया गया है।

कक्षा पथ सेट करें

अपने कार्यक्रम में JDBC ड्राइवर का उपयोग करने के लिए, निम्नानुसार वर्ग पथ निर्धारित करें -

CLASSPATH = path/to/tajo-jdbc-0.11.3.jar:$CLASSPATH

ताजो से जुड़ाव

Apache Tajo एक JDBC ड्राइवर को सिंगल जार फ़ाइल के रूप में प्रदान करता है और यह उपलब्ध है @ /path/to/tajo/share/jdbc-dist/tajo-jdbc-0.11.3.jar

अपाचे ताजो को जोड़ने के लिए कनेक्शन स्ट्रिंग निम्न प्रारूप की है -

jdbc:tajo://host/
jdbc:tajo://host/database
jdbc:tajo://host:port/  
jdbc:tajo://host:port/database

यहाँ,

  • host - TajoMaster के मेजबाननाम।

  • port- पोर्ट नंबर जो सर्वर सुन रहा है। डिफ़ॉल्ट पोर्ट संख्या 26002 है।

  • database- डेटाबेस का नाम। डिफ़ॉल्ट डेटाबेस नाम डिफ़ॉल्ट है।

जावा अनुप्रयोग

आइए अब जावा एप्लिकेशन को समझते हैं।

कोडन

import java.sql.*; 
import org.apache.tajo.jdbc.TajoDriver;  

public class TajoJdbcSample {  
   public static void main(String[] args) {  
      Connection connection = null; 
      Statement statement = null;  
      try {
         Class.forName("org.apache.tajo.jdbc.TajoDriver");  
         connection = DriverManager.getConnection(“jdbc:tajo://localhost/default");
         statement = connection.createStatement(); 
         String sql;  
         sql = "select * from mytable”; 
         // fetch records from mytable.  
         ResultSet resultSet = statement.executeQuery(sql);  
         while(resultSet.next()){  
            int id  = resultSet.getInt("id"); 
            String name = resultSet.getString("name");  
            System.out.print("ID: " + id + ";\nName: " + name + "\n"); 
         }  
         resultSet.close();
         statement.close(); 
         connection.close(); 
      }catch(SQLException sqlException){ 
         sqlException.printStackTrace(); 
      }catch(Exception exception){ 
         exception.printStackTrace(); 
      } 
   } 
}

एप्लिकेशन को संकलित किया जा सकता है और निम्नलिखित कमांड का उपयोग करके चलाया जा सकता है।

संकलन

javac -cp /path/to/tajo-jdbc-0.11.3.jar:. TajoJdbcSample.java

क्रियान्वयन

java -cp /path/to/tajo-jdbc-0.11.3.jar:. TajoJdbcSample

परिणाम

उपरोक्त आदेश निम्नलिखित परिणाम उत्पन्न करेंगे -

ID: 1; 
Name: Adam  

ID: 2; 
Name: Amit  

ID: 3; 
Name: Bob  

ID: 4; 
Name: David  

ID: 5; 
Name: Esha  

ID: 6; 
Name: Ganga 

ID: 7; 
Name: Jack  

ID: 8; 
Name: Leena  

ID: 9; 
Name: Mary  

ID: 10; 
Name: Peter

Apache Tajo कस्टम / यूज़र डिफ़ाइंड फ़ंक्शंस (UDFs) को सपोर्ट करता है। कस्टम कार्यों को अजगर में बनाया जा सकता है।

कस्टम फ़ंक्शन डेकोरेटर के साथ सिर्फ सादे अजगर कार्य हैं “@output_type(<tajo sql datatype>)” निम्नानुसार है -

@ouput_type(“integer”) 
def sum_py(a, b): 
   return a + b;

UDFs के साथ अजगर लिपियों को नीचे विन्यास में जोड़कर पंजीकृत किया जा सकता है “tajosite.xml”

<property> 
   <name>tajo.function.python.code-dir</name> 
   <value>file:///path/to/script1.py,file:///path/to/script2.py</value> 
</property>

एक बार स्क्रिप्ट पंजीकृत होने के बाद, क्लस्टर को पुनः आरंभ करें और UDFs SQL क्वेरी में निम्नानुसार उपलब्ध होगा -

select sum_py(10, 10) as pyfn;

Apache Tajo उपयोगकर्ता परिभाषित कुल कार्यों का समर्थन करता है, लेकिन उपयोगकर्ता परिभाषित विंडो कार्यों का समर्थन नहीं करता है।