Apache Tajo - SQL कथन

पिछले अध्याय में, आप समझ गए हैं कि ताजो में तालिकाओं का निर्माण कैसे किया जाता है। यह अध्याय Tajo में SQL स्टेटमेंट के बारे में बताता है।

टेबल स्टेटमेंट बनाएं

तालिका बनाने के लिए आगे बढ़ने से पहले, ताजो इंस्टॉलेशन डायरेक्टरी पथ में एक पाठ फ़ाइल "students.csv" बनाएं: -

students.csv

ईद नाम पता उम्र निशान
1 एडम 23 नई सड़क 21 90
2 अमित 12 पुरानी सड़क 13 95
3 बीओबी 10 क्रॉस स्ट्रीट 12 80
4 डेविड 15 एक्सप्रेस एवेन्यू 12 85
5 ईशा 20 गार्डन स्ट्रीट 13 50
6 गंगा 25 नॉर्थ स्ट्रीट 12 55
7 जैक 2 पार्क स्ट्रीट 12 60
8 लीना 24 साउथ स्ट्रीट 12 70
9 मेरी 5 वेस्ट स्ट्रीट 12 75
10 पीटर 16 पार्क एवेन्यू 12 95

फ़ाइल बन जाने के बाद, टर्मिनल पर जाएँ और Tajo सर्वर शुरू करें और एक-एक करके खोल दें।

डेटाबेस बनाएँ

निम्नलिखित कमांड का उपयोग करके एक नया डेटाबेस बनाएं -

सवाल

default> create database sampledb; 
OK

डेटाबेस "नमूना" से कनेक्ट करें जो अब बनाया गया है।

default> \c sampledb 
You are now connected to database "sampledb" as user “user1”.

फिर, निम्नानुसार "नमूना" में एक तालिका बनाएं -

सवाल

sampledb>  create external table mytable(id int,name text,address text,age int,mark int) 
   using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

यहां, बाहरी तालिका बनाई गई है। अब, आपको बस फ़ाइल स्थान दर्ज करना होगा। अगर आपको hdfs से टेबल असाइन करना है तो फाइल की जगह hdfs का इस्तेमाल करें।

इसके बाद द “students.csv”फ़ाइल में अल्पविराम से अलग किए गए मान हैं। text.delimiter फ़ील्ड को ',' के साथ असाइन किया गया है।

आपने अब "नमूना" सफलतापूर्वक "mytable" बनाया है।

तालिका दिखाएँ

ताज़ो में टेबल दिखाने के लिए, निम्नलिखित क्वेरी का उपयोग करें।

सवाल

sampledb> \d  
mytable  
sampledb> \d mytable

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

table name: sampledb.mytable 
table uri: file:/Users/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown 
volume: 261 B
Options: 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\\N' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4

सूची तालिका

तालिका में सभी रिकॉर्ड लाने के लिए, निम्नलिखित प्रश्न टाइप करें -

सवाल

sampledb> select * from mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

तालिका विवरण सम्मिलित करें

ताज़ो तालिका में रिकॉर्ड सम्मिलित करने के लिए निम्न सिंटैक्स का उपयोग करता है।

वाक्य - विन्यास

create table table1 (col1 int8, col2 text, col3 text);   
--schema should be same for target table schema  
Insert overwrite into table1 select * from table2;  
                     (or)  
Insert overwrite into LOCATION '/dir/subdir' select * from table;

Tajo का सम्मिलित कथन इसके समान है INSERT INTO SELECT एसक्यूएल का बयान।

सवाल

आइए मौजूदा तालिका के तालिका डेटा को अधिलेखित करने के लिए एक तालिका बनाएं।

sampledb> create table test(sno int,name text,addr text,age int,mark int);  
OK 
sampledb> \d

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

mytable 
test

रिकॉर्ड डालें

"परीक्षण" तालिका में रिकॉर्ड सम्मिलित करने के लिए, निम्नलिखित क्वेरी टाइप करें।

सवाल

sampledb> insert overwrite into test select * from mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

Progress: 100%, response time: 0.518 sec

यहां, "mytable" रिकॉर्ड "परीक्षण" तालिका को अधिलेखित करता है। यदि आप "परीक्षण" तालिका नहीं बनाना चाहते हैं, तो सीधे भौतिक पथ स्थान को सम्मिलित करें जैसा कि सम्मिलित क्वेरी के लिए एक वैकल्पिक विकल्प में बताया गया है।

रिकॉर्ड प्राप्त करें

"परीक्षण" तालिका के सभी रिकॉर्डों को सूचीबद्ध करने के लिए निम्नलिखित प्रश्न का उपयोग करें -

सवाल

sampledb> select * from test;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

इस कथन का उपयोग किसी मौजूदा तालिका के कॉलम को जोड़ने, हटाने या संशोधित करने के लिए किया जाता है।

तालिका का नाम बदलने के लिए निम्नलिखित सिंटैक्स का उपयोग करें -

Alter table table1 RENAME TO table2;

सवाल

sampledb> alter table test rename to students;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

परिवर्तित तालिका नाम की जाँच करने के लिए, निम्नलिखित क्वेरी का उपयोग करें।

sampledb> \d  
mytable 
students

अब तालिका "परीक्षण" को "छात्रों" तालिका में बदल दिया गया है।

स्तंभ जोड़ें

"छात्रों" तालिका में नया कॉलम सम्मिलित करने के लिए, निम्न सिंटैक्स टाइप करें -

Alter table <table_name> ADD COLUMN <column_name> <data_type>

सवाल

sampledb> alter table students add column grade text;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

OK

संपत्ति सेट करें

इस संपत्ति का उपयोग तालिका की संपत्ति को बदलने के लिए किया जाता है।

सवाल

sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
   'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ; 
OK

यहां, संपीड़न प्रकार और कोडेक गुण असाइन किए गए हैं।

टेक्स्ट सीमांकक गुण बदलने के लिए, निम्नलिखित का उपयोग करें -

सवाल

ALTER TABLE students  SET PROPERTY ‘text.delimiter'=',';  
OK

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

sampledb> \d students  
table name: sampledb.students 
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students 
store type: TEXT 
number of rows: 10 
volume: 228 B 
Options: 
'compression.type' = 'RECORD' 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\\N' 
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
addr TEXT 
age INT4 
mark INT4 
grade TEXT

उपरोक्त परिणाम से पता चलता है कि "SET" संपत्ति का उपयोग करके तालिका के गुणों को बदल दिया जाता है।

कथन का चयन करें

एक डेटाबेस से डेटा का चयन करने के लिए SELECT स्टेटमेंट का उपयोग किया जाता है।

चयन कथन का वाक्य विन्यास इस प्रकार है -

SELECT [distinct [all]] * | <expression> [[AS] <alias>] [, ...] 
   [FROM <table reference> [[AS] <table alias name>] [, ...]] 
   [WHERE <condition>] 
   [GROUP BY <expression> [, ...]] 
   [HAVING <condition>] 
   [ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]

कहां कारण

जहां तालिका से रिकॉर्ड को फिल्टर करने के लिए क्लॉज का उपयोग किया जाता है।

सवाल

sampledb> select * from mytable where id > 5;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

क्वेरी उन छात्रों के रिकॉर्ड लौटाती है जिनकी आईडी 5 से अधिक है।

सवाल

sampledb> select * from mytable where name = ‘Peter’;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

Progress: 100%, response time: 0.117 sec 
 
  id,  name,  address,   age  
------------------------------- 
10,  Peter,  16 park avenue , 12

परिणाम केवल पीटर के रिकॉर्ड को फ़िल्टर करता है।

विकृत खंड

तालिका स्तंभ में डुप्लिकेट मान हो सकते हैं। DISTINCT कीवर्ड का उपयोग केवल भिन्न (भिन्न) मानों को लौटाने के लिए किया जा सकता है।

वाक्य - विन्यास

SELECT DISTINCT column1,column2 FROM table_name;

सवाल

sampledb> select distinct age from mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

Progress: 100%, response time: 0.216 sec  
age 
------------------------------- 
13 
12

क्वेरी छात्रों की विशिष्ट आयु लौटाती है mytable

खण्ड द्वारा समूह

ग्रुप बाय क्लॉज का उपयोग समूहों में समान डेटा को व्यवस्थित करने के लिए SELECT स्टेटमेंट के सहयोग से किया जाता है।

वाक्य - विन्यास

SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;

सवाल

select age,sum(mark) as sumofmarks from mytable group by age;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

age,  sumofmarks 
------------------------------- 
13,  145 
12,  610

यहां, "mytable" कॉलम में दो प्रकार के आयु हैं - 12 और 13. अब क्वेरी उम्र के हिसाब से रिकॉर्ड बनाती है और छात्रों की इसी उम्र के लिए अंकों का योग बनाती है।

क्लाज होना

अंतिम परिणाम में जिन समूह परिणामों को फ़िल्टर किया जाता है, उन्हें निर्दिष्ट करने के लिए HAVING खंड आपको सक्षम करता है। WHERE क्लॉज चयनित कॉलम पर स्थितियां रखता है, जबकि HAVING क्लॉज GROUP BY क्लॉज द्वारा बनाए गए समूहों पर स्थितियां रखता है।

वाक्य - विन्यास

SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]

सवाल

sampledb> select age from mytable group by age  having  sum(mark) > 200;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

age 
------------------------------- 
12

क्वेरी उम्र के हिसाब से रिकॉर्ड बनाती है और जब हालत परिणाम (अंक)> 200 होती है तो उम्र वापस कर देती है।

खण्ड द्वारा आदेश

एक या अधिक स्तंभों के आधार पर डेटा को आरोही या अवरोही क्रम में क्रमबद्ध करने के लिए ORDER BY क्लॉज का उपयोग किया जाता है। Tajo डेटाबेस डिफ़ॉल्ट रूप से आरोही क्रम में क्वेरी परिणामों को क्रमबद्ध करता है।

वाक्य - विन्यास

SELECT column-list FROM table_name  
[WHERE condition]  
[ORDER BY column1, column2, .. columnN] [ASC | DESC];

सवाल

sampledb> select * from mytable where mark > 60 order by name desc;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

क्वेरी उन छात्रों के नाम अवरोही क्रम में लौटाती है जिनके निशान 60 से अधिक हैं।

इंडेक्स स्टेटमेंट बनाएं

क्रिएट इंडेक्स स्टेटमेंट का उपयोग तालिकाओं में अनुक्रमित बनाने के लिए किया जाता है। इंडेक्स का उपयोग डेटा के तेजी से पुनर्प्राप्ति के लिए किया जाता है। वर्तमान संस्करण HDFS पर संग्रहीत केवल सादे पाठ स्वरूपों के लिए सूचकांक का समर्थन करता है।

वाक्य - विन्यास

CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }

सवाल

create index student_index on mytable(id);

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

id 
———————————————

कॉलम के लिए असाइन किए गए इंडेक्स को देखने के लिए, निम्न क्वेरी टाइप करें।

default> \d mytable  
table name: default.mytable 
table uri: file:/Users/deiva/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown  
volume: 307 B 
Options: 
   'timezone' = 'Asia/Kolkata' 
   'text.null' = '\\N' 
   'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4   
Indexes:  
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST )

यहाँ, TWO_LEVEL_BIN_TREE विधि का उपयोग डिफ़ॉल्ट रूप से Tajo में किया जाता है।

ड्रॉप टेबल स्टेटमेंट

ड्रॉप टेबल स्टेटमेंट का उपयोग डेटाबेस से एक टेबल को गिराने के लिए किया जाता है।

वाक्य - विन्यास

drop table table name;

सवाल

sampledb> drop table mytable;

यह जाँचने के लिए कि तालिका तालिका से हटा दी गई है या नहीं, निम्न क्वेरी टाइप करें।

sampledb> \d mytable;

परिणाम

उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।

ERROR: relation 'mytable' does not exist

आप उपलब्ध Tajo तालिकाओं को सूचीबद्ध करने के लिए “\ d” कमांड का उपयोग करके क्वेरी की जांच कर सकते हैं।