Apache Tajo - SQL कथन
पिछले अध्याय में, आप समझ गए हैं कि ताजो में तालिकाओं का निर्माण कैसे किया जाता है। यह अध्याय Tajo में SQL स्टेटमेंट के बारे में बताता है।
टेबल स्टेटमेंट बनाएं
तालिका बनाने के लिए आगे बढ़ने से पहले, ताजो इंस्टॉलेशन डायरेक्टरी पथ में एक पाठ फ़ाइल "students.csv" बनाएं: -
students.csv
ईद | नाम | पता | उम्र | निशान |
---|---|---|---|---|
1 | एडम | 23 नई सड़क | 21 | 90 |
2 | अमित | 12 पुरानी सड़क | 13 | 95 |
3 | बीओबी | 10 क्रॉस स्ट्रीट | 12 | 80 |
4 | डेविड | 15 एक्सप्रेस एवेन्यू | 12 | 85 |
5 | ईशा | 20 गार्डन स्ट्रीट | 13 | 50 |
6 | गंगा | 25 नॉर्थ स्ट्रीट | 12 | 55 |
7 | जैक | 2 पार्क स्ट्रीट | 12 | 60 |
8 | लीना | 24 साउथ स्ट्रीट | 12 | 70 |
9 | मेरी | 5 वेस्ट स्ट्रीट | 12 | 75 |
10 | पीटर | 16 पार्क एवेन्यू | 12 | 95 |
फ़ाइल बन जाने के बाद, टर्मिनल पर जाएँ और Tajo सर्वर शुरू करें और एक-एक करके खोल दें।
डेटाबेस बनाएँ
निम्नलिखित कमांड का उपयोग करके एक नया डेटाबेस बनाएं -
सवाल
default> create database sampledb;
OK
डेटाबेस "नमूना" से कनेक्ट करें जो अब बनाया गया है।
default> \c sampledb
You are now connected to database "sampledb" as user “user1”.
फिर, निम्नानुसार "नमूना" में एक तालिका बनाएं -
सवाल
sampledb> create external table mytable(id int,name text,address text,age int,mark int)
using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
OK
यहां, बाहरी तालिका बनाई गई है। अब, आपको बस फ़ाइल स्थान दर्ज करना होगा। अगर आपको hdfs से टेबल असाइन करना है तो फाइल की जगह hdfs का इस्तेमाल करें।
इसके बाद द “students.csv”फ़ाइल में अल्पविराम से अलग किए गए मान हैं। text.delimiter फ़ील्ड को ',' के साथ असाइन किया गया है।
आपने अब "नमूना" सफलतापूर्वक "mytable" बनाया है।
तालिका दिखाएँ
ताज़ो में टेबल दिखाने के लिए, निम्नलिखित क्वेरी का उपयोग करें।
सवाल
sampledb> \d
mytable
sampledb> \d mytable
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
table name: sampledb.mytable
table uri: file:/Users/workspace/Tajo/students.csv
store type: TEXT
number of rows: unknown
volume: 261 B
Options:
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'text.delimiter' = ','
schema:
id INT4
name TEXT
address TEXT
age INT4
mark INT4
सूची तालिका
तालिका में सभी रिकॉर्ड लाने के लिए, निम्नलिखित प्रश्न टाइप करें -
सवाल
sampledb> select * from mytable;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
तालिका विवरण सम्मिलित करें
ताज़ो तालिका में रिकॉर्ड सम्मिलित करने के लिए निम्न सिंटैक्स का उपयोग करता है।
वाक्य - विन्यास
create table table1 (col1 int8, col2 text, col3 text);
--schema should be same for target table schema
Insert overwrite into table1 select * from table2;
(or)
Insert overwrite into LOCATION '/dir/subdir' select * from table;
Tajo का सम्मिलित कथन इसके समान है INSERT INTO SELECT एसक्यूएल का बयान।
सवाल
आइए मौजूदा तालिका के तालिका डेटा को अधिलेखित करने के लिए एक तालिका बनाएं।
sampledb> create table test(sno int,name text,addr text,age int,mark int);
OK
sampledb> \d
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
mytable
test
रिकॉर्ड डालें
"परीक्षण" तालिका में रिकॉर्ड सम्मिलित करने के लिए, निम्नलिखित क्वेरी टाइप करें।
सवाल
sampledb> insert overwrite into test select * from mytable;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
Progress: 100%, response time: 0.518 sec
यहां, "mytable" रिकॉर्ड "परीक्षण" तालिका को अधिलेखित करता है। यदि आप "परीक्षण" तालिका नहीं बनाना चाहते हैं, तो सीधे भौतिक पथ स्थान को सम्मिलित करें जैसा कि सम्मिलित क्वेरी के लिए एक वैकल्पिक विकल्प में बताया गया है।
रिकॉर्ड प्राप्त करें
"परीक्षण" तालिका के सभी रिकॉर्डों को सूचीबद्ध करने के लिए निम्नलिखित प्रश्न का उपयोग करें -
सवाल
sampledb> select * from test;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
इस कथन का उपयोग किसी मौजूदा तालिका के कॉलम को जोड़ने, हटाने या संशोधित करने के लिए किया जाता है।
तालिका का नाम बदलने के लिए निम्नलिखित सिंटैक्स का उपयोग करें -
Alter table table1 RENAME TO table2;
सवाल
sampledb> alter table test rename to students;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
OK
परिवर्तित तालिका नाम की जाँच करने के लिए, निम्नलिखित क्वेरी का उपयोग करें।
sampledb> \d
mytable
students
अब तालिका "परीक्षण" को "छात्रों" तालिका में बदल दिया गया है।
स्तंभ जोड़ें
"छात्रों" तालिका में नया कॉलम सम्मिलित करने के लिए, निम्न सिंटैक्स टाइप करें -
Alter table <table_name> ADD COLUMN <column_name> <data_type>
सवाल
sampledb> alter table students add column grade text;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
OK
संपत्ति सेट करें
इस संपत्ति का उपयोग तालिका की संपत्ति को बदलने के लिए किया जाता है।
सवाल
sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ;
OK
यहां, संपीड़न प्रकार और कोडेक गुण असाइन किए गए हैं।
टेक्स्ट सीमांकक गुण बदलने के लिए, निम्नलिखित का उपयोग करें -
सवाल
ALTER TABLE students SET PROPERTY ‘text.delimiter'=',';
OK
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
sampledb> \d students
table name: sampledb.students
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students
store type: TEXT
number of rows: 10
volume: 228 B
Options:
'compression.type' = 'RECORD'
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec'
'text.delimiter' = ','
schema:
id INT4
name TEXT
addr TEXT
age INT4
mark INT4
grade TEXT
उपरोक्त परिणाम से पता चलता है कि "SET" संपत्ति का उपयोग करके तालिका के गुणों को बदल दिया जाता है।
कथन का चयन करें
एक डेटाबेस से डेटा का चयन करने के लिए SELECT स्टेटमेंट का उपयोग किया जाता है।
चयन कथन का वाक्य विन्यास इस प्रकार है -
SELECT [distinct [all]] * | <expression> [[AS] <alias>] [, ...]
[FROM <table reference> [[AS] <table alias name>] [, ...]]
[WHERE <condition>]
[GROUP BY <expression> [, ...]]
[HAVING <condition>]
[ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]
कहां कारण
जहां तालिका से रिकॉर्ड को फिल्टर करने के लिए क्लॉज का उपयोग किया जाता है।
सवाल
sampledb> select * from mytable where id > 5;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
क्वेरी उन छात्रों के रिकॉर्ड लौटाती है जिनकी आईडी 5 से अधिक है।
सवाल
sampledb> select * from mytable where name = ‘Peter’;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
Progress: 100%, response time: 0.117 sec
id, name, address, age
-------------------------------
10, Peter, 16 park avenue , 12
परिणाम केवल पीटर के रिकॉर्ड को फ़िल्टर करता है।
विकृत खंड
तालिका स्तंभ में डुप्लिकेट मान हो सकते हैं। DISTINCT कीवर्ड का उपयोग केवल भिन्न (भिन्न) मानों को लौटाने के लिए किया जा सकता है।
वाक्य - विन्यास
SELECT DISTINCT column1,column2 FROM table_name;
सवाल
sampledb> select distinct age from mytable;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
Progress: 100%, response time: 0.216 sec
age
-------------------------------
13
12
क्वेरी छात्रों की विशिष्ट आयु लौटाती है mytable।
खण्ड द्वारा समूह
ग्रुप बाय क्लॉज का उपयोग समूहों में समान डेटा को व्यवस्थित करने के लिए SELECT स्टेटमेंट के सहयोग से किया जाता है।
वाक्य - विन्यास
SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;
सवाल
select age,sum(mark) as sumofmarks from mytable group by age;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
age, sumofmarks
-------------------------------
13, 145
12, 610
यहां, "mytable" कॉलम में दो प्रकार के आयु हैं - 12 और 13. अब क्वेरी उम्र के हिसाब से रिकॉर्ड बनाती है और छात्रों की इसी उम्र के लिए अंकों का योग बनाती है।
क्लाज होना
अंतिम परिणाम में जिन समूह परिणामों को फ़िल्टर किया जाता है, उन्हें निर्दिष्ट करने के लिए HAVING खंड आपको सक्षम करता है। WHERE क्लॉज चयनित कॉलम पर स्थितियां रखता है, जबकि HAVING क्लॉज GROUP BY क्लॉज द्वारा बनाए गए समूहों पर स्थितियां रखता है।
वाक्य - विन्यास
SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]
सवाल
sampledb> select age from mytable group by age having sum(mark) > 200;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
age
-------------------------------
12
क्वेरी उम्र के हिसाब से रिकॉर्ड बनाती है और जब हालत परिणाम (अंक)> 200 होती है तो उम्र वापस कर देती है।
खण्ड द्वारा आदेश
एक या अधिक स्तंभों के आधार पर डेटा को आरोही या अवरोही क्रम में क्रमबद्ध करने के लिए ORDER BY क्लॉज का उपयोग किया जाता है। Tajo डेटाबेस डिफ़ॉल्ट रूप से आरोही क्रम में क्वेरी परिणामों को क्रमबद्ध करता है।
वाक्य - विन्यास
SELECT column-list FROM table_name
[WHERE condition]
[ORDER BY column1, column2, .. columnN] [ASC | DESC];
सवाल
sampledb> select * from mytable where mark > 60 order by name desc;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
क्वेरी उन छात्रों के नाम अवरोही क्रम में लौटाती है जिनके निशान 60 से अधिक हैं।
इंडेक्स स्टेटमेंट बनाएं
क्रिएट इंडेक्स स्टेटमेंट का उपयोग तालिकाओं में अनुक्रमित बनाने के लिए किया जाता है। इंडेक्स का उपयोग डेटा के तेजी से पुनर्प्राप्ति के लिए किया जाता है। वर्तमान संस्करण HDFS पर संग्रहीत केवल सादे पाठ स्वरूपों के लिए सूचकांक का समर्थन करता है।
वाक्य - विन्यास
CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }
सवाल
create index student_index on mytable(id);
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
id
———————————————
कॉलम के लिए असाइन किए गए इंडेक्स को देखने के लिए, निम्न क्वेरी टाइप करें।
default> \d mytable
table name: default.mytable
table uri: file:/Users/deiva/workspace/Tajo/students.csv
store type: TEXT
number of rows: unknown
volume: 307 B
Options:
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'text.delimiter' = ','
schema:
id INT4
name TEXT
address TEXT
age INT4
mark INT4
Indexes:
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST )
यहाँ, TWO_LEVEL_BIN_TREE विधि का उपयोग डिफ़ॉल्ट रूप से Tajo में किया जाता है।
ड्रॉप टेबल स्टेटमेंट
ड्रॉप टेबल स्टेटमेंट का उपयोग डेटाबेस से एक टेबल को गिराने के लिए किया जाता है।
वाक्य - विन्यास
drop table table name;
सवाल
sampledb> drop table mytable;
यह जाँचने के लिए कि तालिका तालिका से हटा दी गई है या नहीं, निम्न क्वेरी टाइप करें।
sampledb> \d mytable;
परिणाम
उपरोक्त क्वेरी निम्न परिणाम उत्पन्न करेगी।
ERROR: relation 'mytable' does not exist
आप उपलब्ध Tajo तालिकाओं को सूचीबद्ध करने के लिए “\ d” कमांड का उपयोग करके क्वेरी की जांच कर सकते हैं।