अपाचे ताजो - टेबल मैनेजमेंट
एक तालिका एक डेटा स्रोत का एक तार्किक दृश्य है। इसमें एक तार्किक स्कीमा, विभाजन, URL और विभिन्न गुण होते हैं। एक Tajo टेबल HDFS, एक सिंगल फाइल, एक HBase टेबल या RDBMS टेबल में एक डायरेक्टरी हो सकती है।
ताजो निम्नलिखित दो प्रकार की तालिकाओं का समर्थन करता है -
- बाहरी तालिका
- आंतरिक तालिका
बाहरी तालिका
जब तालिका बनाई जाती है, तो बाहरी तालिका को स्थान गुण की आवश्यकता होती है। उदाहरण के लिए, यदि आपका डेटा पहले से ही टेक्स्ट / JSON फ़ाइलों या HBase तालिका के रूप में है, तो आप इसे Tajo बाहरी तालिका के रूप में पंजीकृत कर सकते हैं।
निम्न क्वेरी बाहरी तालिका निर्माण का एक उदाहरण है।
create external table sample(col1 int,col2 text,col3 int) location ‘hdfs://path/to/table';
यहाँ,
External keyword- इसका उपयोग बाहरी तालिका बनाने के लिए किया जाता है। यह निर्दिष्ट स्थान में एक तालिका बनाने में मदद करता है।
नमूना तालिका के नाम को संदर्भित करता है।
Location- यह HDFS, अमेज़ॅन S3, HBase या स्थानीय फ़ाइल सिस्टम के लिए एक निर्देशिका है। निर्देशिकाओं के लिए एक स्थान संपत्ति निर्दिष्ट करने के लिए, नीचे दिए गए URI उदाहरणों का उपयोग करें -
HDFS - hdfs: // लोकलहोस्ट: पोर्ट / पाथ / टू / टेबल
Amazon S3 - s3: // बकेट-नेम / टेबल
local file system - फाइल: /// पाथ / टू / टेबल
Openstack Swift - स्विफ्ट: // बकेट-नेम / टेबल
तालिका गुण
एक बाहरी तालिका में निम्नलिखित गुण हैं -
TimeZone - उपयोगकर्ता तालिका पढ़ने या लिखने के लिए एक समय क्षेत्र निर्दिष्ट कर सकते हैं।
Compression format- डेटा आकार को कॉम्पैक्ट बनाने के लिए उपयोग किया जाता है। उदाहरण के लिए, पाठ / json फ़ाइल का उपयोग करता हैcompression.codec संपत्ति।
आंतरिक तालिका
एक आंतरिक तालिका भी एक कहा जाता है Managed Table। यह एक पूर्व-परिभाषित भौतिक स्थान में बनाया गया है जिसे टेबलस्पेस कहा जाता है।
वाक्य - विन्यास
create table table1(col1 int,col2 text);
डिफ़ॉल्ट रूप से, Tajo "conf / tajo-site.xml" में स्थित "tajo.warehouse.directory" का उपयोग करता है। तालिका के लिए नया स्थान निर्दिष्ट करने के लिए, आप टेबलपेप्स कॉन्फ़िगरेशन का उपयोग कर सकते हैं।
टेबल-स्पेस
Tablespace का उपयोग स्टोरेज सिस्टम में स्थानों को परिभाषित करने के लिए किया जाता है। यह केवल आंतरिक तालिकाओं के लिए समर्थित है। आप उनके नाम से तालिकाओं तक पहुंच सकते हैं। प्रत्येक टेबलस्पेस एक अलग भंडारण प्रकार का उपयोग कर सकता है। यदि आप तालिकाओं को निर्दिष्ट नहीं करते हैं, तो Tajo रूट निर्देशिका में डिफ़ॉल्ट तालिकाओं का उपयोग करता है।
टेबलस्पेस कॉन्फ़िगरेशन
आपके पास “conf/tajo-site.xml.template”ताजो में। फ़ाइल की प्रतिलिपि बनाएँ और उसका नाम बदलें“storagesite.json”। यह फ़ाइल Tablespaces के लिए कॉन्फ़िगरेशन के रूप में कार्य करेगी। Tajo डेटा प्रारूप निम्नलिखित विन्यास का उपयोग करता है -
HDFS कॉन्फ़िगरेशन
$ vi conf/storage-site.json {
"spaces": {
"${tablespace_name}": {
"uri": “hdfs://localhost:9000/path/to/Tajo"
}
}
}
HBase कॉन्फ़िगरेशन
$ vi conf/storage-site.json {
"spaces": {
"${tablespace_name}": {
"uri": “hbase:zk://quorum1:port,quorum2:port/"
}
}
}
पाठ फ़ाइल कॉन्फ़िगरेशन
$ vi conf/storage-site.json {
"spaces": {
"${tablespace_name}": {
“uri”: “hdfs://localhost:9000/path/to/Tajo”
}
}
}
टेबल्स क्रिएशन
ताज़ो के आंतरिक तालिका रिकॉर्ड को किसी अन्य तालिका से ही एक्सेस किया जा सकता है। आप इसे टेबलस्पेस के साथ कॉन्फ़िगर कर सकते हैं।
वाक्य - विन्यास
CREATE TABLE [IF NOT EXISTS] <table_name> [(column_list)] [TABLESPACE tablespace_name]
[using <storage_type> [with (<key> = <value>, ...)]] [AS <select_statement>]
यहाँ,
IF NOT EXISTS - यह एक त्रुटि से बचा जाता है अगर एक ही तालिका पहले से ही नहीं बनाई गई है।
TABLESPACE - यह क्लॉज टेबलस्पेस नाम असाइन करने के लिए उपयोग किया जाता है।
Storage type - Tajo डेटा टेक्स्ट, JSON, HBase, Parquet, Sequencefile और ORC जैसे प्रारूपों का समर्थन करता है।
AS select statement - किसी अन्य तालिका से रिकॉर्ड का चयन करें।
Tablespace कॉन्फ़िगर करें
अपनी Hadoop सेवाएँ प्रारंभ करें और फ़ाइल खोलें “conf/storage-site.json”, फिर निम्नलिखित परिवर्तन जोड़ें -
$ vi conf/storage-site.json {
"spaces": {
“space1”: {
"uri": “hdfs://localhost:9000/path/to/Tajo"
}
}
}
यहां, ताजो एचडीएफएस स्थान से डेटा को संदर्भित करेगा और space1तालिकाओं का नाम है। यदि आप Hadoop सेवाएँ प्रारंभ नहीं करते हैं, तो आप टेबलस्पेस को पंजीकृत नहीं कर सकते हैं।
सवाल
default> create table table1(num1 int,num2 text,num3 float) tablespace space1;
उपरोक्त क्वेरी "टेबल 1" और "स्पेस 1" नामक तालिका बनाती है, जो टेबलस्पेस नाम को संदर्भित करती है।
डेटा प्रारूप
Tajo डेटा प्रारूपों का समर्थन करता है। आइए प्रत्येक प्रारूप के बारे में विस्तार से एक-एक करके देखें।
टेक्स्ट
एक वर्ण-पृथक मानों की सादे पाठ फ़ाइल पंक्तियों और स्तंभों से मिलकर एक सारणीबद्ध डेटा सेट का प्रतिनिधित्व करती है। प्रत्येक पंक्ति एक सादा पाठ रेखा है।
तालिका बनाना
default> create external table customer(id int,name text,address text,age int)
using text with('text.delimiter'=',') location ‘file:/Users/workspace/Tajo/customers.csv’;
यहाँ, “customers.csv” फ़ाइल ताज़ो संस्थापन निर्देशिका में स्थित अल्पविराम से अलग मान फ़ाइल को संदर्भित करता है।
पाठ प्रारूप का उपयोग करके आंतरिक तालिका बनाने के लिए, निम्नलिखित प्रश्न का उपयोग करें -
default> create table customer(id int,name text,address text,age int) using text;
उपरोक्त क्वेरी में, आपने कोई भी टेबलस्पेस असाइन नहीं किया है, इसलिए यह Tajo की डिफ़ॉल्ट टेबलस्पेस ले जाएगा।
गुण
एक पाठ फ़ाइल प्रारूप में निम्नलिखित गुण हैं -
text.delimiter- यह एक सीमांत चरित्र है। डिफ़ॉल्ट है '|'
compression.codec- यह एक संपीड़न प्रारूप है। डिफ़ॉल्ट रूप से, यह अक्षम है। आप निर्दिष्ट एल्गोरिथ्म का उपयोग करके सेटिंग्स बदल सकते हैं।
timezone - पढ़ने या लिखने के लिए इस्तेमाल की जाने वाली तालिका।
text.error-tolerance.max-num - अधिकतम सहिष्णुता का स्तर।
text.skip.headerlines - प्रति हैडर लाइनों की संख्या को छोड़ दिया।
text.serde - यह क्रमबद्धता संपत्ति है।
JSON
Apache Tajo डेटा क्वेरी करने के लिए JSON फॉर्मेट का समर्थन करता है। Tajo एक JSON ऑब्जेक्ट को SQL रिकॉर्ड के रूप में मानता है। एक वस्तु एक ताजो तालिका में एक पंक्ति के बराबर होती है। चलो "array.json" पर विचार करें:
$ hdfs dfs -cat /json/array.json {
"num1" : 10,
"num2" : "simple json array",
"num3" : 50.5
}
इस फ़ाइल को बनाने के बाद, Tajo शेल पर जाएँ और JSON प्रारूप का उपयोग करके तालिका बनाने के लिए निम्न क्वेरी टाइप करें।
सवाल
default> create external table sample (num1 int,num2 text,num3 float)
using json location ‘json/array.json’;
हमेशा याद रखें कि फ़ाइल डेटा टेबल स्कीमा के साथ मेल खाना चाहिए। अन्यथा, आप कॉलम नामों को छोड़ सकते हैं और उपयोग कर सकते हैं * जिसके लिए कॉलम सूची की आवश्यकता नहीं है।
आंतरिक तालिका बनाने के लिए, निम्नलिखित प्रश्न का उपयोग करें -
default> create table sample (num1 int,num2 text,num3 float) using json;
लकड़ी की छत
लकड़ी की छत एक स्तंभ भंडारण का प्रारूप है। Tajo आसान, तेज और कुशल पहुंच के लिए लकड़ी की छत प्रारूप का उपयोग करता है।
टेबल निर्माण
निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -
CREATE TABLE parquet (num1 int,num2 text,num3 float) USING PARQUET;
लकड़ी की छत फ़ाइल प्रारूप में निम्नलिखित गुण हैं -
parquet.block.size - स्मृति में बफ़र किए जा रहे पंक्ति समूह का आकार।
parquet.page.size - पेज का आकार संपीड़न के लिए है।
parquet.compression - संपीड़ित एल्गोरिथ्म पृष्ठों को संपीड़ित करने के लिए इस्तेमाल किया।
parquet.enable.dictionary - शब्दकोष एन्कोडिंग को सक्षम / निष्क्रिय करना बूलियन मान है।
RCFile
RCFile रिकॉर्ड स्तंभ फ़ाइल है। इसमें बाइनरी कुंजी / मूल्य जोड़े शामिल हैं।
टेबल निर्माण
निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -
CREATE TABLE Record(num1 int,num2 text,num3 float) USING RCFILE;
RCFile के निम्नलिखित गुण हैं -
rcfile.serde - कस्टम deserializer वर्ग।
compression.codec - संपीड़न एल्गोरिदम।
rcfile.null - पूर्ण वर्ण।
SequenceFile
SequenceFile Hadoop में एक मूल फ़ाइल स्वरूप है जिसमें कुंजी / मान जोड़े होते हैं।
टेबल निर्माण
निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -
CREATE TABLE seq(num1 int,num2 text,num3 float) USING sequencefile;
इस अनुक्रम फ़ाइल में हाइव संगतता है। इसे हाइव में लिखा जा सकता है,
CREATE TABLE table1 (id int, name string, score float, type string)
STORED AS sequencefile;
ओआरसी
ORC (ऑप्टिमाइज़्ड रो कॉलम) हाइव से एक स्तंभ संग्रहण प्रारूप है।
टेबल निर्माण
निम्न क्वेरी तालिका निर्माण के लिए एक उदाहरण है -
CREATE TABLE optimized(num1 int,num2 text,num3 float) USING ORC;
ORC प्रारूप में निम्नलिखित गुण हैं -
orc.max.merge.distance - ORC फ़ाइल पढ़ी जाती है, दूरी कम होने पर यह विलीन हो जाती है।
orc.stripe.size - यह प्रत्येक पट्टी का आकार है।
orc.buffer.size - डिफॉल्ट 256KB है।
orc.rowindex.stride - यह पंक्तियों की संख्या में ORC इंडेक्स स्ट्राइड है।