HCatalog - लोडर और स्टॉपर
HCatLoader तथा HCatStorerHCatalog प्रबंधित तालिकाओं में डेटा पढ़ने और लिखने के लिए सुअर स्क्रिप्ट के साथ API का उपयोग किया जाता है। इन इंटरफेस के लिए कोई HCatalog- विशिष्ट सेटअप आवश्यक नहीं है।
इस अध्याय को बेहतर समझने के लिए Apache Pig स्क्रिप्ट पर कुछ ज्ञान होना बेहतर है। आगे के संदर्भ के लिए, कृपया हमारे Apache Pig ट्यूटोरियल से गुजरें।
HCatloader
HCatLoader का उपयोग HC स्क्रिप्ट प्रबंधित तालिकाओं से डेटा पढ़ने के लिए Pig स्क्रिप्ट के साथ किया जाता है। एचसीएफएस में डेटा को लोड करने के लिए एचसीएफएस का उपयोग करके निम्नलिखित सिंटैक्स का उपयोग करें।
A = LOAD 'tablename' USING org.apache.HCatalog.pig.HCatLoader();
आपको एकल उद्धरणों में तालिका का नाम निर्दिष्ट करना होगा: LOAD 'tablename'। यदि आप एक गैर-डिफ़ॉल्ट डेटाबेस का उपयोग कर रहे हैं, तो आपको अपना इनपुट 'dbname.tablename'।
हाइव मेटास्टोर आपको डेटाबेस निर्दिष्ट किए बिना टेबल बनाने की सुविधा देता है। यदि आपने इस तरह से तालिकाओं का निर्माण किया है, तो डेटाबेस का नाम है'default' और एचसीएटलैडर के लिए तालिका निर्दिष्ट करते समय इसकी आवश्यकता नहीं है।
निम्न तालिका में एचसीएटोडर वर्ग के महत्वपूर्ण तरीके और विवरण शामिल हैं।
अनु क्रमांक। | विधि का नाम और विवरण |
---|---|
1 | public InputFormat<?,?> getInputFormat()throws IOException HCatloader वर्ग का उपयोग करके लोडिंग डेटा का इनपुट प्रारूप पढ़ें। |
2 | public String relativeToAbsolutePath(String location, Path curDir) throws IOException यह स्ट्रिंग प्रारूप को लौटाता है Absolute path। |
3 | public void setLocation(String location, Job job) throws IOException यह उस स्थान को सेट करता है जहां नौकरी निष्पादित की जा सकती है। |
4 | public Tuple getNext() throws IOException वर्तमान टपल लौटाता है (key तथा value) लूप से। |
HCatStorer
HCatStorer का उपयोग Pig स्क्रिप्ट के साथ HCatalog-प्रबंधित तालिकाओं में डेटा लिखने के लिए किया जाता है। भंडारण के संचालन के लिए निम्नलिखित सिंटैक्स का उपयोग करें।
A = LOAD ...
B = FOREACH A ...
...
...
my_processed_data = ...
STORE my_processed_data INTO 'tablename' USING org.apache.HCatalog.pig.HCatStorer();
आपको एकल उद्धरणों में तालिका का नाम निर्दिष्ट करना होगा: LOAD 'tablename'। डेटाबेस और टेबल दोनों को आपके पिग स्क्रिप्ट को चलाने से पहले बनाया जाना चाहिए। यदि आप एक गैर-डिफ़ॉल्ट डेटाबेस का उपयोग कर रहे हैं, तो आपको अपना इनपुट निर्दिष्ट करना होगा'dbname.tablename'।
हाइव मेटास्टोर आपको डेटाबेस निर्दिष्ट किए बिना टेबल बनाने की सुविधा देता है। यदि आपने इस तरह से तालिकाओं का निर्माण किया है, तो डेटाबेस का नाम है'default' और आपको डेटाबेस का नाम निर्दिष्ट करने की आवश्यकता नहीं है store बयान।
के लिए USINGखंड, आपके पास एक स्ट्रिंग तर्क हो सकता है जो विभाजन के लिए कुंजी / मान जोड़े का प्रतिनिधित्व करता है। यह एक अनिवार्य तर्क है जब आप एक विभाजन तालिका में लिख रहे हैं और विभाजन कॉलम आउटपुट कॉलम में नहीं है। विभाजन कुंजियों के मान को उद्धृत नहीं किया जाना चाहिए।
निम्न तालिका में HCATStorer वर्ग के महत्वपूर्ण तरीके और विवरण शामिल हैं।
अनु क्रमांक। | विधि का नाम और विवरण |
---|---|
1 | public OutputFormat getOutputFormat() throws IOException HCatStorer वर्ग का उपयोग करके संग्रहीत डेटा का आउटपुट स्वरूप पढ़ें। |
2 | public void setStoreLocation (String location, Job job) throws IOException उस स्थान को सेट करता है जहां इसे निष्पादित करना है store आवेदन। |
3 | public void storeSchema (ResourceSchema schema, String arg1, Job job) throws IOException स्कीमा स्टोर करें। |
4 | public void prepareToWrite (RecordWriter writer) throws IOException यह RecordWriter का उपयोग करके किसी विशेष फ़ाइल में डेटा लिखने में मदद करता है। |
5 | public void putNext (Tuple tuple) throws IOException फ़ाइल में टपल डेटा लिखता है। |
HCatalog के साथ सुअर चल रहा है
सुअर स्वचालित रूप से HCatalog जार नहीं उठाता है। आवश्यक जार में लाने के लिए, आप या तो सुअर कमांड में एक ध्वज का उपयोग कर सकते हैं या पर्यावरण चर सेट कर सकते हैंPIG_CLASSPATH तथा PIG_OPTS निम्नलिखित अनुसार।
HCatalog के साथ काम करने के लिए उपयुक्त जार में लाने के लिए, बस निम्नलिखित ध्वज शामिल करें -
pig –useHCatalog <Sample pig scripts file>
निष्पादन के लिए CLASSPATH की स्थापना
Apache Pig के साथ HCatalog सिंक्रनाइज़ करने के लिए निम्नलिखित CLASSPATH सेटिंग का उपयोग करें।
export HADOOP_HOME = <path_to_hadoop_install>
export HIVE_HOME = <path_to_hive_install>
export HCAT_HOME = <path_to_hcat_install>
export PIG_CLASSPATH = $HCAT_HOME/share/HCatalog/HCatalog-core*.jar:\
$HCAT_HOME/share/HCatalog/HCatalog-pig-adapter*.jar:\
$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\
$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\
$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/conf:$HADOOP_HOME/conf:\
$HIVE_HOME/lib/slf4j-api-*.jar
उदाहरण
मान लें कि हमारे पास एक फ़ाइल है student_details.txt एचडीएफएस निम्नलिखित सामग्री के साथ।
student_details.txt
001, Rajiv, Reddy, 21, 9848022337, Hyderabad
002, siddarth, Battacharya, 22, 9848022338, Kolkata
003, Rajesh, Khanna, 22, 9848022339, Delhi
004, Preethi, Agarwal, 21, 9848022330, Pune
005, Trupthi, Mohanthy, 23, 9848022336, Bhuwaneshwar
006, Archana, Mishra, 23, 9848022335, Chennai
007, Komal, Nayak, 24, 9848022334, trivendram
008, Bharathi, Nambiayar, 24, 9848022333, Chennai
हमारे पास नाम के साथ एक नमूना स्क्रिप्ट भी है sample_script.pig, उसी HDFS निर्देशिका में। इस फ़ाइल में परिचालन और परिवर्तन करने वाले वक्तव्य हैंstudent संबंध, जैसा कि नीचे दिखाया गया है।
student = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING
PigStorage(',') as (id:int, firstname:chararray, lastname:chararray,
phone:chararray, city:chararray);
student_order = ORDER student BY age DESC;
STORE student_order INTO 'student_order_table' USING org.apache.HCatalog.pig.HCatStorer();
student_limit = LIMIT student_order 4;
Dump student_limit;
स्क्रिप्ट का पहला स्टेटमेंट नाम की फाइल में डेटा लोड करेगा student_details.txt नाम के एक रिश्ते के रूप में student।
पटकथा का दूसरा कथन, उम्र के आधार पर, अवरोही क्रम में संबंध के tuples को व्यवस्थित करेगा और इसे स्टोर करेगा student_order।
तीसरा कथन संसाधित डेटा संग्रहीत करता है student_order नाम की एक अलग तालिका में परिणाम student_order_table।
स्क्रिप्ट का चौथा कथन पहले चार टुपल्स को संग्रहित करेगा student_order जैसा student_limit।
अंत में पाँचवाँ कथन संबंध की सामग्री को खोद देगा student_limit।
अब हम निष्पादित करते हैं sample_script.pig जैसा की नीचे दिखाया गया।
$./pig -useHCatalog hdfs://localhost:9000/pig_data/sample_script.pig
अब, आउटपुट के लिए अपनी आउटपुट डायरेक्टरी (hdfs: user / tmp / hive) की जाँच करें (part_0000, part_0001)।