अपाचे सुअर - भंडारण डेटा
पिछले अध्याय में, हमने सीखा कि कैसे अपाचे सुअर में डेटा लोड किया जाए। आप फ़ाइल सिस्टम में लोड डेटा का उपयोग करके स्टोर कर सकते हैंstoreऑपरेटर। यह अध्याय बताता है कि अपाचे सुअर में डेटा को कैसे स्टोर किया जाएStore ऑपरेटर।
वाक्य - विन्यास
नीचे दिया गया स्टोर स्टेटमेंट का सिंटैक्स है।
STORE Relation_name INTO ' required_directory_path ' [USING function];
उदाहरण
मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.
और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।
grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt'
USING PigStorage(',')
as ( id:int, firstname:chararray, lastname:chararray, phone:chararray,
city:chararray );
अब, रिलेशन को एचडीएफएस डायरेक्टरी में स्टोर करते हैं “/pig_Output/” जैसा की नीचे दिखाया गया।
grunt> STORE student INTO ' hdfs://localhost:9000/pig_Output/ ' USING PigStorage (',');
उत्पादन
अमल करने के बाद storeकथन, आपको निम्न आउटपुट मिलेगा। एक निर्देशिका निर्दिष्ट नाम के साथ बनाई गई है और इसमें डेटा संग्रहीत किया जाएगा।
2015-10-05 13:05:05,429 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.
MapReduceLau ncher - 100% complete
2015-10-05 13:05:05,429 [main] INFO org.apache.pig.tools.pigstats.mapreduce.SimplePigStats -
Script Statistics:
HadoopVersion PigVersion UserId StartedAt FinishedAt Features
2.6.0 0.15.0 Hadoop 2015-10-0 13:03:03 2015-10-05 13:05:05 UNKNOWN
Success!
Job Stats (time in seconds):
JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime
job_14459_06 1 0 n/a n/a n/a n/a
MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime Alias Feature
0 0 0 0 student MAP_ONLY
OutPut folder
hdfs://localhost:9000/pig_Output/
Input(s): Successfully read 0 records from: "hdfs://localhost:9000/pig_data/student_data.txt"
Output(s): Successfully stored 0 records in: "hdfs://localhost:9000/pig_Output"
Counters:
Total records written : 0
Total bytes written : 0
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0
Job DAG: job_1443519499159_0006
2015-10-05 13:06:06,192 [main] INFO org.apache.pig.backend.hadoop.executionengine
.mapReduceLayer.MapReduceLau ncher - Success!
सत्यापन
आप नीचे दिखाए अनुसार संग्रहीत डेटा को सत्यापित कर सकते हैं।
चरण 1
सबसे पहले, नाम निर्देशिका में फ़ाइलों को सूचीबद्ध करें pig_output का उपयोग करते हुए ls जैसा कि नीचे दिखाया गया है।
hdfs dfs -ls 'hdfs://localhost:9000/pig_Output/'
Found 2 items
rw-r--r- 1 Hadoop supergroup 0 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/_SUCCESS
rw-r--r- 1 Hadoop supergroup 224 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/part-m-00000
आप देख सकते हैं कि निष्पादित करने के बाद दो फाइलें बनाई गई थीं store बयान।
चरण 2
का उपयोग करते हुए cat कमांड, नामित फ़ाइल की सामग्री को सूचीबद्ध करें part-m-00000 जैसा की नीचे दिखाया गया।
$ hdfs dfs -cat 'hdfs://localhost:9000/pig_Output/part-m-00000'
1,Rajiv,Reddy,9848022337,Hyderabad
2,siddarth,Battacharya,9848022338,Kolkata
3,Rajesh,Khanna,9848022339,Delhi
4,Preethi,Agarwal,9848022330,Pune
5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
6,Archana,Mishra,9848022335,Chennai