अपाचे सुअर - भंडारण डेटा

पिछले अध्याय में, हमने सीखा कि कैसे अपाचे सुअर में डेटा लोड किया जाए। आप फ़ाइल सिस्टम में लोड डेटा का उपयोग करके स्टोर कर सकते हैंstoreऑपरेटर। यह अध्याय बताता है कि अपाचे सुअर में डेटा को कैसे स्टोर किया जाएStore ऑपरेटर।

वाक्य - विन्यास

नीचे दिया गया स्टोर स्टेटमेंट का सिंटैक्स है।

STORE Relation_name INTO ' required_directory_path ' [USING function];

उदाहरण

मान लें कि हमारे पास एक फ़ाइल है student_data.txt एचडीएफएस निम्नलिखित सामग्री के साथ।

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

और हमने इसे एक रिलेशन में पढ़ा है student नीचे दिखाए अनुसार LOAD ऑपरेटर का उपयोग करना।

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

अब, रिलेशन को एचडीएफएस डायरेक्टरी में स्टोर करते हैं “/pig_Output/” जैसा की नीचे दिखाया गया।

grunt> STORE student INTO ' hdfs://localhost:9000/pig_Output/ ' USING PigStorage (',');

उत्पादन

अमल करने के बाद storeकथन, आपको निम्न आउटपुट मिलेगा। एक निर्देशिका निर्दिष्ट नाम के साथ बनाई गई है और इसमें डेटा संग्रहीत किया जाएगा।

2015-10-05 13:05:05,429 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.
MapReduceLau ncher - 100% complete
2015-10-05 13:05:05,429 [main] INFO  org.apache.pig.tools.pigstats.mapreduce.SimplePigStats - 
Script Statistics:
   
HadoopVersion    PigVersion    UserId    StartedAt             FinishedAt             Features 
2.6.0            0.15.0        Hadoop    2015-10-0 13:03:03    2015-10-05 13:05:05    UNKNOWN  
Success!  
Job Stats (time in seconds): 
JobId          Maps    Reduces    MaxMapTime    MinMapTime    AvgMapTime    MedianMapTime    
job_14459_06    1        0           n/a           n/a           n/a           n/a
MaxReduceTime    MinReduceTime    AvgReduceTime    MedianReducetime    Alias    Feature   
     0                 0                0                0             student  MAP_ONLY 
OutPut folder
hdfs://localhost:9000/pig_Output/ 
 
Input(s): Successfully read 0 records from: "hdfs://localhost:9000/pig_data/student_data.txt"  
Output(s): Successfully stored 0 records in: "hdfs://localhost:9000/pig_Output"  
Counters:
Total records written : 0
Total bytes written : 0
Spillable Memory Manager spill count : 0 
Total bags proactively spilled: 0
Total records proactively spilled: 0
  
Job DAG: job_1443519499159_0006
  
2015-10-05 13:06:06,192 [main] INFO  org.apache.pig.backend.hadoop.executionengine
.mapReduceLayer.MapReduceLau ncher - Success!

सत्यापन

आप नीचे दिखाए अनुसार संग्रहीत डेटा को सत्यापित कर सकते हैं।

चरण 1

सबसे पहले, नाम निर्देशिका में फ़ाइलों को सूचीबद्ध करें pig_output का उपयोग करते हुए ls जैसा कि नीचे दिखाया गया है।

hdfs dfs -ls 'hdfs://localhost:9000/pig_Output/'
Found 2 items
rw-r--r-   1 Hadoop supergroup          0 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/_SUCCESS
rw-r--r-   1 Hadoop supergroup        224 2015-10-05 13:03 hdfs://localhost:9000/pig_Output/part-m-00000

आप देख सकते हैं कि निष्पादित करने के बाद दो फाइलें बनाई गई थीं store बयान।

चरण 2

का उपयोग करते हुए cat कमांड, नामित फ़ाइल की सामग्री को सूचीबद्ध करें part-m-00000 जैसा की नीचे दिखाया गया।

$ hdfs dfs -cat 'hdfs://localhost:9000/pig_Output/part-m-00000' 
1,Rajiv,Reddy,9848022337,Hyderabad
2,siddarth,Battacharya,9848022338,Kolkata
3,Rajesh,Khanna,9848022339,Delhi
4,Preethi,Agarwal,9848022330,Pune
5,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
6,Archana,Mishra,9848022335,Chennai