अपाचे सुअर - कॉग्रेप ऑपरेटर

COGROUPऑपरेटर कमोबेश उसी तरह काम करता है जैसे ग्रुप ऑपरेटर। दोनों ऑपरेटरों के बीच एकमात्र अंतर यह है किgroup ऑपरेटर आमतौर पर एक संबंध के साथ प्रयोग किया जाता है, जबकि cogroup ऑपरेटर का उपयोग दो या अधिक संबंधों वाले बयानों में किया जाता है।

Cogroup का उपयोग करके दो संबंधों को समूहीकृत करना

मान लें कि हमारे पास दो फाइलें हैं student_details.txt तथा employee_details.txt HDFS निर्देशिका में /pig_data/ जैसा की नीचे दिखाया गया।

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai

employee_details.txt

001,Robin,22,newyork 
002,BOB,23,Kolkata 
003,Maya,23,Tokyo 
004,Sara,25,London 
005,David,23,Bhuwaneshwar 
006,Maggy,22,Chennai

और हमने इन फाइलों को संबंध नामों के साथ सुअर में लोड किया है student_details तथा employee_details क्रमशः, जैसा कि नीचे दिखाया गया है।

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray); 
  
grunt> employee_details = LOAD 'hdfs://localhost:9000/pig_data/employee_details.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, city:chararray);

अब, हम संबंधों के रिकॉर्ड / ट्यूपल्स को समूहित करते हैं student_details तथा employee_details कुंजी उम्र के साथ, जैसा कि नीचे दिखाया गया है।

grunt> cogroup_data = COGROUP student_details by age, employee_details by age;

सत्यापन

संबंध सत्यापित करें cogroup_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।

grunt> Dump cogroup_data;

उत्पादन

यह निम्नलिखित आउटपुट का उत्पादन करेगा, नाम के संबंध की सामग्री प्रदर्शित करेगा cogroup_data जैसा की नीचे दिखाया गया।

(21,{(4,Preethi,Agarwal,21,9848022330,Pune), (1,Rajiv,Reddy,21,9848022337,Hyderabad)}, 
   {    })  
(22,{ (3,Rajesh,Khanna,22,9848022339,Delhi), (2,siddarth,Battacharya,22,9848022338,Kolkata) },  
   { (6,Maggy,22,Chennai),(1,Robin,22,newyork) })  
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)}, 
   {(5,David,23,Bhuwaneshwar),(3,Maya,23,Tokyo),(2,BOB,23,Kolkata)}) 
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)}, 
   { })  
(25,{   }, 
   {(4,Sara,25,London)})

cogroup ऑपरेटर उम्र के अनुसार प्रत्येक संबंध से ट्यूपल्स को समूहित करता है जहां प्रत्येक समूह एक विशेष आयु मूल्य को दर्शाता है।

उदाहरण के लिए, यदि हम परिणाम के 1 टपल पर विचार करते हैं, तो यह 21 वर्ष की आयु तक समूहीकृत होता है। और इसमें दो बैग होते हैं -

  • पहला बैग पहले संबंध से सभी tuples रखती है (student_details इस मामले में) 21 वर्ष की आयु, और

  • दूसरे बैग में दूसरे संबंध से सभी ट्यूपल हैं (employee_details इस मामले में) 21 वर्ष की आयु के बाद।

यदि किसी संबंध में 21 वर्ष की आयु के संबंध नहीं हैं, तो यह एक खाली बैग देता है।