अपाचे सुअर - कॉग्रेप ऑपरेटर
COGROUPऑपरेटर कमोबेश उसी तरह काम करता है जैसे ग्रुप ऑपरेटर। दोनों ऑपरेटरों के बीच एकमात्र अंतर यह है किgroup ऑपरेटर आमतौर पर एक संबंध के साथ प्रयोग किया जाता है, जबकि cogroup ऑपरेटर का उपयोग दो या अधिक संबंधों वाले बयानों में किया जाता है।
Cogroup का उपयोग करके दो संबंधों को समूहीकृत करना
मान लें कि हमारे पास दो फाइलें हैं student_details.txt तथा employee_details.txt HDFS निर्देशिका में /pig_data/ जैसा की नीचे दिखाया गया।
student_details.txt
001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai
employee_details.txt
001,Robin,22,newyork
002,BOB,23,Kolkata
003,Maya,23,Tokyo
004,Sara,25,London
005,David,23,Bhuwaneshwar
006,Maggy,22,Chennai
और हमने इन फाइलों को संबंध नामों के साथ सुअर में लोड किया है student_details तथा employee_details क्रमशः, जैसा कि नीचे दिखाया गया है।
grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray);
grunt> employee_details = LOAD 'hdfs://localhost:9000/pig_data/employee_details.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, city:chararray);
अब, हम संबंधों के रिकॉर्ड / ट्यूपल्स को समूहित करते हैं student_details तथा employee_details कुंजी उम्र के साथ, जैसा कि नीचे दिखाया गया है।
grunt> cogroup_data = COGROUP student_details by age, employee_details by age;
सत्यापन
संबंध सत्यापित करें cogroup_data का उपयोग करते हुए DUMP ऑपरेटर जैसा कि नीचे दिखाया गया है।
grunt> Dump cogroup_data;
उत्पादन
यह निम्नलिखित आउटपुट का उत्पादन करेगा, नाम के संबंध की सामग्री प्रदर्शित करेगा cogroup_data जैसा की नीचे दिखाया गया।
(21,{(4,Preethi,Agarwal,21,9848022330,Pune), (1,Rajiv,Reddy,21,9848022337,Hyderabad)},
{ })
(22,{ (3,Rajesh,Khanna,22,9848022339,Delhi), (2,siddarth,Battacharya,22,9848022338,Kolkata) },
{ (6,Maggy,22,Chennai),(1,Robin,22,newyork) })
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)},
{(5,David,23,Bhuwaneshwar),(3,Maya,23,Tokyo),(2,BOB,23,Kolkata)})
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)},
{ })
(25,{ },
{(4,Sara,25,London)})
cogroup ऑपरेटर उम्र के अनुसार प्रत्येक संबंध से ट्यूपल्स को समूहित करता है जहां प्रत्येक समूह एक विशेष आयु मूल्य को दर्शाता है।
उदाहरण के लिए, यदि हम परिणाम के 1 टपल पर विचार करते हैं, तो यह 21 वर्ष की आयु तक समूहीकृत होता है। और इसमें दो बैग होते हैं -
पहला बैग पहले संबंध से सभी tuples रखती है (student_details इस मामले में) 21 वर्ष की आयु, और
दूसरे बैग में दूसरे संबंध से सभी ट्यूपल हैं (employee_details इस मामले में) 21 वर्ष की आयु के बाद।
यदि किसी संबंध में 21 वर्ष की आयु के संबंध नहीं हैं, तो यह एक खाली बैग देता है।