Apache Pig - Operator Grup

Itu COGROUPcara kerja operator kurang lebih sama dengan operator GROUP . Satu-satunya perbedaan antara kedua operator tersebut adalah bahwagroup operator biasanya digunakan dengan satu relasi, sedangkan cogroup operator digunakan dalam pernyataan yang melibatkan dua atau lebih relasi.

Pengelompokan Dua Relasi menggunakan Cogroup

Asumsikan kita memiliki dua file yaitu student_details.txt dan employee_details.txt di direktori HDFS /pig_data/ seperti gambar dibawah.

student_details.txt

001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai

employee_details.txt

001,Robin,22,newyork 
002,BOB,23,Kolkata 
003,Maya,23,Tokyo 
004,Sara,25,London 
005,David,23,Bhuwaneshwar 
006,Maggy,22,Chennai

Dan kami telah memuat file-file ini ke Pig dengan nama relasi student_details dan employee_details masing-masing, seperti yang ditunjukkan di bawah ini.

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray); 
  
grunt> employee_details = LOAD 'hdfs://localhost:9000/pig_data/employee_details.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, city:chararray);

Sekarang, mari kita kelompokkan record / tuple dari relasi tersebut student_details dan employee_details dengan usia kunci, seperti yang ditunjukkan di bawah ini.

grunt> cogroup_data = COGROUP student_details by age, employee_details by age;

Verifikasi

Verifikasi relasinya cogroup_data menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grunt> Dump cogroup_data;

Keluaran

Ini akan menghasilkan keluaran berikut, menampilkan isi dari relasi bernama cogroup_data seperti gambar dibawah.

(21,{(4,Preethi,Agarwal,21,9848022330,Pune), (1,Rajiv,Reddy,21,9848022337,Hyderabad)}, 
   {    })  
(22,{ (3,Rajesh,Khanna,22,9848022339,Delhi), (2,siddarth,Battacharya,22,9848022338,Kolkata) },  
   { (6,Maggy,22,Chennai),(1,Robin,22,newyork) })  
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)}, 
   {(5,David,23,Bhuwaneshwar),(3,Maya,23,Tokyo),(2,BOB,23,Kolkata)}) 
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)}, 
   { })  
(25,{   }, 
   {(4,Sara,25,London)})

Itu cogroup operator mengelompokkan tupel dari setiap relasi sesuai dengan usia di mana setiap kelompok menggambarkan nilai usia tertentu.

Misalnya, jika kita mempertimbangkan hasil tupel pertama, itu dikelompokkan berdasarkan usia 21. Dan itu berisi dua kantong -

  • tas pertama menampung semua tupel dari relasi pertama (student_details dalam hal ini) memiliki usia 21, dan

  • tas kedua berisi semua tupel dari relasi kedua (employee_details dalam hal ini) memiliki usia 21.

Jika suatu relasi tidak memiliki tupel yang memiliki nilai usia 21, ia mengembalikan kantong kosong.