Apache Pig - Operator Grup
Itu COGROUPcara kerja operator kurang lebih sama dengan operator GROUP . Satu-satunya perbedaan antara kedua operator tersebut adalah bahwagroup operator biasanya digunakan dengan satu relasi, sedangkan cogroup operator digunakan dalam pernyataan yang melibatkan dua atau lebih relasi.
Pengelompokan Dua Relasi menggunakan Cogroup
Asumsikan kita memiliki dua file yaitu student_details.txt dan employee_details.txt di direktori HDFS /pig_data/ seperti gambar dibawah.
student_details.txt
001,Rajiv,Reddy,21,9848022337,Hyderabad
002,siddarth,Battacharya,22,9848022338,Kolkata
003,Rajesh,Khanna,22,9848022339,Delhi
004,Preethi,Agarwal,21,9848022330,Pune
005,Trupthi,Mohanthy,23,9848022336,Bhuwaneshwar
006,Archana,Mishra,23,9848022335,Chennai
007,Komal,Nayak,24,9848022334,trivendram
008,Bharathi,Nambiayar,24,9848022333,Chennai
employee_details.txt
001,Robin,22,newyork
002,BOB,23,Kolkata
003,Maya,23,Tokyo
004,Sara,25,London
005,David,23,Bhuwaneshwar
006,Maggy,22,Chennai
Dan kami telah memuat file-file ini ke Pig dengan nama relasi student_details dan employee_details masing-masing, seperti yang ditunjukkan di bawah ini.
grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
as (id:int, firstname:chararray, lastname:chararray, age:int, phone:chararray, city:chararray);
grunt> employee_details = LOAD 'hdfs://localhost:9000/pig_data/employee_details.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, city:chararray);
Sekarang, mari kita kelompokkan record / tuple dari relasi tersebut student_details dan employee_details dengan usia kunci, seperti yang ditunjukkan di bawah ini.
grunt> cogroup_data = COGROUP student_details by age, employee_details by age;
Verifikasi
Verifikasi relasinya cogroup_data menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grunt> Dump cogroup_data;
Keluaran
Ini akan menghasilkan keluaran berikut, menampilkan isi dari relasi bernama cogroup_data seperti gambar dibawah.
(21,{(4,Preethi,Agarwal,21,9848022330,Pune), (1,Rajiv,Reddy,21,9848022337,Hyderabad)},
{ })
(22,{ (3,Rajesh,Khanna,22,9848022339,Delhi), (2,siddarth,Battacharya,22,9848022338,Kolkata) },
{ (6,Maggy,22,Chennai),(1,Robin,22,newyork) })
(23,{(6,Archana,Mishra,23,9848022335,Chennai),(5,Trupthi,Mohanthy,23,9848022336 ,Bhuwaneshwar)},
{(5,David,23,Bhuwaneshwar),(3,Maya,23,Tokyo),(2,BOB,23,Kolkata)})
(24,{(8,Bharathi,Nambiayar,24,9848022333,Chennai),(7,Komal,Nayak,24,9848022334, trivendram)},
{ })
(25,{ },
{(4,Sara,25,London)})
Itu cogroup operator mengelompokkan tupel dari setiap relasi sesuai dengan usia di mana setiap kelompok menggambarkan nilai usia tertentu.
Misalnya, jika kita mempertimbangkan hasil tupel pertama, itu dikelompokkan berdasarkan usia 21. Dan itu berisi dua kantong -
tas pertama menampung semua tupel dari relasi pertama (student_details dalam hal ini) memiliki usia 21, dan
tas kedua berisi semua tupel dari relasi kedua (employee_details dalam hal ini) memiliki usia 21.
Jika suatu relasi tidak memiliki tupel yang memiliki nilai usia 21, ia mengembalikan kantong kosong.