Apache Pig - Bergabunglah dengan Operator
Itu JOINoperator digunakan untuk menggabungkan record dari dua atau lebih relasi. Saat melakukan operasi gabungan, kami mendeklarasikan satu (atau sekelompok) tupel dari setiap relasi, sebagai kunci. Ketika kunci-kunci ini cocok, dua tupel tertentu cocok, jika tidak, catatan akan dihapus. Gabungan bisa dari jenis berikut -
- Self-join
- Inner-join
- Gabung luar - gabung kiri, gabung kanan, dan gabung penuh
Bab ini menjelaskan dengan contoh bagaimana menggunakan operator gabungan dalam Pig Latin. Asumsikan kita memiliki dua file yaitucustomers.txt dan orders.txt dalam /pig_data/ direktori HDFS seperti yang ditunjukkan di bawah ini.
customers.txt
1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00
orders.txt
102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060
Dan kami telah memuat dua file ini ke Pig dengan relasi customers dan orders seperti gambar dibawah.
grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, address:chararray, salary:int);
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
as (oid:int, date:chararray, customer_id:int, amount:int);
Sekarang mari kita melakukan berbagai operasi Gabung pada dua relasi ini.
Self - gabung
Self-join digunakan untuk menggabungkan tabel dengan dirinya sendiri seolah-olah tabel adalah dua relasi, untuk sementara mengganti nama setidaknya satu relasi.
Secara umum, di Apache Pig, untuk melakukan self-join, kami akan memuat data yang sama beberapa kali, dengan alias (nama) yang berbeda. Oleh karena itu mari kita muat isi file tersebutcustomers.txt sebagai dua tabel seperti yang ditunjukkan di bawah ini.
grunt> customers1 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, address:chararray, salary:int);
grunt> customers2 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, address:chararray, salary:int);
Sintaksis
Diberikan di bawah ini adalah sintaks melakukan self-join operasi menggunakan JOIN operator.
grunt> Relation3_name = JOIN Relation1_name BY key, Relation2_name BY key ;
Contoh
Mari kita tampil self-join operasi pada relasi customers, dengan menggabungkan dua relasi customers1 dan customers2 seperti gambar dibawah.
grunt> customers3 = JOIN customers1 BY id, customers2 BY id;
Verifikasi
Verifikasi relasinya customers3 menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grunt> Dump customers3;
Keluaran
Ini akan menghasilkan keluaran berikut, menampilkan isi relasi customers.
(1,Ramesh,32,Ahmedabad,2000,1,Ramesh,32,Ahmedabad,2000)
(2,Khilan,25,Delhi,1500,2,Khilan,25,Delhi,1500)
(3,kaushik,23,Kota,2000,3,kaushik,23,Kota,2000)
(4,Chaitali,25,Mumbai,6500,4,Chaitali,25,Mumbai,6500)
(5,Hardik,27,Bhopal,8500,5,Hardik,27,Bhopal,8500)
(6,Komal,22,MP,4500,6,Komal,22,MP,4500)
(7,Muffy,24,Indore,10000,7,Muffy,24,Indore,10000)
Gabung Batin
Inner Joindigunakan cukup sering; itu juga disebut sebagaiequijoin. Gabungan dalam mengembalikan baris ketika ada kecocokan di kedua tabel.
Ini membuat relasi baru dengan menggabungkan nilai kolom dari dua relasi (katakanlah A dan B) berdasarkan predikat gabungan. Kueri membandingkan setiap baris A dengan setiap baris B untuk menemukan semua pasangan baris yang memenuhi predikat gabungan. Jika predikat gabungan terpenuhi, nilai kolom untuk setiap pasangan baris A dan B yang cocok digabungkan menjadi baris hasil.
Sintaksis
Berikut adalah sintaks performanya inner join operasi menggunakan JOIN operator.
grunt> result = JOIN relation1 BY columnname, relation2 BY columnname;
Contoh
Mari kita tampil inner join operasi pada dua relasi customers dan orders seperti gambar dibawah.
grunt> coustomer_orders = JOIN customers BY id, orders BY customer_id;
Verifikasi
Verifikasi relasinya coustomer_orders menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grunt> Dump coustomer_orders;
Keluaran
Anda akan mendapatkan output berikut yang akan diberi nama isi relasi coustomer_orders.
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
Note -
Gabung Luar : Tidak seperti gabungan dalam,outer joinmengembalikan semua baris dari setidaknya satu relasi. Operasi sambungan luar dilakukan dengan tiga cara -
- Gabungan luar kiri
- Gabungan kanan luar
- Gabungan luar penuh
Gabung Luar Kiri
Itu left outer Join operasi mengembalikan semua baris dari tabel kiri, bahkan jika tidak ada kecocokan di relasi kanan.
Sintaksis
Diberikan di bawah ini adalah sintaks melakukan left outer join operasi menggunakan JOIN operator.
grunt> Relation3_name = JOIN Relation1_name BY id LEFT OUTER, Relation2_name BY customer_id;
Contoh
Mari kita lakukan operasi gabungan luar kiri pada dua relasi pelanggan dan pesanan seperti yang ditunjukkan di bawah ini.
grunt> outer_left = JOIN customers BY id LEFT OUTER, orders BY customer_id;
Verifikasi
Verifikasi relasinya outer_left menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grunt> Dump outer_left;
Keluaran
Ini akan menghasilkan keluaran berikut, menampilkan isi relasi outer_left.
(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)
Gabung Luar Kanan
Itu right outer join operasi mengembalikan semua baris dari tabel kanan, bahkan jika tidak ada kecocokan di tabel kiri.
Sintaksis
Diberikan di bawah ini adalah sintaks melakukan right outer join operasi menggunakan JOIN operator.
grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;
Contoh
Mari kita tampil right outer join operasi pada dua relasi customers dan orders seperti gambar dibawah.
grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;
Verifikasi
Verifikasi relasinya outer_right menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grunt> Dump outer_right
Keluaran
Ini akan menghasilkan keluaran berikut, menampilkan isi relasi outer_right.
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
Gabung Luar Penuh
Itu full outer join operasi mengembalikan baris ketika ada kecocokan di salah satu relasi.
Sintaksis
Diberikan di bawah ini adalah sintaks melakukan full outer join menggunakan JOIN operator.
grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;
Contoh
Mari kita tampil full outer join operasi pada dua relasi customers dan orders seperti gambar dibawah.
grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;
Verifikasi
Verifikasi relasinya outer_full menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grun> Dump outer_full;
Keluaran
Ini akan menghasilkan keluaran berikut, menampilkan isi relasi outer_full.
(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)
Menggunakan Banyak Tombol
Kita dapat melakukan operasi JOIN menggunakan beberapa kunci.
Sintaksis
Berikut adalah bagaimana Anda dapat melakukan operasi GABUNG pada dua tabel menggunakan beberapa tombol.
grunt> Relation3_name = JOIN Relation2_name BY (key1, key2), Relation3_name BY (key1, key2);
Asumsikan kita memiliki dua file yaitu employee.txt dan employee_contact.txt dalam /pig_data/ direktori HDFS seperti yang ditunjukkan di bawah ini.
employee.txt
001,Rajiv,Reddy,21,programmer,003
002,siddarth,Battacharya,22,programmer,003
003,Rajesh,Khanna,22,programmer,003
004,Preethi,Agarwal,21,programmer,003
005,Trupthi,Mohanthy,23,programmer,003
006,Archana,Mishra,23,programmer,003
007,Komal,Nayak,24,teamlead,002
008,Bharathi,Nambiayar,24,manager,001
employee_contact.txt
001,9848022337,[email protected],Hyderabad,003
002,9848022338,[email protected],Kolkata,003
003,9848022339,[email protected],Delhi,003
004,9848022330,[email protected],Pune,003
005,9848022336,[email protected],Bhuwaneshwar,003
006,9848022335,[email protected],Chennai,003
007,9848022334,[email protected],trivendram,002
008,9848022333,[email protected],Chennai,001
Dan kami telah memuat kedua file ini ke Pig dengan hubungan employee dan employee_contact seperti gambar dibawah.
grunt> employee = LOAD 'hdfs://localhost:9000/pig_data/employee.txt' USING PigStorage(',')
as (id:int, firstname:chararray, lastname:chararray, age:int, designation:chararray, jobid:int);
grunt> employee_contact = LOAD 'hdfs://localhost:9000/pig_data/employee_contact.txt' USING PigStorage(',')
as (id:int, phone:chararray, email:chararray, city:chararray, jobid:int);
Sekarang, mari kita gabungkan konten dari dua relasi ini menggunakan JOIN operator seperti yang ditunjukkan di bawah ini.
grunt> emp = JOIN employee BY (id,jobid), employee_contact BY (id,jobid);
Verifikasi
Verifikasi relasinya emp menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.
grunt> Dump emp;
Keluaran
Ini akan menghasilkan keluaran berikut, menampilkan isi dari relasi bernama emp seperti gambar dibawah.
(1,Rajiv,Reddy,21,programmer,113,1,9848022337,[email protected],Hyderabad,113)
(2,siddarth,Battacharya,22,programmer,113,2,9848022338,[email protected],Kolka ta,113)
(3,Rajesh,Khanna,22,programmer,113,3,9848022339,[email protected],Delhi,113)
(4,Preethi,Agarwal,21,programmer,113,4,9848022330,[email protected],Pune,113)
(5,Trupthi,Mohanthy,23,programmer,113,5,9848022336,[email protected],Bhuwaneshw ar,113)
(6,Archana,Mishra,23,programmer,113,6,9848022335,[email protected],Chennai,113)
(7,Komal,Nayak,24,teamlead,112,7,9848022334,[email protected],trivendram,112)
(8,Bharathi,Nambiayar,24,manager,111,8,9848022333,[email protected],Chennai,111)