Apache Pig - Bergabunglah dengan Operator

Itu JOINoperator digunakan untuk menggabungkan record dari dua atau lebih relasi. Saat melakukan operasi gabungan, kami mendeklarasikan satu (atau sekelompok) tupel dari setiap relasi, sebagai kunci. Ketika kunci-kunci ini cocok, dua tupel tertentu cocok, jika tidak, catatan akan dihapus. Gabungan bisa dari jenis berikut -

  • Self-join
  • Inner-join
  • Gabung luar - gabung kiri, gabung kanan, dan gabung penuh

Bab ini menjelaskan dengan contoh bagaimana menggunakan operator gabungan dalam Pig Latin. Asumsikan kita memiliki dua file yaitucustomers.txt dan orders.txt dalam /pig_data/ direktori HDFS seperti yang ditunjukkan di bawah ini.

customers.txt

1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00 
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00

orders.txt

102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060

Dan kami telah memuat dua file ini ke Pig dengan relasi customers dan orders seperti gambar dibawah.

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
   as (oid:int, date:chararray, customer_id:int, amount:int);

Sekarang mari kita melakukan berbagai operasi Gabung pada dua relasi ini.

Self - gabung

Self-join digunakan untuk menggabungkan tabel dengan dirinya sendiri seolah-olah tabel adalah dua relasi, untuk sementara mengganti nama setidaknya satu relasi.

Secara umum, di Apache Pig, untuk melakukan self-join, kami akan memuat data yang sama beberapa kali, dengan alias (nama) yang berbeda. Oleh karena itu mari kita muat isi file tersebutcustomers.txt sebagai dua tabel seperti yang ditunjukkan di bawah ini.

grunt> customers1 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> customers2 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);

Sintaksis

Diberikan di bawah ini adalah sintaks melakukan self-join operasi menggunakan JOIN operator.

grunt> Relation3_name = JOIN Relation1_name BY key, Relation2_name BY key ;

Contoh

Mari kita tampil self-join operasi pada relasi customers, dengan menggabungkan dua relasi customers1 dan customers2 seperti gambar dibawah.

grunt> customers3 = JOIN customers1 BY id, customers2 BY id;

Verifikasi

Verifikasi relasinya customers3 menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grunt> Dump customers3;

Keluaran

Ini akan menghasilkan keluaran berikut, menampilkan isi relasi customers.

(1,Ramesh,32,Ahmedabad,2000,1,Ramesh,32,Ahmedabad,2000)
(2,Khilan,25,Delhi,1500,2,Khilan,25,Delhi,1500)
(3,kaushik,23,Kota,2000,3,kaushik,23,Kota,2000)
(4,Chaitali,25,Mumbai,6500,4,Chaitali,25,Mumbai,6500)
(5,Hardik,27,Bhopal,8500,5,Hardik,27,Bhopal,8500)
(6,Komal,22,MP,4500,6,Komal,22,MP,4500)
(7,Muffy,24,Indore,10000,7,Muffy,24,Indore,10000)

Gabung Batin

Inner Joindigunakan cukup sering; itu juga disebut sebagaiequijoin. Gabungan dalam mengembalikan baris ketika ada kecocokan di kedua tabel.

Ini membuat relasi baru dengan menggabungkan nilai kolom dari dua relasi (katakanlah A dan B) berdasarkan predikat gabungan. Kueri membandingkan setiap baris A dengan setiap baris B untuk menemukan semua pasangan baris yang memenuhi predikat gabungan. Jika predikat gabungan terpenuhi, nilai kolom untuk setiap pasangan baris A dan B yang cocok digabungkan menjadi baris hasil.

Sintaksis

Berikut adalah sintaks performanya inner join operasi menggunakan JOIN operator.

grunt> result = JOIN relation1 BY columnname, relation2 BY columnname;

Contoh

Mari kita tampil inner join operasi pada dua relasi customers dan orders seperti gambar dibawah.

grunt> coustomer_orders = JOIN customers BY id, orders BY customer_id;

Verifikasi

Verifikasi relasinya coustomer_orders menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grunt> Dump coustomer_orders;

Keluaran

Anda akan mendapatkan output berikut yang akan diberi nama isi relasi coustomer_orders.

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

Note -

Gabung Luar : Tidak seperti gabungan dalam,outer joinmengembalikan semua baris dari setidaknya satu relasi. Operasi sambungan luar dilakukan dengan tiga cara -

  • Gabungan luar kiri
  • Gabungan kanan luar
  • Gabungan luar penuh

Gabung Luar Kiri

Itu left outer Join operasi mengembalikan semua baris dari tabel kiri, bahkan jika tidak ada kecocokan di relasi kanan.

Sintaksis

Diberikan di bawah ini adalah sintaks melakukan left outer join operasi menggunakan JOIN operator.

grunt> Relation3_name = JOIN Relation1_name BY id LEFT OUTER, Relation2_name BY customer_id;

Contoh

Mari kita lakukan operasi gabungan luar kiri pada dua relasi pelanggan dan pesanan seperti yang ditunjukkan di bawah ini.

grunt> outer_left = JOIN customers BY id LEFT OUTER, orders BY customer_id;

Verifikasi

Verifikasi relasinya outer_left menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grunt> Dump outer_left;

Keluaran

Ini akan menghasilkan keluaran berikut, menampilkan isi relasi outer_left.

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

Gabung Luar Kanan

Itu right outer join operasi mengembalikan semua baris dari tabel kanan, bahkan jika tidak ada kecocokan di tabel kiri.

Sintaksis

Diberikan di bawah ini adalah sintaks melakukan right outer join operasi menggunakan JOIN operator.

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

Contoh

Mari kita tampil right outer join operasi pada dua relasi customers dan orders seperti gambar dibawah.

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

Verifikasi

Verifikasi relasinya outer_right menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grunt> Dump outer_right

Keluaran

Ini akan menghasilkan keluaran berikut, menampilkan isi relasi outer_right.

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

Gabung Luar Penuh

Itu full outer join operasi mengembalikan baris ketika ada kecocokan di salah satu relasi.

Sintaksis

Diberikan di bawah ini adalah sintaks melakukan full outer join menggunakan JOIN operator.

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

Contoh

Mari kita tampil full outer join operasi pada dua relasi customers dan orders seperti gambar dibawah.

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

Verifikasi

Verifikasi relasinya outer_full menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grun> Dump outer_full;

Keluaran

Ini akan menghasilkan keluaran berikut, menampilkan isi relasi outer_full.

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

Menggunakan Banyak Tombol

Kita dapat melakukan operasi JOIN menggunakan beberapa kunci.

Sintaksis

Berikut adalah bagaimana Anda dapat melakukan operasi GABUNG pada dua tabel menggunakan beberapa tombol.

grunt> Relation3_name = JOIN Relation2_name BY (key1, key2), Relation3_name BY (key1, key2);

Asumsikan kita memiliki dua file yaitu employee.txt dan employee_contact.txt dalam /pig_data/ direktori HDFS seperti yang ditunjukkan di bawah ini.

employee.txt

001,Rajiv,Reddy,21,programmer,003
002,siddarth,Battacharya,22,programmer,003
003,Rajesh,Khanna,22,programmer,003
004,Preethi,Agarwal,21,programmer,003
005,Trupthi,Mohanthy,23,programmer,003
006,Archana,Mishra,23,programmer,003
007,Komal,Nayak,24,teamlead,002
008,Bharathi,Nambiayar,24,manager,001

employee_contact.txt

001,9848022337,[email protected],Hyderabad,003
002,9848022338,[email protected],Kolkata,003
003,9848022339,[email protected],Delhi,003
004,9848022330,[email protected],Pune,003
005,9848022336,[email protected],Bhuwaneshwar,003
006,9848022335,[email protected],Chennai,003
007,9848022334,[email protected],trivendram,002
008,9848022333,[email protected],Chennai,001

Dan kami telah memuat kedua file ini ke Pig dengan hubungan employee dan employee_contact seperti gambar dibawah.

grunt> employee = LOAD 'hdfs://localhost:9000/pig_data/employee.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, designation:chararray, jobid:int);
  
grunt> employee_contact = LOAD 'hdfs://localhost:9000/pig_data/employee_contact.txt' USING PigStorage(',') 
   as (id:int, phone:chararray, email:chararray, city:chararray, jobid:int);

Sekarang, mari kita gabungkan konten dari dua relasi ini menggunakan JOIN operator seperti yang ditunjukkan di bawah ini.

grunt> emp = JOIN employee BY (id,jobid), employee_contact BY (id,jobid);

Verifikasi

Verifikasi relasinya emp menggunakan DUMP operator seperti yang ditunjukkan di bawah ini.

grunt> Dump emp;

Keluaran

Ini akan menghasilkan keluaran berikut, menampilkan isi dari relasi bernama emp seperti gambar dibawah.

(1,Rajiv,Reddy,21,programmer,113,1,9848022337,[email protected],Hyderabad,113)
(2,siddarth,Battacharya,22,programmer,113,2,9848022338,[email protected],Kolka ta,113)  
(3,Rajesh,Khanna,22,programmer,113,3,9848022339,[email protected],Delhi,113)  
(4,Preethi,Agarwal,21,programmer,113,4,9848022330,[email protected],Pune,113)  
(5,Trupthi,Mohanthy,23,programmer,113,5,9848022336,[email protected],Bhuwaneshw ar,113)  
(6,Archana,Mishra,23,programmer,113,6,9848022335,[email protected],Chennai,113)  
(7,Komal,Nayak,24,teamlead,112,7,9848022334,[email protected],trivendram,112)  
(8,Bharathi,Nambiayar,24,manager,111,8,9848022333,[email protected],Chennai,111)