Pig Latin - Dasar-dasar

Pig Latin adalah bahasa yang digunakan untuk menganalisis data di Hadoop menggunakan Apache Pig. Dalam bab ini, kita akan membahas dasar-dasar Pig Latin seperti pernyataan Pig Latin, tipe data, operator umum dan relasional, dan UDF Pig Latin.

Pig Latin - Model Data

Seperti yang dibahas di bab sebelumnya, model data Pig sepenuhnya bersarang. SEBUAHRelationadalah struktur terluar dari model data Pig Latin. Dan itu adalah abag dimana -

  • Tas adalah koleksi tupel.
  • Tupel adalah kumpulan bidang yang terurut.
  • Bidang adalah sepotong data.

Pig Latin - Statemets

Sedangkan pengolahan data menggunakan Pig Latin, statements adalah konstruksi dasar.

  • Pernyataan ini bekerja dengan relations. Mereka termasukexpressions dan schemas.

  • Setiap pernyataan diakhiri dengan titik koma (;).

  • Kami akan melakukan berbagai operasi menggunakan operator yang disediakan oleh Pig Latin, melalui pernyataan.

  • Kecuali LOAD dan STORE, saat melakukan semua operasi lainnya, pernyataan Pig Latin mengambil relasi sebagai masukan dan menghasilkan relasi lain sebagai keluaran.

  • Segera setelah Anda memasukkan file Loadpernyataan di shell Grunt, pemeriksaan semantiknya akan dilakukan. Untuk melihat konten skema, Anda perlu menggunakanDumpoperator. Hanya setelah melakukandump operasi, pekerjaan MapReduce untuk memuat data ke dalam sistem file akan dilakukan.

Contoh

Diberikan di bawah ini adalah pernyataan Pig Latin, yang memuat data ke Apache Pig.

grunt> Student_data = LOAD 'student_data.txt' USING PigStorage(',')as 
   ( id:int, firstname:chararray, lastname:chararray, phone:chararray, city:chararray );

Pig Latin - Tipe data

Diberikan di bawah tabel menjelaskan tipe data Pig Latin.

SN Tipe data Deskripsi & Contoh
1 int

Merepresentasikan integer 32-bit yang ditandatangani.

Example : 8

2 panjang

Merepresentasikan integer 64-bit yang ditandatangani.

Example : 5L

3 mengapung

Merepresentasikan floating point 32-bit yang ditandatangani.

Example : 5.5F

4 dua kali lipat

Merepresentasikan floating point 64-bit.

Example : 10.5

5 chararray

Merepresentasikan larik karakter (string) dalam format Unicode UTF-8.

Example : 'titik tutorial'

6 Bytearray

Merepresentasikan larik Byte (blob).

7 Boolean

Merepresentasikan nilai Boolean.

Example : benar salah.

8 Tanggal Waktu

Merupakan tanggal-waktu.

Example : 1970-01-01T00: 00: 00.000 + 00: 00

9 Biginteger

Merepresentasikan Java BigInteger.

Example : 60708090709

10 Desimal besar

Merepresentasikan Java BigDecimal

Example : 185.98376256272893883

Jenis Kompleks
11 Tuple

Tupel adalah kumpulan bidang yang terurut.

Example : (raja, 30)

12 Tas

Tas adalah koleksi tupel.

Example : {(raju, 30), (Mohhammad, 45)}

13 Peta

Peta adalah sekumpulan pasangan nilai-kunci.

Example : ['name' # 'Raju', 'age' # 30]

Nilai Null

Nilai untuk semua tipe data di atas bisa NULL. Apache Pig memperlakukan nilai null dengan cara yang sama seperti SQL.

Nol bisa menjadi nilai yang tidak diketahui atau nilai yang tidak ada. Ini digunakan sebagai placeholder untuk nilai opsional. Nol ini dapat terjadi secara alami atau dapat menjadi hasil dari suatu operasi.

Pig Latin - Operator Aritmatika

Tabel berikut menjelaskan operator aritmatika Pig Latin. Misalkan a = 10 dan b = 20.

Operator Deskripsi Contoh
+

Addition - Menambahkan nilai di kedua sisi operator

a + b akan menghasilkan 30
-

Subtraction - Mengurangi operan tangan kanan dari operan tangan kiri

a - b akan menghasilkan −10
*

Multiplication - Mengalikan nilai di kedua sisi operator

a * b akan memberi 200
/

Division - Membagi operan tangan kiri dengan operan tangan kanan

b / a akan memberi 2
%

Modulus - Membagi operan tangan kiri dengan operan tangan kanan dan mengembalikan sisanya

b% a akan memberi 0
? :

Bincond- Mengevaluasi operator Boolean. Ini memiliki tiga operan seperti yang ditunjukkan di bawah ini.

variabel x = (ekspresi)? value1 jika benar :value2 jika salah .

b = (a == 1)? 20:30;

jika a = 1 nilai b adalah 20.

jika a! = 1 nilai b adalah 30.

KASUS

KAPAN

KEMUDIAN

SELESAI AKHIR

Case - Operator case setara dengan operator bincond bersarang.

KASUS f2% 2

KAPAN 0 LALU 'genap'

KETIKA 1 LALU 'ganjil'

AKHIR

Pig Latin - Operator Pembanding

Tabel berikut menjelaskan operator perbandingan Pig Latin.

Operator Deskripsi Contoh
==

Equal- Memeriksa apakah nilai dari dua operan sama atau tidak; jika ya, maka kondisinya menjadi benar.

(a = b) tidak benar
! =

Not Equal- Memeriksa apakah nilai dari dua operan sama atau tidak. Jika nilainya tidak sama, maka kondisi menjadi benar.

(a! = b) benar.
>

Greater than- Memeriksa apakah nilai operan kiri lebih besar dari nilai operan kanan. Jika ya, maka kondisinya menjadi benar.

(a> b) tidak benar.
<

Less than- Memeriksa apakah nilai operan kiri kurang dari nilai operan kanan. Jika ya, maka kondisinya menjadi benar.

(a <b) benar.
> =

Greater than or equal to- Memeriksa apakah nilai operan kiri lebih besar dari atau sama dengan nilai operan kanan. Jika ya, maka kondisinya menjadi benar.

(a> = b) tidak benar.
<=

Less than or equal to- Memeriksa apakah nilai operan kiri kurang dari atau sama dengan nilai operan kanan. Jika ya, maka kondisinya menjadi benar.

(a <= b) benar.
korek api

Pattern matching - Memeriksa apakah senar di sisi kiri cocok dengan konstanta di sisi kanan.

f1 cocok dengan '. * tutorial. *'

Pig Latin - Operator Konstruksi Tipe

Tabel berikut menjelaskan operator konstruksi Jenis Pig Latin.

Operator Deskripsi Contoh
()

Tuple constructor operator - Operator ini digunakan untuk membuat tupel.

(Raju, 30)
{}

Bag constructor operator - Operator ini biasa membuat tas.

{(Raju, 30), (Mohammad, 45)}
[]

Map constructor operator - Operator ini digunakan untuk membuat tupel.

[nama # Raja, usia # 30]

Pig Latin - Operasi Relasional

Tabel berikut menjelaskan operator relasional Pig Latin.

Operator Deskripsi
Loading and Storing
BEBAN Memuat data dari sistem file (lokal / HDFS) ke dalam relasi.
TOKO Untuk menyimpan relasi ke sistem file (lokal / HDFS).
Penyaringan
SARING Untuk menghapus baris yang tidak diinginkan dari suatu relasi.
BERBEDA Untuk menghapus baris duplikat dari suatu relasi.
FOREACH, BUAT Untuk menghasilkan transformasi data berdasarkan kolom data.
ALIRAN Untuk mengubah relasi menggunakan program eksternal.
Pengelompokan dan Bergabung
IKUTI Untuk menggabungkan dua atau lebih relasi.
KELOMPOK Untuk mengelompokkan data dalam dua atau lebih relasi.
KELOMPOK Untuk mengelompokkan data dalam satu relasi.
MENYEBERANG Untuk membuat produk silang dari dua atau lebih relasi.
Penyortiran
MEMESAN Untuk menyusun relasi dalam urutan yang diurutkan berdasarkan satu atau beberapa bidang (naik atau turun).
MEMBATASI Untuk mendapatkan sejumlah tupel dari suatu relasi.
Menggabungkan dan Memisahkan
PERSATUAN Untuk menggabungkan dua atau lebih relasi menjadi satu relasi.
MEMBAGI Untuk membagi satu relasi menjadi dua atau lebih relasi.
Operator Diagnostik
MEMBUANG Untuk mencetak konten relasi di konsol.
MENGGAMBARKAN Untuk mendeskripsikan skema relasi.
MENJELASKAN Untuk melihat rencana eksekusi logis, fisik, atau MapReduce untuk menghitung relasi.
MENJELASKAN Untuk melihat eksekusi langkah demi langkah dari serangkaian pernyataan.