Apache Pig - Membaca Data

Secara umum, Apache Pig bekerja di atas Hadoop. Ini adalah alat analisis yang menganalisis kumpulan data besar yang ada diHadoop File System. Untuk menganalisis data menggunakan Apache Pig, pertama-tama kita harus memuat data ke Apache Pig. Bab ini menjelaskan cara memuat data ke Apache Pig dari HDFS.

Mempersiapkan HDFS

Dalam mode MapReduce, Pig membaca (memuat) data dari HDFS dan menyimpan kembali hasilnya dalam HDFS. Oleh karena itu, mari kita mulai HDFS dan membuat contoh data berikut dalam HDFS.

Identitas Siswa Nama depan Nama keluarga Telepon Kota
001 Rajiv Reddy 9848022337 Hyderabad
002 siddarth Battacharya 9848022338 Kolkata
003 Rajesh Khanna 9848022339 Delhi
004 Preethi Agarwal 9848022330 Pune
005 Trupthi Mohanthy 9848022336 Bhuwaneshwar
006 Archana Mishra 9848022335 Chennai

Dataset di atas berisi detail pribadi seperti id, nama depan, nama belakang, nomor telepon dan kota, dari enam siswa.

Langkah 1: Memverifikasi Hadoop

Pertama-tama, verifikasi instalasi menggunakan perintah versi Hadoop, seperti yang ditunjukkan di bawah ini.

$ hadoop version

Jika sistem Anda berisi Hadoop, dan jika Anda telah mengatur variabel PATH, maka Anda akan mendapatkan output berikut -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar

Langkah 2: Memulai HDFS

Jelajahi sbin direktori Hadoop dan mulai yarn dan Hadoop dfs (sistem file terdistribusi) seperti yang ditunjukkan di bawah ini.

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
 
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out

Langkah 3: Buat Direktori di HDFS

Di Hadoop DFS, Anda dapat membuat direktori menggunakan perintah mkdir. Buat direktori baru di HDFS dengan namaPig_Data di jalur yang diperlukan seperti yang ditunjukkan di bawah ini.

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data

Langkah 4: Menempatkan data di HDFS

File input Pig berisi setiap tuple / record dalam baris individual. Dan entitas rekaman dipisahkan oleh pembatas (Dalam contoh kami, kami menggunakan“,”).

Di sistem file lokal, buat file input student_data.txt berisi data seperti gambar di bawah ini.

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

Sekarang, pindahkan file dari sistem file lokal ke HDFS menggunakan putperintah seperti yang ditunjukkan di bawah ini. (Kamu dapat memakaicopyFromLocal perintah juga.)

$ cd $HADOOP_HOME/bin 
$ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/

Memverifikasi file

Anda bisa menggunakan cat perintah untuk memverifikasi apakah file telah dipindahkan ke HDFS, seperti yang ditunjukkan di bawah ini.

$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt

Keluaran

Anda dapat melihat isi file seperti gambar di bawah ini.

15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
  
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai

Operator Beban

Anda dapat memuat data ke Apache Pig dari sistem file (HDFS / Lokal) menggunakan LOAD operator dari Pig Latin.

Sintaksis

Pernyataan beban terdiri dari dua bagian yang dibagi dengan operator “=”. Di sisi kiri, kita perlu menyebutkan nama relasinyawhere kami ingin menyimpan data, dan di sisi kanan, kami harus mendefinisikan howkami menyimpan data. Diberikan di bawah ini adalah sintaks dariLoad operator.

Relation_name = LOAD 'Input file path' USING function as schema;

Dimana,

  • relation_name - Kami harus menyebutkan relasi tempat kami ingin menyimpan data.

  • Input file path- Kami harus menyebutkan direktori HDFS tempat file disimpan. (Dalam mode MapReduce)

  • function - Kita harus memilih fungsi dari kumpulan fungsi beban yang disediakan oleh Apache Pig (BinStorage, JsonLoader, PigStorage, TextLoader).

  • Schema- Kami harus menentukan skema data. Kami dapat menentukan skema yang diperlukan sebagai berikut -

(column1 : data type, column2 : data type, column3 : data type);

Note- Kami memuat data tanpa menentukan skema. Dalam hal ini, kolom akan dialamatkan sebagai $ 01, $ 02, dll… (centang).

Contoh

Sebagai contoh, mari kita muat datanya student_data.txt di Pig di bawah skema bernama Student menggunakan LOAD perintah.

Mulai Pig Grunt Shell

Pertama-tama, buka terminal Linux. Mulai shell Pig Grunt dalam mode MapReduce seperti yang ditunjukkan di bawah ini.

$ Pig –x mapreduce

Ini akan memulai shell Pig Grunt seperti yang ditunjukkan di bawah ini.

15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType

2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
  
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
 
grunt>

Jalankan Pernyataan Beban

Sekarang muat data dari file student_data.txt menjadi Pig dengan menjalankan pernyataan Pig Latin berikut di shell Grunt.

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

Berikut adalah uraian dari pernyataan di atas.

Nama relasi Kami telah menyimpan data dalam skema student.
Jalur file masukan Kami membaca data dari file student_data.txt, yang ada di direktori / pig_data / dari HDFS.
Fungsi penyimpanan Kami telah menggunakan PigStorage()fungsi. Ini memuat dan menyimpan data sebagai file teks terstruktur. Dibutuhkan pembatas yang digunakan setiap entitas tupel dipisahkan, sebagai parameter. Secara default, ini mengambil '\ t' sebagai parameter.
skema

Kami telah menyimpan data menggunakan skema berikut.

kolom Indo nama depan nama keluarga telepon kota
tipe data int array karakter array karakter array karakter array karakter

Note - Itu loadpernyataan hanya akan memuat data ke dalam relasi yang ditentukan di Pig. Untuk memverifikasi eksekusi fileLoad pernyataan, Anda harus menggunakan Diagnostic Operators yang dibahas di bab selanjutnya.