Apache Pig - Membaca Data
Secara umum, Apache Pig bekerja di atas Hadoop. Ini adalah alat analisis yang menganalisis kumpulan data besar yang ada diHadoop File System. Untuk menganalisis data menggunakan Apache Pig, pertama-tama kita harus memuat data ke Apache Pig. Bab ini menjelaskan cara memuat data ke Apache Pig dari HDFS.
Mempersiapkan HDFS
Dalam mode MapReduce, Pig membaca (memuat) data dari HDFS dan menyimpan kembali hasilnya dalam HDFS. Oleh karena itu, mari kita mulai HDFS dan membuat contoh data berikut dalam HDFS.
Identitas Siswa | Nama depan | Nama keluarga | Telepon | Kota |
---|---|---|---|---|
001 | Rajiv | Reddy | 9848022337 | Hyderabad |
002 | siddarth | Battacharya | 9848022338 | Kolkata |
003 | Rajesh | Khanna | 9848022339 | Delhi |
004 | Preethi | Agarwal | 9848022330 | Pune |
005 | Trupthi | Mohanthy | 9848022336 | Bhuwaneshwar |
006 | Archana | Mishra | 9848022335 | Chennai |
Dataset di atas berisi detail pribadi seperti id, nama depan, nama belakang, nomor telepon dan kota, dari enam siswa.
Langkah 1: Memverifikasi Hadoop
Pertama-tama, verifikasi instalasi menggunakan perintah versi Hadoop, seperti yang ditunjukkan di bawah ini.
$ hadoop version
Jika sistem Anda berisi Hadoop, dan jika Anda telah mengatur variabel PATH, maka Anda akan mendapatkan output berikut -
Hadoop 2.6.0
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar
Langkah 2: Memulai HDFS
Jelajahi sbin direktori Hadoop dan mulai yarn dan Hadoop dfs (sistem file terdistribusi) seperti yang ditunjukkan di bawah ini.
cd /$Hadoop_Home/sbin/
$ start-dfs.sh
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out
Starting secondary namenodes [0.0.0.0]
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out
Langkah 3: Buat Direktori di HDFS
Di Hadoop DFS, Anda dapat membuat direktori menggunakan perintah mkdir. Buat direktori baru di HDFS dengan namaPig_Data di jalur yang diperlukan seperti yang ditunjukkan di bawah ini.
$cd /$Hadoop_Home/bin/
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data
Langkah 4: Menempatkan data di HDFS
File input Pig berisi setiap tuple / record dalam baris individual. Dan entitas rekaman dipisahkan oleh pembatas (Dalam contoh kami, kami menggunakan“,”).
Di sistem file lokal, buat file input student_data.txt berisi data seperti gambar di bawah ini.
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.
Sekarang, pindahkan file dari sistem file lokal ke HDFS menggunakan putperintah seperti yang ditunjukkan di bawah ini. (Kamu dapat memakaicopyFromLocal perintah juga.)
$ cd $HADOOP_HOME/bin
$ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/
Memverifikasi file
Anda bisa menggunakan cat perintah untuk memverifikasi apakah file telah dipindahkan ke HDFS, seperti yang ditunjukkan di bawah ini.
$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt
Keluaran
Anda dapat melihat isi file seperti gambar di bawah ini.
15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai
Operator Beban
Anda dapat memuat data ke Apache Pig dari sistem file (HDFS / Lokal) menggunakan LOAD operator dari Pig Latin.
Sintaksis
Pernyataan beban terdiri dari dua bagian yang dibagi dengan operator “=”. Di sisi kiri, kita perlu menyebutkan nama relasinyawhere kami ingin menyimpan data, dan di sisi kanan, kami harus mendefinisikan howkami menyimpan data. Diberikan di bawah ini adalah sintaks dariLoad operator.
Relation_name = LOAD 'Input file path' USING function as schema;
Dimana,
relation_name - Kami harus menyebutkan relasi tempat kami ingin menyimpan data.
Input file path- Kami harus menyebutkan direktori HDFS tempat file disimpan. (Dalam mode MapReduce)
function - Kita harus memilih fungsi dari kumpulan fungsi beban yang disediakan oleh Apache Pig (BinStorage, JsonLoader, PigStorage, TextLoader).
Schema- Kami harus menentukan skema data. Kami dapat menentukan skema yang diperlukan sebagai berikut -
(column1 : data type, column2 : data type, column3 : data type);
Note- Kami memuat data tanpa menentukan skema. Dalam hal ini, kolom akan dialamatkan sebagai $ 01, $ 02, dll… (centang).
Contoh
Sebagai contoh, mari kita muat datanya student_data.txt di Pig di bawah skema bernama Student menggunakan LOAD perintah.
Mulai Pig Grunt Shell
Pertama-tama, buka terminal Linux. Mulai shell Pig Grunt dalam mode MapReduce seperti yang ditunjukkan di bawah ini.
$ Pig –x mapreduce
Ini akan memulai shell Pig Grunt seperti yang ditunjukkan di bawah ini.
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType
2015-10-01 12:33:38,080 [main] INFO org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
grunt>
Jalankan Pernyataan Beban
Sekarang muat data dari file student_data.txt menjadi Pig dengan menjalankan pernyataan Pig Latin berikut di shell Grunt.
grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt'
USING PigStorage(',')
as ( id:int, firstname:chararray, lastname:chararray, phone:chararray,
city:chararray );
Berikut adalah uraian dari pernyataan di atas.
Nama relasi | Kami telah menyimpan data dalam skema student. | ||||||||||||
Jalur file masukan | Kami membaca data dari file student_data.txt, yang ada di direktori / pig_data / dari HDFS. | ||||||||||||
Fungsi penyimpanan | Kami telah menggunakan PigStorage()fungsi. Ini memuat dan menyimpan data sebagai file teks terstruktur. Dibutuhkan pembatas yang digunakan setiap entitas tupel dipisahkan, sebagai parameter. Secara default, ini mengambil '\ t' sebagai parameter. | ||||||||||||
skema | Kami telah menyimpan data menggunakan skema berikut.
|
Note - Itu loadpernyataan hanya akan memuat data ke dalam relasi yang ditentukan di Pig. Untuk memverifikasi eksekusi fileLoad pernyataan, Anda harus menggunakan Diagnostic Operators yang dibahas di bab selanjutnya.