Apache Pig - Instalasi

Bab ini menjelaskan cara mengunduh, menginstal, dan mengatur Apache Pig di sistem Anda.

Prasyarat

Sangat penting bahwa Anda memiliki Hadoop dan Java yang diinstal di sistem Anda sebelum Anda menggunakan Apache Pig. Oleh karena itu, sebelum menginstal Apache Pig, instal Hadoop dan Java dengan mengikuti langkah-langkah yang diberikan di tautan berikut -

http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

Unduh Apache Pig

Pertama-tama, unduh Apache Pig versi terbaru dari situs web berikut - https://pig.apache.org/

Langkah 1

Buka beranda situs web Apache Pig. Di bawah bagianNews, klik pada link release page seperti yang ditunjukkan pada snapshot berikut.

Langkah 2

Saat mengklik tautan yang ditentukan, Anda akan diarahkan ke Apache Pig Releaseshalaman. Di halaman ini, di bawahDownload bagian, Anda akan memiliki dua tautan, yaitu, Pig 0.8 and later dan Pig 0.7 and before. Klik pada linkPig 0.8 and later, maka Anda akan diarahkan ke halaman yang memiliki satu set mirror.

LANGKAH 3

Pilih dan klik salah satu cermin ini seperti yang ditunjukkan di bawah ini.

LANGKAH 4

Cermin ini akan membawa Anda ke Pig Releaseshalaman. Halaman ini berisi berbagai versi Apache Pig. Klik versi terbaru di antara mereka.

LANGKAH 5

Di dalam folder ini, Anda akan memiliki file sumber dan biner Apache Pig di berbagai distribusi. Unduh file tar dari file sumber dan biner Apache Pig 0.15,pig0.15.0-src.tar.gz dan pig-0.15.0.tar.gz.

Pasang Apache Pig

Setelah mengunduh perangkat lunak Apache Pig, instal di lingkungan Linux Anda dengan mengikuti langkah-langkah yang diberikan di bawah ini.

Langkah 1

Buat direktori dengan nama Pig di direktori yang sama tempat direktori instalasi Hadoop, Java,dan perangkat lunak lain telah diinstal. (Dalam tutorial kami, kami telah membuat direktori Pig di pengguna bernama Hadoop).

$ mkdir Pig

Langkah 2

Ekstrak file tar yang diunduh seperti yang ditunjukkan di bawah ini.

$ cd Downloads/ 
$ tar zxvf pig-0.15.0-src.tar.gz 
$ tar zxvf pig-0.15.0.tar.gz

LANGKAH 3

Pindahkan konten pig-0.15.0-src.tar.gz file ke Pig direktori yang dibuat sebelumnya seperti yang ditunjukkan di bawah ini.

$ mv pig-0.15.0-src.tar.gz/* /home/Hadoop/Pig/

Konfigurasikan Apache Pig

Setelah menginstal Apache Pig, kita harus mengkonfigurasinya. Untuk mengkonfigurasi, kita perlu mengedit dua file -bashrc and pig.properties.

file .bashrc

Dalam .bashrc file, atur variabel berikut -

  • PIG_HOME folder ke folder instalasi Apache Pig,

  • PATH variabel lingkungan ke folder bin, dan

  • PIG_CLASSPATH variabel lingkungan ke folder etc (konfigurasi) dari instalasi Hadoop Anda (direktori yang berisi file core-site.xml, hdfs-site.xml dan mapred-site.xml).

export PIG_HOME = /home/Hadoop/Pig
export PATH  = $PATH:/home/Hadoop/pig/bin
export PIG_CLASSPATH = $HADOOP_HOME/conf

pig.properties file

Dalam conf folder Pig, kami memiliki file bernama pig.properties. Di file pig.properties, Anda dapat mengatur berbagai parameter seperti yang diberikan di bawah ini.

pig -h properties

Properti berikut ini didukung -

Logging: verbose = true|false; default is false. This property is the same as -v
       switch brief=true|false; default is false. This property is the same 
       as -b switch debug=OFF|ERROR|WARN|INFO|DEBUG; default is INFO.             
       This property is the same as -d switch aggregate.warning = true|false; default is true. 
       If true, prints count of warnings of each type rather than logging each warning.		 
		 
Performance tuning: pig.cachedbag.memusage=<mem fraction>; default is 0.2 (20% of all memory).
       Note that this memory is shared across all large bags used by the application.         
       pig.skewedjoin.reduce.memusagea=<mem fraction>; default is 0.3 (30% of all memory).
       Specifies the fraction of heap available for the reducer to perform the join.
       pig.exec.nocombiner = true|false; default is false.
           Only disable combiner as a temporary workaround for problems.         
       opt.multiquery = true|false; multiquery is on by default.
           Only disable multiquery as a temporary workaround for problems.
       opt.fetch=true|false; fetch is on by default.
           Scripts containing Filter, Foreach, Limit, Stream, and Union can be dumped without MR jobs.         
       pig.tmpfilecompression = true|false; compression is off by default.             
           Determines whether output of intermediate jobs is compressed.         
       pig.tmpfilecompression.codec = lzo|gzip; default is gzip.
           Used in conjunction with pig.tmpfilecompression. Defines compression type.         
       pig.noSplitCombination = true|false. Split combination is on by default.
           Determines if multiple small files are combined into a single map.         
			  
       pig.exec.mapPartAgg = true|false. Default is false.             
           Determines if partial aggregation is done within map phase, before records are sent to combiner.         
       pig.exec.mapPartAgg.minReduction=<min aggregation factor>. Default is 10.             
           If the in-map partial aggregation does not reduce the output num records by this factor, it gets disabled.
			  
Miscellaneous: exectype = mapreduce|tez|local; default is mapreduce. This property is the same as -x switch
       pig.additional.jars.uris=<comma seperated list of jars>. Used in place of register command.
       udf.import.list=<comma seperated list of imports>. Used to avoid package names in UDF.
       stop.on.failure = true|false; default is false. Set to true to terminate on the first error.         
       pig.datetime.default.tz=<UTC time offset>. e.g. +08:00. Default is the default timezone of the host.
           Determines the timezone used to handle datetime datatype and UDFs.
Additionally, any Hadoop property can be specified.

Memverifikasi Instalasi

Verifikasi instalasi Apache Pig dengan mengetikkan perintah versi. Jika proses instalasi berhasil, Anda akan mendapatkan versi Apache Pig seperti gambar di bawah ini.

$ pig –version 
 
Apache Pig version 0.15.0 (r1682971)  
compiled Jun 01 2015, 11:44:35