Apache Pig - Cài đặt

Chương này giải thích cách tải xuống, cài đặt và thiết lập Apache Pig trong hệ thống của bạn.

Điều kiện tiên quyết

Điều cần thiết là bạn phải cài đặt Hadoop và Java trên hệ thống của mình trước khi sử dụng Apache Pig. Do đó, trước khi cài đặt Apache Pig, hãy cài đặt Hadoop và Java bằng cách làm theo các bước được cung cấp trong liên kết sau:

http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

Tải xuống Apache Pig

Trước hết, hãy tải xuống phiên bản mới nhất của Apache Pig từ trang web sau: https://pig.apache.org/

Bước 1

Mở trang chủ của trang web Apache Pig. Dưới phầnNews, Nhấp vào đường dẫn release page như thể hiện trong ảnh chụp nhanh sau đây.

Bước 2

Khi nhấp vào liên kết được chỉ định, bạn sẽ được chuyển hướng đến Apache Pig Releasestrang. Trên trang này, dướiDownload , bạn sẽ có hai liên kết, cụ thể là Pig 0.8 and laterPig 0.7 and before. Nhấp vào đường dẫnPig 0.8 and later, sau đó bạn sẽ được chuyển hướng đến trang có một bộ gương.

Bước 3

Chọn và nhấp vào bất kỳ một trong những gương này như hình dưới đây.

Bước 4

Những tấm gương này sẽ đưa bạn đến Pig Releasestrang. Trang này chứa nhiều phiên bản khác nhau của Apache Pig. Nhấp vào phiên bản mới nhất trong số đó.

Bước 5

Trong các thư mục này, bạn sẽ có các tệp nguồn và tệp nhị phân của Apache Pig trong các bản phân phối khác nhau. Tải xuống tệp tar của nguồn và tệp nhị phân của Apache Pig 0.15,pig0.15.0-src.tar.gzpig-0.15.0.tar.gz.

Cài đặt Apache Pig

Sau khi tải xuống phần mềm Apache Pig, hãy cài đặt nó trong môi trường Linux của bạn bằng cách làm theo các bước dưới đây.

Bước 1

Tạo một thư mục có tên Pig trong cùng một thư mục chứa các thư mục cài đặt của Hadoop, Java,và phần mềm khác đã được cài đặt. (Trong hướng dẫn của chúng tôi, chúng tôi đã tạo thư mục Pig trong người dùng có tên Hadoop).

$ mkdir Pig

Bước 2

Giải nén các tệp tar đã tải xuống như hình dưới đây.

$ cd Downloads/ 
$ tar zxvf pig-0.15.0-src.tar.gz 
$ tar zxvf pig-0.15.0.tar.gz

Bước 3

Di chuyển nội dung của pig-0.15.0-src.tar.gz nộp vào Pig thư mục đã tạo trước đó như hình dưới đây.

$ mv pig-0.15.0-src.tar.gz/* /home/Hadoop/Pig/

Định cấu hình Apache Pig

Sau khi cài đặt Apache Pig, chúng ta phải cấu hình nó. Để cấu hình, chúng tôi cần chỉnh sửa hai tệp -bashrc and pig.properties.

tệp .bashrc

bên trong .bashrc tập tin, đặt các biến sau:

  • PIG_HOME vào thư mục cài đặt của Apache Pig,

  • PATH biến môi trường vào thư mục bin và

  • PIG_CLASSPATH biến môi trường thành thư mục vv (cấu hình) trong các bản cài đặt Hadoop của bạn (thư mục chứa các tệp core-site.xml, hdfs-site.xml và mapred-site.xml).

export PIG_HOME = /home/Hadoop/Pig
export PATH  = $PATH:/home/Hadoop/pig/bin
export PIG_CLASSPATH = $HADOOP_HOME/conf

tệp pig.properties

bên trong conf thư mục Pig, chúng tôi có một tệp tên pig.properties. Trong tệp pig.properties, bạn có thể đặt các thông số khác nhau như được cung cấp bên dưới.

pig -h properties

Các thuộc tính sau được hỗ trợ:

Logging: verbose = true|false; default is false. This property is the same as -v
       switch brief=true|false; default is false. This property is the same 
       as -b switch debug=OFF|ERROR|WARN|INFO|DEBUG; default is INFO.             
       This property is the same as -d switch aggregate.warning = true|false; default is true. 
       If true, prints count of warnings of each type rather than logging each warning.		 
		 
Performance tuning: pig.cachedbag.memusage=<mem fraction>; default is 0.2 (20% of all memory).
       Note that this memory is shared across all large bags used by the application.         
       pig.skewedjoin.reduce.memusagea=<mem fraction>; default is 0.3 (30% of all memory).
       Specifies the fraction of heap available for the reducer to perform the join.
       pig.exec.nocombiner = true|false; default is false.
           Only disable combiner as a temporary workaround for problems.         
       opt.multiquery = true|false; multiquery is on by default.
           Only disable multiquery as a temporary workaround for problems.
       opt.fetch=true|false; fetch is on by default.
           Scripts containing Filter, Foreach, Limit, Stream, and Union can be dumped without MR jobs.         
       pig.tmpfilecompression = true|false; compression is off by default.             
           Determines whether output of intermediate jobs is compressed.         
       pig.tmpfilecompression.codec = lzo|gzip; default is gzip.
           Used in conjunction with pig.tmpfilecompression. Defines compression type.         
       pig.noSplitCombination = true|false. Split combination is on by default.
           Determines if multiple small files are combined into a single map.         
			  
       pig.exec.mapPartAgg = true|false. Default is false.             
           Determines if partial aggregation is done within map phase, before records are sent to combiner.         
       pig.exec.mapPartAgg.minReduction=<min aggregation factor>. Default is 10.             
           If the in-map partial aggregation does not reduce the output num records by this factor, it gets disabled.
			  
Miscellaneous: exectype = mapreduce|tez|local; default is mapreduce. This property is the same as -x switch
       pig.additional.jars.uris=<comma seperated list of jars>. Used in place of register command.
       udf.import.list=<comma seperated list of imports>. Used to avoid package names in UDF.
       stop.on.failure = true|false; default is false. Set to true to terminate on the first error.         
       pig.datetime.default.tz=<UTC time offset>. e.g. +08:00. Default is the default timezone of the host.
           Determines the timezone used to handle datetime datatype and UDFs.
Additionally, any Hadoop property can be specified.

Xác minh cài đặt

Xác minh việc cài đặt Apache Pig bằng cách gõ lệnh phiên bản. Nếu cài đặt thành công, bạn sẽ nhận được phiên bản Apache Pig như hình bên dưới.

$ pig –version 
 
Apache Pig version 0.15.0 (r1682971)  
compiled Jun 01 2015, 11:44:35