HCatalog - Loader & Storer
Itu HCatLoader dan HCatStorerAPI digunakan dengan skrip Pig untuk membaca dan menulis data dalam tabel yang dikelola HCatalog. Tidak ada penyiapan khusus HCatalog yang diperlukan untuk antarmuka ini.
Lebih baik memiliki pengetahuan tentang skrip Apache Pig untuk memahami bab ini dengan lebih baik. Untuk referensi lebih lanjut, silakan lihat tutorial Apache Pig kami .
HCatloader
HCatLoader digunakan dengan skrip Pig untuk membaca data dari tabel yang dikelola HCatalog. Gunakan sintaks berikut untuk memuat data ke HDFS menggunakan HCatloader.
A = LOAD 'tablename' USING org.apache.HCatalog.pig.HCatLoader();
Anda harus menentukan nama tabel dalam tanda kutip tunggal: LOAD 'tablename'. Jika Anda menggunakan database non-default, maka Anda harus menentukan input Anda sebagai 'dbname.tablename'.
Metastore Hive memungkinkan Anda membuat tabel tanpa menentukan database. Jika Anda membuat tabel dengan cara ini, maka nama database-nya adalah'default' dan tidak diperlukan saat menentukan tabel untuk HCatLoader.
Tabel berikut berisi metode dan deskripsi penting dari kelas HCatloader.
Sr.No. | Nama Metode & Deskripsi |
---|---|
1 | public InputFormat<?,?> getInputFormat()throws IOException Baca format input dari data pemuatan menggunakan kelas HCatloader. |
2 | public String relativeToAbsolutePath(String location, Path curDir) throws IOException Ini mengembalikan format String dari Absolute path. |
3 | public void setLocation(String location, Job job) throws IOException Ini mengatur lokasi di mana pekerjaan dapat dijalankan. |
4 | public Tuple getNext() throws IOException Mengembalikan tupel saat ini (key dan value) dari loop. |
HCatStorer
HCatStorer digunakan dengan skrip Pig untuk menulis data ke tabel yang dikelola HCatalog. Gunakan sintaks berikut untuk operasi Penyimpanan.
A = LOAD ...
B = FOREACH A ...
...
...
my_processed_data = ...
STORE my_processed_data INTO 'tablename' USING org.apache.HCatalog.pig.HCatStorer();
Anda harus menentukan nama tabel dalam tanda kutip tunggal: LOAD 'tablename'. Baik database dan tabel harus dibuat sebelum menjalankan skrip Pig Anda. Jika Anda menggunakan database non-default, maka Anda harus menentukan input Anda sebagai'dbname.tablename'.
Metastore Hive memungkinkan Anda membuat tabel tanpa menentukan database. Jika Anda membuat tabel dengan cara ini, maka nama database-nya adalah'default' dan Anda tidak perlu menentukan nama database di store pernyataan.
Untuk USINGklausa, Anda dapat memiliki argumen string yang mewakili pasangan kunci / nilai untuk partisi. Ini adalah argumen wajib saat Anda menulis ke tabel yang dipartisi dan kolom partisi tidak ada di kolom keluaran. Nilai untuk kunci partisi TIDAK boleh dikutip.
Tabel berikut berisi metode dan deskripsi penting dari kelas HCatStorer.
Sr.No. | Nama Metode & Deskripsi |
---|---|
1 | public OutputFormat getOutputFormat() throws IOException Baca format keluaran dari data yang disimpan menggunakan kelas HCatStorer. |
2 | public void setStoreLocation (String location, Job job) throws IOException Setel lokasi untuk melaksanakan ini store aplikasi. |
3 | public void storeSchema (ResourceSchema schema, String arg1, Job job) throws IOException Simpan skema. |
4 | public void prepareToWrite (RecordWriter writer) throws IOException Ini membantu untuk menulis data ke dalam file tertentu menggunakan RecordWriter. |
5 | public void putNext (Tuple tuple) throws IOException Menulis data tuple ke dalam file. |
Menjalankan Pig dengan HCatalog
Pig tidak secara otomatis mengambil stoples HCatalog. Untuk memasukkan toples yang diperlukan, Anda bisa menggunakan flag di perintah Pig atau menyetel variabel lingkunganPIG_CLASSPATH dan PIG_OPTS seperti yang dijelaskan di bawah ini.
Untuk membawa toples yang sesuai untuk bekerja dengan HCatalog, cukup sertakan bendera berikut -
pig –useHCatalog <Sample pig scripts file>
Mengatur CLASSPATH untuk Eksekusi
Gunakan pengaturan CLASSPATH berikut untuk menyinkronkan HCatalog dengan Apache Pig.
export HADOOP_HOME = <path_to_hadoop_install>
export HIVE_HOME = <path_to_hive_install>
export HCAT_HOME = <path_to_hcat_install>
export PIG_CLASSPATH = $HCAT_HOME/share/HCatalog/HCatalog-core*.jar:\
$HCAT_HOME/share/HCatalog/HCatalog-pig-adapter*.jar:\
$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\
$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\
$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/conf:$HADOOP_HOME/conf:\
$HIVE_HOME/lib/slf4j-api-*.jar
Contoh
Asumsikan kita memiliki file student_details.txt dalam HDFS dengan konten berikut.
student_details.txt
001, Rajiv, Reddy, 21, 9848022337, Hyderabad
002, siddarth, Battacharya, 22, 9848022338, Kolkata
003, Rajesh, Khanna, 22, 9848022339, Delhi
004, Preethi, Agarwal, 21, 9848022330, Pune
005, Trupthi, Mohanthy, 23, 9848022336, Bhuwaneshwar
006, Archana, Mishra, 23, 9848022335, Chennai
007, Komal, Nayak, 24, 9848022334, trivendram
008, Bharathi, Nambiayar, 24, 9848022333, Chennai
Kami juga memiliki contoh skrip dengan nama sample_script.pig, di direktori HDFS yang sama. File ini berisi pernyataan yang melakukan operasi dan transformasi padastudent relasi, seperti yang ditunjukkan di bawah ini.
student = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING
PigStorage(',') as (id:int, firstname:chararray, lastname:chararray,
phone:chararray, city:chararray);
student_order = ORDER student BY age DESC;
STORE student_order INTO 'student_order_table' USING org.apache.HCatalog.pig.HCatStorer();
student_limit = LIMIT student_order 4;
Dump student_limit;
Pernyataan pertama dari skrip akan memuat data dalam file bernama student_details.txt sebagai relasi bernama student.
Pernyataan kedua dari skrip akan menyusun tupel relasi dalam urutan menurun, berdasarkan usia, dan menyimpannya sebagai student_order.
Pernyataan ketiga menyimpan data yang diproses student_order menghasilkan tabel terpisah bernama student_order_table.
Pernyataan keempat dari skrip akan menyimpan empat tupel pertama dari student_order sebagai student_limit.
Akhirnya pernyataan kelima akan membuang konten relasi student_limit.
Sekarang mari kita jalankan sample_script.pig seperti gambar dibawah.
$./pig -useHCatalog hdfs://localhost:9000/pig_data/sample_script.pig
Sekarang, periksa direktori keluaran Anda (hdfs: user / tmp / hive) untuk keluaran (part_0000, part_0001).