HCatalog - Panduan Cepat

Apa itu HCatalog?

HCatalog adalah alat manajemen penyimpanan tabel untuk Hadoop. Ini memperlihatkan data tabular dari Hive metastore ke aplikasi Hadoop lainnya. Ini memungkinkan pengguna dengan alat pemrosesan data yang berbeda (Pig, MapReduce) untuk dengan mudah menulis data ke grid. Ini memastikan bahwa pengguna tidak perlu khawatir tentang di mana atau dalam format apa data mereka disimpan.

HCatalog bekerja seperti komponen kunci dari Hive dan memungkinkan pengguna untuk menyimpan data mereka dalam format dan struktur apapun.

Mengapa HCatalog?

Mengaktifkan alat yang tepat untuk Pekerjaan yang benar

Ekosistem Hadoop berisi berbagai alat untuk pemrosesan data seperti Hive, Pig, dan MapReduce. Meskipun alat ini tidak memerlukan metadata, mereka masih dapat memanfaatkannya jika ada. Berbagi penyimpanan metadata juga memungkinkan pengguna di berbagai alat untuk berbagi data dengan lebih mudah. Alur kerja di mana data dimuat dan dinormalisasi menggunakan MapReduce atau Pig dan kemudian dianalisis melalui Hive sangat umum. Jika semua alat ini berbagi satu metastore, maka pengguna tiap alat memiliki akses langsung ke data yang dibuat dengan alat lain. Tidak diperlukan langkah pemuatan atau transfer.

Tangkap status pemrosesan untuk mengaktifkan berbagi

HCatalog dapat mempublikasikan hasil analisis Anda. Jadi programmer lain dapat mengakses platform analitik Anda melalui "REST". Skema yang Anda terbitkan juga berguna bagi ilmuwan data lainnya. Data scientist lainnya menggunakan penemuan Anda sebagai masukan untuk penemuan berikutnya.

Integrasikan Hadoop dengan segalanya

Hadoop sebagai lingkungan pemrosesan dan penyimpanan membuka banyak peluang bagi perusahaan; namun, untuk mendorong adopsi, itu harus bekerja dengan dan menambah alat yang ada. Hadoop harus berfungsi sebagai masukan ke dalam platform analitik Anda atau terintegrasi dengan penyimpanan data operasional dan aplikasi web Anda. Organisasi harus menikmati nilai Hadoop tanpa harus mempelajari perangkat yang sama sekali baru. Layanan REST membuka platform untuk perusahaan dengan API yang sudah dikenal dan bahasa mirip SQL. Sistem manajemen data perusahaan menggunakan HCatalog untuk berintegrasi lebih dalam dengan platform Hadoop.

Arsitektur HCatalog

Ilustrasi berikut menunjukkan arsitektur HCatalog secara keseluruhan.

HCatalog mendukung membaca dan menulis file dalam format apapun yang a SerDe(serializer-deserializer) dapat ditulis. Secara default, HCatalog mendukung format file RCFile, CSV, JSON, SequenceFile, dan ORC. Untuk menggunakan format kustom, Anda harus memberikan InputFormat, OutputFormat, dan SerDe.

HCatalog dibangun di atas metastore sarang dan menggabungkan DDL sarang. HCatalog menyediakan antarmuka baca dan tulis untuk Pig dan MapReduce dan menggunakan antarmuka baris perintah Hive untuk mengeluarkan definisi data dan perintah eksplorasi metadata.

Semua sub-proyek Hadoop seperti Hive, Pig, dan HBase mendukung sistem operasi Linux. Oleh karena itu, Anda perlu menginstal flavor Linux di sistem Anda. HCatalog digabungkan dengan Instalasi Hive pada 26 Maret 2013. Dari versi Hive-0.11.0 dan seterusnya, HCatalog hadir dengan instalasi Hive. Oleh karena itu, ikuti langkah-langkah yang diberikan di bawah ini untuk menginstal Hive yang secara otomatis akan menginstal HCatalog pada sistem Anda.

Langkah 1: Memverifikasi Instalasi JAVA

Java harus diinstal pada sistem Anda sebelum menginstal Hive. Anda dapat menggunakan perintah berikut untuk memeriksa apakah Anda telah menginstal Java di sistem Anda -

$ java –version

Jika Java sudah diinstal di sistem Anda, Anda akan melihat respons berikut -

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Jika Anda belum menginstal Java di sistem Anda, maka Anda perlu mengikuti langkah-langkah yang diberikan di bawah ini.

Langkah 2: Menginstal Java

Unduh Java (JDK <versi terbaru> - X64.tar.gz) dengan mengunjungi tautan berikut http://www.oracle.com/

Kemudian jdk-7u71-linux-x64.tar.gz akan diunduh ke sistem Anda.

Umumnya Anda akan menemukan file Java yang diunduh di folder Unduhan. Verifikasi dan ekstrak filejdk-7u71-linux-x64.gz file menggunakan perintah berikut.

$ cd Downloads/
$ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Agar Java tersedia untuk semua pengguna, Anda harus memindahkannya ke lokasi "/ usr / local /". Buka root, dan ketik perintah berikut.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Untuk menyiapkan PATH dan JAVA_HOME variabel, tambahkan perintah berikut ke ~/.bashrc mengajukan.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Sekarang verifikasi penginstalan menggunakan perintah java -version dari terminal seperti dijelaskan di atas.

Langkah 3: Memverifikasi Pemasangan Hadoop

Hadoop harus diinstal di sistem Anda sebelum menginstal Hive. Mari kita verifikasi instalasi Hadoop menggunakan perintah berikut -

$ hadoop version

Jika Hadoop sudah terinstal di sistem Anda, maka Anda akan mendapatkan respons berikut -

Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Jika Hadoop tidak diinstal pada sistem Anda, lanjutkan dengan langkah-langkah berikut -

Langkah 4: Mendownload Hadoop

Unduh dan ekstrak Hadoop 2.4.1 dari Apache Software Foundation menggunakan perintah berikut.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Langkah 5: Menginstal Hadoop dalam Pseudo Distributed Mode

Langkah-langkah berikut digunakan untuk menginstal Hadoop 2.4.1 dalam mode pseudo didistribusikan.

Menyiapkan Hadoop

Anda dapat menyetel variabel lingkungan Hadoop dengan menambahkan perintah berikut ke ~/.bashrc mengajukan.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Sekarang terapkan semua perubahan ke dalam sistem yang sedang berjalan.

$ source ~/.bashrc

Konfigurasi Hadoop

Anda dapat menemukan semua file konfigurasi Hadoop di lokasi "$ HADOOP_HOME / etc / hadoop". Anda perlu membuat perubahan yang sesuai pada file konfigurasi tersebut sesuai dengan infrastruktur Hadoop Anda.

$ cd $HADOOP_HOME/etc/hadoop

Untuk mengembangkan program Hadoop menggunakan Java, Anda harus mengatur ulang variabel lingkungan Java di hadoop-env.sh mengajukan dengan mengganti JAVA_HOME nilai dengan lokasi Java di sistem Anda.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Diberikan di bawah ini adalah daftar file yang harus Anda edit untuk mengkonfigurasi Hadoop.

core-site.xml

Itu core-site.xml file berisi informasi seperti nomor port yang digunakan untuk instance Hadoop, memori yang dialokasikan untuk sistem file, batas memori untuk menyimpan data, dan ukuran buffer Baca / Tulis.

Buka core-site.xml dan tambahkan properti berikut di antara tag <configuration> dan </configuration>.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xml

Itu hdfs-site.xmlfile berisi informasi seperti nilai data replikasi, jalur kode nama, dan jalur datanode sistem file lokal Anda. Artinya tempat di mana Anda ingin menyimpan infrastruktur Hadoop.

Mari kita asumsikan data berikut.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Buka file ini dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property> 
   
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value> 
   </property> 

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value> 
   </property>
</configuration>

Note - Dalam file di atas, semua nilai properti ditentukan pengguna dan Anda dapat membuat perubahan sesuai dengan infrastruktur Hadoop Anda.

benang-situs.xml

File ini digunakan untuk mengkonfigurasi benang menjadi Hadoop. Buka file yarn-site.xml dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

File ini digunakan untuk menentukan kerangka MapReduce mana yang kita gunakan. Secara default, Hadoop berisi template benang-situs.xml. Pertama-tama, Anda perlu menyalin file darimapred-site,xml.template untuk mapred-site.xml file menggunakan perintah berikut.

$ cp mapred-site.xml.template mapred-site.xml

Buka file mapred-site.xml dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Langkah 6: Memverifikasi Instalasi Hadoop

Langkah-langkah berikut digunakan untuk memverifikasi penginstalan Hadoop.

Penyiapan Namenode

Siapkan namenode menggunakan perintah “hdfs namenode -format” sebagai berikut -

$ cd ~ $ hdfs namenode -format

Hasil yang diharapkan adalah sebagai berikut -

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1
images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Memverifikasi DFS Hadoop

Perintah berikut digunakan untuk memulai DFS. Menjalankan perintah ini akan memulai sistem file Hadoop Anda.

$ start-dfs.sh

Output yang diharapkan adalah sebagai berikut -

10/24/14 21:37:56 Starting namenodes on [localhost]
localhost: starting namenode, logging to
/home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost:
starting datanode, logging to
   /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Memverifikasi Skrip Benang

Perintah berikut digunakan untuk memulai skrip Yarn. Menjalankan perintah ini akan memulai daemon Yarn Anda.

$ start-yarn.sh

Output yang diharapkan adalah sebagai berikut -

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/
yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to
   /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Mengakses Hadoop di Browser

Nomor port default untuk mengakses Hadoop adalah 50070. Gunakan URL berikut untuk mendapatkan layanan Hadoop di browser Anda.

http://localhost:50070/

Verifikasi semua aplikasi untuk cluster

Nomor port default untuk mengakses semua aplikasi cluster adalah 8088. Gunakan url berikut untuk mengunjungi layanan ini.

http://localhost:8088/

Setelah Anda selesai menginstal Hadoop, lanjutkan ke langkah berikutnya dan instal Hive di sistem Anda.

Langkah 7: Mendownload Hive

Kami menggunakan sarang-0.14.0 dalam tutorial ini. Anda dapat mengunduhnya dengan mengunjungi tautan berikuthttp://apache.petsads.us/hive/hive-0.14.0/. Mari kita asumsikan itu diunduh ke file/Downloadsdirektori. Di sini, kami mengunduh arsip Hive bernama “apache-hive-0.14.0-bin.tar.gz"Untuk tutorial ini. Perintah berikut digunakan untuk memverifikasi unduhan -

$ cd Downloads $ ls

Saat unduhan berhasil, Anda bisa melihat tanggapan berikut -

apache-hive-0.14.0-bin.tar.gz

Langkah 8: Menginstal Hive

Langkah-langkah berikut diperlukan untuk menginstal Hive di sistem Anda. Mari kita asumsikan arsip Hive diunduh ke file/Downloads direktori.

Mengekstrak dan Memverifikasi Arsip Sarang

Perintah berikut digunakan untuk memverifikasi unduhan dan mengekstrak arsip Hive -

$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls

Saat unduhan berhasil, Anda bisa melihat tanggapan berikut -

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

Menyalin file ke / usr / local / hive direktori

Kita perlu menyalin file dari superuser "su -". Perintah berikut digunakan untuk menyalin file dari direktori yang diekstrak ke/usr/local/hive" direktori.

$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

Menyiapkan lingkungan untuk Hive

Anda dapat mengatur lingkungan Hive dengan menambahkan baris berikut ke ~/.bashrc file -

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

Perintah berikut digunakan untuk menjalankan file ~ / .bashrc.

$ source ~/.bashrc

Langkah 9: Konfigurasi Sarang

Untuk mengonfigurasi Hive dengan Hadoop, Anda perlu mengedit file hive-env.sh file, yang ditempatkan di $HIVE_HOME/confdirektori. Perintah berikut mengarahkan ke sarangconfig folder dan salin file template -

$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh

Edit hive-env.sh file dengan menambahkan baris berikut -

export HADOOP_HOME=/usr/local/hadoop

Dengan ini, penginstalan Hive selesai. Sekarang Anda memerlukan server database eksternal untuk mengkonfigurasi Metastore. Kami menggunakan database Apache Derby.

Langkah 10: Mengunduh dan Menginstal Apache Derby

Ikuti langkah-langkah yang diberikan di bawah ini untuk mengunduh dan menginstal Apache Derby -

Mendownload Apache Derby

Perintah berikut digunakan untuk mengunduh Apache Derby. Perlu beberapa saat untuk mengunduh.

$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

Perintah berikut digunakan untuk memverifikasi unduhan -

$ ls

Saat unduhan berhasil, Anda bisa melihat tanggapan berikut -

db-derby-10.4.2.0-bin.tar.gz

Mengekstrak dan Memverifikasi Arsip Derby

Perintah berikut digunakan untuk mengekstraksi dan memverifikasi arsip Derby -

$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

Saat unduhan berhasil, Anda bisa melihat tanggapan berikut -

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

Menyalin Berkas ke / usr / local / derby Direktori

Kita perlu menyalin dari superuser "su -". Perintah berikut digunakan untuk menyalin file dari direktori yang diekstrak ke/usr/local/derby direktori -

$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

Menyiapkan Lingkungan untuk Derby

Anda dapat mengatur lingkungan Derby dengan menambahkan baris berikut ke ~/.bashrc file -

export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar

Perintah berikut digunakan untuk mengeksekusi ~/.bashrc file -

$ source ~/.bashrc

Buat Direktori untuk Metastore

Buat direktori bernama data di direktori $ DERBY_HOME untuk menyimpan data Metastore.

$ mkdir $DERBY_HOME/data

Pemasangan derby dan pengaturan lingkungan sekarang selesai.

Langkah 11: Mengonfigurasi Hive Metastore

Mengonfigurasi Metastore berarti menentukan ke Hive tempat database disimpan. Anda dapat melakukannya dengan mengedit filehive-site.xml file, yang ada di file $HIVE_HOME/confdirektori. Pertama-tama, salin file template menggunakan perintah berikut -

$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

Edit hive-site.xml dan tambahkan baris berikut di antara tag <configuration> dan </configuration> -

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:derby://localhost:1527/metastore_db;create = true</value>
   <description>JDBC connect string for a JDBC metastore</description>
</property>

Buat file bernama jpox.properties dan tambahkan baris berikut ke dalamnya -

javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl

org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false

org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed

javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

Langkah 12: Memverifikasi Instalasi Sarang

Sebelum menjalankan Hive, Anda perlu membuat file /tmpfolder dan folder Hive terpisah di HDFS. Di sini, kami menggunakan/user/hive/warehousemap. Anda perlu mengatur izin tulis untuk folder yang baru dibuat ini seperti yang ditunjukkan di bawah ini -

chmod g+w

Sekarang atur dalam HDFS sebelum memverifikasi Hive. Gunakan perintah berikut -

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Perintah berikut digunakan untuk memverifikasi instalasi Hive -

$ cd $HIVE_HOME $ bin/hive

Saat pemasangan Hive berhasil, Anda akan melihat respons berikut -

Logging initialized using configuration in 
   jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/
hive-log4j.properties Hive history
   =/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

Anda dapat menjalankan perintah contoh berikut untuk menampilkan semua tabel -

hive> show tables;
OK Time taken: 2.798 seconds
hive>

Langkah 13: Verifikasi Instalasi HCatalog

Gunakan perintah berikut untuk menyetel variabel sistem HCAT_HOME untuk HCatalog Home.

export HCAT_HOME = $HiVE_HOME/HCatalog

Gunakan perintah berikut untuk memverifikasi instalasi HCatalog.

cd $HCAT_HOME/bin
./hcat

Jika instalasi berhasil, Anda akan melihat output berikut -

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
usage: hcat { -e "<query>" | -f "<filepath>" } 
   [ -g "<group>" ] [ -p "<perms>" ] 
   [ -D"<name> = <value>" ]
	
-D <property = value>    use hadoop value for given property
-e <exec>                hcat command given from command line
-f <file>                hcat commands in file
-g <group>               group for the db/table specified in CREATE statement
-h,--help                Print help information
-p <perms>               permissions for the db/table specified in CREATE statement

HCatalog Command Line Interface (CLI) dapat dipanggil dari perintah $HIVE_HOME/HCatalog/bin/hcat di mana $ HIVE_HOME adalah direktori home dari Hive. hcat adalah perintah yang digunakan untuk menginisialisasi server HCatalog.

Gunakan perintah berikut untuk menginisialisasi baris perintah HCatalog.

cd $HCAT_HOME/bin
./hcat

Jika penginstalan telah dilakukan dengan benar, maka Anda akan mendapatkan output berikut -

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
usage: hcat { -e "<query>" | -f "<filepath>" } 
   [ -g "<group>" ] [ -p "<perms>" ] 
   [ -D"<name> = <value>" ]
	
-D <property = value>    use hadoop value for given property
-e <exec>                hcat command given from command line
-f <file>                hcat commands in file
-g <group>               group for the db/table specified in CREATE statement
-h,--help                Print help information
-p <perms>               permissions for the db/table specified in CREATE statement

HCatalog CLI mendukung opsi baris perintah ini -

Sr Tidak Pilihan Contoh & Deskripsi
1 -g

hcat -g mygroup ...

Tabel yang akan dibuat harus memiliki grup "mygroup".

2 -p

hcat -p rwxr-xr-x ...

Tabel yang akan dibuat harus memiliki izin baca, tulis, dan eksekusi.

3 -f

hcat -f myscript.HCatalog ...

myscript.HCatalog adalah file script yang berisi perintah DDL untuk dijalankan.

4 -e

hcat -e 'create table mytable(a int);' ...

Perlakukan string berikut sebagai perintah DDL dan jalankan.

5 -D

hcat -Dkey = value ...

Meneruskan pasangan nilai kunci ke HCatalog sebagai properti sistem Java.

6 -

hcat

Mencetak pesan penggunaan.

Catatan -

  • Itu -g dan -p pilihan tidak wajib.

  • Pada satu waktu -e atau -f pilihan dapat diberikan, tidak keduanya.

  • Urutan opsi tidak penting; Anda dapat menentukan opsi dalam urutan apa pun.

Sr Tidak Perintah & Deskripsi DDL
1

CREATE TABLE

Buat tabel menggunakan HCatalog. Jika Anda membuat tabel dengan klausa CLUSTERED BY, Anda tidak akan dapat menulisnya dengan Pig atau MapReduce.

2

ALTER TABLE

Didukung kecuali untuk opsi REBUILD dan CONCATENATE. Perilakunya tetap sama seperti di Hive.

3

DROP TABLE

Didukung. Perilakunya sama dengan Hive (Jatuhkan tabel dan struktur lengkap).

4

CREATE/ALTER/DROP VIEW

Didukung. Perilakunya sama dengan Hive.

Note - Pig dan MapReduce tidak dapat membaca atau menulis ke tampilan.

5

SHOW TABLES

Tampilkan daftar tabel.

6

SHOW PARTITIONS

Menampilkan daftar partisi.

7

Create/Drop Index

Operasi CREATE dan DROP FUNCTION didukung, tetapi fungsi yang dibuat harus tetap terdaftar di Pig dan ditempatkan di CLASSPATH untuk MapReduce.

8

DESCRIBE

Didukung. Perilakunya sama dengan Hive. Jelaskan strukturnya.

Beberapa perintah dari tabel di atas dijelaskan pada bab-bab selanjutnya.

Bab ini menjelaskan cara membuat tabel dan cara memasukkan data ke dalamnya. Konvensi membuat tabel di HCatalog sangat mirip dengan membuat tabel menggunakan Hive.

Buat Pernyataan Tabel

Buat Tabel adalah pernyataan yang digunakan untuk membuat tabel di metastore sarang menggunakan HCatalog. Sintaks dan contohnya adalah sebagai berikut -

Sintaksis

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[ROW FORMAT row_format]
[STORED AS file_format]

Contoh

Mari kita asumsikan Anda perlu membuat tabel bernama employee menggunakan CREATE TABLEpernyataan. Tabel berikut mencantumkan bidang dan tipe datanya diemployee tabel -

Sr Tidak Nama Bidang Tipe data
1 Idul Fitri int
2 Nama Tali
3 Gaji Mengapung
4 Penunjukan tali

Data berikut mendefinisikan bidang yang didukung seperti Comment, Bidang berformat baris seperti Field terminator, Lines terminator, dan Stored File type.

COMMENT ‘Employee details’
FIELDS TERMINATED BY ‘\t’
LINES TERMINATED BY ‘\n’
STORED IN TEXT FILE

Kueri berikut membuat tabel bernama employee menggunakan data di atas.

./hcat –e "CREATE TABLE IF NOT EXISTS employee ( eid int, name String, 
   salary String, destination String) \
COMMENT 'Employee details' \
ROW FORMAT DELIMITED \
FIELDS TERMINATED BY ‘\t’ \
LINES TERMINATED BY ‘\n’ \
STORED AS TEXTFILE;"

Jika Anda menambahkan opsi IF NOT EXISTS, HCatalog mengabaikan pernyataan jika tabel sudah ada.

Pada pembuatan tabel yang berhasil, Anda bisa melihat respons berikut -

OK
Time taken: 5.905 seconds

Muat Pernyataan Data

Umumnya, setelah membuat tabel di SQL, kita dapat memasukkan data menggunakan pernyataan Sisipkan. Namun dalam HCatalog, kami memasukkan data menggunakan pernyataan LOAD DATA.

Saat memasukkan data ke dalam HCatalog, lebih baik menggunakan LOAD DATA untuk menyimpan catatan massal. Ada dua cara untuk memuat data: satu darilocal file system dan kedua dari Hadoop file system.

Sintaksis

Sintaks untuk LOAD DATA adalah sebagai berikut -

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename
[PARTITION (partcol1=val1, partcol2=val2 ...)]
  • LOKAL adalah pengenal untuk menentukan jalur lokal. Ini opsional.
  • OVERWRITE adalah opsional untuk menimpa data di tabel.
  • PARTISI adalah opsional.

Contoh

Kami akan memasukkan data berikut ke dalam tabel. Ini adalah file teks bernamasample.txt di /home/user direktori.

1201  Gopal        45000    Technical manager
1202  Manisha      45000    Proof reader
1203  Masthanvali  40000    Technical writer
1204  Kiran        40000    Hr Admin
1205  Kranthi      30000    Op Admin

Kueri berikut memuat teks yang diberikan ke dalam tabel.

./hcat –e "LOAD DATA LOCAL INPATH '/home/user/sample.txt'
OVERWRITE INTO TABLE employee;"

Saat unduhan berhasil, Anda bisa melihat tanggapan berikut -

OK
Time taken: 15.905 seconds

Bab ini menjelaskan cara mengubah atribut tabel seperti mengganti nama tabel, mengganti nama kolom, menambah kolom, dan menghapus atau mengganti kolom.

Pernyataan Alter Table

Anda dapat menggunakan pernyataan ALTER TABLE untuk mengubah tabel di Hive.

Sintaksis

Pernyataan tersebut mengambil salah satu sintaks berikut berdasarkan atribut apa yang ingin kita ubah dalam tabel.

ALTER TABLE name RENAME TO new_name
ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])
ALTER TABLE name DROP [COLUMN] column_name
ALTER TABLE name CHANGE column_name new_name new_type
ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...])

Beberapa skenario dijelaskan di bawah ini.

Ubah Nama Menjadi… Pernyataan

Kueri berikut mengganti nama tabel dari employee untuk emp.

./hcat –e "ALTER TABLE employee RENAME TO emp;"

Pernyataan Perubahan

Tabel berikut berisi bidang employee tabel dan ini menunjukkan bidang yang akan diubah (dicetak tebal).

Nama Bidang Konversi dari Tipe Data Ubah Nama Bidang Ubah ke Tipe Data
Idul Fitri int Idul Fitri int
nama Tali ename Tali
gaji Mengapung gaji Dua kali lipat
penunjukan Tali penunjukan Tali

Kueri berikut mengganti nama kolom dan tipe data kolom menggunakan data di atas -

./hcat –e "ALTER TABLE employee CHANGE name ename String;"
./hcat –e "ALTER TABLE employee CHANGE salary salary Double;"

Tambahkan Pernyataan Kolom

Kueri berikut menambahkan kolom bernama dept ke employee meja.

./hcat –e "ALTER TABLE employee ADD COLUMNS (dept STRING COMMENT 'Department name');"

Replace Statement

Kueri berikut menghapus semua kolom dari employee tabel dan menggantinya dengan emp dan name kolom -

./hcat – e "ALTER TABLE employee REPLACE COLUMNS ( eid INT empid Int, ename STRING name String);"

Pernyataan Drop Table

Bab ini menjelaskan cara menjatuhkan tabel di HCatalog. Saat Anda melepaskan tabel dari metastore, ini menghapus data tabel / kolom dan metadatanya. Ini bisa berupa tabel normal (disimpan di metastore) atau tabel eksternal (disimpan dalam sistem file lokal); HCatalog memperlakukan keduanya dengan cara yang sama, apa pun jenisnya.

Sintaksnya adalah sebagai berikut -

DROP TABLE [IF EXISTS] table_name;

Kueri berikut menjatuhkan tabel bernama employee -

./hcat –e "DROP TABLE IF EXISTS employee;"

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut -

OK
Time taken: 5.3 seconds

Bab ini menjelaskan cara membuat dan mengelola a viewdalam HCatalog. Tampilan database dibuat menggunakanCREATE VIEWpernyataan. Tampilan dapat dibuat dari satu tabel, beberapa tabel, atau tampilan lain.

Untuk membuat tampilan, pengguna harus memiliki hak istimewa sistem yang sesuai dengan penerapan tertentu.

Buat Pernyataan Tampilan

CREATE VIEWmembuat tampilan dengan nama yang diberikan. Kesalahan terjadi jika tabel atau tampilan dengan nama yang sama sudah ada. Kamu dapat memakaiIF NOT EXISTS untuk melewati kesalahan.

Jika tidak ada nama kolom yang diberikan, nama kolom tampilan akan diturunkan secara otomatis dari defining SELECT expression.

Note - Jika SELECT berisi ekspresi skalar tanpa alias seperti x + y, nama kolom tampilan yang dihasilkan akan dibuat dalam bentuk _C0, _C1, dll.

Saat mengganti nama kolom, komentar kolom juga dapat diberikan. Komentar tidak secara otomatis diwarisi dari kolom yang mendasari.

Pernyataan CREATE VIEW akan gagal jika view-nya defining SELECT expression tidak valid.

Sintaksis

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT view_comment]
[TBLPROPERTIES (property_name = property_value, ...)]
AS SELECT ...;

Contoh

Berikut adalah tabel data karyawan. Sekarang mari kita lihat cara membuat tampilan bernamaEmp_Deg_View berisi bidang id, nama, sebutan, dan gaji karyawan yang memiliki gaji lebih dari 35.000.

+------+-------------+--------+-------------------+-------+
|  ID  |    Name     | Salary |    Designation    | Dept  |
+------+-------------+--------+-------------------+-------+
| 1201 |    Gopal    | 45000  | Technical manager |  TP   |
| 1202 |   Manisha   | 45000  | Proofreader       |  PR   |
| 1203 | Masthanvali | 30000  | Technical writer  |  TP   |
| 1204 |    Kiran    | 40000  | Hr Admin          |  HR   |
| 1205 |   Kranthi   | 30000  | Op Admin          | Admin |
+------+-------------+--------+-------------------+-------+

Berikut ini adalah perintah untuk membuat tampilan berdasarkan data yang diberikan di atas.

./hcat –e "CREATE VIEW Emp_Deg_View (salary COMMENT ' salary more than 35,000')
   AS SELECT id, name, salary, designation FROM employee WHERE salary ≥ 35000;"

Keluaran

OK
Time taken: 5.3 seconds

Pernyataan Drop View

DROP VIEW menghapus metadata untuk tampilan tertentu. Saat melepaskan tampilan yang direferensikan oleh tampilan lain, tidak ada peringatan yang diberikan (tampilan dependen dibiarkan menggantung karena tidak valid dan harus dihapus atau dibuat ulang oleh pengguna).

Sintaksis

DROP VIEW [IF EXISTS] view_name;

Contoh

Perintah berikut digunakan untuk menjatuhkan tampilan bernama Emp_Deg_View.

DROP VIEW Emp_Deg_View;

Anda sering ingin membuat daftar semua tabel dalam database atau membuat daftar semua kolom dalam tabel. Jelas, setiap database memiliki sintaks sendiri untuk membuat daftar tabel dan kolom.

Show Tablespernyataan menampilkan nama semua tabel. Secara default, ini mencantumkan tabel dari database saat ini, atau denganIN klausa, dalam database tertentu.

Bab ini menjelaskan cara membuat daftar semua tabel dari database saat ini di HCatalog.

Tampilkan Pernyataan Tabel

Sintaks SHOW TABLES adalah sebagai berikut -

SHOW TABLES [IN database_name] ['identifier_with_wildcards'];

Kueri berikut menampilkan daftar tabel -

./hcat –e "Show tables;"

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut -

OK
emp
employee
Time taken: 5.3 seconds

Partisi adalah kondisi untuk data tabular yang digunakan untuk membuat tabel atau tampilan terpisah. SHOW PARTITIONS mencantumkan semua partisi yang ada untuk tabel dasar tertentu. Partisi dicantumkan dalam urutan abjad. Setelah Hive 0.6, dimungkinkan juga untuk menentukan bagian dari spesifikasi partisi untuk memfilter daftar yang dihasilkan.

Anda dapat menggunakan perintah SHOW PARTITIONS untuk melihat partisi yang ada di tabel tertentu. Bab ini menjelaskan cara membuat daftar partisi dari tabel tertentu di HCatalog.

Tampilkan Pernyataan Partisi

Sintaksnya adalah sebagai berikut -

SHOW PARTITIONS table_name;

Kueri berikut menjatuhkan tabel bernama employee -

./hcat –e "Show partitions employee;"

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut -

OK
Designation = IT
Time taken: 5.3 seconds

Partisi Dinamis

HCatalog mengatur tabel menjadi beberapa partisi. Ini adalah cara membagi tabel menjadi beberapa bagian terkait berdasarkan nilai kolom yang dipartisi seperti tanggal, kota, dan departemen. Menggunakan partisi, mudah untuk menanyakan sebagian dari data.

Misalnya, tabel bernama Tab1berisi data karyawan seperti id, nama, dept, dan yoj (tahun bergabung). Misalkan Anda perlu mengambil detail dari semua karyawan yang bergabung pada tahun 2012. Kueri mencari informasi yang diperlukan di seluruh tabel. Namun, jika Anda mempartisi data karyawan dengan tahun dan menyimpannya dalam file terpisah, ini mengurangi waktu pemrosesan kueri. Contoh berikut menunjukkan cara mempartisi file dan datanya -

File berikut berisi employeedata meja.

/ tab1 / Employeedata / file1

id, name,   dept, yoj
1,  gopal,   TP, 2012
2,  kiran,   HR, 2012
3,  kaleel,  SC, 2013
4, Prasanth, SC, 2013

Data di atas dipartisi menjadi dua file menggunakan tahun.

/ tab1 / Employeedata / 2012 / file2

1, gopal, TP, 2012
2, kiran, HR, 2012

/ tab1 / Employeedata / 2013 / file3

3, kaleel,   SC, 2013
4, Prasanth, SC, 2013

Menambahkan Partisi

Kita dapat menambahkan partisi ke tabel dengan mengubah tabel. Mari kita asumsikan kita memiliki tabel bernamaemployee dengan bidang seperti Id, Nama, Gaji, Penunjukan, Departemen, dan yoj.

Sintaksis

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;
partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)

Kueri berikut digunakan untuk menambahkan partisi ke file employee meja.

./hcat –e "ALTER TABLE employee ADD PARTITION (year = '2013') location '/2012/part2012';"

Mengganti Nama Partisi

Anda dapat menggunakan perintah RENAME-TO untuk mengganti nama partisi. Sintaksnya adalah sebagai berikut -

./hact –e "ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;"

Kueri berikut digunakan untuk mengganti nama partisi -

./hcat –e "ALTER TABLE employee PARTITION (year=’1203’) RENAME TO PARTITION (Yoj='1203');"

Menjatuhkan Partisi

Sintaks dari perintah yang digunakan untuk menjatuhkan partisi adalah sebagai berikut -

./hcat –e "ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec,.
   PARTITION partition_spec,...;"

Kueri berikut digunakan untuk menjatuhkan partisi -

./hcat –e "ALTER TABLE employee DROP [IF EXISTS] PARTITION (year=’1203’);"

Membuat Indeks

Indeks tidak lain adalah penunjuk pada kolom tertentu dari sebuah tabel. Membuat indeks berarti membuat penunjuk pada kolom tertentu dari sebuah tabel. Sintaksnya adalah sebagai berikut -

CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name = property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)][
   [ ROW FORMAT ...] STORED AS ...
   | STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]

Contoh

Mari kita ambil contoh untuk memahami konsep indeks. Gunakan yang samaemployee tabel yang telah kita gunakan sebelumnya dengan bidang Id, Nama, Gaji, Penunjukan, dan Departemen. Buat indeks bernama index_salary di salary kolom dari employee meja.

Kueri berikut membuat indeks -

./hcat –e "CREATE INDEX inedx_salary ON TABLE employee(salary)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';"

Ini adalah penunjuk ke file salarykolom. Jika kolom diubah, perubahan disimpan menggunakan nilai indeks.

Menjatuhkan Indeks

Sintaks berikut digunakan untuk menghapus indeks -

DROP INDEX <index_name> ON <table_name>

Kueri berikut menjatuhkan index_salary -

./hcat –e "DROP INDEX index_salary ON employee;"

HCatalog berisi API transfer data untuk input dan output paralel tanpa menggunakan MapReduce. API ini menggunakan abstraksi penyimpanan dasar tabel dan baris untuk membaca data dari cluster Hadoop dan menulis data ke dalamnya.

API Transfer Data terutama berisi tiga kelas; itu adalah -

  • HCatReader - Membaca data dari cluster Hadoop.

  • HCatWriter - Menulis data ke dalam cluster Hadoop.

  • DataTransferFactory - Menghasilkan contoh pembaca dan penulis.

API ini cocok untuk penyiapan node master-slave. Mari kita bahas lebih lanjutHCatReader dan HCatWriter.

HCatReader

HCatReader adalah kelas abstrak internal HCatalog dan memisahkan kerumitan sistem yang mendasari dari mana rekaman akan diambil.

No. S. Nama Metode & Deskripsi
1

Public abstract ReaderContext prepareRead() throws HCatException

Ini harus dipanggil pada node master untuk mendapatkan ReaderContext yang kemudian harus diserialkan dan dikirim node slave.

2

Public abstract Iterator <HCatRecorder> read() throws HCaException

Ini harus dipanggil di node budak untuk membaca HCatRecords.

3

Public Configuration getConf()

Ini akan mengembalikan objek kelas konfigurasi.

Kelas HCatReader digunakan untuk membaca data dari HDFS. Membaca adalah proses dua langkah di mana langkah pertama terjadi pada simpul master dari sistem eksternal. Langkah kedua dilakukan secara paralel pada beberapa node slave.

Pembacaan dilakukan pada a ReadEntity. Sebelum Anda mulai membaca, Anda perlu menentukan ReadEntity untuk membaca. Ini bisa dilakukan melaluiReadEntity.Builder. Anda dapat menentukan nama database, nama tabel, partisi, dan string filter. Misalnya -

ReadEntity.Builder builder = new ReadEntity.Builder();
ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10.

Potongan kode di atas mendefinisikan objek ReadEntity ("entitas"), yang terdiri dari tabel bernama mytbl dalam database bernama mydb, yang dapat digunakan untuk membaca semua baris tabel ini. Perhatikan bahwa tabel ini harus ada dalam HCatalog sebelum memulai operasi ini.

Setelah menentukan ReadEntity, Anda mendapatkan instance HCatReader menggunakan ReadEntity dan konfigurasi cluster -

HCatReader reader = DataTransferFactory.getHCatReader(entity, config);

Langkah selanjutnya adalah mendapatkan ReaderContext dari reader sebagai berikut -

ReaderContext cntxt = reader.prepareRead();

HCatWriter

Abstraksi ini bersifat internal untuk HCatalog. Ini untuk memfasilitasi penulisan ke HCatalog dari sistem eksternal. Jangan mencoba membuat contoh ini secara langsung. Sebagai gantinya, gunakan DataTransferFactory.

Sr.No. Nama Metode & Deskripsi
1

Public abstract WriterContext prepareRead() throws HCatException

Sistem eksternal harus memanggil metode ini tepat sekali dari node master. Ini mengembalikan aWriterContext. Ini harus diserialkan dan dikirim ke node budak untuk dibangunHCatWriter sana.

2

Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException

Metode ini harus digunakan pada node budak untuk melakukan penulisan. RecordItr adalah objek iterator yang berisi kumpulan record untuk ditulis ke dalam HCatalog.

3

Public abstract void abort(WriterContext cntxt) throws HCatException

Metode ini harus dipanggil di node master. Tujuan utama dari metode ini adalah untuk melakukan pembersihan jika terjadi kegagalan.

4

public abstract void commit(WriterContext cntxt) throws HCatException

Metode ini harus dipanggil di node master. Tujuan dari metode ini adalah untuk melakukan metadata.

Mirip dengan membaca, menulis juga merupakan proses dua langkah di mana langkah pertama terjadi pada simpul master. Selanjutnya, langkah kedua terjadi secara paralel pada node slave.

Penulisan dilakukan pada a WriteEntity yang dapat dibangun dengan cara yang mirip dengan membaca -

WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();

Kode di atas membuat objek WriteEntity entityyang dapat digunakan untuk menulis ke dalam tabel bernamamytbl di database mydb.

Setelah membuat WriteEntity, langkah selanjutnya adalah mendapatkan WriterContext -

HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();

Semua langkah di atas terjadi pada node master. Node master kemudian membuat serial objek WriterContext dan membuatnya tersedia untuk semua budak.

Pada node slave, Anda perlu mendapatkan HCatWriter menggunakan WriterContext sebagai berikut -

HCatWriter writer = DataTransferFactory.getHCatWriter(context);

Kemudian, writermengambil iterator sebagai argumen untuk writemetode tersebut -

writer.write(hCatRecordItr);

Itu writer lalu menelepon getNext() pada iterator ini dalam satu loop dan menulis semua record yang dilampirkan ke iterator.

Itu TestReaderWriter.javafile digunakan untuk menguji kelas HCatreader dan HCatWriter. Program berikut menunjukkan cara menggunakan HCatReader dan HCatWriter API untuk membaca data dari file sumber dan kemudian menulisnya ke file tujuan.

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.metastore.api.MetaException;
import org.apache.hadoop.hive.ql.CommandNeedRetryException;
import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hive.HCatalog.common.HCatException;
import org.apache.hive.HCatalog.data.transfer.DataTransferFactory;
import org.apache.hive.HCatalog.data.transfer.HCatReader;
import org.apache.hive.HCatalog.data.transfer.HCatWriter;
import org.apache.hive.HCatalog.data.transfer.ReadEntity;
import org.apache.hive.HCatalog.data.transfer.ReaderContext;
import org.apache.hive.HCatalog.data.transfer.WriteEntity;
import org.apache.hive.HCatalog.data.transfer.WriterContext;
import org.apache.hive.HCatalog.mapreduce.HCatBaseTest;

import org.junit.Assert;
import org.junit.Test;

public class TestReaderWriter extends HCatBaseTest {
   @Test
   public void test() throws MetaException, CommandNeedRetryException,
      IOException, ClassNotFoundException {
		
      driver.run("drop table mytbl");
      driver.run("create table mytbl (a string, b int)");
		
      Iterator<Entry<String, String>> itr = hiveConf.iterator();
      Map<String, String> map = new HashMap<String, String>();
		
      while (itr.hasNext()) {
         Entry<String, String> kv = itr.next();
         map.put(kv.getKey(), kv.getValue());
      }
		
      WriterContext cntxt = runsInMaster(map);
      File writeCntxtFile = File.createTempFile("hcat-write", "temp");
      writeCntxtFile.deleteOnExit();
		
      // Serialize context.
      ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile));
      oos.writeObject(cntxt);
      oos.flush();
      oos.close();
		
      // Now, deserialize it.
      ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile));
      cntxt = (WriterContext) ois.readObject();
      ois.close();
      runsInSlave(cntxt);
      commit(map, true, cntxt);
		
      ReaderContext readCntxt = runsInMaster(map, false);
      File readCntxtFile = File.createTempFile("hcat-read", "temp");
      readCntxtFile.deleteOnExit();
      oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile));
      oos.writeObject(readCntxt);
      oos.flush();
      oos.close();
		
      ois = new ObjectInputStream(new FileInputStream(readCntxtFile));
      readCntxt = (ReaderContext) ois.readObject();
      ois.close();
		
      for (int i = 0; i < readCntxt.numSplits(); i++) {
         runsInSlave(readCntxt, i);
      }
   }
	
   private WriterContext runsInMaster(Map<String, String> config) throws HCatException {
      WriteEntity.Builder builder = new WriteEntity.Builder();
      WriteEntity entity = builder.withTable("mytbl").build();
		
      HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
      WriterContext info = writer.prepareWrite();
      return info;
   }
	
   private ReaderContext runsInMaster(Map<String, String> config, 
      boolean bogus) throws HCatException {
      ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build();
      HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
      ReaderContext cntxt = reader.prepareRead();
      return cntxt;
   }
	
   private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException {
      HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum);
      Iterator<HCatRecord> itr = reader.read();
      int i = 1;
		
      while (itr.hasNext()) {
         HCatRecord read = itr.next();
         HCatRecord written = getRecord(i++);
			
         // Argh, HCatRecord doesnt implement equals()
         Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0),
         written.get(0).equals(read.get(0)));
			
         Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1),
         written.get(1).equals(read.get(1)));
			
         Assert.assertEquals(2, read.size());
      }
		
      //Assert.assertFalse(itr.hasNext());
   }
	
   private void runsInSlave(WriterContext context) throws HCatException {
      HCatWriter writer = DataTransferFactory.getHCatWriter(context);
      writer.write(new HCatRecordItr());
   }
	
   private void commit(Map<String, String> config, boolean status,
      WriterContext context) throws IOException {
      WriteEntity.Builder builder = new WriteEntity.Builder();
      WriteEntity entity = builder.withTable("mytbl").build();
      HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
		
      if (status) {
         writer.commit(context);
      } else {
         writer.abort(context);
      }
   }
	
   private static HCatRecord getRecord(int i) {
      List<Object> list = new ArrayList<Object>(2);
      list.add("Row #: " + i);
      list.add(i);
      return new DefaultHCatRecord(list);
   }
	
   private static class HCatRecordItr implements Iterator<HCatRecord> {
      int i = 0;
		
      @Override
      public boolean hasNext() {
         return i++ < 100 ? true : false;
      }
		
      @Override
      public HCatRecord next() {
         return getRecord(i);
      }
		
      @Override
      public void remove() {
         throw new RuntimeException();
      }
   }
}

Program di atas membaca data dari HDFS dalam bentuk record dan menulis data record ke mytable

Itu HCatInputFormat dan HCatOutputFormatantarmuka digunakan untuk membaca data dari HDFS dan setelah diproses, menulis data yang dihasilkan ke dalam HDFS menggunakan pekerjaan MapReduce. Mari kita uraikan antarmuka format Input dan Output.

HCatInputFormat

Itu HCatInputFormatdigunakan dengan tugas MapReduce untuk membaca data dari tabel yang dikelola HCatalog. HCatInputFormat memperlihatkan Hadoop 0.20 MapReduce API untuk membaca data seolah-olah telah diterbitkan ke tabel.

Sr.No. Nama Metode & Deskripsi
1

public static HCatInputFormat setInput(Job job, String dbName, String tableName)throws IOException

Atur masukan yang akan digunakan untuk pekerjaan itu. Ini menanyakan metastore dengan spesifikasi input yang diberikan dan membuat serial partisi yang cocok ke dalam konfigurasi pekerjaan untuk tugas-tugas MapReduce.

2

public static HCatInputFormat setInput(Configuration conf, String dbName, String tableName) throws IOException

Atur masukan yang akan digunakan untuk pekerjaan itu. Ini menanyakan metastore dengan spesifikasi input yang diberikan dan membuat serial partisi yang cocok ke dalam konfigurasi pekerjaan untuk tugas-tugas MapReduce.

3

public HCatInputFormat setFilter(String filter)throws IOException

Setel filter pada tabel masukan.

4

public HCatInputFormat setProperties(Properties properties) throws IOException

Set properti untuk format input.

HCatInputFormat API menyertakan metode berikut -

  • setInput
  • setOutputSchema
  • getTableSchema

Menggunakan HCatInputFormat untuk membaca data, pertama-tama buat InputJobInfo dengan informasi yang diperlukan dari tabel sedang dibaca dan kemudian panggil setInput dengan InputJobInfo.

Anda bisa menggunakan setOutputSchema metode untuk memasukkan a projection schema, untuk menentukan bidang keluaran. Jika skema tidak ditentukan, semua kolom dalam tabel akan dikembalikan. Anda dapat menggunakan metode getTableSchema untuk menentukan skema tabel untuk tabel input yang ditentukan.

HCatOutputFormat

HCatOutputFormat digunakan dengan tugas MapReduce untuk menulis data ke tabel yang dikelola HCatalog. HCatOutputFormat mengekspos API MapReduce Hadoop 0.20 untuk menulis data ke tabel. Ketika pekerjaan MapReduce menggunakan HCatOutputFormat untuk menulis keluaran, OutputFormat default yang dikonfigurasi untuk tabel digunakan dan partisi baru diterbitkan ke tabel setelah pekerjaan selesai.

Sr.No. Nama Metode & Deskripsi
1

public static void setOutput (Configuration conf, Credentials credentials, OutputJobInfo outputJobInfo) throws IOException

Atur informasi tentang keluaran yang akan ditulis untuk pekerjaan itu. Ini menanyakan server metadata untuk menemukan StorageHandler yang akan digunakan untuk tabel. Ini membuat kesalahan jika partisi sudah diterbitkan.

2

public static void setSchema (Configuration conf, HCatSchema schema) throws IOException

Tetapkan skema untuk data yang sedang ditulis ke partisi. Skema tabel digunakan secara default untuk partisi jika ini tidak dipanggil.

3

public RecordWriter <WritableComparable<?>, HCatRecord > getRecordWriter (TaskAttemptContext context)throws IOException, InterruptedException

Panggil penulis rekaman untuk pekerjaan itu. Ini menggunakan OutputFormat default StorageHandler untuk mendapatkan penulis rekaman.

4

public OutputCommitter getOutputCommitter (TaskAttemptContext context) throws IOException, InterruptedException

Dapatkan pengatur keluaran untuk format keluaran ini. Ini memastikan bahwa output dilakukan dengan benar.

Itu HCatOutputFormat API mencakup metode berikut -

  • setOutput
  • setSchema
  • getTableSchema

Panggilan pertama di HCatOutputFormat harus setOutput; panggilan lain apa pun akan memunculkan pengecualian yang mengatakan format keluaran tidak diinisialisasi.

Skema untuk data yang sedang ditulis ditentukan oleh setSchemametode. Anda harus memanggil metode ini, memberikan skema data yang Anda tulis. Jika data Anda memiliki skema yang sama dengan skema tabel, Anda dapat menggunakanHCatOutputFormat.getTableSchema() untuk mendapatkan skema tabel dan meneruskannya ke setSchema().

Contoh

Program MapReduce berikut membaca data dari satu tabel yang diasumsikan memiliki bilangan bulat di kolom kedua ("kolom 1"), dan menghitung berapa banyak contoh dari setiap nilai berbeda yang ditemukannya. Artinya, itu setara dengan "select col1, count(*) from $table group by col1;".

Misalnya, jika nilai di kolom kedua adalah {1, 1, 1, 3, 3, 5}, maka program akan menghasilkan keluaran nilai dan hitungan berikut -

1, 3
3, 2
5, 1

Sekarang mari kita lihat kode program -

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import org.apache.HCatalog.common.HCatConstants;
import org.apache.HCatalog.data.DefaultHCatRecord;
import org.apache.HCatalog.data.HCatRecord;
import org.apache.HCatalog.data.schema.HCatSchema;

import org.apache.HCatalog.mapreduce.HCatInputFormat;
import org.apache.HCatalog.mapreduce.HCatOutputFormat;
import org.apache.HCatalog.mapreduce.InputJobInfo;
import org.apache.HCatalog.mapreduce.OutputJobInfo;

public class GroupByAge extends Configured implements Tool {

   public static class Map extends Mapper<WritableComparable, 
      HCatRecord, IntWritable, IntWritable> {
      int age;
		
      @Override
      protected void map(
         WritableComparable key, HCatRecord value,
         org.apache.hadoop.mapreduce.Mapper<WritableComparable,
         HCatRecord, IntWritable, IntWritable>.Context context
      )throws IOException, InterruptedException {
         age = (Integer) value.get(1);
         context.write(new IntWritable(age), new IntWritable(1));
      }
   }
	
   public static class Reduce extends Reducer<IntWritable, IntWritable,
      WritableComparable, HCatRecord> {
      @Override
      protected void reduce(
         IntWritable key, java.lang.Iterable<IntWritable> values,
         org.apache.hadoop.mapreduce.Reducer<IntWritable, IntWritable,
         WritableComparable, HCatRecord>.Context context
      )throws IOException ,InterruptedException {
         int sum = 0;
         Iterator<IntWritable> iter = values.iterator();
			
         while (iter.hasNext()) {
            sum++;
            iter.next();
         }
			
         HCatRecord record = new DefaultHCatRecord(2);
         record.set(0, key.get());
         record.set(1, sum);
         context.write(null, record);
      }
   }
	
   public int run(String[] args) throws Exception {
      Configuration conf = getConf();
      args = new GenericOptionsParser(conf, args).getRemainingArgs();
		
      String serverUri = args[0];
      String inputTableName = args[1];
      String outputTableName = args[2];
      String dbName = null;
      String principalID = System
		
      .getProperty(HCatConstants.HCAT_METASTORE_PRINCIPAL);
      if (principalID != null)
      conf.set(HCatConstants.HCAT_METASTORE_PRINCIPAL, principalID);
      Job job = new Job(conf, "GroupByAge");
      HCatInputFormat.setInput(job, InputJobInfo.create(dbName, inputTableName, null));

      // initialize HCatOutputFormat
      job.setInputFormatClass(HCatInputFormat.class);
      job.setJarByClass(GroupByAge.class);
      job.setMapperClass(Map.class);
      job.setReducerClass(Reduce.class);
		
      job.setMapOutputKeyClass(IntWritable.class);
      job.setMapOutputValueClass(IntWritable.class);
      job.setOutputKeyClass(WritableComparable.class);
      job.setOutputValueClass(DefaultHCatRecord.class);
		
      HCatOutputFormat.setOutput(job, OutputJobInfo.create(dbName, outputTableName, null));
      HCatSchema s = HCatOutputFormat.getTableSchema(job);
      System.err.println("INFO: output schema explicitly set for writing:" + s);
      HCatOutputFormat.setSchema(job, s);
      job.setOutputFormatClass(HCatOutputFormat.class);
      return (job.waitForCompletion(true) ? 0 : 1);
   }
	
   public static void main(String[] args) throws Exception {
      int exitCode = ToolRunner.run(new GroupByAge(), args);
      System.exit(exitCode);
   }
}

Sebelum menyusun program di atas, Anda harus mendownload beberapa jars dan tambahkan itu ke classpathuntuk aplikasi ini. Anda perlu mengunduh semua toples Hive dan stoples HCatalog (HCatalog-core-0.5.0.jar, hive-metastore-0.10.0.jar, libthrift-0.7.0.jar, hive-exec-0.10.0.jar, libfb303-0.7.0.jar, jdo2-api-2.3-ec.jar, slf4j-api-1.6.1.jar).

Gunakan perintah berikut untuk menyalinnya jar file dari local untuk HDFS dan tambahkan itu ke classpath.

bin/hadoop fs -copyFromLocal $HCAT_HOME/share/HCatalog/HCatalog-core-0.5.0.jar /tmp bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/hive-metastore-0.10.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/libthrift-0.7.0.jar /tmp bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/hive-exec-0.10.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/libfb303-0.7.0.jar /tmp bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/jdo2-api-2.3-ec.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/slf4j-api-1.6.1.jar /tmp

export LIB_JARS=hdfs:///tmp/HCatalog-core-0.5.0.jar,
hdfs:///tmp/hive-metastore-0.10.0.jar,
hdfs:///tmp/libthrift-0.7.0.jar,
hdfs:///tmp/hive-exec-0.10.0.jar,
hdfs:///tmp/libfb303-0.7.0.jar,
hdfs:///tmp/jdo2-api-2.3-ec.jar,
hdfs:///tmp/slf4j-api-1.6.1.jar

Gunakan perintah berikut untuk mengkompilasi dan menjalankan program yang diberikan.

$HADOOP_HOME/bin/hadoop jar GroupByAge tmp/hive

Sekarang, periksa direktori keluaran Anda (hdfs: user / tmp / hive) untuk keluaran (part_0000, part_0001).

Itu HCatLoader dan HCatStorerAPI digunakan dengan skrip Pig untuk membaca dan menulis data dalam tabel yang dikelola HCatalog. Tidak ada penyiapan khusus HCatalog yang diperlukan untuk antarmuka ini.

Lebih baik memiliki pengetahuan tentang skrip Apache Pig untuk memahami bab ini dengan lebih baik. Untuk referensi lebih lanjut, silakan lihat tutorial Apache Pig kami .

HCatloader

HCatLoader digunakan dengan skrip Pig untuk membaca data dari tabel yang dikelola HCatalog. Gunakan sintaks berikut untuk memuat data ke HDFS menggunakan HCatloader.

A = LOAD 'tablename' USING org.apache.HCatalog.pig.HCatLoader();

Anda harus menentukan nama tabel dalam tanda kutip tunggal: LOAD 'tablename'. Jika Anda menggunakan database non-default, maka Anda harus menentukan input Anda sebagai 'dbname.tablename'.

Metastore Hive memungkinkan Anda membuat tabel tanpa menentukan database. Jika Anda membuat tabel dengan cara ini, maka nama database-nya adalah'default' dan tidak diperlukan saat menentukan tabel untuk HCatLoader.

Tabel berikut berisi metode dan deskripsi penting dari kelas HCatloader.

Sr.No. Nama Metode & Deskripsi
1

public InputFormat<?,?> getInputFormat()throws IOException

Baca format input dari data pemuatan menggunakan kelas HCatloader.

2

public String relativeToAbsolutePath(String location, Path curDir) throws IOException

Ini mengembalikan format String dari Absolute path.

3

public void setLocation(String location, Job job) throws IOException

Ini mengatur lokasi di mana pekerjaan dapat dijalankan.

4

public Tuple getNext() throws IOException

Mengembalikan tupel saat ini (key dan value) dari loop.

HCatStorer

HCatStorer digunakan dengan skrip Pig untuk menulis data ke tabel yang dikelola HCatalog. Gunakan sintaks berikut untuk operasi Penyimpanan.

A = LOAD ...
B = FOREACH A ...
...
...
my_processed_data = ...

STORE my_processed_data INTO 'tablename' USING org.apache.HCatalog.pig.HCatStorer();

Anda harus menentukan nama tabel dalam tanda kutip tunggal: LOAD 'tablename'. Baik database dan tabel harus dibuat sebelum menjalankan skrip Pig Anda. Jika Anda menggunakan database non-default, maka Anda harus menentukan input Anda sebagai'dbname.tablename'.

Metastore Hive memungkinkan Anda membuat tabel tanpa menentukan database. Jika Anda membuat tabel dengan cara ini, maka nama database-nya adalah'default' dan Anda tidak perlu menentukan nama database di store pernyataan.

Untuk USINGklausa, Anda dapat memiliki argumen string yang mewakili pasangan kunci / nilai untuk partisi. Ini adalah argumen wajib saat Anda menulis ke tabel yang dipartisi dan kolom partisi tidak ada di kolom keluaran. Nilai untuk kunci partisi TIDAK boleh dikutip.

Tabel berikut berisi metode dan deskripsi penting dari kelas HCatStorer.

Sr.No. Nama Metode & Deskripsi
1

public OutputFormat getOutputFormat() throws IOException

Baca format keluaran dari data yang disimpan menggunakan kelas HCatStorer.

2

public void setStoreLocation (String location, Job job) throws IOException

Setel lokasi untuk melaksanakan ini store aplikasi.

3

public void storeSchema (ResourceSchema schema, String arg1, Job job) throws IOException

Simpan skema.

4

public void prepareToWrite (RecordWriter writer) throws IOException

Ini membantu untuk menulis data ke dalam file tertentu menggunakan RecordWriter.

5

public void putNext (Tuple tuple) throws IOException

Menulis data tuple ke dalam file.

Menjalankan Pig dengan HCatalog

Pig tidak secara otomatis mengambil stoples HCatalog. Untuk memasukkan toples yang diperlukan, Anda bisa menggunakan flag di perintah Pig atau menyetel variabel lingkunganPIG_CLASSPATH dan PIG_OPTS seperti yang dijelaskan di bawah ini.

Untuk membawa toples yang sesuai untuk bekerja dengan HCatalog, cukup sertakan bendera berikut -

pig –useHCatalog <Sample pig scripts file>

Mengatur CLASSPATH untuk Eksekusi

Gunakan pengaturan CLASSPATH berikut untuk menyinkronkan HCatalog dengan Apache Pig.

export HADOOP_HOME = <path_to_hadoop_install>
export HIVE_HOME = <path_to_hive_install>
export HCAT_HOME = <path_to_hcat_install>

export PIG_CLASSPATH = $HCAT_HOME/share/HCatalog/HCatalog-core*.jar:\ $HCAT_HOME/share/HCatalog/HCatalog-pig-adapter*.jar:\
$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\
$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\
$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/conf:$HADOOP_HOME/conf:\ $HIVE_HOME/lib/slf4j-api-*.jar

Contoh

Asumsikan kita memiliki file student_details.txt dalam HDFS dengan konten berikut.

student_details.txt

001, Rajiv,    Reddy,       21, 9848022337, Hyderabad
002, siddarth, Battacharya, 22, 9848022338, Kolkata
003, Rajesh,   Khanna,      22, 9848022339, Delhi
004, Preethi,  Agarwal,     21, 9848022330, Pune
005, Trupthi,  Mohanthy,    23, 9848022336, Bhuwaneshwar
006, Archana,  Mishra,      23, 9848022335, Chennai
007, Komal,    Nayak,       24, 9848022334, trivendram
008, Bharathi, Nambiayar,   24, 9848022333, Chennai

Kami juga memiliki contoh skrip dengan nama sample_script.pig, di direktori HDFS yang sama. File ini berisi pernyataan yang melakukan operasi dan transformasi padastudent relasi, seperti yang ditunjukkan di bawah ini.

student = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING 
   PigStorage(',') as (id:int, firstname:chararray, lastname:chararray,
   phone:chararray, city:chararray);
	
student_order = ORDER student BY age DESC;
STORE student_order INTO 'student_order_table' USING org.apache.HCatalog.pig.HCatStorer();
student_limit = LIMIT student_order 4;
Dump student_limit;
  • Pernyataan pertama dari skrip akan memuat data dalam file bernama student_details.txt sebagai relasi bernama student.

  • Pernyataan kedua dari skrip akan menyusun tupel relasi dalam urutan menurun, berdasarkan usia, dan menyimpannya sebagai student_order.

  • Pernyataan ketiga menyimpan data yang diproses student_order menghasilkan tabel terpisah bernama student_order_table.

  • Pernyataan keempat dari skrip akan menyimpan empat tupel pertama dari student_order sebagai student_limit.

  • Akhirnya pernyataan kelima akan membuang konten relasi student_limit.

Sekarang mari kita jalankan sample_script.pig seperti gambar dibawah.

$./pig -useHCatalog hdfs://localhost:9000/pig_data/sample_script.pig

Sekarang, periksa direktori keluaran Anda (hdfs: user / tmp / hive) untuk keluaran (part_0000, part_0001).