Sarang - Panduan Cepat

Istilah 'Big Data' digunakan untuk kumpulan kumpulan data besar yang mencakup volume besar, kecepatan tinggi, dan berbagai data yang meningkat dari hari ke hari. Menggunakan sistem manajemen data tradisional, sulit untuk memproses Big Data. Oleh karena itu, Apache Software Foundation memperkenalkan kerangka kerja yang disebut Hadoop untuk mengatasi tantangan pengelolaan dan pemrosesan Big Data.

Hadoop

Hadoop adalah kerangka kerja sumber terbuka untuk menyimpan dan memproses Big Data dalam lingkungan terdistribusi. Ini berisi dua modul, satu MapReduce dan lainnya adalah Hadoop Distributed File System (HDFS).

  • MapReduce: Ini adalah model pemrograman paralel untuk memproses data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar pada cluster besar perangkat keras komoditas.

  • HDFS:Sistem File Terdistribusi Hadoop adalah bagian dari kerangka kerja Hadoop, digunakan untuk menyimpan dan memproses kumpulan data. Ini menyediakan sistem file yang toleran terhadap kesalahan untuk dijalankan pada perangkat keras komoditas.

Ekosistem Hadoop berisi sub-proyek (alat) yang berbeda seperti Sqoop, Pig, dan Hive yang digunakan untuk membantu modul Hadoop.

  • Sqoop: Ini digunakan untuk mengimpor dan mengekspor data ke sana kemari antara HDFS dan RDBMS.

  • Pig: Ini adalah platform bahasa prosedural yang digunakan untuk mengembangkan skrip untuk operasi MapReduce.

  • Hive: Ini adalah platform yang digunakan untuk mengembangkan skrip tipe SQL untuk melakukan operasi MapReduce.

Note: Ada berbagai cara untuk menjalankan operasi MapReduce:

  • Pendekatan tradisional menggunakan program Java MapReduce untuk data terstruktur, semi-terstruktur, dan tidak terstruktur.
  • Pendekatan scripting untuk MapReduce untuk memproses data terstruktur dan semi terstruktur menggunakan Pig.
  • Bahasa Kueri Hive (HiveQL atau HQL) untuk MapReduce untuk memproses data terstruktur menggunakan Hive.

Apa itu Hive

Hive adalah alat infrastruktur gudang data untuk memproses data terstruktur di Hadoop. Itu berada di atas Hadoop untuk meringkas Big Data, dan membuat kueri dan analisis menjadi mudah.

Awalnya Hive dikembangkan oleh Facebook, kemudian Apache Software Foundation mengambilnya dan mengembangkannya lebih jauh sebagai open source dengan nama Apache Hive. Ini digunakan oleh perusahaan yang berbeda. Misalnya, Amazon menggunakannya di Amazon Elastic MapReduce.

Sarang tidak

  • Database relasional
  • Desain untuk Pemrosesan Transaksi OnLine (OLTP)
  • Bahasa untuk kueri waktu nyata dan pembaruan tingkat baris

Fitur Sarang

  • Ini menyimpan skema dalam database dan data yang diproses menjadi HDFS.
  • Ini dirancang untuk OLAP.
  • Ini menyediakan bahasa tipe SQL untuk melakukan kueri yang disebut HiveQL atau HQL.
  • Ini akrab, cepat, terukur, dan dapat diperluas.

Arsitektur Sarang

Diagram komponen berikut menggambarkan arsitektur Hive:

Diagram komponen ini berisi unit yang berbeda. Tabel berikut menjelaskan setiap unit:

Nama unit Operasi
Antarmuka pengguna Hive adalah software infrastruktur data warehouse yang dapat membuat interaksi antara pengguna dan HDFS. Antarmuka pengguna yang didukung Hive adalah Hive Web UI, baris perintah Hive, dan Hive HD Insight (Di server Windows).
Toko Meta Hive memilih server database masing-masing untuk menyimpan skema atau Metadata tabel, database, kolom dalam tabel, tipe datanya, dan pemetaan HDFS.
Mesin Proses HiveQL HiveQL mirip dengan SQL untuk melakukan kueri tentang info skema di Metastore. Ini adalah salah satu pengganti pendekatan tradisional untuk program MapReduce. Alih-alih menulis program MapReduce di Java, kita dapat menulis kueri untuk pekerjaan MapReduce dan memprosesnya.
Mesin Eksekusi Bagian gabungan dari Mesin proses HiveQL dan MapReduce adalah Mesin Eksekusi Hive. Mesin eksekusi memproses kueri dan menghasilkan hasil yang sama seperti hasil MapReduce. Ini menggunakan rasa MapReduce.
HDFS atau HBASE Sistem file terdistribusi Hadoop atau HBASE adalah teknik penyimpanan data untuk menyimpan data ke dalam sistem file.

Bekerja dari Hive

Diagram berikut menggambarkan alur kerja antara Hive dan Hadoop.

Tabel berikut menjelaskan bagaimana Hive berinteraksi dengan framework Hadoop:

Langkah No. Operasi
1 Execute Query

Antarmuka Hive seperti Command Line atau Web UI mengirimkan kueri ke Driver (driver database apa pun seperti JDBC, ODBC, dll.) Untuk dieksekusi.

2 Get Plan

Pengemudi mengambil bantuan kompilator kueri yang mengurai kueri untuk memeriksa sintaks dan rencana kueri atau persyaratan kueri.

3 Get Metadata

Kompilator mengirimkan permintaan metadata ke Metastore (database apa pun).

4 Send Metadata

Metastore mengirimkan metadata sebagai tanggapan terhadap kompilator.

5 Send Plan

Kompilator memeriksa persyaratan dan mengirim ulang rencana tersebut ke pengemudi. Sampai di sini, parsing dan kompilasi query sudah selesai.

6 Execute Plan

Pengemudi mengirimkan rencana eksekusi ke mesin eksekusi.

7 Execute Job

Secara internal, proses eksekusi pekerjaan adalah pekerjaan MapReduce. Mesin eksekusi mengirimkan pekerjaan ke JobTracker, yang ada di node Nama dan menetapkan pekerjaan ini ke TaskTracker, yang ada di node Data. Di sini, kueri menjalankan pekerjaan MapReduce.

7.1 Metadata Ops

Sedangkan dalam eksekusinya, mesin eksekusi dapat menjalankan operasi metadata dengan Metastore.

8 Fetch Result

Mesin eksekusi menerima hasil dari node Data.

9 Send Results

Mesin eksekusi mengirimkan nilai-nilai yang dihasilkan tersebut ke pengemudi.

10 Send Results

Pengemudi mengirimkan hasilnya ke Hive Interfaces.

Semua sub-proyek Hadoop seperti Hive, Pig, dan HBase mendukung sistem operasi Linux. Oleh karena itu, Anda perlu menginstal OS rasa Linux apa pun. Langkah-langkah sederhana berikut dijalankan untuk instalasi Hive:

Langkah 1: Memverifikasi Instalasi JAVA

Java harus diinstal pada sistem Anda sebelum menginstal Hive. Mari kita verifikasi instalasi java menggunakan perintah berikut:

$ java –version

Jika Java sudah terinstal di sistem Anda, Anda akan melihat respons berikut:

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Jika java tidak diinstal di sistem Anda, ikuti langkah-langkah yang diberikan di bawah ini untuk menginstal java.

Menginstal Java

Langkah I:

Unduh java (JDK <versi terbaru> - X64.tar.gz) dengan mengunjungi tautan berikut http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.

Kemudian jdk-7u71-linux-x64.tar.gz akan diunduh ke sistem Anda.

Langkah II:

Umumnya Anda akan menemukan file java yang diunduh di folder Unduhan. Verifikasi dan ekstrak file jdk-7u71-linux-x64.gz menggunakan perintah berikut.

$ cd Downloads/
$ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Langkah III:

Untuk membuat java tersedia untuk semua pengguna, Anda harus memindahkannya ke lokasi "/ usr / local /". Buka root, dan ketik perintah berikut.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Langkah IV:

Untuk menyiapkan variabel PATH dan JAVA_HOME, tambahkan perintah berikut ke file ~ / .bashrc.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Sekarang verifikasi instalasi menggunakan perintah java -version dari terminal seperti dijelaskan di atas.

Langkah 2: Memverifikasi Pemasangan Hadoop

Hadoop harus diinstal di sistem Anda sebelum menginstal Hive. Mari kita verifikasi instalasi Hadoop menggunakan perintah berikut:

$ hadoop version

Jika Hadoop sudah terinstal di sistem Anda, maka Anda akan mendapatkan respons berikut:

Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 
Compiled by hortonmu on 2013-10-07T06:28Z 
Compiled with protoc 2.5.0 
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Jika Hadoop tidak diinstal pada sistem Anda, lanjutkan dengan langkah-langkah berikut:

Mendownload Hadoop

Unduh dan ekstrak Hadoop 2.4.1 dari Apache Software Foundation menggunakan perintah berikut.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Menginstal Hadoop dalam Mode Terdistribusi Pseudo

Langkah-langkah berikut digunakan untuk menginstal Hadoop 2.4.1 dalam mode pseudo didistribusikan.

Langkah I: Menyiapkan Hadoop

Anda dapat menyetel variabel lingkungan Hadoop dengan menambahkan perintah berikut ke ~/.bashrc mengajukan.

export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Sekarang terapkan semua perubahan ke dalam sistem yang sedang berjalan.

$ source ~/.bashrc

Langkah II: Konfigurasi Hadoop

Anda dapat menemukan semua file konfigurasi Hadoop di lokasi "$ HADOOP_HOME / etc / hadoop". Anda perlu membuat perubahan yang sesuai pada file konfigurasi tersebut sesuai dengan infrastruktur Hadoop Anda.

$ cd $HADOOP_HOME/etc/hadoop

Untuk mengembangkan program Hadoop menggunakan java, Anda harus mengatur ulang variabel lingkungan java di hadoop-env.sh mengajukan dengan mengganti JAVA_HOME nilai dengan lokasi java di sistem Anda.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Diberikan di bawah ini adalah daftar file yang harus Anda edit untuk mengkonfigurasi Hadoop.

core-site.xml

Itu core-site.xml file berisi informasi seperti nomor port yang digunakan untuk instance Hadoop, memori yang dialokasikan untuk sistem file, batas memori untuk menyimpan data, dan ukuran buffer Baca / Tulis.

Buka core-site.xml dan tambahkan properti berikut di antara tag <configuration> dan </configuration>.

<configuration>

   <property> 
      <name>fs.default.name</name> 
      <value>hdfs://localhost:9000</value> 
   </property>
   
</configuration>

hdfs-site.xml

Itu hdfs-site.xmlfile berisi informasi seperti nilai data replikasi, jalur kode nama, dan jalur datanode sistem file lokal Anda. Artinya tempat di mana Anda ingin menyimpan infra Hadoop.

Mari kita asumsikan data berikut.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Buka file ini dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>

   <property> 
      <name>dfs.replication</name> 
      <value>1</value> 
   </property> 
   <property> 
      <name>dfs.name.dir</name> 
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> 
   </property> 
   <property> 
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > 
   </property>
   
</configuration>

Note: Dalam file di atas, semua nilai properti ditentukan pengguna dan Anda dapat membuat perubahan sesuai dengan infrastruktur Hadoop Anda.

yarn-site.xml

File ini digunakan untuk mengkonfigurasi benang menjadi Hadoop. Buka file yarn-site.xml dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>

   <property> 
      <name>yarn.nodemanager.aux-services</name> 
      <value>mapreduce_shuffle</value> 
   </property>
   
</configuration>

mapred-site.xml

File ini digunakan untuk menentukan kerangka MapReduce mana yang kita gunakan. Secara default, Hadoop berisi template benang-situs.xml. Pertama-tama, Anda perlu menyalin file dari mapred-site, xml.template ke file mapred-site.xml menggunakan perintah berikut.

$ cp mapred-site.xml.template mapred-site.xml

Buka mapred-site.xml file dan tambahkan properti berikut di antara tag <configuration>, </configuration> di file ini.

<configuration>

   <property> 
      <name>mapreduce.framework.name</name> 
      <value>yarn</value> 
   </property>

</configuration>

Memverifikasi Instalasi Hadoop

Langkah-langkah berikut digunakan untuk memverifikasi penginstalan Hadoop.

Langkah I: Penyiapan Node Nama

Siapkan namenode menggunakan perintah “hdfs namenode -format” sebagai berikut.

$ cd ~ $ hdfs namenode -format

Hasil yang diharapkan adalah sebagai berikut.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG: host = localhost/192.168.1.11 
STARTUP_MSG: args = [-format] 
STARTUP_MSG: version = 2.4.1 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to 
retain 1 images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
 ************************************************************/

Langkah II: Memverifikasi Hadoop dfs

Perintah berikut digunakan untuk memulai dfs. Menjalankan perintah ini akan memulai sistem file Hadoop Anda.

$ start-dfs.sh

Output yang diharapkan adalah sebagai berikut:

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

Langkah III: Memverifikasi Skrip Benang

Perintah berikut digunakan untuk memulai skrip benang. Menjalankan perintah ini akan memulai benang daemon Anda.

$ start-yarn.sh

Output yang diharapkan adalah sebagai berikut:

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Langkah IV: Mengakses Hadoop di Browser

Nomor port default untuk mengakses Hadoop adalah 50070. Gunakan url berikut untuk mendapatkan layanan Hadoop di browser Anda.

http://localhost:50070/

Langkah V: Verifikasi semua aplikasi untuk cluster

Nomor port default untuk mengakses semua aplikasi cluster adalah 8088. Gunakan url berikut untuk mengunjungi layanan ini.

http://localhost:8088/

Langkah 3: Mengunduh Hive

Kami menggunakan sarang-0.14.0 dalam tutorial ini. Anda dapat mengunduhnya dengan mengunjungi tautan berikuthttp://apache.petsads.us/hive/hive-0.14.0/.Mari kita asumsikan itu diunduh ke direktori / Downloads. Di sini, kami mengunduh arsip Hive bernama "apache-hive-0.14.0-bin.tar.gz" untuk tutorial ini. Perintah berikut digunakan untuk memverifikasi unduhan:

$ cd Downloads $ ls

Saat unduhan berhasil, Anda akan melihat respons berikut:

apache-hive-0.14.0-bin.tar.gz

Langkah 4: Memasang Hive

Langkah-langkah berikut diperlukan untuk menginstal Hive di sistem Anda. Mari kita asumsikan arsip Hive diunduh ke direktori / Downloads.

Mengekstrak dan memverifikasi Arsip Sarang

Perintah berikut digunakan untuk memverifikasi unduhan dan mengekstrak arsip sarang:

$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls

Saat unduhan berhasil, Anda akan melihat respons berikut:

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

Menyalin file ke / usr / local / hive direktori

Kita perlu menyalin file dari pengguna super "su -". Perintah berikut digunakan untuk menyalin file dari direktori yang diekstrak ke direktori / usr / local / hive ”.

$ su -
passwd:

# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

Menyiapkan lingkungan untuk Hive

Anda dapat mengatur lingkungan Hive dengan menambahkan baris berikut ke ~/.bashrc mengajukan:

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

Perintah berikut digunakan untuk menjalankan file ~ / .bashrc.

$ source ~/.bashrc

Langkah 5: Konfigurasi Sarang

Untuk mengonfigurasi Hive dengan Hadoop, Anda perlu mengedit file hive-env.sh file, yang ditempatkan di $HIVE_HOME/confdirektori. Perintah berikut mengarahkan ke sarangconfig folder dan salin file template:

$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh

Edit hive-env.sh file dengan menambahkan baris berikut:

export HADOOP_HOME=/usr/local/hadoop

Instalasi sarang berhasil diselesaikan. Sekarang Anda memerlukan server database eksternal untuk mengkonfigurasi Metastore. Kami menggunakan database Apache Derby.

Langkah 6: Mengunduh dan Menginstal Apache Derby

Ikuti langkah-langkah yang diberikan di bawah ini untuk mengunduh dan menginstal Apache Derby:

Mendownload Apache Derby

Perintah berikut digunakan untuk mengunduh Apache Derby. Perlu beberapa saat untuk mengunduh.

$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

Perintah berikut digunakan untuk memverifikasi unduhan:

$ ls

Saat unduhan berhasil, Anda akan melihat respons berikut:

db-derby-10.4.2.0-bin.tar.gz

Mengekstrak dan memverifikasi arsip Derby

Perintah berikut digunakan untuk mengekstraksi dan memverifikasi arsip Derby:

$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

Saat unduhan berhasil, Anda akan melihat respons berikut:

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

Menyalin file ke direktori / usr / local / derby

Kita perlu menyalin dari pengguna super "su -". Perintah berikut digunakan untuk menyalin file dari direktori yang diekstrak ke direktori / usr / local / derby:

$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

Menyiapkan lingkungan untuk Derby

Anda dapat mengatur lingkungan Derby dengan menambahkan baris berikut ke ~/.bashrc mengajukan:

export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar

Perintah berikut digunakan untuk mengeksekusi ~/.bashrc mengajukan:

$ source ~/.bashrc

Buat direktori untuk menyimpan Metastore

Buat direktori bernama data di direktori $ DERBY_HOME untuk menyimpan data Metastore.

$ mkdir $DERBY_HOME/data

Pemasangan derby dan pengaturan lingkungan sekarang selesai.

Langkah 7: Konfigurasi Metastore of Hive

Mengonfigurasi Metastore berarti menentukan ke Hive tempat database disimpan. Anda dapat melakukannya dengan mengedit file hive-site.xml, yang ada di direktori $ HIVE_HOME / conf. Pertama-tama, salin file template menggunakan perintah berikut:

$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

Edit hive-site.xml dan tambahkan baris berikut di antara tag <configuration> dan </configuration>:

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:derby://localhost:1527/metastore_db;create=true </value>
   <description>JDBC connect string for a JDBC metastore </description>
</property>

Buat file bernama jpox.properties dan tambahkan baris berikut ke dalamnya:

javax.jdo.PersistenceManagerFactoryClass =

org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

Langkah 8: Memverifikasi Instalasi Sarang

Sebelum menjalankan Hive, Anda perlu membuat file /tmpfolder dan folder Hive terpisah di HDFS. Di sini, kami menggunakan/user/hive/warehousemap. Anda perlu mengatur izin tulis untuk folder yang baru dibuat ini seperti yang ditunjukkan di bawah ini:

chmod g+w

Sekarang atur dalam HDFS sebelum memverifikasi Hive. Gunakan perintah berikut:

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Perintah berikut digunakan untuk memverifikasi instalasi Hive:

$ cd $HIVE_HOME $ bin/hive

Saat pemasangan Hive berhasil, Anda akan melihat respons berikut:

Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties 
Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

Perintah contoh berikut dijalankan untuk menampilkan semua tabel:

hive> show tables; 
OK 
Time taken: 2.798 seconds 
hive>

Bab ini membawa Anda melalui berbagai tipe data di Hive, yang terlibat dalam pembuatan tabel. Semua tipe data di Hive diklasifikasikan menjadi empat tipe, yang diberikan sebagai berikut:

  • Jenis Kolom
  • Literals
  • Nilai Null
  • Jenis Kompleks

Jenis Kolom

Tipe kolom digunakan sebagai tipe data kolom dari sarang. Mereka adalah sebagai berikut:

Jenis Integral

Tipe data integer dapat ditentukan menggunakan tipe data integral, INT. Ketika jangkauan data melebihi jangkauan INT, Anda perlu menggunakan BIGINT dan jika jangkauan data lebih kecil dari INT, Anda menggunakan SMALLINT. TINYINT lebih kecil dari SMALLINT.

Tabel berikut menggambarkan berbagai tipe data INT:

Tipe Postfix Contoh
TINYINT Y 10T
SMALLINT S 10S
INT - 10
BIGINT L 10L

Jenis String

Tipe data tipe string dapat ditentukan menggunakan tanda kutip tunggal ('') atau tanda kutip ganda (""). Ini berisi dua tipe data: VARCHAR dan CHAR. Hive mengikuti karakter escape tipe C.

Tabel berikut menggambarkan berbagai tipe data CHAR:

Tipe data Panjangnya
VARCHAR 1 hingga 65355
ARANG 255

Stempel waktu

Mendukung stempel waktu UNIX tradisional dengan presisi nanodetik opsional. Ini mendukung format java.sql.Timestamp "YYYY-MM-DD HH: MM: SS.fffffffff" dan format "yyyy-mm-hh jj: mm: ss.ffffffffff".

tanggal

Nilai DATE dijelaskan dalam format tahun / bulan / hari dalam format {{YYYY-MM-DD}}.

Desimal

Jenis DECIMAL di Hive sama dengan format Desimal Besar di Jawa. Ini digunakan untuk merepresentasikan presisi arbitrer yang tidak dapat diubah. Sintaks dan contohnya adalah sebagai berikut:

DECIMAL(precision, scale)
decimal(10,0)

Jenis Serikat

Union adalah kumpulan tipe data yang heterogen. Anda dapat membuat sebuah instance menggunakancreate union. Sintaks dan contohnya adalah sebagai berikut:

UNIONTYPE<int, double, array<string>, struct<a:int,b:string>>

{0:1} 
{1:2.0} 
{2:["three","four"]} 
{3:{"a":5,"b":"five"}} 
{2:["six","seven"]} 
{3:{"a":8,"b":"eight"}} 
{0:9} 
{1:10.0}

Literals

Literal berikut digunakan di Hive:

Jenis Titik Mengambang

Jenis titik mengambang tidak lain adalah angka dengan titik desimal. Umumnya tipe data ini terdiri dari tipe data DOUBLE.

Jenis Desimal

-308 308

Nilai Nihil

Nilai yang hilang diwakili oleh nilai khusus NULL.

Jenis Kompleks

Tipe data kompleks Hive adalah sebagai berikut:

Array

Array di Hive digunakan dengan cara yang sama seperti di Java.

Sintaks: ARRAY <data_type>

Maps

Peta di Hive mirip dengan Peta Java.

Sintaks: MAP <primitive_type, data_type>

Structs

Structs in Hive mirip dengan menggunakan data kompleks dengan komentar.

Sintaks: STRUCT <col_name: data_type [COMMENT col_comment], ...>

Hive adalah teknologi database yang dapat mendefinisikan database dan tabel untuk menganalisis data terstruktur. Tema analisis data terstruktur adalah menyimpan data secara tabular, dan meneruskan kueri untuk menganalisisnya. Bab ini menjelaskan cara membuat database Hive. Hive berisi database default bernamadefault.

Buat Pernyataan Database

Buat Database adalah pernyataan yang digunakan untuk membuat database di Hive. Database di Hive adalah anamespaceatau kumpulan tabel. Itusyntax untuk pernyataan ini adalah sebagai berikut:

CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>

Di sini, IF NOT EXISTS adalah klausa opsional, yang memberi tahu pengguna bahwa database dengan nama yang sama sudah ada. Kita dapat menggunakan SCHEMA sebagai pengganti DATABASE dalam perintah ini. Kueri berikut dijalankan untuk membuat database bernamauserdb:

hive> CREATE DATABASE [IF NOT EXISTS] userdb;

or

hive> CREATE SCHEMA userdb;

Kueri berikut digunakan untuk memverifikasi daftar database:

hive> SHOW DATABASES;
default
userdb

Program JDBC

Program JDBC untuk membuat database diberikan di bawah ini.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet; 4. CREATE DATABASE
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveCreateDb {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/default", "", "");
      Statement stmt = con.createStatement();
      stmt.executeQuery("CREATE DATABASE userdb");
      System.out.println(“Database userdb created successfully.”);
      con.close();
   }
}

Simpan program dalam file bernama HiveCreateDb.java. Perintah berikut digunakan untuk mengkompilasi dan menjalankan program ini.

$ javac HiveCreateDb.java $ java HiveCreateDb

Keluaran:

Database userdb created successfully.

Bab ini menjelaskan cara menjatuhkan database di Hive. Penggunaan SCHEMA dan DATABASE sama.

Jatuhkan Pernyataan Database

Drop Database adalah pernyataan yang menghapus semua tabel dan menghapus database. Sintaksnya adalah sebagai berikut:

DROP DATABASE StatementDROP (DATABASE|SCHEMA) [IF EXISTS] database_name 
[RESTRICT|CASCADE];

Kueri berikut ini digunakan untuk menjatuhkan database. Mari kita asumsikan bahwa nama database adalahuserdb.

hive> DROP DATABASE IF EXISTS userdb;

Kueri berikut menghapus database menggunakan CASCADE. Ini berarti menjatuhkan tabel masing-masing sebelum menjatuhkan database.

hive> DROP DATABASE IF EXISTS userdb CASCADE;

Kueri berikut menghapus database menggunakan SCHEMA.

hive> DROP SCHEMA userdb;

Klausa ini ditambahkan di Hive 0.6.

Program JDBC

Program JDBC untuk menjatuhkan database diberikan di bawah ini.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager; 5. DROP DATABASE

public class HiveDropDb {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/default", "", "");
      Statement stmt = con.createStatement();
      stmt.executeQuery("DROP DATABASE userdb");
      System.out.println(“Drop userdb database successful.”);
      con.close();
   }
}

Simpan program dalam file bernama HiveDropDb.java. Diberikan di bawah ini adalah perintah untuk mengkompilasi dan menjalankan program ini.

$ javac HiveDropDb.java $ java HiveDropDb

Keluaran:

Drop userdb database successful.

Bab ini menjelaskan cara membuat tabel dan cara memasukkan data ke dalamnya. Konvensi membuat tabel di HIVE sangat mirip dengan membuat tabel menggunakan SQL.

Buat Pernyataan Tabel

Buat Tabel adalah pernyataan yang digunakan untuk membuat tabel di Hive. Sintaks dan contohnya adalah sebagai berikut:

Sintaksis

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name

[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[ROW FORMAT row_format]
[STORED AS file_format]

Contoh

Mari kita asumsikan Anda perlu membuat tabel bernama employee menggunakan CREATE TABLEpernyataan. Tabel berikut mencantumkan bidang dan tipe datanya di tabel karyawan:

Sr Tidak Nama Bidang Tipe data
1 Idul Fitri int
2 Nama Tali
3 Gaji Mengapung
4 Penunjukan tali

Data berikut adalah Komentar, bidang berformat baris seperti Terminator bidang, terminator Garis, dan tipe File Tersimpan.

COMMENT ‘Employee details’
FIELDS TERMINATED BY ‘\t’
LINES TERMINATED BY ‘\n’
STORED IN TEXT FILE

Kueri berikut membuat tabel bernama employee menggunakan data di atas.

hive> CREATE TABLE IF NOT EXISTS employee ( eid int, name String,
> salary String, destination String)
> COMMENT ‘Employee details’
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY ‘\t’
> LINES TERMINATED BY ‘\n’
> STORED AS TEXTFILE;

Jika Anda menambahkan opsi JIKA TIDAK ADA, Sarang mengabaikan pernyataan jika tabel sudah ada.

Pada pembuatan tabel yang berhasil, Anda bisa melihat respons berikut:

OK
Time taken: 5.905 seconds
hive>

Program JDBC

Program JDBC untuk membuat tabel diberikan contoh.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveCreateTable {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("CREATE TABLE IF NOT EXISTS "
      +" employee ( eid int, name String, "
      +" salary String, destignation String)"
      +" COMMENT ‘Employee details’"
      +" ROW FORMAT DELIMITED"
      +" FIELDS TERMINATED BY ‘\t’"
      +" LINES TERMINATED BY ‘\n’"
      +" STORED AS TEXTFILE;");
      System.out.println(“ Table employee created.”);
      con.close();
   }
}

Simpan program dalam file bernama HiveCreateDb.java. Perintah berikut digunakan untuk mengkompilasi dan menjalankan program ini.

$ javac HiveCreateDb.java $ java HiveCreateDb

Keluaran

Table employee created.

Muat Pernyataan Data

Umumnya, setelah membuat tabel di SQL, kita dapat memasukkan data menggunakan pernyataan Sisipkan. Tapi di Hive, kita bisa memasukkan data menggunakan pernyataan LOAD DATA.

Saat memasukkan data ke dalam Hive, lebih baik menggunakan LOAD DATA untuk menyimpan catatan massal. Ada dua cara untuk memuat data: satu dari sistem file lokal dan yang kedua dari sistem file Hadoop.

Syntex

Sintaks untuk memuat data adalah sebagai berikut:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename 
[PARTITION (partcol1=val1, partcol2=val2 ...)]
  • LOKAL adalah pengidentifikasi untuk menentukan jalur lokal. Ini opsional.
  • OVERWRITE adalah opsional untuk menimpa data di tabel.
  • PARTISI adalah opsional.

Contoh

Kami akan memasukkan data berikut ke dalam tabel. Ini adalah file teks bernamasample.txt di /home/user direktori.

1201  Gopal       45000    Technical manager
1202  Manisha     45000    Proof reader
1203  Masthanvali 40000    Technical writer
1204  Krian       40000    Hr Admin
1205  Kranthi     30000    Op Admin

Kueri berikut memuat teks yang diberikan ke dalam tabel.

hive> LOAD DATA LOCAL INPATH '/home/user/sample.txt'
> OVERWRITE INTO TABLE employee;

Saat unduhan berhasil, Anda akan melihat respons berikut:

OK
Time taken: 15.905 seconds
hive>

Program JDBC

Diberikan di bawah ini adalah program JDBC untuk memuat data yang diberikan ke dalam tabel.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveLoadData {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("LOAD DATA LOCAL INPATH '/home/user/sample.txt'"
      +"OVERWRITE INTO TABLE employee;");
      System.out.println("Load Data into employee successful");
      con.close();
   }
}

Simpan program dalam file bernama HiveLoadData.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveLoadData.java $ java HiveLoadData

Keluaran:

Load Data into employee successful

Bab ini menjelaskan cara mengubah atribut tabel seperti mengganti nama tabel, mengganti nama kolom, menambah kolom, dan menghapus atau mengganti kolom.

Pernyataan Alter Table

Ini digunakan untuk mengubah tabel di Hive.

Sintaksis

Pernyataan tersebut mengambil salah satu sintaks berikut berdasarkan atribut apa yang ingin kita ubah dalam tabel.

ALTER TABLE name RENAME TO new_name
ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])
ALTER TABLE name DROP [COLUMN] column_name
ALTER TABLE name CHANGE column_name new_name new_type
ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...])

Ubah Nama Menjadi… Pernyataan

Kueri berikut mengganti nama tabel dari employee untuk emp.

hive> ALTER TABLE employee RENAME TO emp;

Program JDBC

Program JDBC untuk mengganti nama tabel adalah sebagai berikut.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet; 
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterRenameTo {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("ALTER TABLE employee RENAME TO emp;");
      System.out.println("Table Renamed Successfully");
      con.close();
   }
}

Simpan program dalam file bernama HiveAlterRenameTo.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveAlterRenameTo.java $ java HiveAlterRenameTo

Keluaran:

Table renamed successfully.

Pernyataan Perubahan

Tabel berikut berisi bidang employee tabel dan ini menunjukkan bidang yang akan diubah (dicetak tebal).

Nama Bidang Konversi dari Tipe Data Ubah Nama Bidang Ubah ke Tipe Data
Idul Fitri int Idul Fitri int
name Tali ename Tali
gaji Float gaji Double
penunjukan Tali penunjukan Tali

Kueri berikut ini mengganti nama kolom dan tipe data kolom menggunakan data di atas:

hive> ALTER TABLE employee CHANGE name ename String;
hive> ALTER TABLE employee CHANGE salary salary Double;

Program JDBC

Diberikan di bawah ini adalah program JDBC untuk mengubah kolom.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterChangeColumn {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("ALTER TABLE employee CHANGE name ename String;");
      stmt.executeQuery("ALTER TABLE employee CHANGE salary salary Double;");
      System.out.println("Change column successful.");
      con.close();
   }
}

Simpan program dalam file bernama HiveAlterChangeColumn.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveAlterChangeColumn.java $ java HiveAlterChangeColumn

Keluaran:

Change column successful.

Tambahkan Pernyataan Kolom

Kueri berikut menambahkan kolom bernama dept ke tabel karyawan.

hive> ALTER TABLE employee ADD COLUMNS ( 
   > dept STRING COMMENT 'Department name');

Program JDBC

Program JDBC untuk menambahkan kolom ke tabel diberikan di bawah ini.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterAddColumn {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
     // create statement
     Statement stmt = con.createStatement();
     // execute statement
     stmt.executeQuery("ALTER TABLE employee ADD COLUMNS "
     +" (dept STRING COMMENT 'Department name');");
     System.out.prinln("Add column successful.");
     con.close();
   }
}

Simpan program dalam file bernama HiveAlterAddColumn.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveAlterAddColumn.java $ java HiveAlterAddColumn

Keluaran:

Add column successful.

Replace Statement

Kueri berikut menghapus semua kolom dari employee tabel dan menggantinya dengan emp dan name kolom:

hive> ALTER TABLE employee REPLACE COLUMNS ( 
   > eid INT empid Int, 
   > ename STRING name String);

Program JDBC

Diberikan di bawah ini adalah program JDBC untuk menggantikan eid kolom dengan empid dan ename kolom dengan name.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveAlterReplaceColumn {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("ALTER TABLE employee REPLACE COLUMNS "
      +" (eid INT empid Int,"
      +" ename STRING name String);");
      System.out.println(" Replace column successful");
      con.close();
   }
}

Simpan program dalam file bernama HiveAlterReplaceColumn.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveAlterReplaceColumn.java $ java HiveAlterReplaceColumn

Keluaran:

Replace column successful.

Bab ini menjelaskan cara menjatuhkan tabel di Hive. Saat Anda menjatuhkan tabel dari Hive Metastore, itu menghapus data tabel / kolom dan metadatanya. Ini bisa berupa tabel normal (disimpan di Metastore) atau tabel eksternal (disimpan dalam sistem file lokal); Sarang memperlakukan keduanya dengan cara yang sama, apa pun tipenya.

Pernyataan Drop Table

Sintaksnya adalah sebagai berikut:

DROP TABLE [IF EXISTS] table_name;

Kueri berikut menjatuhkan tabel bernama employee:

hive> DROP TABLE IF EXISTS employee;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

OK
Time taken: 5.3 seconds
hive>

Program JDBC

Program JDBC berikut menghapus tabel karyawan.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveDropTable {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      stmt.executeQuery("DROP TABLE IF EXISTS employee;");
     System.out.println("Drop table successful.");
     con.close();
   }
}

Simpan program dalam file bernama HiveDropTable.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveDropTable.java $ java HiveDropTable

Keluaran:

Drop table successful

Kueri berikut digunakan untuk memverifikasi daftar tabel:

hive> SHOW TABLES;
emp
ok
Time taken: 2.1 seconds
hive>

Hive mengatur tabel menjadi beberapa partisi. Ini adalah cara membagi tabel menjadi beberapa bagian terkait berdasarkan nilai kolom yang dipartisi seperti tanggal, kota, dan departemen. Menggunakan partisi, mudah untuk menanyakan sebagian dari data.

Tabel atau partisi dibagi lagi menjadi buckets,untuk menyediakan struktur tambahan pada data yang dapat digunakan untuk pembuatan kueri yang lebih efisien. Bucketing bekerja berdasarkan nilai fungsi hash dari beberapa kolom tabel.

Misalnya, tabel bernama Tab1berisi data karyawan seperti id, nama, dept, dan yoj (tahun bergabung). Misalkan Anda perlu mengambil detail dari semua karyawan yang bergabung pada tahun 2012. Kueri mencari informasi yang diperlukan di seluruh tabel. Namun, jika Anda mempartisi data karyawan dengan tahun dan menyimpannya dalam file terpisah, ini mengurangi waktu pemrosesan kueri. Contoh berikut menunjukkan cara mempartisi file dan datanya:

File berikut berisi tabel Employeedata.

/ tab1 / Employeedata / file1

id, name, dept, yoj

1, gopal, TP, 2012

2, kiran, HR, 2012

3, kaleel, SC, 2013

4, Prasanth, SC, 2013

 

Data di atas dipartisi menjadi dua file menggunakan tahun.

/ tab1 / Employeedata / 2012 / file2

1, gopal, TP, 2012

2, kiran, HR, 2012

 

/ tab1 / Employeedata / 2013 / file3

3, kaleel, SC, 2013

4, Prasanth, SC, 2013

Menambahkan Partisi

Kita dapat menambahkan partisi ke tabel dengan mengubah tabel. Mari kita asumsikan kita memiliki tabel bernamaemployee dengan bidang seperti Id, Nama, Gaji, Penunjukan, Departemen, dan yoj.

Sintaksis:

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;

partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)

Kueri berikut digunakan untuk menambahkan partisi ke tabel karyawan.

hive> ALTER TABLE employee
> ADD PARTITION (year=’2012’)
> location '/2012/part2012';

Mengganti Nama Partisi

Sintaks dari perintah ini adalah sebagai berikut.

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

Kueri berikut ini digunakan untuk mengganti nama partisi:

hive> ALTER TABLE employee PARTITION (year=’1203’)
   > RENAME TO PARTITION (Yoj=’1203’);

Menjatuhkan Partisi

Sintaks berikut digunakan untuk menjatuhkan partisi:

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;

Kueri berikut digunakan untuk menjatuhkan partisi:

hive> ALTER TABLE employee DROP [IF EXISTS]
   > PARTITION (year=’1203’);

Bab ini menjelaskan operator bawaan dari Hive. Ada empat jenis operator di Hive:

  • Operator Relasional
  • Operator Aritmatika
  • Operator Logis
  • Operator Kompleks

Operator Relasional

Operator ini digunakan untuk membandingkan dua operan. Tabel berikut menjelaskan operator relasional yang tersedia di Hive:

Operator Operan Deskripsi
A = B semua tipe primitif BENAR jika ekspresi A setara dengan ekspresi B jika tidak FALSE.
A! = B semua tipe primitif TRUE jika ekspresi A tidak setara dengan ekspresi B jika tidak FALSE.
A <B semua tipe primitif TRUE jika ekspresi A kurang dari ekspresi B jika tidak FALSE.
A <= B semua tipe primitif BENAR jika ekspresi A kurang dari atau sama dengan ekspresi B jika tidak FALSE.
A> B semua tipe primitif TRUE jika ekspresi A lebih besar dari ekspresi B jika tidak FALSE.
A> = B semua tipe primitif TRUE jika ekspresi A lebih besar dari atau sama dengan ekspresi B jika tidak FALSE.
A IS NULL semua jenis TRUE jika ekspresi A mengevaluasi ke NULL jika tidak FALSE.
A BUKAN NULL semua jenis FALSE jika ekspresi A mengevaluasi ke NULL jika tidak TRUE.
A SEPERTI B String TRUE jika pola string A cocok dengan B jika tidak FALSE.
SEBUAH RLIKE B String NULL jika A atau B adalah NULL, TRUE jika ada substring dari A yang cocok dengan ekspresi reguler Java B, jika tidak FALSE.
A REGEXP B String Sama seperti RLIKE.

Contoh

Mari kita asumsikan employeetabel terdiri dari bidang bernama Id, Nama, Gaji, Penunjukan, dan Departemen seperti yang ditunjukkan di bawah ini. Buat kueri untuk mengambil detail karyawan yang Idnya adalah 1205.

+-----+--------------+--------+---------------------------+------+
| Id  | Name         | Salary | Designation               | Dept |
+-----+--------------+------------------------------------+------+
|1201 | Gopal        | 45000  | Technical manager         | TP   |
|1202 | Manisha      | 45000  | Proofreader               | PR   |
|1203 | Masthanvali  | 40000  | Technical writer          | TP   |
|1204 | Krian        | 40000  | Hr Admin                  | HR   |
|1205 | Kranthi      | 30000  | Op Admin                  | Admin|
+-----+--------------+--------+---------------------------+------+

Kueri berikut dijalankan untuk mengambil detail karyawan menggunakan tabel di atas:

hive> SELECT * FROM employee WHERE Id=1205;

Saat eksekusi kueri berhasil, Anda bisa melihat respons berikut:

+-----+-----------+-----------+----------------------------------+
| ID  | Name      | Salary    | Designation              | Dept  |
+-----+---------------+-------+----------------------------------+
|1205 | Kranthi   | 30000     | Op Admin                 | Admin |
+-----+-----------+-----------+----------------------------------+

Kueri berikut dijalankan untuk mengambil detail karyawan yang gajinya lebih dari atau sama dengan Rs 40000.

hive> SELECT * FROM employee WHERE Salary>=40000;

Saat eksekusi kueri berhasil, Anda bisa melihat respons berikut:

+-----+------------+--------+----------------------------+------+
| ID  | Name       | Salary | Designation                | Dept |
+-----+------------+--------+----------------------------+------+
|1201 | Gopal      | 45000  | Technical manager          | TP   |
|1202 | Manisha    | 45000  | Proofreader                | PR   |
|1203 | Masthanvali| 40000  | Technical writer           | TP   |
|1204 | Krian      | 40000  | Hr Admin                   | HR   |
+-----+------------+--------+----------------------------+------+

Operator Aritmatika

Operator ini mendukung berbagai operasi aritmatika umum pada operan. Semuanya mengembalikan tipe angka. Tabel berikut menjelaskan operator aritmatika yang tersedia di Hive:

Operator Operan Deskripsi
A + B semua jenis nomor Memberikan hasil penambahan A dan B.
A - B semua jenis nomor Memberikan hasil pengurangan B dari A.
A * B semua jenis nomor Memberikan hasil perkalian A dan B.
A / B semua jenis nomor Memberikan hasil bagi B dari A.
A% B semua jenis nomor Memberikan pengingat yang dihasilkan dari pembagian A dengan B.
A & B semua jenis nomor Memberikan hasil dari bitwise AND dari A dan B.
A | B semua jenis nomor Memberikan hasil bitwise OR dari A dan B.
A ^ B semua jenis nomor Memberikan hasil XOR bitwise dari A dan B.
~ A semua jenis nomor Memberikan hasil bitwise BUKAN dari A.

Contoh

Kueri berikut menambahkan dua angka, 20 dan 30.

hive> SELECT 20+30 ADD FROM temp;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+--------+
|   ADD  |
+--------+
|   50   |
+--------+

Operator Logis

Operatornya adalah ekspresi logika. Semuanya mengembalikan TRUE atau FALSE.

Operator Operand Deskripsi
A DAN B boolean BENAR jika A dan B BENAR, jika tidak SALAH.
A && B boolean Sama seperti A AND B.
A ATAU B boolean BENAR jika A atau B atau keduanya BENAR, jika tidak SALAH.
A || B boolean Sama seperti A ATAU B.
TIDAK A boolean BENAR jika A SALAH, jika tidak SALAH.
!SEBUAH boolean Sama seperti NOT A.

Contoh

Kueri berikut digunakan untuk mengambil detail karyawan yang Departemennya adalah TP dan Gaji lebih dari Rs 40000.

hive> SELECT * FROM employee WHERE Salary>40000 && Dept=TP;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
+------+--------------+-------------+-------------------+--------+

Operator Kompleks

Operator ini menyediakan ekspresi untuk mengakses elemen Tipe Kompleks.

Operator Operan Deskripsi
Sebuah] A adalah Array dan n adalah int Ini mengembalikan elemen ke-n dalam array A. Elemen pertama memiliki indeks 0.
M [kunci] M adalah Map <K, V> dan kunci bertipe K Ini mengembalikan nilai yang sesuai dengan kunci di peta.
Sx S adalah sebuah struct Ini mengembalikan bidang x dari S.

Bahasa Kueri Hive (HiveQL) adalah bahasa kueri untuk Hive untuk memproses dan menganalisis data terstruktur di Metastore. Bab ini menjelaskan cara menggunakan pernyataan SELECT dengan klausa WHERE.

Pernyataan SELECT digunakan untuk mengambil data dari tabel. Klausa WHERE berfungsi mirip dengan kondisi. Ini menyaring data menggunakan kondisi dan memberi Anda hasil yang terbatas. Operator dan fungsi bawaan menghasilkan ekspresi, yang memenuhi kondisi tersebut.

Sintaksis

Diberikan di bawah ini adalah sintaks dari query SELECT:

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference 
[WHERE where_condition] 
[GROUP BY col_list] 
[HAVING having_condition] 
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]] 
[LIMIT number];

Contoh

Mari kita ambil contoh klausa SELECT… WHERE. Asumsikan kita memiliki tabel karyawan seperti yang diberikan di bawah ini, dengan bidang bernama Id, Nama, Gaji, Penunjukan, dan Departemen. Buat kueri untuk mengambil detail karyawan yang memperoleh gaji lebih dari Rs 30000.

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  | 
+------+--------------+-------------+-------------------+--------+

Kueri berikut mengambil detail karyawan menggunakan skenario di atas:

hive> SELECT * FROM employee WHERE salary>30000;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
+------+--------------+-------------+-------------------+--------+

Program JDBC

Program JDBC untuk diterapkan di mana klausul untuk contoh yang diberikan adalah sebagai berikut.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveQLWhere {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      Resultset res = stmt.executeQuery("SELECT * FROM employee WHERE
      salary>30000;");
      System.out.println("Result:");
      System.out.println(" ID \t Name \t Salary \t Designation \t Dept ");
      while (res.next()) {
         System.out.println(res.getInt(1)+" "+ res.getString(2)+" "+
         res.getDouble(3)+" "+ res.getString(4)+" "+ res.getString(5));
      }
      con.close();
   }
}

Simpan program dalam file bernama HiveQLWhere.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveQLWhere.java $ java HiveQLWhere

Keluaran:

ID       Name           Salary      Designation          Dept
1201     Gopal          45000       Technical manager    TP
1202     Manisha        45000       Proofreader          PR
1203     Masthanvali    40000       Technical writer     TP
1204     Krian          40000       Hr Admin             HR

Bab ini menjelaskan cara menggunakan klausa ORDER BY dalam pernyataan SELECT. Klausa ORDER BY digunakan untuk mengambil detail berdasarkan satu kolom dan mengurutkan hasil yang ditetapkan dengan urutan naik atau turun.

Sintaksis

Diberikan di bawah ini adalah sintaks dari klausa ORDER BY:

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference 
[WHERE where_condition] 
[GROUP BY col_list] 
[HAVING having_condition] 
[ORDER BY col_list]] 
[LIMIT number];

Contoh

Mari kita ambil contoh untuk klausa SELECT ... ORDER BY. Asumsikan tabel karyawan seperti yang diberikan di bawah ini, dengan bidang bernama Id, Nama, Gaji, Penunjukan, dan Departemen. Buat kueri untuk mengambil detail karyawan secara berurutan dengan menggunakan nama Departemen.

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

Kueri berikut mengambil detail karyawan menggunakan skenario di atas:

hive> SELECT Id, Name, Dept FROM employee ORDER BY DEPT;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
+------+--------------+-------------+-------------------+--------+

Program JDBC

Berikut adalah program JDBC untuk menerapkan klausa Order By untuk contoh yang diberikan.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveQLOrderBy {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement 
      Statement stmt = con.createStatement();
      // execute statement
      Resultset res = stmt.executeQuery("SELECT * FROM employee ORDER BY
      DEPT;");
      System.out.println(" ID \t Name \t Salary \t Designation \t Dept ");
      while (res.next()) {
         System.out.println(res.getInt(1)+" "+ res.getString(2)+" "+
         res.getDouble(3)+" "+ res.getString(4)+" "+ res.getString(5));
      }
      con.close();
   }
}

Simpan program dalam file bernama HiveQLOrderBy.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveQLOrderBy.java $ java HiveQLOrderBy

Keluaran:

ID       Name           Salary      Designation          Dept
1205     Kranthi        30000       Op Admin             Admin
1204     Krian          40000       Hr Admin             HR
1202     Manisha        45000       Proofreader          PR
1201     Gopal          45000       Technical manager    TP
1203     Masthanvali    40000       Technical writer     TP
1204     Krian          40000       Hr Admin             HR

Bab ini menjelaskan detail klausa GROUP BY dalam pernyataan SELECT. Klausa GROUP BY digunakan untuk mengelompokkan semua rekaman dalam kumpulan hasil menggunakan kolom koleksi tertentu. Ini digunakan untuk menanyakan sekelompok rekaman.

Sintaksis

Sintaks klausa GROUP BY adalah sebagai berikut:

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference 
[WHERE where_condition] 
[GROUP BY col_list] 
[HAVING having_condition] 
[ORDER BY col_list]] 
[LIMIT number];

Contoh

Mari kita ambil contoh klausa SELECT… GROUP BY. Asumsikan tabel karyawan seperti yang diberikan di bawah ini, dengan bidang Id, Nama, Gaji, Penunjukan, dan Departemen. Buat kueri untuk mengambil jumlah karyawan di setiap departemen.

+------+--------------+-------------+-------------------+--------+ 
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+ 
|1201  | Gopal        | 45000       | Technical manager | TP     | 
|1202  | Manisha      | 45000       | Proofreader       | PR     | 
|1203  | Masthanvali  | 40000       | Technical writer  | TP     | 
|1204  | Krian        | 45000       | Proofreader       | PR     | 
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

Kueri berikut mengambil detail karyawan menggunakan skenario di atas.

hive> SELECT Dept,count(*) FROM employee GROUP BY DEPT;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+------+--------------+ 
| Dept | Count(*)     | 
+------+--------------+ 
|Admin |    1         | 
|PR    |    2         | 
|TP    |    3         | 
+------+--------------+

Program JDBC

Diberikan di bawah ini adalah program JDBC untuk menerapkan klausa Group By untuk contoh yang diberikan.

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveQLGroupBy {
   private static String driverName =
   "org.apache.hadoop.hive.jdbc.HiveDriver";
   public static void main(String[] args) throws SQLException {
      // Register driver and create driver instance
      Class.forName(driverName);
      // get connection
      Connection con = DriverManager.
      getConnection("jdbc:hive://localhost:10000/userdb", "", "");
      // create statement
      Statement stmt = con.createStatement();
      // execute statement
      Resultset res = stmt.executeQuery(“SELECT Dept,count(*) ”
      +“FROM employee GROUP BY DEPT; ”);
      System.out.println(" Dept \t count(*)");
      while (res.next()) {
         System.out.println(res.getString(1)+" "+ res.getInt(2)); 
      }
      con.close();
   }
}

Simpan program dalam file bernama HiveQLGroupBy.java. Gunakan perintah berikut untuk mengkompilasi dan menjalankan program ini.

$ javac HiveQLGroupBy.java $ java HiveQLGroupBy

Keluaran:

Dept     Count(*)
 Admin       1
 PR          2
 TP          3

JOINS adalah klausa yang digunakan untuk menggabungkan bidang tertentu dari dua tabel dengan menggunakan nilai yang sama untuk masing-masing. Ini digunakan untuk menggabungkan rekaman dari dua atau lebih tabel dalam database.

Sintaksis

join_table:

   table_reference JOIN table_factor [join_condition]
   | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference
   join_condition
   | table_reference LEFT SEMI JOIN table_reference join_condition
   | table_reference CROSS JOIN table_reference [join_condition]

Contoh

Kami akan menggunakan dua tabel berikut dalam bab ini. Perhatikan tabel berikut bernama CUSTOMERS ..

+----+----------+-----+-----------+----------+ 
| ID | NAME     | AGE | ADDRESS   | SALARY   | 
+----+----------+-----+-----------+----------+ 
| 1  | Ramesh   | 32  | Ahmedabad | 2000.00  |  
| 2  | Khilan   | 25  | Delhi     | 1500.00  |  
| 3  | kaushik  | 23  | Kota      | 2000.00  | 
| 4  | Chaitali | 25  | Mumbai    | 6500.00  | 
| 5  | Hardik   | 27  | Bhopal    | 8500.00  | 
| 6  | Komal    | 22  | MP        | 4500.00  | 
| 7  | Muffy    | 24  | Indore    | 10000.00 | 
+----+----------+-----+-----------+----------+

Pertimbangkan tabel ORDERS lain sebagai berikut:

+-----+---------------------+-------------+--------+ 
|OID  | DATE                | CUSTOMER_ID | AMOUNT | 
+-----+---------------------+-------------+--------+ 
| 102 | 2009-10-08 00:00:00 |           3 | 3000   | 
| 100 | 2009-10-08 00:00:00 |           3 | 1500   | 
| 101 | 2009-11-20 00:00:00 |           2 | 1560   | 
| 103 | 2008-05-20 00:00:00 |           4 | 2060   | 
+-----+---------------------+-------------+--------+

Ada berbagai jenis gabungan yang diberikan sebagai berikut:

  • JOIN
  • LEFT OUTER GABUNG
  • KANAN OUTER GABUNG
  • FULL OUTER JOIN

IKUTI

Klausa JOIN digunakan untuk menggabungkan dan mengambil rekaman dari beberapa tabel. JOIN sama dengan OUTER JOIN di SQL. Kondisi JOIN akan dimunculkan menggunakan kunci primer dan kunci asing dari tabel.

Kueri berikut menjalankan JOIN pada tabel CUSTOMER dan ORDER, dan mengambil record:

hive> SELECT c.ID, c.NAME, c.AGE, o.AMOUNT 
   > FROM CUSTOMERS c JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+----+----------+-----+--------+ 
| ID | NAME     | AGE | AMOUNT | 
+----+----------+-----+--------+ 
| 3  | kaushik  | 23  | 3000   | 
| 3  | kaushik  | 23  | 1500   | 
| 2  | Khilan   | 25  | 1560   | 
| 4  | Chaitali | 25  | 2060   | 
+----+----------+-----+--------+

LEFT OUTER GABUNG

HiveQL LEFT OUTER JOIN mengembalikan semua baris dari tabel kiri, bahkan jika tidak ada kecocokan di tabel kanan. Ini berarti, jika klausa ON cocok dengan 0 (nol) record di tabel kanan, JOIN masih mengembalikan satu baris di hasil, tetapi dengan NULL di setiap kolom dari tabel kanan.

A LEFT JOIN mengembalikan semua nilai dari tabel kiri, ditambah nilai yang cocok dari tabel kanan, atau NULL jika tidak ada predikat JOIN yang cocok.

Kueri berikut menunjukkan LEFT OUTER JOIN antara tabel CUSTOMER dan ORDER:

hive> SELECT c.ID, c.NAME, o.AMOUNT, o.DATE 
   > FROM CUSTOMERS c 
   > LEFT OUTER JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+----+----------+--------+---------------------+ 
| ID | NAME     | AMOUNT | DATE                | 
+----+----------+--------+---------------------+ 
| 1  | Ramesh   | NULL   | NULL                | 
| 2  | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 3  | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3  | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 4  | Chaitali | 2060   | 2008-05-20 00:00:00 | 
| 5  | Hardik   | NULL   | NULL                | 
| 6  | Komal    | NULL   | NULL                | 
| 7  | Muffy    | NULL   | NULL                | 
+----+----------+--------+---------------------+

KANAN OUTER GABUNG

HiveQL RIGHT OUTER JOIN mengembalikan semua baris dari tabel kanan, bahkan jika tidak ada kecocokan di tabel kiri. Jika klausa ON cocok dengan 0 (nol) record di tabel kiri, JOIN masih mengembalikan satu baris di hasil, tapi dengan NULL di setiap kolom dari tabel kiri.

A RIGHT JOIN mengembalikan semua nilai dari tabel kanan, ditambah nilai yang cocok dari tabel kiri, atau NULL jika tidak ada predikat join yang cocok.

Kueri berikut menunjukkan RIGHT OUTER JOIN antara tabel CUSTOMER dan ORDER.

hive> SELECT c.ID, c.NAME, o.AMOUNT, o.DATE 
   > FROM CUSTOMERS c 
   > RIGHT OUTER JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+------+----------+--------+---------------------+ 
| ID   | NAME     | AMOUNT | DATE                | 
+------+----------+--------+---------------------+ 
| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 | 
+------+----------+--------+---------------------+

FULL OUTER JOIN

HiveQL FULL OUTER JOIN menggabungkan catatan dari tabel luar kiri dan kanan yang memenuhi kondisi JOIN. Tabel yang digabungkan berisi semua rekaman dari kedua tabel, atau mengisi nilai NULL untuk kecocokan yang hilang di kedua sisi.

Kueri berikut menunjukkan FULL OUTER JOIN antara tabel CUSTOMER dan ORDER:

hive> SELECT c.ID, c.NAME, o.AMOUNT, o.DATE 
   > FROM CUSTOMERS c 
   > FULL OUTER JOIN ORDERS o 
   > ON (c.ID = o.CUSTOMER_ID);

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

+------+----------+--------+---------------------+ 
| ID   | NAME     | AMOUNT | DATE                | 
+------+----------+--------+---------------------+ 
| 1    | Ramesh   | NULL   | NULL                | 
| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 | 
| 5    | Hardik   | NULL   | NULL                | 
| 6    | Komal    | NULL   | NULL                |
| 7    | Muffy    | NULL   | NULL                |  
| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 | 
| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 | 
| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 | 
| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 | 
+------+----------+--------+---------------------+

Bab ini menjelaskan fungsi bawaan yang tersedia di Hive. Fungsinya terlihat sangat mirip dengan fungsi SQL, kecuali untuk penggunaannya.

Fungsi Bawaan

Hive mendukung fungsi bawaan berikut:

Jenis Pengembalian Tanda tangan Deskripsi
BIGINT bulat (ganda a) Ini mengembalikan nilai BIGINT yang dibulatkan dari double.
BIGINT lantai (ganda a) Ini mengembalikan nilai BIGINT maksimum yang sama atau kurang dari ganda.
BIGINT langit-langit (double a) Ini mengembalikan nilai BIGINT minimum yang sama atau lebih besar dari ganda.
dua kali lipat rand (), rand (int seed) Ini mengembalikan nomor acak yang berubah dari baris ke baris.
tali concat (string A, string B, ...) Ini mengembalikan string yang dihasilkan dari penggabungan B setelah A.
tali substr (string A, int mulai) Ini mengembalikan substring A mulai dari posisi awal hingga akhir string A.
tali substr (string A, int mulai, int panjang) Ini mengembalikan substring A mulai dari posisi awal dengan panjang yang diberikan.
tali atas (string A) Ini mengembalikan string yang dihasilkan dari mengubah semua karakter A ke huruf besar.
tali ucase (string A) Sama seperti di atas.
tali lebih rendah (string A) Ini mengembalikan string yang dihasilkan dari mengubah semua karakter B ke huruf kecil.
tali lcase (string A) Sama seperti di atas.
tali trim (string A) Ini mengembalikan string yang dihasilkan dari pemangkasan spasi dari kedua ujung A.
tali ltrim (string A) Ini mengembalikan string yang dihasilkan dari pemangkasan spasi dari awal (sisi kiri) A.
tali rtrim (string A) rtrim (string A) Ini mengembalikan string yang dihasilkan dari pemangkasan spasi dari ujung (sisi kanan) A.
tali regexp_replace (string A, string B, string C) Ini mengembalikan string yang dihasilkan dari mengganti semua substring di B yang cocok dengan sintaks ekspresi reguler Java dengan C.
int ukuran (Peta <KV>) Ini mengembalikan jumlah elemen dalam tipe peta.
int ukuran (Array <T>) Ini mengembalikan jumlah elemen dalam tipe array.
nilai <type> cast (<expr> as <type>) Ini mengubah hasil ekspresi expr menjadi <type> misalnya cast ('1' as BIGINT) mengubah string '1' menjadi representasi integral. NULL dikembalikan jika konversi tidak berhasil.
tali from_unixtime (int unixtime) mengonversi jumlah detik dari epoch Unix (1970-01-01 00:00:00 UTC) menjadi string yang mewakili stempel waktu saat itu dalam zona waktu sistem saat ini dalam format "1970-01-01 00:00: 00 "
tali to_date (stempel waktu string) Ini mengembalikan bagian tanggal dari string stempel waktu: to_date ("1970-01-01 00:00:00") = "1970-01-01"
int tahun (tanggal string) Ini mengembalikan bagian tahun dari tanggal atau string timestamp: year ("1970-01-01 00:00:00") = 1970, year ("1970-01-01") = 1970
int bulan (tanggal string) Ini mengembalikan bagian bulan dari tanggal atau string stempel waktu: bulan ("1970-11-01 00:00:00") = 11, bulan ("1970-11-01") = 11
int hari (tanggal string) Ini mengembalikan bagian hari dari tanggal atau string timestamp: day ("1970-11-01 00:00:00") = 1, day ("1970-11-01") = 1
tali get_json_object (string json_string, jalur string) Ini mengekstrak objek json dari string json berdasarkan jalur json yang ditentukan, dan mengembalikan string json dari objek json yang diekstrak. Ia mengembalikan NULL jika input json string tidak valid.

Contoh

Kueri berikut menunjukkan beberapa fungsi bawaan:

round () fungsi

hive> SELECT round(2.6) from temp;

Saat eksekusi kueri berhasil, Anda bisa melihat respons berikut:

3.0

floor () fungsi

hive> SELECT floor(2.6) from temp;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

2.0

fungsi ceil ()

hive> SELECT ceil(2.6) from temp;

Saat eksekusi kueri berhasil, Anda akan melihat respons berikut:

3.0

Fungsi Agregat

Hive mendukung built-in berikut aggregate functions. Penggunaan fungsi ini sama dengan fungsi agregat SQL.

Jenis Pengembalian Tanda tangan Deskripsi
BIGINT hitung (*), hitung (expr), count (*) - Mengembalikan jumlah total baris yang diambil.
DUA KALI LIPAT jumlah (col), jumlah (DISTINCT col) Ini mengembalikan jumlah elemen dalam grup atau jumlah nilai berbeda dari kolom dalam grup.
DUA KALI LIPAT rata-rata (col), rata-rata (DISTINCT col) Ini mengembalikan rata-rata elemen dalam grup atau rata-rata dari nilai yang berbeda dari kolom dalam grup.
DUA KALI LIPAT min (col) Ini mengembalikan nilai minimum kolom dalam grup.
DUA KALI LIPAT maks (col) Ini mengembalikan nilai maksimum kolom dalam grup.

Bab ini menjelaskan cara membuat dan mengelola tampilan. Tampilan dibuat berdasarkan kebutuhan pengguna. Anda dapat menyimpan data kumpulan hasil apa pun sebagai tampilan. Penggunaan tampilan di Hive sama dengan tampilan di SQL. Ini adalah konsep RDBMS standar. Kita dapat menjalankan semua operasi DML dalam satu tampilan.

Membuat Tampilan

Anda dapat membuat tampilan pada saat menjalankan pernyataan SELECT. Sintaksnya adalah sebagai berikut:

CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT table_comment]
AS SELECT ...

Contoh

Mari kita ambil contoh untuk view. Asumsikan tabel karyawan seperti yang diberikan di bawah ini, dengan bidang Id, Nama, Gaji, Penunjukan, dan Departemen. Buat kueri untuk mengambil detail karyawan yang memperoleh gaji lebih dari Rs 30000. Kami menyimpan hasilnya dalam tampilan bernamaemp_30000.

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

Kueri berikut mengambil detail karyawan menggunakan skenario di atas:

hive> CREATE VIEW emp_30000 AS
   > SELECT * FROM employee
   > WHERE salary>30000;

Menjatuhkan View

Gunakan sintaks berikut untuk melepaskan tampilan:

DROP VIEW view_name

Kueri berikut melepaskan tampilan bernama emp_30000:

hive> DROP VIEW emp_30000;

Membuat Indeks

Indeks tidak lain adalah penunjuk pada kolom tertentu dari sebuah tabel. Membuat indeks berarti membuat penunjuk pada kolom tertentu dari sebuah tabel. Sintaksnya adalah sebagai berikut:

CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name=property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)]
[
   [ ROW FORMAT ...] STORED AS ...
   | STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]

Contoh

Mari kita ambil contoh untuk index. Gunakan tabel karyawan yang sama yang telah kita gunakan sebelumnya dengan bidang Id, Nama, Gaji, Penunjukan, dan Departemen. Buat indeks bernama index_salary pada kolom gaji dari tabel karyawan.

Kueri berikut membuat indeks:

hive> CREATE INDEX inedx_salary ON TABLE employee(salary)
   > AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';

Ini adalah penunjuk ke kolom gaji. Jika kolom diubah, perubahan disimpan menggunakan nilai indeks.

Menjatuhkan Indeks

Sintaks berikut digunakan untuk menghapus indeks:

DROP INDEX <index_name> ON <table_name>

Kueri berikut menjatuhkan indeks bernama index_salary:

hive> DROP INDEX index_salary ON employee;