HCatalog - คู่มือฉบับย่อ
HCatalog คืออะไร?
HCatalog เป็นเครื่องมือจัดการพื้นที่จัดเก็บตารางสำหรับ Hadoop แสดงข้อมูลแบบตารางของ Hive metastore ไปยังแอปพลิเคชัน Hadoop อื่น ๆ ช่วยให้ผู้ใช้ที่มีเครื่องมือประมวลผลข้อมูลต่างๆ (Pig, MapReduce) สามารถเขียนข้อมูลลงบนกริดได้อย่างง่ายดาย ช่วยให้ผู้ใช้ไม่ต้องกังวลว่าข้อมูลจะจัดเก็บไว้ที่ใดหรือในรูปแบบใด
HCatalog ทำงานเหมือนองค์ประกอบหลักของ Hive และช่วยให้ผู้ใช้สามารถจัดเก็บข้อมูลในรูปแบบและโครงสร้างใดก็ได้
ทำไมต้องเป็น HCatalog
เปิดใช้งานเครื่องมือที่เหมาะสมสำหรับงานที่เหมาะสม
Hadoop Ecosystem มีเครื่องมือต่างๆสำหรับการประมวลผลข้อมูลเช่น Hive, Pig และ MapReduce แม้ว่าเครื่องมือเหล่านี้ไม่จำเป็นต้องใช้ข้อมูลเมตา แต่ก็ยังสามารถใช้ประโยชน์จากมันได้เมื่อมีอยู่ การแชร์ที่เก็บข้อมูลเมตายังช่วยให้ผู้ใช้ในเครื่องมือต่างๆสามารถแบ่งปันข้อมูลได้ง่ายขึ้น เวิร์กโฟลว์ที่โหลดข้อมูลและทำให้เป็นมาตรฐานโดยใช้ MapReduce หรือ Pig แล้ววิเคราะห์ผ่าน Hive เป็นเรื่องปกติมาก หากเครื่องมือทั้งหมดเหล่านี้ใช้การแพร่กระจายร่วมกันผู้ใช้แต่ละเครื่องมือจะสามารถเข้าถึงข้อมูลที่สร้างด้วยเครื่องมืออื่นได้ทันที ไม่จำเป็นต้องมีขั้นตอนการโหลดหรือโอน
จับภาพสถานะการประมวลผลเพื่อเปิดใช้งานการแบ่งปัน
HCatalog สามารถเผยแพร่ผลการวิเคราะห์ของคุณ ดังนั้นโปรแกรมเมอร์คนอื่น ๆ จึงสามารถเข้าถึงแพลตฟอร์มการวิเคราะห์ของคุณผ่านทาง“ REST” สคีมาที่คุณเผยแพร่ยังมีประโยชน์ต่อนักวิทยาศาสตร์ข้อมูลคนอื่น ๆ นักวิทยาศาสตร์ข้อมูลคนอื่น ๆ ใช้การค้นพบของคุณเป็นข้อมูลในการค้นพบในภายหลัง
ผสานรวม Hadoop เข้ากับทุกสิ่ง
Hadoop เป็นสภาพแวดล้อมการประมวลผลและการจัดเก็บเปิดโอกาสมากมายสำหรับองค์กร อย่างไรก็ตามในการขับเคลื่อนการนำไปใช้ต้องทำงานร่วมกับและเพิ่มเครื่องมือที่มีอยู่ Hadoop ควรใช้เป็นข้อมูลป้อนเข้าในแพลตฟอร์มการวิเคราะห์ของคุณหรือรวมเข้ากับที่เก็บข้อมูลการดำเนินงานและเว็บแอปพลิเคชันของคุณ องค์กรควรได้รับคุณค่าของ Hadoop โดยไม่ต้องเรียนรู้ชุดเครื่องมือใหม่ทั้งหมด บริการ REST เปิดแพลตฟอร์มให้กับองค์กรด้วย API ที่คุ้นเคยและภาษาคล้าย SQL ระบบจัดการข้อมูลขององค์กรใช้ HCatalog เพื่อผสานรวมกับแพลตฟอร์ม Hadoop ได้อย่างลึกซึ้งยิ่งขึ้น
สถาปัตยกรรม HCatalog
ภาพประกอบต่อไปนี้แสดงสถาปัตยกรรมโดยรวมของ HCatalog
HCatalog รองรับการอ่านและเขียนไฟล์ในรูปแบบใด ๆ ที่ไฟล์ SerDe(serializer-deserializer) สามารถเขียนได้ ตามค่าเริ่มต้น HCatalog รองรับรูปแบบไฟล์ RCFile, CSV, JSON, SequenceFile และ ORC ในการใช้รูปแบบที่กำหนดเองคุณต้องระบุ InputFormat, OutputFormat และ SerDe
HCatalog สร้างขึ้นบน Hive metastore และรวม DDL ของ Hive HCatalog มีอินเทอร์เฟซสำหรับอ่านและเขียนสำหรับ Pig และ MapReduce และใช้อินเทอร์เฟซบรรทัดคำสั่งของ Hive สำหรับการออกข้อกำหนดข้อมูลและคำสั่งการสำรวจข้อมูลเมตา
โครงการย่อยของ Hadoop ทั้งหมดเช่น Hive, Pig และ HBase รองรับระบบปฏิบัติการ Linux ดังนั้นคุณต้องติดตั้งลินุกซ์รสชาติบนระบบของคุณ HCatalog ถูกรวมเข้ากับ Hive Installation ในวันที่ 26 มีนาคม 2013 ตั้งแต่เวอร์ชัน Hive-0.11.0 เป็นต้นไป HCatalog มาพร้อมกับการติดตั้ง Hive ดังนั้นให้ทำตามขั้นตอนด้านล่างเพื่อติดตั้ง Hive ซึ่งจะติดตั้ง HCatalog ในระบบของคุณโดยอัตโนมัติ
ขั้นตอนที่ 1: ตรวจสอบการติดตั้ง JAVA
ต้องติดตั้ง Java บนระบบของคุณก่อนติดตั้ง Hive คุณสามารถใช้คำสั่งต่อไปนี้เพื่อตรวจสอบว่าคุณได้ติดตั้ง Java ในระบบของคุณแล้วหรือไม่ -
$ java –version
หากมีการติดตั้ง Java ในระบบของคุณแล้วคุณจะเห็นการตอบสนองต่อไปนี้ -
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
หากคุณไม่ได้ติดตั้ง Java ในระบบของคุณคุณต้องทำตามขั้นตอนด้านล่างนี้
ขั้นตอนที่ 2: การติดตั้ง Java
ดาวน์โหลด Java (JDK <เวอร์ชันล่าสุด> - X64.tar.gz) โดยไปที่ลิงค์ต่อไปนี้ http://www.oracle.com/
แล้ว jdk-7u71-linux-x64.tar.gz จะถูกดาวน์โหลดลงในระบบของคุณ
โดยทั่วไปคุณจะพบไฟล์ Java ที่ดาวน์โหลดมาในโฟลเดอร์ดาวน์โหลด ตรวจสอบและแตกไฟล์jdk-7u71-linux-x64.gz ไฟล์โดยใช้คำสั่งต่อไปนี้
$ cd Downloads/
$ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
เพื่อให้ผู้ใช้ทุกคนสามารถใช้งาน Java ได้คุณต้องย้ายไปยังตำแหน่ง“ / usr / local /” เปิดรูทและพิมพ์คำสั่งต่อไปนี้
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
สำหรับการตั้งค่า PATH และ JAVA_HOME ตัวแปรเพิ่มคำสั่งต่อไปนี้ ~/.bashrc ไฟล์.
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin
ตอนนี้ตรวจสอบการติดตั้งโดยใช้คำสั่ง java -version จากเทอร์มินัลตามที่อธิบายไว้ข้างต้น
ขั้นตอนที่ 3: การตรวจสอบการติดตั้ง Hadoop
ต้องติดตั้ง Hadoop บนระบบของคุณก่อนที่จะติดตั้ง Hive ให้เราตรวจสอบการติดตั้ง Hadoop โดยใช้คำสั่งต่อไปนี้ -
$ hadoop version
หาก Hadoop ได้รับการติดตั้งในระบบของคุณแล้วคุณจะได้รับคำตอบดังต่อไปนี้ -
Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
หากไม่ได้ติดตั้ง Hadoop ในระบบของคุณให้ดำเนินการตามขั้นตอนต่อไปนี้ -
ขั้นตอนที่ 4: ดาวน์โหลด Hadoop
ดาวน์โหลดและแยก Hadoop 2.4.1 จาก Apache Software Foundation โดยใช้คำสั่งต่อไปนี้
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
ขั้นตอนที่ 5: การติดตั้ง Hadoop ในโหมดการกระจายหลอก
ขั้นตอนต่อไปนี้ใช้ในการติดตั้ง Hadoop 2.4.1 ในโหมดกระจายหลอก
การตั้งค่า Hadoop
คุณสามารถตั้งค่าตัวแปรสภาพแวดล้อม Hadoop ได้โดยต่อท้ายคำสั่งต่อไปนี้ ~/.bashrc ไฟล์.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
ตอนนี้ใช้การเปลี่ยนแปลงทั้งหมดในระบบที่กำลังทำงานอยู่
$ source ~/.bashrc
การกำหนดค่า Hadoop
คุณสามารถค้นหาไฟล์การกำหนดค่า Hadoop ทั้งหมดได้ในตำแหน่ง“ $ HADOOP_HOME / etc / hadoop” คุณต้องทำการเปลี่ยนแปลงที่เหมาะสมในไฟล์การกำหนดค่าเหล่านั้นตามโครงสร้างพื้นฐาน Hadoop ของคุณ
$ cd $HADOOP_HOME/etc/hadoop
ในการพัฒนาโปรแกรม Hadoop โดยใช้ Java คุณต้องรีเซ็ตตัวแปรสภาพแวดล้อม Java ใน hadoop-env.sh ไฟล์โดยแทนที่ไฟล์ JAVA_HOME ค่ากับตำแหน่งของ Java ในระบบของคุณ
export JAVA_HOME=/usr/local/jdk1.7.0_71
ด้านล่างนี้คือรายการไฟล์ที่คุณต้องแก้ไขเพื่อกำหนดค่า Hadoop
core-site.xml
core-site.xml ไฟล์มีข้อมูลเช่นหมายเลขพอร์ตที่ใช้สำหรับอินสแตนซ์ Hadoop หน่วยความจำที่จัดสรรสำหรับระบบไฟล์ขีด จำกัด หน่วยความจำสำหรับจัดเก็บข้อมูลและขนาดของบัฟเฟอร์อ่าน / เขียน
เปิด core-site.xml และเพิ่มคุณสมบัติต่อไปนี้ระหว่างแท็ก <configuration> และ </configuration>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
hdfs-site.xmlไฟล์มีข้อมูลเช่นค่าของข้อมูลการจำลองแบบพา ธ namenode และพา ธ datanode ของระบบไฟล์โลคัลของคุณ หมายถึงสถานที่ที่คุณต้องการจัดเก็บโครงสร้างพื้นฐาน Hadoop
ให้เราสมมติข้อมูลต่อไปนี้
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
เปิดไฟล์นี้และเพิ่มคุณสมบัติต่อไปนี้ระหว่างแท็ก <configuration>, </configuration> ในไฟล์นี้
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
</property>
</configuration>
Note - ในไฟล์ด้านบนค่าคุณสมบัติทั้งหมดจะถูกกำหนดโดยผู้ใช้และคุณสามารถเปลี่ยนแปลงได้ตามโครงสร้างพื้นฐาน Hadoop ของคุณ
เส้นด้าย site.xml
ไฟล์นี้ใช้เพื่อกำหนดค่าเส้นด้ายใน Hadoop เปิดไฟล์ yarn-site.xml และเพิ่มคุณสมบัติต่อไปนี้ระหว่างแท็ก <configuration>, </configuration> ในไฟล์นี้
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
ไฟล์นี้ใช้เพื่อระบุเฟรมเวิร์ก MapReduce ที่เราใช้อยู่ ตามค่าเริ่มต้น Hadoop จะมีเทมเพลตของ yarn-site.xml ก่อนอื่นคุณต้องคัดลอกไฟล์จากไฟล์mapred-site,xml.template ถึง mapred-site.xml ไฟล์โดยใช้คำสั่งต่อไปนี้
$ cp mapred-site.xml.template mapred-site.xml
เปิดไฟล์ mapred-site.xml และเพิ่มคุณสมบัติต่อไปนี้ระหว่างแท็ก <configuration>, </configuration> ในไฟล์นี้
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
ขั้นตอนที่ 6: การตรวจสอบการติดตั้ง Hadoop
ขั้นตอนต่อไปนี้ใช้เพื่อตรวจสอบการติดตั้ง Hadoop
การตั้งค่า Namenode
ตั้งค่า Namenode โดยใช้คำสั่ง“ hdfs namenode -format” ดังนี้ -
$ cd ~ $ hdfs namenode -format
ผลที่คาดว่าจะได้รับมีดังนี้ -
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1
images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
การตรวจสอบ Hadoop DFS
คำสั่งต่อไปนี้ใช้เพื่อเริ่ม DFS การดำเนินการคำสั่งนี้จะเริ่มระบบไฟล์ Hadoop ของคุณ
$ start-dfs.sh
ผลลัพธ์ที่คาดหวังมีดังนี้ -
10/24/14 21:37:56 Starting namenodes on [localhost]
localhost: starting namenode, logging to
/home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost:
starting datanode, logging to
/home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
การตรวจสอบสคริปต์เส้นด้าย
คำสั่งต่อไปนี้ใช้เพื่อเริ่มสคริปต์ Yarn การดำเนินการคำสั่งนี้จะเป็นการเริ่มต้น Yarn daemons ของคุณ
$ start-yarn.sh
ผลลัพธ์ที่คาดหวังมีดังนี้ -
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/
yarn-hadoop-resourcemanager-localhost.out
localhost: starting nodemanager, logging to
/home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
การเข้าถึง Hadoop บนเบราว์เซอร์
หมายเลขพอร์ตเริ่มต้นในการเข้าถึง Hadoop คือ 50070 ใช้ URL ต่อไปนี้เพื่อรับบริการ Hadoop บนเบราว์เซอร์ของคุณ
http://localhost:50070/
ตรวจสอบแอปพลิเคชันทั้งหมดสำหรับคลัสเตอร์
หมายเลขพอร์ตเริ่มต้นเพื่อเข้าถึงแอปพลิเคชันทั้งหมดของคลัสเตอร์คือ 8088 ใช้ url ต่อไปนี้เพื่อเยี่ยมชมบริการนี้
http://localhost:8088/
เมื่อคุณติดตั้ง Hadoop เสร็จแล้วให้ทำตามขั้นตอนต่อไปและติดตั้ง Hive บนระบบของคุณ
ขั้นตอนที่ 7: ดาวน์โหลด Hive
เราใช้ hive-0.14.0 ในบทช่วยสอนนี้ คุณสามารถดาวน์โหลดได้โดยไปที่ลิงค์ต่อไปนี้http://apache.petsads.us/hive/hive-0.14.0/. ให้เราถือว่ามันถูกดาวน์โหลดลงในไฟล์/Downloadsไดเรกทอรี ที่นี่เราดาวน์โหลดไฟล์เก็บถาวรของ Hive ชื่อ“apache-hive-0.14.0-bin.tar.gz” สำหรับบทช่วยสอนนี้ คำสั่งต่อไปนี้ใช้เพื่อตรวจสอบการดาวน์โหลด -
$ cd Downloads $ ls
เมื่อดาวน์โหลดสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
apache-hive-0.14.0-bin.tar.gz
ขั้นตอนที่ 8: การติดตั้ง Hive
ขั้นตอนต่อไปนี้จำเป็นสำหรับการติดตั้ง Hive บนระบบของคุณ ให้เราถือว่าไฟล์เก็บถาวร Hive ถูกดาวน์โหลดลงในไฟล์/Downloads ไดเรกทอรี
การแยกและตรวจสอบ Hive Archive
คำสั่งต่อไปนี้ใช้เพื่อตรวจสอบการดาวน์โหลดและแตกไฟล์เก็บถาวร Hive -
$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls
เมื่อดาวน์โหลดสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
การคัดลอกไฟล์ไปยังไดเร็กทอรี / usr / local / hive
เราจำเป็นต้องคัดลอกไฟล์จาก superuser“ su -” คำสั่งต่อไปนี้ใช้เพื่อคัดลอกไฟล์จากไดเร็กทอรีที่แตกไฟล์ไปยังไฟล์/usr/local/hive"ไดเรกทอรี
$ su -
passwd:
# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit
การตั้งค่าสภาพแวดล้อมสำหรับ Hive
คุณสามารถตั้งค่าสภาพแวดล้อมไฮฟ์ได้โดยต่อท้ายบรรทัดต่อไปนี้ ~/.bashrc ไฟล์ -
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
คำสั่งต่อไปนี้ใช้เพื่อเรียกใช้ไฟล์ ~ / .bashrc
$ source ~/.bashrc
ขั้นตอนที่ 9: การกำหนดค่า Hive
ในการกำหนดค่า Hive ด้วย Hadoop คุณต้องแก้ไขไฟล์ hive-env.sh ซึ่งวางอยู่ในไฟล์ $HIVE_HOME/confไดเรกทอรี คำสั่งต่อไปนี้เปลี่ยนเส้นทางไปยัง Hiveconfig โฟลเดอร์และคัดลอกไฟล์เทมเพลต -
$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh
แก้ไขไฟล์ hive-env.sh ไฟล์โดยต่อท้ายบรรทัดต่อไปนี้ -
export HADOOP_HOME=/usr/local/hadoop
ด้วยเหตุนี้การติดตั้ง Hive จึงเสร็จสมบูรณ์ ตอนนี้คุณต้องการเซิร์ฟเวอร์ฐานข้อมูลภายนอกเพื่อกำหนดค่า Metastore เราใช้ฐานข้อมูล Apache Derby
ขั้นตอนที่ 10: การดาวน์โหลดและติดตั้ง Apache Derby
ทำตามขั้นตอนด้านล่างเพื่อดาวน์โหลดและติดตั้ง Apache Derby -
กำลังดาวน์โหลด Apache Derby
คำสั่งต่อไปนี้ใช้เพื่อดาวน์โหลด Apache Derby ใช้เวลาในการดาวน์โหลด
$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
คำสั่งต่อไปนี้ใช้เพื่อตรวจสอบการดาวน์โหลด -
$ ls
เมื่อดาวน์โหลดสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
db-derby-10.4.2.0-bin.tar.gz
การแยกและตรวจสอบ Derby Archive
คำสั่งต่อไปนี้ใช้สำหรับการแตกและตรวจสอบ Derby archive -
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls
เมื่อดาวน์โหลดสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
การคัดลอกไฟล์ไปยัง / usr / local / derby Directory
เราจำเป็นต้องคัดลอกจาก superuser“ su -” คำสั่งต่อไปนี้ใช้เพื่อคัดลอกไฟล์จากไดเร็กทอรีที่แตกไฟล์ไปยังไฟล์/usr/local/derby ไดเรกทอรี -
$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit
การตั้งค่าสภาพแวดล้อมสำหรับ Derby
คุณสามารถตั้งค่าสภาพแวดล้อม Derby โดยต่อท้ายบรรทัดต่อไปนี้ ~/.bashrc ไฟล์ -
export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar
คำสั่งต่อไปนี้ใช้เพื่อดำเนินการ ~/.bashrc file -
$ source ~/.bashrc
สร้างไดเร็กทอรีสำหรับ Metastore
สร้างไดเร็กทอรีชื่อ data ในไดเรกทอรี $ DERBY_HOME เพื่อจัดเก็บข้อมูล Metastore
$ mkdir $DERBY_HOME/data
การติดตั้ง Derby และการตั้งค่าสภาพแวดล้อมเสร็จสมบูรณ์แล้ว
ขั้นตอนที่ 11: การกำหนดค่า Hive Metastore
การกำหนดค่า Metastore หมายถึงการระบุ Hive ที่จัดเก็บฐานข้อมูล คุณสามารถทำได้โดยแก้ไขไฟล์hive-site.xml ซึ่งอยู่ในไฟล์ $HIVE_HOME/confไดเรกทอรี ก่อนอื่นให้คัดลอกไฟล์เทมเพลตโดยใช้คำสั่งต่อไปนี้ -
$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml
แก้ไข hive-site.xml และต่อท้ายบรรทัดต่อไปนี้ระหว่างแท็ก <configuration> และ </configuration> -
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create = true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
สร้างไฟล์ชื่อ jpox.properties และเพิ่มบรรทัดต่อไปนี้ -
javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine
ขั้นตอนที่ 12: การตรวจสอบการติดตั้ง Hive
ก่อนที่จะเรียกใช้ Hive คุณต้องสร้างไฟล์ /tmpโฟลเดอร์และโฟลเดอร์ Hive แยกต่างหากใน HDFS ที่นี่เราใช้ไฟล์/user/hive/warehouseโฟลเดอร์ คุณต้องตั้งค่าสิทธิ์ในการเขียนสำหรับโฟลเดอร์ที่สร้างขึ้นใหม่ดังที่แสดงด้านล่าง -
chmod g+w
ตอนนี้ตั้งค่าเป็น HDFS ก่อนที่จะยืนยัน Hive ใช้คำสั่งต่อไปนี้ -
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
คำสั่งต่อไปนี้ใช้เพื่อตรวจสอบการติดตั้ง Hive -
$ cd $HIVE_HOME $ bin/hive
ในการติดตั้ง Hive สำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
Logging initialized using configuration in
jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/
hive-log4j.properties Hive history
=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>
คุณสามารถรันคำสั่งตัวอย่างต่อไปนี้เพื่อแสดงตารางทั้งหมด -
hive> show tables;
OK Time taken: 2.798 seconds
hive>
ขั้นตอนที่ 13: ตรวจสอบการติดตั้ง HCatalog
ใช้คำสั่งต่อไปนี้เพื่อตั้งค่าตัวแปรระบบ HCAT_HOME สำหรับ HCatalog Home
export HCAT_HOME = $HiVE_HOME/HCatalog
ใช้คำสั่งต่อไปนี้เพื่อตรวจสอบการติดตั้ง HCatalog
cd $HCAT_HOME/bin
./hcat
หากการติดตั้งสำเร็จคุณจะเห็นผลลัพธ์ต่อไปนี้ -
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
usage: hcat { -e "<query>" | -f "<filepath>" }
[ -g "<group>" ] [ -p "<perms>" ]
[ -D"<name> = <value>" ]
-D <property = value> use hadoop value for given property
-e <exec> hcat command given from command line
-f <file> hcat commands in file
-g <group> group for the db/table specified in CREATE statement
-h,--help Print help information
-p <perms> permissions for the db/table specified in CREATE statement
HCatalog Command Line Interface (CLI) สามารถเรียกใช้จากคำสั่ง $HIVE_HOME/HCatalog/bin/hcat โดยที่ $ HIVE_HOME เป็นโฮมไดเร็กทอรีของ Hive hcat เป็นคำสั่งที่ใช้ในการเริ่มต้นเซิร์ฟเวอร์ HCatalog
ใช้คำสั่งต่อไปนี้เพื่อเริ่มต้นบรรทัดคำสั่ง HCatalog
cd $HCAT_HOME/bin
./hcat
หากการติดตั้งทำได้อย่างถูกต้องคุณจะได้รับผลลัพธ์ต่อไปนี้ -
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
usage: hcat { -e "<query>" | -f "<filepath>" }
[ -g "<group>" ] [ -p "<perms>" ]
[ -D"<name> = <value>" ]
-D <property = value> use hadoop value for given property
-e <exec> hcat command given from command line
-f <file> hcat commands in file
-g <group> group for the db/table specified in CREATE statement
-h,--help Print help information
-p <perms> permissions for the db/table specified in CREATE statement
HCatalog CLI รองรับตัวเลือกบรรทัดคำสั่งเหล่านี้ -
ซีเนียร์ No | ตัวเลือก | ตัวอย่างและคำอธิบาย |
---|---|---|
1 | - ก | hcat -g mygroup ... ตารางที่จะสร้างต้องมีกลุ่ม "mygroup" |
2 | -p | hcat -p rwxr-xr-x ... ตารางที่จะสร้างต้องมีสิทธิ์อ่านเขียนและดำเนินการ |
3 | -f | hcat -f myscript.HCatalog ... myscript.HCatalog เป็นไฟล์สคริปต์ที่มีคำสั่ง DDL เพื่อดำเนินการ |
4 | -e | hcat -e 'create table mytable(a int);' ... ถือว่าสตริงต่อไปนี้เป็นคำสั่ง DDL และเรียกใช้งาน |
5 | -D | hcat -Dkey = value ... ส่งผ่านคู่คีย์ - ค่าไปยัง HCatalog เป็นคุณสมบัติระบบ Java |
6 | - | hcat พิมพ์ข้อความการใช้งาน |
หมายเหตุ -
-g และ -p ตัวเลือกไม่บังคับ
ในคราวเดียวอย่างใดอย่างหนึ่ง -e หรือ -f สามารถระบุตัวเลือกได้ไม่ใช่ทั้งสองอย่าง
ลำดับของตัวเลือกไม่มีสาระสำคัญ คุณสามารถระบุตัวเลือกในลำดับใดก็ได้
ซีเนียร์ No | คำสั่ง DDL และคำอธิบาย |
---|---|
1 | CREATE TABLE สร้างตารางโดยใช้ HCatalog หากคุณสร้างตารางด้วยคำสั่ง CLUSTERED BY คุณจะไม่สามารถเขียนด้วย Pig หรือ MapReduce ได้ |
2 | ALTER TABLE ได้รับการสนับสนุนยกเว้นสำหรับตัวเลือกสร้างและเชื่อมต่อ พฤติกรรมของมันยังคงเหมือนใน Hive |
3 | DROP TABLE ได้รับการสนับสนุน. พฤติกรรมเช่นเดียวกับ Hive (วางตารางและโครงสร้างทั้งหมด) |
4 | CREATE/ALTER/DROP VIEW ได้รับการสนับสนุน. พฤติกรรมเช่นเดียวกับ Hive Note - Pig และ MapReduce ไม่สามารถอ่านหรือเขียนไปยังมุมมองได้ |
5 | SHOW TABLES แสดงรายการตาราง |
6 | SHOW PARTITIONS แสดงรายการพาร์ติชัน |
7 | Create/Drop Index รองรับการดำเนินการ CREATE และ DROP FUNCTION แต่ฟังก์ชันที่สร้างขึ้นจะต้องลงทะเบียนใน Pig และวางไว้ใน CLASSPATH สำหรับ MapReduce |
8 | DESCRIBE ได้รับการสนับสนุน. พฤติกรรมเช่นเดียวกับ Hive อธิบายโครงสร้าง |
คำสั่งบางส่วนจากตารางด้านบนจะอธิบายในบทต่อ ๆ ไป
บทนี้จะอธิบายวิธีสร้างตารางและวิธีแทรกข้อมูลลงในตาราง หลักการสร้างตารางใน HCatalog ค่อนข้างคล้ายกับการสร้างตารางโดยใช้ Hive
สร้างคำสั่งตาราง
Create Table คือคำสั่งที่ใช้สร้างตารางใน Hive metastore โดยใช้ HCatalog ไวยากรณ์และตัวอย่างมีดังนี้ -
ไวยากรณ์
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[ROW FORMAT row_format]
[STORED AS file_format]
ตัวอย่าง
สมมติว่าคุณต้องสร้างตารางชื่อ employee โดยใช้ CREATE TABLEคำให้การ. ตารางต่อไปนี้แสดงรายการเขตข้อมูลและชนิดข้อมูลในไฟล์employee โต๊ะ -
ซีเนียร์ No | ชื่อฟิลด์ | ประเภทข้อมูล |
---|---|---|
1 | Eid | int |
2 | ชื่อ | สตริง |
3 | เงินเดือน | ลอย |
4 | การกำหนด | สตริง |
ข้อมูลต่อไปนี้กำหนดฟิลด์ที่รองรับเช่น Comment, เขตข้อมูลที่จัดรูปแบบแถวเช่น Field terminator, Lines terminatorและ Stored File type.
COMMENT ‘Employee details’
FIELDS TERMINATED BY ‘\t’
LINES TERMINATED BY ‘\n’
STORED IN TEXT FILE
แบบสอบถามต่อไปนี้สร้างตารางชื่อ employee โดยใช้ข้อมูลข้างต้น
./hcat –e "CREATE TABLE IF NOT EXISTS employee ( eid int, name String,
salary String, destination String) \
COMMENT 'Employee details' \
ROW FORMAT DELIMITED \
FIELDS TERMINATED BY ‘\t’ \
LINES TERMINATED BY ‘\n’ \
STORED AS TEXTFILE;"
หากคุณเพิ่มตัวเลือก IF NOT EXISTS, HCatalog ละเว้นคำสั่งในกรณีที่มีตารางอยู่แล้ว
เมื่อสร้างตารางสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
OK
Time taken: 5.905 seconds
โหลดคำชี้แจงข้อมูล
โดยทั่วไปหลังจากสร้างตารางใน SQL เราสามารถแทรกข้อมูลโดยใช้คำสั่งแทรก แต่ใน HCatalog เราแทรกข้อมูลโดยใช้คำสั่ง LOAD DATA
ในขณะที่แทรกข้อมูลลงใน HCatalog ควรใช้ LOAD DATA เพื่อจัดเก็บบันทึกจำนวนมาก มีสองวิธีในการโหลดข้อมูล: วิธีหนึ่งคือจากlocal file system และที่สองมาจาก Hadoop file system.
ไวยากรณ์
ไวยากรณ์สำหรับ LOAD DATA มีดังนี้ -
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename
[PARTITION (partcol1=val1, partcol2=val2 ...)]
- LOCAL เป็นตัวระบุเพื่อระบุโลคัลพา ธ เป็นทางเลือก
- OVERWRITE เป็นทางเลือกในการเขียนทับข้อมูลในตาราง
- PARTITION เป็นทางเลือก
ตัวอย่าง
เราจะแทรกข้อมูลต่อไปนี้ลงในตาราง มันคือไฟล์ข้อความชื่อsample.txt ใน /home/user ไดเรกทอรี
1201 Gopal 45000 Technical manager
1202 Manisha 45000 Proof reader
1203 Masthanvali 40000 Technical writer
1204 Kiran 40000 Hr Admin
1205 Kranthi 30000 Op Admin
แบบสอบถามต่อไปนี้โหลดข้อความที่กำหนดลงในตาราง
./hcat –e "LOAD DATA LOCAL INPATH '/home/user/sample.txt'
OVERWRITE INTO TABLE employee;"
เมื่อดาวน์โหลดสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
OK
Time taken: 15.905 seconds
บทนี้อธิบายถึงวิธีการเปลี่ยนแอตทริบิวต์ของตารางเช่นการเปลี่ยนชื่อตารางการเปลี่ยนชื่อคอลัมน์การเพิ่มคอลัมน์และการลบหรือการแทนที่คอลัมน์
แก้ไขคำชี้แจงตาราง
คุณสามารถใช้คำสั่ง ALTER TABLE เพื่อแก้ไขตารางใน Hive
ไวยากรณ์
คำสั่งใช้ไวยากรณ์ใด ๆ ต่อไปนี้โดยพิจารณาจากแอตทริบิวต์ที่เราต้องการแก้ไขในตาราง
ALTER TABLE name RENAME TO new_name
ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])
ALTER TABLE name DROP [COLUMN] column_name
ALTER TABLE name CHANGE column_name new_name new_type
ALTER TABLE name REPLACE COLUMNS (col_spec[, col_spec ...])
สถานการณ์บางอย่างมีคำอธิบายด้านล่าง
เปลี่ยนชื่อเป็น…คำชี้แจง
แบบสอบถามต่อไปนี้เปลี่ยนชื่อตารางจาก employee ถึง emp.
./hcat –e "ALTER TABLE employee RENAME TO emp;"
เปลี่ยนแปลงคำชี้แจง
ตารางต่อไปนี้ประกอบด้วยฟิลด์ของ employee ตารางและแสดงเขตข้อมูลที่จะเปลี่ยนแปลง (เป็นตัวหนา)
ชื่อฟิลด์ | แปลงจากประเภทข้อมูล | เปลี่ยนชื่อฟิลด์ | แปลงเป็นประเภทข้อมูล |
---|---|---|---|
eid | int | eid | int |
ชื่อ | สตริง | เคลือบ | สตริง |
เงินเดือน | ลอย | เงินเดือน | สองเท่า |
การกำหนด | สตริง | การกำหนด | สตริง |
คำค้นหาต่อไปนี้เปลี่ยนชื่อคอลัมน์และชนิดข้อมูลคอลัมน์โดยใช้ข้อมูลข้างต้น -
./hcat –e "ALTER TABLE employee CHANGE name ename String;"
./hcat –e "ALTER TABLE employee CHANGE salary salary Double;"
เพิ่มคำสั่งคอลัมน์
แบบสอบถามต่อไปนี้เพิ่มคอลัมน์ชื่อ dept ไปที่ employee ตาราง.
./hcat –e "ALTER TABLE employee ADD COLUMNS (dept STRING COMMENT 'Department name');"
แทนที่คำชี้แจง
แบบสอบถามต่อไปนี้ลบคอลัมน์ทั้งหมดจากไฟล์ employee ตารางและแทนที่ด้วย emp และ name คอลัมน์ -
./hcat – e "ALTER TABLE employee REPLACE COLUMNS ( eid INT empid Int, ename STRING name String);"
วางคำสั่งตาราง
บทนี้อธิบายวิธีการวางตารางใน HCatalog เมื่อคุณวางตารางจาก metastore จะลบข้อมูลตาราง / คอลัมน์และข้อมูลเมตา อาจเป็นตารางปกติ (เก็บไว้ใน metastore) หรือตารางภายนอก (เก็บไว้ในระบบไฟล์ในเครื่อง) HCatalog ปฏิบัติต่อทั้งสองอย่างในลักษณะเดียวกันโดยไม่คำนึงถึงประเภทของพวกเขา
ไวยากรณ์มีดังนี้ -
DROP TABLE [IF EXISTS] table_name;
แบบสอบถามต่อไปนี้วางตารางชื่อ employee -
./hcat –e "DROP TABLE IF EXISTS employee;"
เมื่อดำเนินการค้นหาสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
OK
Time taken: 5.3 seconds
บทนี้อธิบายถึงวิธีการสร้างและจัดการไฟล์ viewใน HCatalog มุมมองฐานข้อมูลถูกสร้างขึ้นโดยใช้ไฟล์CREATE VIEWคำให้การ. มุมมองสามารถสร้างจากตารางเดียวหลายตารางหรือมุมมองอื่น
ในการสร้างมุมมองผู้ใช้ต้องมีสิทธิ์ของระบบที่เหมาะสมตามการนำไปใช้งานเฉพาะ
สร้าง View Statement
CREATE VIEWสร้างมุมมองด้วยชื่อที่กำหนด เกิดข้อผิดพลาดหากมีตารางหรือมุมมองที่มีชื่อเดียวกันอยู่แล้ว คุณสามารถใช้ได้IF NOT EXISTS เพื่อข้ามข้อผิดพลาด
หากไม่มีการระบุชื่อคอลัมน์ชื่อของคอลัมน์ของมุมมองจะได้รับโดยอัตโนมัติจากไฟล์ defining SELECT expression.
Note - หาก SELECT มีนิพจน์สเกลาร์ที่ไม่ใช้นามแฝงเช่น x + y ชื่อคอลัมน์มุมมองผลลัพธ์จะถูกสร้างในรูปแบบ _C0, _C1 เป็นต้น
เมื่อเปลี่ยนชื่อคอลัมน์คุณสามารถให้ข้อคิดเห็นเกี่ยวกับคอลัมน์ได้ ความคิดเห็นจะไม่ได้รับการสืบทอดโดยอัตโนมัติจากคอลัมน์ที่อยู่ข้างใต้
คำสั่ง CREATE VIEW จะล้มเหลวหากมุมมอง defining SELECT expression ไม่ถูกต้อง
ไวยากรณ์
CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT view_comment]
[TBLPROPERTIES (property_name = property_value, ...)]
AS SELECT ...;
ตัวอย่าง
ต่อไปนี้เป็นข้อมูลตารางพนักงาน ตอนนี้ให้เราดูวิธีสร้างมุมมองที่ชื่อEmp_Deg_View ประกอบด้วย ID ฟิลด์ชื่อการกำหนดและเงินเดือนของพนักงานที่มีเงินเดือนมากกว่า 35,000
+------+-------------+--------+-------------------+-------+
| ID | Name | Salary | Designation | Dept |
+------+-------------+--------+-------------------+-------+
| 1201 | Gopal | 45000 | Technical manager | TP |
| 1202 | Manisha | 45000 | Proofreader | PR |
| 1203 | Masthanvali | 30000 | Technical writer | TP |
| 1204 | Kiran | 40000 | Hr Admin | HR |
| 1205 | Kranthi | 30000 | Op Admin | Admin |
+------+-------------+--------+-------------------+-------+
ต่อไปนี้เป็นคำสั่งในการสร้างมุมมองตามข้อมูลที่กำหนดข้างต้น
./hcat –e "CREATE VIEW Emp_Deg_View (salary COMMENT ' salary more than 35,000')
AS SELECT id, name, salary, designation FROM employee WHERE salary ≥ 35000;"
เอาต์พุต
OK
Time taken: 5.3 seconds
คำชี้แจง Drop View
DROP VIEW ลบข้อมูลเมตาสำหรับมุมมองที่ระบุ เมื่อวางมุมมองที่อ้างอิงโดยมุมมองอื่นจะไม่มีการแจ้งเตือนใด ๆ (มุมมองที่อ้างอิงจะถูกปล่อยให้ห้อยเป็นไม่ถูกต้องและผู้ใช้จะต้องทิ้งหรือสร้างขึ้นใหม่)
ไวยากรณ์
DROP VIEW [IF EXISTS] view_name;
ตัวอย่าง
คำสั่งต่อไปนี้ใช้เพื่อดร็อปมุมมองที่ชื่อ Emp_Deg_View.
DROP VIEW Emp_Deg_View;
คุณมักต้องการแสดงรายการตารางทั้งหมดในฐานข้อมูลหรือแสดงรายการคอลัมน์ทั้งหมดในตาราง เห็นได้ชัดว่าทุกฐานข้อมูลมีไวยากรณ์ของตัวเองเพื่อแสดงรายการตารางและคอลัมน์
Show Tablesคำสั่งแสดงชื่อของตารางทั้งหมด ตามค่าเริ่มต้นจะแสดงรายการตารางจากฐานข้อมูลปัจจุบันหรือด้วยไฟล์IN อนุประโยคในฐานข้อมูลที่ระบุ
บทนี้อธิบายถึงวิธีการแสดงรายการตารางทั้งหมดจากฐานข้อมูลปัจจุบันใน HCatalog
แสดงคำชี้แจงตาราง
ไวยากรณ์ของ SHOW TABLES มีดังนี้ -
SHOW TABLES [IN database_name] ['identifier_with_wildcards'];
แบบสอบถามต่อไปนี้แสดงรายการตาราง -
./hcat –e "Show tables;"
เมื่อดำเนินการค้นหาสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
OK
emp
employee
Time taken: 5.3 seconds
พาร์ติชันเป็นเงื่อนไขสำหรับข้อมูลแบบตารางซึ่งใช้สำหรับการสร้างตารางหรือมุมมองแยกต่างหาก SHOW PARTITIONS แสดงรายการพาร์ติชันที่มีอยู่ทั้งหมดสำหรับตารางฐานที่กำหนด พาร์ติชันจะแสดงตามลำดับตัวอักษร หลังจาก Hive 0.6 คุณยังสามารถระบุบางส่วนของข้อกำหนดพาร์ติชันเพื่อกรองรายการผลลัพธ์
คุณสามารถใช้คำสั่ง SHOW PARTITIONS เพื่อดูพาร์ติชันที่มีอยู่ในตารางเฉพาะ บทนี้อธิบายวิธีการแสดงรายการพาร์ติชันของตารางเฉพาะใน HCatalog
แสดงคำชี้แจงพาร์ติชัน
ไวยากรณ์มีดังนี้ -
SHOW PARTITIONS table_name;
แบบสอบถามต่อไปนี้วางตารางชื่อ employee -
./hcat –e "Show partitions employee;"
เมื่อดำเนินการค้นหาสำเร็จคุณจะเห็นคำตอบต่อไปนี้ -
OK
Designation = IT
Time taken: 5.3 seconds
พาร์ติชันแบบไดนามิก
HCatalog จัดตารางเป็นพาร์ติชัน เป็นวิธีการแบ่งตารางออกเป็นส่วนที่เกี่ยวข้องตามค่าของคอลัมน์ที่แบ่งพาร์ติชันเช่นวันที่เมืองและแผนก การใช้พาร์ติชันทำให้ง่ายต่อการสืบค้นข้อมูลบางส่วน
ตัวอย่างเช่นตารางชื่อ Tab1มีข้อมูลพนักงานเช่น id, name, dept และ yoj (เช่นปีที่เข้าร่วม) สมมติว่าคุณต้องการเรียกดูรายละเอียดของพนักงานทั้งหมดที่เข้าร่วมในปี 2012 แบบสอบถามจะค้นหาข้อมูลที่ต้องการทั้งตาราง อย่างไรก็ตามหากคุณแบ่งข้อมูลพนักงานกับปีและจัดเก็บไว้ในไฟล์แยกต่างหากจะช่วยลดเวลาในการประมวลผลแบบสอบถาม ตัวอย่างต่อไปนี้แสดงวิธีแบ่งพาร์ติชันไฟล์และข้อมูล -
ไฟล์ต่อไปนี้ประกอบด้วย employeedata ตาราง.
/ tab1 / Employeedata / file1
id, name, dept, yoj
1, gopal, TP, 2012
2, kiran, HR, 2012
3, kaleel, SC, 2013
4, Prasanth, SC, 2013
ข้อมูลข้างต้นแบ่งเป็นสองไฟล์โดยใช้ปี
/ tab1 / Employeedata / 2012 / file2
1, gopal, TP, 2012
2, kiran, HR, 2012
/ tab1 / Employeedata / 2013 / file3
3, kaleel, SC, 2013
4, Prasanth, SC, 2013
การเพิ่มพาร์ติชั่น
เราสามารถเพิ่มพาร์ติชันลงในตารางได้โดยการปรับเปลี่ยนตาราง สมมติว่าเรามีตารางที่เรียกว่าemployee ด้วยฟิลด์ต่างๆเช่น Id, Name, Salary, Designation, Dept และ yoj
ไวยากรณ์
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;
partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)
แบบสอบถามต่อไปนี้ใช้เพื่อเพิ่มพาร์ติชันลงในไฟล์ employee ตาราง.
./hcat –e "ALTER TABLE employee ADD PARTITION (year = '2013') location '/2012/part2012';"
การเปลี่ยนชื่อพาร์ติชัน
คุณสามารถใช้คำสั่ง RENAME-TO เพื่อเปลี่ยนชื่อพาร์ติชัน ไวยากรณ์มีดังนี้ -
./hact –e "ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;"
แบบสอบถามต่อไปนี้ใช้เพื่อเปลี่ยนชื่อพาร์ติชัน -
./hcat –e "ALTER TABLE employee PARTITION (year=’1203’) RENAME TO PARTITION (Yoj='1203');"
การทิ้งพาร์ติชัน
ไวยากรณ์ของคำสั่งที่ใช้ในการดร็อปพาร์ติชันมีดังนี้ -
./hcat –e "ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec,.
PARTITION partition_spec,...;"
แบบสอบถามต่อไปนี้ใช้เพื่อวางพาร์ติชัน -
./hcat –e "ALTER TABLE employee DROP [IF EXISTS] PARTITION (year=’1203’);"
การสร้างดัชนี
ดัชนีไม่ใช่อะไรนอกจากตัวชี้บนคอลัมน์ใดคอลัมน์หนึ่งของตาราง การสร้างดัชนีหมายถึงการสร้างตัวชี้บนคอลัมน์ใดคอลัมน์หนึ่งของตาราง ไวยากรณ์มีดังนี้ -
CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name = property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)][
[ ROW FORMAT ...] STORED AS ...
| STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]
ตัวอย่าง
ให้เราเป็นตัวอย่างเพื่อทำความเข้าใจแนวคิดของดัชนี ใช้เหมือนกันemployee ตารางที่เราใช้ก่อนหน้านี้กับฟิลด์ Id, Name, Salary, Designation และ Dept สร้างดัชนีชื่อ index_salary บน salary คอลัมน์ของ employee ตาราง.
แบบสอบถามต่อไปนี้สร้างดัชนี -
./hcat –e "CREATE INDEX inedx_salary ON TABLE employee(salary)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';"
มันเป็นตัวชี้ไปที่ salaryคอลัมน์. หากคอลัมน์ถูกแก้ไขการเปลี่ยนแปลงจะถูกจัดเก็บโดยใช้ค่าดัชนี
การทิ้งดัชนี
ไวยากรณ์ต่อไปนี้ใช้เพื่อวางดัชนี -
DROP INDEX <index_name> ON <table_name>
ข้อความค้นหาต่อไปนี้ลดค่าดัชนี index_salary -
./hcat –e "DROP INDEX index_salary ON employee;"
HCatalog มี API การถ่ายโอนข้อมูลสำหรับอินพุตและเอาต์พุตแบบขนานโดยไม่ต้องใช้ MapReduce API นี้ใช้พื้นที่จัดเก็บข้อมูลพื้นฐานของตารางและแถวเพื่ออ่านข้อมูลจากคลัสเตอร์ Hadoop และเขียนข้อมูลลงในนั้น
Data Transfer API ประกอบด้วยสามคลาสเป็นหลัก นั่นคือ -
HCatReader - อ่านข้อมูลจากคลัสเตอร์ Hadoop
HCatWriter - เขียนข้อมูลลงในคลัสเตอร์ Hadoop
DataTransferFactory - สร้างอินสแตนซ์ของผู้อ่านและผู้เขียน
API นี้เหมาะสำหรับการตั้งค่าโหนดมาสเตอร์ทาส ให้เราพูดคุยเพิ่มเติมเกี่ยวกับHCatReader และ HCatWriter.
HCatReader
HCatReader เป็นคลาสนามธรรมที่อยู่ภายในของ HCatalog และบทคัดย่อจะขจัดความซับซ้อนของระบบพื้นฐานจากที่ที่จะเรียกใช้บันทึก
ส. เลขที่ | ชื่อวิธีการและคำอธิบาย |
---|---|
1 | Public abstract ReaderContext prepareRead() throws HCatException สิ่งนี้ควรถูกเรียกที่โหนดหลักเพื่อรับ ReaderContext ซึ่งควรต่อเนื่องกันและส่งโหนดทาส |
2 | Public abstract Iterator <HCatRecorder> read() throws HCaException ควรเรียกสิ่งนี้ที่โหนดทาสเพื่ออ่าน HCatRecords |
3 | Public Configuration getConf() มันจะส่งคืนอ็อบเจ็กต์คลาสคอนฟิกูเรชัน |
คลาส HCatReader ใช้เพื่ออ่านข้อมูลจาก HDFS การอ่านเป็นกระบวนการสองขั้นตอนซึ่งขั้นตอนแรกเกิดขึ้นบนโหนดหลักของระบบภายนอก ขั้นตอนที่สองดำเนินการควบคู่ไปกับโหนดทาสหลายโหนด
อ่านเสร็จในไฟล์ ReadEntity. ก่อนที่คุณจะเริ่มอ่านคุณต้องกำหนด ReadEntity ที่จะอ่าน ซึ่งสามารถทำได้ผ่านReadEntity.Builder. คุณสามารถระบุชื่อฐานข้อมูลชื่อตารางพาร์ติชันและสตริงตัวกรอง ตัวอย่างเช่น -
ReadEntity.Builder builder = new ReadEntity.Builder();
ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10.
ข้อมูลโค้ดด้านบนกำหนดอ็อบเจ็กต์ ReadEntity (“ entity”) ซึ่งประกอบด้วยตารางที่ชื่อ mytbl ในฐานข้อมูลชื่อ mydbซึ่งสามารถใช้เพื่ออ่านแถวทั้งหมดของตารางนี้ โปรดทราบว่าตารางนี้ต้องมีอยู่ใน HCatalog ก่อนที่จะเริ่มการดำเนินการนี้
หลังจากกำหนด ReadEntity คุณจะได้รับอินสแตนซ์ของ HCatReader โดยใช้การกำหนดค่า ReadEntity และคลัสเตอร์ -
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
ขั้นตอนต่อไปคือการขอรับ ReaderContext จากผู้อ่านดังนี้ -
ReaderContext cntxt = reader.prepareRead();
HCatWriter
สิ่งที่เป็นนามธรรมนี้อยู่ภายในของ HCatalog เพื่ออำนวยความสะดวกในการเขียนไปยัง HCatalog จากระบบภายนอก อย่าพยายามสร้างสิ่งนี้โดยตรง ให้ใช้ DataTransferFactory แทน
ซีเนียร์ | ชื่อวิธีการและคำอธิบาย |
---|---|
1 | Public abstract WriterContext prepareRead() throws HCatException ระบบภายนอกควรเรียกใช้เมธอดนี้ทุกครั้งจากโหนดหลัก มันส่งคืนไฟล์WriterContext. สิ่งนี้ควรถูกทำให้เป็นอนุกรมและส่งไปยังโหนดทาสเพื่อสร้างHCatWriter นั่นเอง |
2 | Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException ควรใช้วิธีนี้ที่โหนดทาสเพื่อดำเนินการเขียน recordItr เป็นอ็อบเจ็กต์ตัววนซ้ำที่มีคอลเล็กชันของเร็กคอร์ดที่จะเขียนลงใน HCatalog |
3 | Public abstract void abort(WriterContext cntxt) throws HCatException ควรเรียกวิธีนี้ที่โหนดหลัก จุดประสงค์หลักของวิธีนี้คือการล้างข้อมูลในกรณีที่เกิดความล้มเหลว |
4 | public abstract void commit(WriterContext cntxt) throws HCatException ควรเรียกวิธีนี้ที่โหนดหลัก จุดประสงค์ของวิธีนี้คือการคอมมิตข้อมูลเมตา |
เช่นเดียวกับการอ่านการเขียนยังเป็นกระบวนการสองขั้นตอนซึ่งขั้นตอนแรกเกิดขึ้นบนโหนดหลัก ต่อจากนั้นขั้นตอนที่สองจะเกิดขึ้นพร้อมกันบนโหนดทาส
เขียนเสร็จบนไฟล์ WriteEntity ซึ่งสามารถสร้างในรูปแบบคล้ายกับการอ่าน -
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();
โค้ดด้านบนสร้างอ็อบเจกต์ WriteEntity entity
ซึ่งสามารถใช้เขียนลงในตารางที่ชื่อmytbl ในฐานข้อมูล mydb.
หลังจากสร้าง WriteEntity แล้วขั้นตอนต่อไปคือการขอรับ WriterContext -
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
ขั้นตอนทั้งหมดข้างต้นเกิดขึ้นบนโหนดหลัก จากนั้นโหนดหลักจะทำให้วัตถุ WriterContext เป็นอนุกรมและทำให้พร้อมใช้งานสำหรับทาสทั้งหมด
บนโหนดทาสคุณต้องได้รับ HCatWriter โดยใช้ WriterContext ดังนี้ -
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
จากนั้นไฟล์ writerใช้ตัววนซ้ำเป็นอาร์กิวเมนต์สำหรับwrite
วิธีการ -
writer.write(hCatRecordItr);
writer แล้วโทร getNext() บนตัววนซ้ำนี้แบบวนซ้ำและเขียนบันทึกทั้งหมดที่แนบมากับตัววนซ้ำ
TestReaderWriter.javaไฟล์ใช้เพื่อทดสอบคลาส HCatreader และ HCatWriter โปรแกรมต่อไปนี้สาธิตวิธีใช้ HCatReader และ HCatWriter API เพื่ออ่านข้อมูลจากไฟล์ต้นทางจากนั้นจึงเขียนลงในไฟล์ปลายทาง
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.metastore.api.MetaException;
import org.apache.hadoop.hive.ql.CommandNeedRetryException;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hive.HCatalog.common.HCatException;
import org.apache.hive.HCatalog.data.transfer.DataTransferFactory;
import org.apache.hive.HCatalog.data.transfer.HCatReader;
import org.apache.hive.HCatalog.data.transfer.HCatWriter;
import org.apache.hive.HCatalog.data.transfer.ReadEntity;
import org.apache.hive.HCatalog.data.transfer.ReaderContext;
import org.apache.hive.HCatalog.data.transfer.WriteEntity;
import org.apache.hive.HCatalog.data.transfer.WriterContext;
import org.apache.hive.HCatalog.mapreduce.HCatBaseTest;
import org.junit.Assert;
import org.junit.Test;
public class TestReaderWriter extends HCatBaseTest {
@Test
public void test() throws MetaException, CommandNeedRetryException,
IOException, ClassNotFoundException {
driver.run("drop table mytbl");
driver.run("create table mytbl (a string, b int)");
Iterator<Entry<String, String>> itr = hiveConf.iterator();
Map<String, String> map = new HashMap<String, String>();
while (itr.hasNext()) {
Entry<String, String> kv = itr.next();
map.put(kv.getKey(), kv.getValue());
}
WriterContext cntxt = runsInMaster(map);
File writeCntxtFile = File.createTempFile("hcat-write", "temp");
writeCntxtFile.deleteOnExit();
// Serialize context.
ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile));
oos.writeObject(cntxt);
oos.flush();
oos.close();
// Now, deserialize it.
ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile));
cntxt = (WriterContext) ois.readObject();
ois.close();
runsInSlave(cntxt);
commit(map, true, cntxt);
ReaderContext readCntxt = runsInMaster(map, false);
File readCntxtFile = File.createTempFile("hcat-read", "temp");
readCntxtFile.deleteOnExit();
oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile));
oos.writeObject(readCntxt);
oos.flush();
oos.close();
ois = new ObjectInputStream(new FileInputStream(readCntxtFile));
readCntxt = (ReaderContext) ois.readObject();
ois.close();
for (int i = 0; i < readCntxt.numSplits(); i++) {
runsInSlave(readCntxt, i);
}
}
private WriterContext runsInMaster(Map<String, String> config) throws HCatException {
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withTable("mytbl").build();
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
return info;
}
private ReaderContext runsInMaster(Map<String, String> config,
boolean bogus) throws HCatException {
ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build();
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
ReaderContext cntxt = reader.prepareRead();
return cntxt;
}
private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException {
HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum);
Iterator<HCatRecord> itr = reader.read();
int i = 1;
while (itr.hasNext()) {
HCatRecord read = itr.next();
HCatRecord written = getRecord(i++);
// Argh, HCatRecord doesnt implement equals()
Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0),
written.get(0).equals(read.get(0)));
Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1),
written.get(1).equals(read.get(1)));
Assert.assertEquals(2, read.size());
}
//Assert.assertFalse(itr.hasNext());
}
private void runsInSlave(WriterContext context) throws HCatException {
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
writer.write(new HCatRecordItr());
}
private void commit(Map<String, String> config, boolean status,
WriterContext context) throws IOException {
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withTable("mytbl").build();
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
if (status) {
writer.commit(context);
} else {
writer.abort(context);
}
}
private static HCatRecord getRecord(int i) {
List<Object> list = new ArrayList<Object>(2);
list.add("Row #: " + i);
list.add(i);
return new DefaultHCatRecord(list);
}
private static class HCatRecordItr implements Iterator<HCatRecord> {
int i = 0;
@Override
public boolean hasNext() {
return i++ < 100 ? true : false;
}
@Override
public HCatRecord next() {
return getRecord(i);
}
@Override
public void remove() {
throw new RuntimeException();
}
}
}
โปรแกรมข้างต้นอ่านข้อมูลจาก HDFS ในรูปแบบของบันทึกและเขียนข้อมูลบันทึกลงใน mytable
HCatInputFormat และ HCatOutputFormatอินเทอร์เฟซใช้เพื่ออ่านข้อมูลจาก HDFS และหลังจากประมวลผลแล้วให้เขียนข้อมูลผลลัพธ์ลงใน HDFS โดยใช้ MapReduce job ให้เราอธิบายอินเทอร์เฟซรูปแบบอินพุตและเอาต์พุตอย่างละเอียด
HCatInputFormat
HCatInputFormatใช้กับงาน MapReduce เพื่ออ่านข้อมูลจากตารางที่จัดการโดย HCatalog HCatInputFormat แสดง Hadoop 0.20 MapReduce API สำหรับการอ่านข้อมูลราวกับว่ามีการเผยแพร่ไปยังตาราง
ซีเนียร์ | ชื่อวิธีการและคำอธิบาย |
---|---|
1 | public static HCatInputFormat setInput(Job job, String dbName, String tableName)throws IOException ตั้งค่าอินพุตที่จะใช้สำหรับงาน มันสืบค้น metastore ด้วยข้อกำหนดอินพุตที่กำหนดและจัดลำดับพาร์ติชันที่ตรงกันลงในคอนฟิกูเรชันงานสำหรับงาน MapReduce |
2 | public static HCatInputFormat setInput(Configuration conf, String dbName, String tableName) throws IOException ตั้งค่าอินพุตที่จะใช้สำหรับงาน มันสืบค้น metastore ด้วยข้อกำหนดอินพุตที่กำหนดและจัดลำดับพาร์ติชันที่ตรงกันลงในคอนฟิกูเรชันงานสำหรับงาน MapReduce |
3 | public HCatInputFormat setFilter(String filter)throws IOException ตั้งค่าตัวกรองบนตารางอินพุต |
4 | public HCatInputFormat setProperties(Properties properties) throws IOException ตั้งค่าคุณสมบัติสำหรับรูปแบบอินพุต |
HCatInputFormat API มีวิธีการดังต่อไปนี้ -
- setInput
- setOutputSchema
- getTableSchema
ใช้ HCatInputFormat ในการอ่านข้อมูลขั้นแรกให้สร้างไฟล์ InputJobInfo โดยมีการอ่านข้อมูลที่จำเป็นจากตารางแล้วโทร setInput กับ InputJobInfo.
คุณสามารถใช้ไฟล์ setOutputSchema วิธีการรวมไฟล์ projection schemaเพื่อระบุฟิลด์เอาต์พุต หากไม่ได้ระบุสคีมาคอลัมน์ทั้งหมดในตารางจะถูกส่งกลับ คุณสามารถใช้เมธอด getTableSchema เพื่อกำหนดสคีมาของตารางสำหรับตารางอินพุตที่ระบุ
HCatOutputFormat
HCatOutputFormat ใช้กับงาน MapReduce เพื่อเขียนข้อมูลไปยังตารางที่จัดการโดย HCatalog HCatOutputFormat แสดง Hadoop 0.20 MapReduce API สำหรับการเขียนข้อมูลลงในตาราง เมื่องาน MapReduce ใช้ HCatOutputFormat เพื่อเขียนเอาต์พุตระบบจะใช้ OutputFormat เริ่มต้นที่กำหนดค่าสำหรับตารางและพาร์ติชันใหม่จะถูกเผยแพร่ไปยังตารางหลังจากงานเสร็จสมบูรณ์
ซีเนียร์ | ชื่อวิธีการและคำอธิบาย |
---|---|
1 | public static void setOutput (Configuration conf, Credentials credentials, OutputJobInfo outputJobInfo) throws IOException ตั้งค่าข้อมูลเกี่ยวกับเอาต์พุตที่จะเขียนสำหรับงาน มันสอบถามเซิร์ฟเวอร์ข้อมูลเมตาเพื่อค้นหา StorageHandler ที่จะใช้สำหรับตาราง จะแสดงข้อผิดพลาดหากพาร์ติชันได้รับการเผยแพร่แล้ว |
2 | public static void setSchema (Configuration conf, HCatSchema schema) throws IOException ตั้งค่าสคีมาสำหรับข้อมูลที่เขียนไปยังพาร์ติชัน สคีมาของตารางถูกใช้โดยค่าเริ่มต้นสำหรับพาร์ติชันหากไม่ได้เรียกใช้ |
3 | public RecordWriter <WritableComparable<?>, HCatRecord > getRecordWriter (TaskAttemptContext context)throws IOException, InterruptedException รับนักเขียนแผ่นเสียงสำหรับงาน ใช้ OutputFormat เริ่มต้นของ StorageHandler เพื่อรับตัวเขียนบันทึก |
4 | public OutputCommitter getOutputCommitter (TaskAttemptContext context) throws IOException, InterruptedException รับคอมมิตเตอร์เอาต์พุตสำหรับรูปแบบเอาต์พุตนี้ ตรวจสอบให้แน่ใจว่าเอาต์พุตถูกกำหนดอย่างถูกต้อง |
HCatOutputFormat API มีวิธีการดังต่อไปนี้ -
- setOutput
- setSchema
- getTableSchema
สายแรกบน HCatOutputFormat ต้องเป็น setOutput; การเรียกอื่นใด ๆ จะทำให้เกิดข้อยกเว้นว่ารูปแบบเอาต์พุตไม่ได้ถูกเตรียมใช้งาน
สคีมาสำหรับข้อมูลที่เขียนออกมาถูกระบุโดย setSchemaวิธี. คุณต้องเรียกวิธีนี้โดยให้สคีมาของข้อมูลที่คุณกำลังเขียน หากข้อมูลของคุณมีสคีมาเดียวกันกับสคีมาของตารางคุณสามารถใช้HCatOutputFormat.getTableSchema() เพื่อรับสคีมาของตารางแล้วส่งต่อไปยัง setSchema().
ตัวอย่าง
โปรแกรม MapReduce ต่อไปนี้อ่านข้อมูลจากตารางหนึ่งซึ่งถือว่ามีจำนวนเต็มในคอลัมน์ที่สอง ("คอลัมน์ 1") และนับจำนวนอินสแตนซ์ของแต่ละค่าที่แตกต่างกันที่พบ นั่นคือมันเทียบเท่ากับ "select col1, count(*) from $table group by col1;".
ตัวอย่างเช่นหากค่าในคอลัมน์ที่สองคือ {1, 1, 1, 3, 3, 5} โปรแกรมจะสร้างผลลัพธ์ของค่าและจำนวนต่อไปนี้ -
1, 3
3, 2
5, 1
ตอนนี้ให้เราดูรหัสโปรแกรม -
import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.HCatalog.common.HCatConstants;
import org.apache.HCatalog.data.DefaultHCatRecord;
import org.apache.HCatalog.data.HCatRecord;
import org.apache.HCatalog.data.schema.HCatSchema;
import org.apache.HCatalog.mapreduce.HCatInputFormat;
import org.apache.HCatalog.mapreduce.HCatOutputFormat;
import org.apache.HCatalog.mapreduce.InputJobInfo;
import org.apache.HCatalog.mapreduce.OutputJobInfo;
public class GroupByAge extends Configured implements Tool {
public static class Map extends Mapper<WritableComparable,
HCatRecord, IntWritable, IntWritable> {
int age;
@Override
protected void map(
WritableComparable key, HCatRecord value,
org.apache.hadoop.mapreduce.Mapper<WritableComparable,
HCatRecord, IntWritable, IntWritable>.Context context
)throws IOException, InterruptedException {
age = (Integer) value.get(1);
context.write(new IntWritable(age), new IntWritable(1));
}
}
public static class Reduce extends Reducer<IntWritable, IntWritable,
WritableComparable, HCatRecord> {
@Override
protected void reduce(
IntWritable key, java.lang.Iterable<IntWritable> values,
org.apache.hadoop.mapreduce.Reducer<IntWritable, IntWritable,
WritableComparable, HCatRecord>.Context context
)throws IOException ,InterruptedException {
int sum = 0;
Iterator<IntWritable> iter = values.iterator();
while (iter.hasNext()) {
sum++;
iter.next();
}
HCatRecord record = new DefaultHCatRecord(2);
record.set(0, key.get());
record.set(1, sum);
context.write(null, record);
}
}
public int run(String[] args) throws Exception {
Configuration conf = getConf();
args = new GenericOptionsParser(conf, args).getRemainingArgs();
String serverUri = args[0];
String inputTableName = args[1];
String outputTableName = args[2];
String dbName = null;
String principalID = System
.getProperty(HCatConstants.HCAT_METASTORE_PRINCIPAL);
if (principalID != null)
conf.set(HCatConstants.HCAT_METASTORE_PRINCIPAL, principalID);
Job job = new Job(conf, "GroupByAge");
HCatInputFormat.setInput(job, InputJobInfo.create(dbName, inputTableName, null));
// initialize HCatOutputFormat
job.setInputFormatClass(HCatInputFormat.class);
job.setJarByClass(GroupByAge.class);
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);
job.setMapOutputKeyClass(IntWritable.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(WritableComparable.class);
job.setOutputValueClass(DefaultHCatRecord.class);
HCatOutputFormat.setOutput(job, OutputJobInfo.create(dbName, outputTableName, null));
HCatSchema s = HCatOutputFormat.getTableSchema(job);
System.err.println("INFO: output schema explicitly set for writing:" + s);
HCatOutputFormat.setSchema(job, s);
job.setOutputFormatClass(HCatOutputFormat.class);
return (job.waitForCompletion(true) ? 0 : 1);
}
public static void main(String[] args) throws Exception {
int exitCode = ToolRunner.run(new GroupByAge(), args);
System.exit(exitCode);
}
}
ก่อนที่จะรวบรวมโปรแกรมข้างต้นคุณต้องดาวน์โหลดบางส่วน jars และเพิ่มสิ่งเหล่านั้นลงในไฟล์ classpathสำหรับแอปพลิเคชันนี้ คุณต้องดาวน์โหลด Hive jar และ HCatalog jar ทั้งหมด (HCatalog-core-0.5.0.jar, hive-metastore-0.10.0.jar, libthrift-0.7.0.jar, hive-exec-0.10.0.jar, libfb303-0.7.0.jar, jdo2-api-2.3-ec.jar, slf4j-api-1.6.1.jar)
ใช้คำสั่งต่อไปนี้เพื่อคัดลอก jar ไฟล์จาก local ถึง HDFS และเพิ่มสิ่งเหล่านั้นลงในไฟล์ classpath.
bin/hadoop fs -copyFromLocal $HCAT_HOME/share/HCatalog/HCatalog-core-0.5.0.jar /tmp bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/hive-metastore-0.10.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/libthrift-0.7.0.jar /tmp bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/hive-exec-0.10.0.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/libfb303-0.7.0.jar /tmp bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/jdo2-api-2.3-ec.jar /tmp
bin/hadoop fs -copyFromLocal $HIVE_HOME/lib/slf4j-api-1.6.1.jar /tmp
export LIB_JARS=hdfs:///tmp/HCatalog-core-0.5.0.jar,
hdfs:///tmp/hive-metastore-0.10.0.jar,
hdfs:///tmp/libthrift-0.7.0.jar,
hdfs:///tmp/hive-exec-0.10.0.jar,
hdfs:///tmp/libfb303-0.7.0.jar,
hdfs:///tmp/jdo2-api-2.3-ec.jar,
hdfs:///tmp/slf4j-api-1.6.1.jar
ใช้คำสั่งต่อไปนี้เพื่อคอมไพล์และรันโปรแกรมที่กำหนด
$HADOOP_HOME/bin/hadoop jar GroupByAge tmp/hive
ตอนนี้ตรวจสอบไดเร็กทอรีเอาต์พุตของคุณ (hdfs: user / tmp / hive) สำหรับเอาต์พุต (part_0000, part_0001)
HCatLoader และ HCatStorerAPI ใช้กับสคริปต์ Pig เพื่ออ่านและเขียนข้อมูลในตารางที่จัดการโดย HCatalog ไม่จำเป็นต้องมีการตั้งค่าเฉพาะ HCatalog สำหรับอินเทอร์เฟซเหล่านี้
ควรมีความรู้เกี่ยวกับสคริปต์ Apache Pig เพื่อทำความเข้าใจบทนี้ให้ดีขึ้น สำหรับข้อมูลอ้างอิงเพิ่มเติมโปรดอ่านบทแนะนำApache Pigของเรา
HCatloader
HCatLoader ใช้กับสคริปต์ Pig เพื่ออ่านข้อมูลจากตารางที่จัดการโดย HCatalog ใช้ไวยากรณ์ต่อไปนี้เพื่อโหลดข้อมูลลงใน HDFS โดยใช้ HCatloader
A = LOAD 'tablename' USING org.apache.HCatalog.pig.HCatLoader();
คุณต้องระบุชื่อตารางในเครื่องหมายคำพูดเดี่ยว: LOAD 'tablename'. หากคุณใช้ฐานข้อมูลที่ไม่ใช่ค่าเริ่มต้นคุณต้องระบุข้อมูลที่คุณป้อนเป็น 'dbname.tablename'.
Hive metastore ช่วยให้คุณสร้างตารางโดยไม่ต้องระบุฐานข้อมูล หากคุณสร้างตารางด้วยวิธีนี้ชื่อฐานข้อมูลจะเป็น'default' และไม่จำเป็นเมื่อระบุตารางสำหรับ HCatLoader
ตารางต่อไปนี้มีวิธีการและคำอธิบายที่สำคัญของคลาส HCatloader
ซีเนียร์ | ชื่อวิธีการและคำอธิบาย |
---|---|
1 | public InputFormat<?,?> getInputFormat()throws IOException อ่านรูปแบบอินพุตของข้อมูลการโหลดโดยใช้คลาส HCatloader |
2 | public String relativeToAbsolutePath(String location, Path curDir) throws IOException ส่งคืนรูปแบบ String ของไฟล์ Absolute path. |
3 | public void setLocation(String location, Job job) throws IOException กำหนดตำแหน่งที่สามารถดำเนินการงานได้ |
4 | public Tuple getNext() throws IOException ส่งคืนทูเพิลปัจจุบัน (key และ value) จากลูป |
HCatStorer
HCatStorer ใช้กับสคริปต์ Pig เพื่อเขียนข้อมูลไปยังตารางที่จัดการโดย HCatalog ใช้ไวยากรณ์ต่อไปนี้สำหรับการดำเนินการจัดเก็บ
A = LOAD ...
B = FOREACH A ...
...
...
my_processed_data = ...
STORE my_processed_data INTO 'tablename' USING org.apache.HCatalog.pig.HCatStorer();
คุณต้องระบุชื่อตารางในเครื่องหมายคำพูดเดี่ยว: LOAD 'tablename'. ต้องสร้างทั้งฐานข้อมูลและตารางก่อนที่จะเรียกใช้สคริปต์ Pig ของคุณ หากคุณกำลังใช้ฐานข้อมูลที่ไม่ใช่ค่าเริ่มต้นคุณต้องระบุอินพุตของคุณเป็น'dbname.tablename'.
Hive metastore ช่วยให้คุณสร้างตารางโดยไม่ต้องระบุฐานข้อมูล หากคุณสร้างตารางด้วยวิธีนี้ชื่อฐานข้อมูลจะเป็น'default' และคุณไม่จำเป็นต้องระบุชื่อฐานข้อมูลในไฟล์ store คำให้การ.
สำหรับ USINGอนุประโยคคุณสามารถมีอาร์กิวเมนต์สตริงที่แสดงถึงคู่คีย์ / ค่าสำหรับพาร์ติชัน นี่เป็นอาร์กิวเมนต์บังคับเมื่อคุณเขียนลงในตารางที่แบ่งพาร์ติชันและคอลัมน์พาร์ติชันไม่ได้อยู่ในคอลัมน์เอาต์พุต ไม่ควรอ้างค่าสำหรับพาร์ติชันคีย์
ตารางต่อไปนี้มีวิธีการและคำอธิบายที่สำคัญของคลาส HCatStorer
ซีเนียร์ | ชื่อวิธีการและคำอธิบาย |
---|---|
1 | public OutputFormat getOutputFormat() throws IOException อ่านรูปแบบผลลัพธ์ของข้อมูลที่จัดเก็บโดยใช้คลาส HCatStorer |
2 | public void setStoreLocation (String location, Job job) throws IOException ตั้งค่าตำแหน่งที่จะดำเนินการนี้ store ใบสมัคร |
3 | public void storeSchema (ResourceSchema schema, String arg1, Job job) throws IOException จัดเก็บสคีมา |
4 | public void prepareToWrite (RecordWriter writer) throws IOException ช่วยในการเขียนข้อมูลลงในไฟล์โดยใช้ RecordWriter |
5 | public void putNext (Tuple tuple) throws IOException เขียนข้อมูลทูเพิลลงในไฟล์ |
วิ่งหมูกับ HCatalog
Pig จะไม่หยิบขวด HCatalog โดยอัตโนมัติ ในการนำไหที่จำเป็นเข้ามาคุณสามารถใช้แฟล็กในคำสั่ง Pig หรือตั้งค่าตัวแปรสภาพแวดล้อมPIG_CLASSPATH และ PIG_OPTS ตามที่อธิบายไว้ด้านล่าง
ในการนำขวดโหลที่เหมาะสมสำหรับการทำงานกับ HCatalog เพียงใส่ธงต่อไปนี้ -
pig –useHCatalog <Sample pig scripts file>
การตั้งค่า CLASSPATH สำหรับ Execution
ใช้การตั้งค่า CLASSPATH ต่อไปนี้เพื่อซิงโครไนซ์ HCatalog กับ Apache Pig
export HADOOP_HOME = <path_to_hadoop_install>
export HIVE_HOME = <path_to_hive_install>
export HCAT_HOME = <path_to_hcat_install>
export PIG_CLASSPATH = $HCAT_HOME/share/HCatalog/HCatalog-core*.jar:\ $HCAT_HOME/share/HCatalog/HCatalog-pig-adapter*.jar:\
$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\
$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\
$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/conf:$HADOOP_HOME/conf:\ $HIVE_HOME/lib/slf4j-api-*.jar
ตัวอย่าง
สมมติว่าเรามีไฟล์ student_details.txt ใน HDFS ที่มีเนื้อหาต่อไปนี้
student_details.txt
001, Rajiv, Reddy, 21, 9848022337, Hyderabad
002, siddarth, Battacharya, 22, 9848022338, Kolkata
003, Rajesh, Khanna, 22, 9848022339, Delhi
004, Preethi, Agarwal, 21, 9848022330, Pune
005, Trupthi, Mohanthy, 23, 9848022336, Bhuwaneshwar
006, Archana, Mishra, 23, 9848022335, Chennai
007, Komal, Nayak, 24, 9848022334, trivendram
008, Bharathi, Nambiayar, 24, 9848022333, Chennai
เรายังมีตัวอย่างสคริปต์ที่มีชื่อ sample_script.pigในไดเร็กทอรี HDFS เดียวกัน ไฟล์นี้มีคำสั่งที่ดำเนินการและการแปลงไฟล์student ความสัมพันธ์ดังที่แสดงด้านล่าง
student = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING
PigStorage(',') as (id:int, firstname:chararray, lastname:chararray,
phone:chararray, city:chararray);
student_order = ORDER student BY age DESC;
STORE student_order INTO 'student_order_table' USING org.apache.HCatalog.pig.HCatStorer();
student_limit = LIMIT student_order 4;
Dump student_limit;
คำสั่งแรกของสคริปต์จะโหลดข้อมูลในไฟล์ชื่อ student_details.txt เป็นความสัมพันธ์ที่มีชื่อว่า student.
คำสั่งที่สองของสคริปต์จะจัดเรียงทูเปิลของความสัมพันธ์ตามลำดับจากมากไปหาน้อยตามอายุและจัดเก็บเป็น student_order.
คำสั่งที่สามเก็บข้อมูลที่ประมวลผล student_order ผลลัพธ์ในตารางแยกต่างหากชื่อ student_order_table.
คำสั่งที่สี่ของสคริปต์จะจัดเก็บสี่สิ่งแรกของ student_order เช่น student_limit.
ในที่สุดคำสั่งที่ห้าจะถ่ายโอนเนื้อหาของความสัมพันธ์ student_limit.
ตอนนี้ให้เราดำเนินการ sample_script.pig ดังแสดงด้านล่าง
$./pig -useHCatalog hdfs://localhost:9000/pig_data/sample_script.pig
ตอนนี้ตรวจสอบไดเร็กทอรีเอาต์พุตของคุณ (hdfs: user / tmp / hive) สำหรับเอาต์พุต (part_0000, part_0001)