Apache Tajo - บทนำ
ระบบคลังข้อมูลแบบกระจาย
คลังข้อมูลเป็นฐานข้อมูลเชิงสัมพันธ์ที่ออกแบบมาเพื่อการสืบค้นและการวิเคราะห์แทนที่จะใช้สำหรับการประมวลผลธุรกรรม เป็นคอลเล็กชันข้อมูลที่มุ่งเน้นแบบบูรณาการตัวแปรเวลาและไม่ลบเลือน ข้อมูลนี้ช่วยให้นักวิเคราะห์สามารถตัดสินใจอย่างชาญฉลาดในองค์กร แต่ปริมาณข้อมูลเชิงสัมพันธ์จะเพิ่มขึ้นทุกวัน
เพื่อเอาชนะความท้าทายระบบคลังข้อมูลแบบกระจายจะแบ่งปันข้อมูลในที่เก็บข้อมูลหลายแห่งเพื่อวัตถุประสงค์ในการประมวลผลการวิเคราะห์ออนไลน์ (OLAP) คลังข้อมูลแต่ละแห่งอาจเป็นขององค์กรตั้งแต่หนึ่งองค์กรขึ้นไป ทำการปรับสมดุลภาระงานและปรับขนาดได้ ข้อมูลเมตาถูกจำลองแบบและแจกจ่ายจากส่วนกลาง
Apache Tajo เป็นระบบคลังข้อมูลแบบกระจายซึ่งใช้ Hadoop Distributed File System (HDFS) เป็นชั้นจัดเก็บข้อมูลและมีเอ็นจิ้นการดำเนินการสืบค้นของตัวเองแทนกรอบ MapReduce
ภาพรวมของ SQL บน Hadoop
Hadoop เป็นเฟรมเวิร์กโอเพนซอร์สที่อนุญาตให้จัดเก็บและประมวลผลข้อมูลขนาดใหญ่ในสภาพแวดล้อมแบบกระจาย มันเร็วและทรงพลังมาก อย่างไรก็ตาม Hadoop มีความสามารถในการสืบค้นที่ จำกัด ดังนั้นจึงสามารถปรับปรุงประสิทธิภาพได้ดียิ่งขึ้นด้วยความช่วยเหลือของ SQL บน Hadoop สิ่งนี้ช่วยให้ผู้ใช้สามารถโต้ตอบกับ Hadoop ผ่านคำสั่ง SQL ง่ายๆ
ตัวอย่างบางส่วนของ SQL บนแอปพลิเคชัน Hadoop ได้แก่ Hive, Impala, Drill, Presto, Spark, HAWQ และ Apache Tajo
Apache Tajo คืออะไร
Apache Tajo เป็นกรอบการประมวลผลข้อมูลเชิงสัมพันธ์และแบบกระจาย ออกแบบมาเพื่อความหน่วงแฝงต่ำและการวิเคราะห์คำค้นหาเฉพาะกิจที่ปรับขนาดได้
Tajo รองรับ SQL มาตรฐานและรูปแบบข้อมูลต่างๆ แบบสอบถามส่วนใหญ่ของ Tajo สามารถดำเนินการได้โดยไม่ต้องแก้ไขใด ๆ
ตาโจมี fault-tolerance ผ่านกลไกการรีสตาร์ทสำหรับงานที่ล้มเหลวและเอ็นจิ้นการเขียนคิวรีที่ขยายได้
ทาโจดำเนินการที่จำเป็น ETL (Extract Transform and Load process)การดำเนินการเพื่อสรุปชุดข้อมูลขนาดใหญ่ที่จัดเก็บบน HDFS เป็นอีกทางเลือกหนึ่งของ Hive / Pig
Tajo เวอร์ชันล่าสุดมีการเชื่อมต่อที่ดีกว่ากับโปรแกรม Java และฐานข้อมูลของบุคคลที่สามเช่น Oracle และ PostGreSQL
คุณสมบัติของ Apache Tajo
Apache Tajo มีคุณสมบัติดังต่อไปนี้ -
- ความสามารถในการปรับขนาดที่เหนือกว่าและประสิทธิภาพที่ดีที่สุด
- เวลาแฝงต่ำ
- ฟังก์ชันที่ผู้ใช้กำหนดเอง
- กรอบการประมวลผลการจัดเก็บแถว / คอลัมน์
- ความเข้ากันได้กับ HiveQL และ Hive MetaStore
- การไหลของข้อมูลที่เรียบง่ายและการบำรุงรักษาง่าย
ประโยชน์ของ Apache Tajo
Apache Tajo มอบสิทธิประโยชน์ดังต่อไปนี้ -
- ง่ายต่อการใช้
- สถาปัตยกรรมที่เรียบง่าย
- การเพิ่มประสิทธิภาพการสืบค้นตามต้นทุน
- แผนการดำเนินการค้นหาแบบเวกเตอร์
- จัดส่งที่รวดเร็ว
- กลไก I / O ที่เรียบง่ายและรองรับการจัดเก็บประเภทต่างๆ
- ความทนทานต่อความผิดพลาด
ใช้กรณีของ Apache Tajo
ต่อไปนี้เป็นกรณีการใช้งานบางส่วนของ Apache Tajo -
คลังข้อมูลและการวิเคราะห์
บริษัท SK Telecom ของเกาหลีดำเนินการกับ Tajo โดยใช้ข้อมูลที่มีมูลค่า 1.7 เทราไบต์และพบว่าสามารถตอบคำถามด้วยความเร็วที่สูงกว่า Hive หรือ Impala
การค้นพบข้อมูล
บริการสตรีมเพลงของเกาหลี Melon ใช้ Tajo สำหรับการประมวลผลเชิงวิเคราะห์ Tajo ดำเนินงาน ETL (ขั้นตอนการแยกการแปลง - โหลด) เร็วกว่า Hive 1.5 ถึง 10 เท่า
การวิเคราะห์บันทึก
Bluehole Studio บริษัท สัญชาติเกาหลีพัฒนา TERA - เกมออนไลน์แบบผู้เล่นหลายคนแฟนตาซี บริษัท ใช้ Tajo ในการวิเคราะห์บันทึกเกมและค้นหาสาเหตุหลักของการขัดจังหวะคุณภาพบริการ
รูปแบบการจัดเก็บและข้อมูล
Apache Tajo รองรับรูปแบบข้อมูลต่อไปนี้ -
- JSON
- ไฟล์ข้อความ (CSV)
- Parquet
- ไฟล์ลำดับ
- AVRO
- บัฟเฟอร์โปรโตคอล
- Apache Orc
Tajo รองรับรูปแบบการจัดเก็บดังต่อไปนี้ -
- HDFS
- JDBC
- Amazon S3
- Apache HBase
- Elasticsearch