Apache Tajo - บทนำ

ระบบคลังข้อมูลแบบกระจาย

คลังข้อมูลเป็นฐานข้อมูลเชิงสัมพันธ์ที่ออกแบบมาเพื่อการสืบค้นและการวิเคราะห์แทนที่จะใช้สำหรับการประมวลผลธุรกรรม เป็นคอลเล็กชันข้อมูลที่มุ่งเน้นแบบบูรณาการตัวแปรเวลาและไม่ลบเลือน ข้อมูลนี้ช่วยให้นักวิเคราะห์สามารถตัดสินใจอย่างชาญฉลาดในองค์กร แต่ปริมาณข้อมูลเชิงสัมพันธ์จะเพิ่มขึ้นทุกวัน

เพื่อเอาชนะความท้าทายระบบคลังข้อมูลแบบกระจายจะแบ่งปันข้อมูลในที่เก็บข้อมูลหลายแห่งเพื่อวัตถุประสงค์ในการประมวลผลการวิเคราะห์ออนไลน์ (OLAP) คลังข้อมูลแต่ละแห่งอาจเป็นขององค์กรตั้งแต่หนึ่งองค์กรขึ้นไป ทำการปรับสมดุลภาระงานและปรับขนาดได้ ข้อมูลเมตาถูกจำลองแบบและแจกจ่ายจากส่วนกลาง

Apache Tajo เป็นระบบคลังข้อมูลแบบกระจายซึ่งใช้ Hadoop Distributed File System (HDFS) เป็นชั้นจัดเก็บข้อมูลและมีเอ็นจิ้นการดำเนินการสืบค้นของตัวเองแทนกรอบ MapReduce

ภาพรวมของ SQL บน Hadoop

Hadoop เป็นเฟรมเวิร์กโอเพนซอร์สที่อนุญาตให้จัดเก็บและประมวลผลข้อมูลขนาดใหญ่ในสภาพแวดล้อมแบบกระจาย มันเร็วและทรงพลังมาก อย่างไรก็ตาม Hadoop มีความสามารถในการสืบค้นที่ จำกัด ดังนั้นจึงสามารถปรับปรุงประสิทธิภาพได้ดียิ่งขึ้นด้วยความช่วยเหลือของ SQL บน Hadoop สิ่งนี้ช่วยให้ผู้ใช้สามารถโต้ตอบกับ Hadoop ผ่านคำสั่ง SQL ง่ายๆ

ตัวอย่างบางส่วนของ SQL บนแอปพลิเคชัน Hadoop ได้แก่ Hive, Impala, Drill, Presto, Spark, HAWQ และ Apache Tajo

Apache Tajo คืออะไร

Apache Tajo เป็นกรอบการประมวลผลข้อมูลเชิงสัมพันธ์และแบบกระจาย ออกแบบมาเพื่อความหน่วงแฝงต่ำและการวิเคราะห์คำค้นหาเฉพาะกิจที่ปรับขนาดได้

  • Tajo รองรับ SQL มาตรฐานและรูปแบบข้อมูลต่างๆ แบบสอบถามส่วนใหญ่ของ Tajo สามารถดำเนินการได้โดยไม่ต้องแก้ไขใด ๆ

  • ตาโจมี fault-tolerance ผ่านกลไกการรีสตาร์ทสำหรับงานที่ล้มเหลวและเอ็นจิ้นการเขียนคิวรีที่ขยายได้

  • ทาโจดำเนินการที่จำเป็น ETL (Extract Transform and Load process)การดำเนินการเพื่อสรุปชุดข้อมูลขนาดใหญ่ที่จัดเก็บบน HDFS เป็นอีกทางเลือกหนึ่งของ Hive / Pig

Tajo เวอร์ชันล่าสุดมีการเชื่อมต่อที่ดีกว่ากับโปรแกรม Java และฐานข้อมูลของบุคคลที่สามเช่น Oracle และ PostGreSQL

คุณสมบัติของ Apache Tajo

Apache Tajo มีคุณสมบัติดังต่อไปนี้ -

  • ความสามารถในการปรับขนาดที่เหนือกว่าและประสิทธิภาพที่ดีที่สุด
  • เวลาแฝงต่ำ
  • ฟังก์ชันที่ผู้ใช้กำหนดเอง
  • กรอบการประมวลผลการจัดเก็บแถว / คอลัมน์
  • ความเข้ากันได้กับ HiveQL และ Hive MetaStore
  • การไหลของข้อมูลที่เรียบง่ายและการบำรุงรักษาง่าย

ประโยชน์ของ Apache Tajo

Apache Tajo มอบสิทธิประโยชน์ดังต่อไปนี้ -

  • ง่ายต่อการใช้
  • สถาปัตยกรรมที่เรียบง่าย
  • การเพิ่มประสิทธิภาพการสืบค้นตามต้นทุน
  • แผนการดำเนินการค้นหาแบบเวกเตอร์
  • จัดส่งที่รวดเร็ว
  • กลไก I / O ที่เรียบง่ายและรองรับการจัดเก็บประเภทต่างๆ
  • ความทนทานต่อความผิดพลาด

ใช้กรณีของ Apache Tajo

ต่อไปนี้เป็นกรณีการใช้งานบางส่วนของ Apache Tajo -

คลังข้อมูลและการวิเคราะห์

บริษัท SK Telecom ของเกาหลีดำเนินการกับ Tajo โดยใช้ข้อมูลที่มีมูลค่า 1.7 เทราไบต์และพบว่าสามารถตอบคำถามด้วยความเร็วที่สูงกว่า Hive หรือ Impala

การค้นพบข้อมูล

บริการสตรีมเพลงของเกาหลี Melon ใช้ Tajo สำหรับการประมวลผลเชิงวิเคราะห์ Tajo ดำเนินงาน ETL (ขั้นตอนการแยกการแปลง - โหลด) เร็วกว่า Hive 1.5 ถึง 10 เท่า

การวิเคราะห์บันทึก

Bluehole Studio บริษัท สัญชาติเกาหลีพัฒนา TERA - เกมออนไลน์แบบผู้เล่นหลายคนแฟนตาซี บริษัท ใช้ Tajo ในการวิเคราะห์บันทึกเกมและค้นหาสาเหตุหลักของการขัดจังหวะคุณภาพบริการ

รูปแบบการจัดเก็บและข้อมูล

Apache Tajo รองรับรูปแบบข้อมูลต่อไปนี้ -

  • JSON
  • ไฟล์ข้อความ (CSV)
  • Parquet
  • ไฟล์ลำดับ
  • AVRO
  • บัฟเฟอร์โปรโตคอล
  • Apache Orc

Tajo รองรับรูปแบบการจัดเก็บดังต่อไปนี้ -

  • HDFS
  • JDBC
  • Amazon S3
  • Apache HBase
  • Elasticsearch