Apache Tajo - สถาปัตยกรรม
ภาพประกอบต่อไปนี้แสดงให้เห็นถึงสถาปัตยกรรมของ Apache Tajo
ตารางต่อไปนี้อธิบายรายละเอียดส่วนประกอบแต่ละส่วน
| ส. | ส่วนประกอบและคำอธิบาย |
|---|---|
| 1 | Client Client ส่งคำสั่ง SQL ไปยัง Tajo Master เพื่อรับผลลัพธ์ |
| 2 | Master มาสเตอร์เป็นภูตหลัก มีหน้าที่วางแผนการสืบค้นและเป็นผู้ประสานงานสำหรับคนงาน |
| 3 | Catalog server รักษาคำอธิบายตารางและดัชนี มันฝังอยู่ใน Master daemon เซิร์ฟเวอร์แค็ตตาล็อกใช้ Apache Derby เป็นชั้นจัดเก็บข้อมูลและเชื่อมต่อผ่านไคลเอ็นต์ JDBC |
| 4 | Worker โหนดหลักมอบหมายงานให้กับโหนดของผู้ปฏิบัติงาน TajoWorker ประมวลผลข้อมูล เมื่อจำนวน TajoWorkers เพิ่มขึ้นความสามารถในการประมวลผลก็เพิ่มขึ้นในเชิงเส้น |
| 5 | Query Master Tajo master กำหนดแบบสอบถามให้กับ Query Master Query Master มีหน้าที่ควบคุมแผนการดำเนินการแบบกระจาย เปิดตัว TaskRunner และกำหนดเวลางานให้กับ TaskRunner บทบาทหลักของ Query Master คือการตรวจสอบงานที่กำลังทำงานอยู่และรายงานไปยังโหนดหลัก |
| 6 | Node Managers จัดการทรัพยากรของโหนดผู้ปฏิบัติงาน ตัดสินใจในการจัดสรรคำขอไปยังโหนด |
| 7 | TaskRunner ทำหน้าที่เป็นเครื่องมือดำเนินการสืบค้นภายในเครื่อง ใช้เพื่อเรียกใช้และตรวจสอบกระบวนการสืบค้น TaskRunner ประมวลผลทีละงาน มีคุณสมบัติหลักสามประการดังต่อไปนี้ -
|
| 8 | Query Executor ใช้เพื่อดำเนินการสืบค้น |
| 9 | Storage service เชื่อมต่อที่เก็บข้อมูลพื้นฐานกับ Tajo |
เวิร์กโฟลว์
Tajo ใช้ Hadoop Distributed File System (HDFS) เป็นชั้นจัดเก็บข้อมูลและมีกลไกการดำเนินการสืบค้นของตัวเองแทนกรอบงาน MapReduce คลัสเตอร์ Tajo ประกอบด้วยโหนดหลักหนึ่งโหนดและคนงานจำนวนหนึ่งในโหนดคลัสเตอร์
หลักมีหน้าที่หลักในการวางแผนการสืบค้นและผู้ประสานงานสำหรับคนงาน ต้นแบบแบ่งแบบสอบถามออกเป็นงานเล็ก ๆ และมอบหมายให้คนงาน ผู้ปฏิบัติงานแต่ละคนมีเครื่องมือสืบค้นข้อมูลในพื้นที่ซึ่งเรียกใช้งานกราฟแบบ acyclic ของตัวดำเนินการทางกายภาพ
นอกจากนี้ Tajo ยังสามารถควบคุมการไหลของข้อมูลแบบกระจายได้ยืดหยุ่นกว่า MapReduce และสนับสนุนเทคนิคการจัดทำดัชนี
อินเทอร์เฟซบนเว็บของ Tajo มีความสามารถดังต่อไปนี้ -
- ตัวเลือกในการค้นหาวิธีการวางแผนการสืบค้นข้อมูล
- ตัวเลือกในการค้นหาวิธีกระจายแบบสอบถามข้ามโหนด
- ตัวเลือกในการตรวจสอบสถานะของคลัสเตอร์และโหนด