Apache Tajo - สถาปัตยกรรม
ภาพประกอบต่อไปนี้แสดงให้เห็นถึงสถาปัตยกรรมของ Apache Tajo
ตารางต่อไปนี้อธิบายรายละเอียดส่วนประกอบแต่ละส่วน
ส. | ส่วนประกอบและคำอธิบาย |
---|---|
1 | Client Client ส่งคำสั่ง SQL ไปยัง Tajo Master เพื่อรับผลลัพธ์ |
2 | Master มาสเตอร์เป็นภูตหลัก มีหน้าที่วางแผนการสืบค้นและเป็นผู้ประสานงานสำหรับคนงาน |
3 | Catalog server รักษาคำอธิบายตารางและดัชนี มันฝังอยู่ใน Master daemon เซิร์ฟเวอร์แค็ตตาล็อกใช้ Apache Derby เป็นชั้นจัดเก็บข้อมูลและเชื่อมต่อผ่านไคลเอ็นต์ JDBC |
4 | Worker โหนดหลักมอบหมายงานให้กับโหนดของผู้ปฏิบัติงาน TajoWorker ประมวลผลข้อมูล เมื่อจำนวน TajoWorkers เพิ่มขึ้นความสามารถในการประมวลผลก็เพิ่มขึ้นในเชิงเส้น |
5 | Query Master Tajo master กำหนดแบบสอบถามให้กับ Query Master Query Master มีหน้าที่ควบคุมแผนการดำเนินการแบบกระจาย เปิดตัว TaskRunner และกำหนดเวลางานให้กับ TaskRunner บทบาทหลักของ Query Master คือการตรวจสอบงานที่กำลังทำงานอยู่และรายงานไปยังโหนดหลัก |
6 | Node Managers จัดการทรัพยากรของโหนดผู้ปฏิบัติงาน ตัดสินใจในการจัดสรรคำขอไปยังโหนด |
7 | TaskRunner ทำหน้าที่เป็นเครื่องมือดำเนินการสืบค้นภายในเครื่อง ใช้เพื่อเรียกใช้และตรวจสอบกระบวนการสืบค้น TaskRunner ประมวลผลทีละงาน มีคุณสมบัติหลักสามประการดังต่อไปนี้ -
|
8 | Query Executor ใช้เพื่อดำเนินการสืบค้น |
9 | Storage service เชื่อมต่อที่เก็บข้อมูลพื้นฐานกับ Tajo |
เวิร์กโฟลว์
Tajo ใช้ Hadoop Distributed File System (HDFS) เป็นชั้นจัดเก็บข้อมูลและมีกลไกการดำเนินการสืบค้นของตัวเองแทนกรอบงาน MapReduce คลัสเตอร์ Tajo ประกอบด้วยโหนดหลักหนึ่งโหนดและคนงานจำนวนหนึ่งในโหนดคลัสเตอร์
หลักมีหน้าที่หลักในการวางแผนการสืบค้นและผู้ประสานงานสำหรับคนงาน ต้นแบบแบ่งแบบสอบถามออกเป็นงานเล็ก ๆ และมอบหมายให้คนงาน ผู้ปฏิบัติงานแต่ละคนมีเครื่องมือสืบค้นข้อมูลในพื้นที่ซึ่งเรียกใช้งานกราฟแบบ acyclic ของตัวดำเนินการทางกายภาพ
นอกจากนี้ Tajo ยังสามารถควบคุมการไหลของข้อมูลแบบกระจายได้ยืดหยุ่นกว่า MapReduce และสนับสนุนเทคนิคการจัดทำดัชนี
อินเทอร์เฟซบนเว็บของ Tajo มีความสามารถดังต่อไปนี้ -
- ตัวเลือกในการค้นหาวิธีการวางแผนการสืบค้นข้อมูล
- ตัวเลือกในการค้นหาวิธีกระจายแบบสอบถามข้ามโหนด
- ตัวเลือกในการตรวจสอบสถานะของคลัสเตอร์และโหนด