การเพิ่มประสิทธิภาพการสืบค้นในระบบกระจาย
บทนี้จะกล่าวถึงการเพิ่มประสิทธิภาพแบบสอบถามในระบบฐานข้อมูลแบบกระจาย
สถาปัตยกรรมการประมวลผลแบบสอบถามแบบกระจาย
ในระบบฐานข้อมูลแบบกระจายการประมวลผลแบบสอบถามประกอบด้วยการเพิ่มประสิทธิภาพทั้งในระดับโลกและระดับท้องถิ่น แบบสอบถามเข้าสู่ระบบฐานข้อมูลที่ไคลเอนต์หรือไซต์ควบคุม ที่นี่ผู้ใช้จะได้รับการตรวจสอบความถูกต้องตรวจสอบแปลและปรับให้เหมาะสมในระดับโลก
สถาปัตยกรรมสามารถแสดงเป็น -
การแมปการสืบค้นส่วนกลางกับการสืบค้นข้อมูลในพื้นที่
กระบวนการแมปแบบสอบถามส่วนกลางกับคำถามในพื้นที่สามารถรับรู้ได้ดังต่อไปนี้ -
ตารางที่จำเป็นในแบบสอบถามส่วนกลางมีส่วนย่อยกระจายไปตามไซต์ต่างๆ ฐานข้อมูลท้องถิ่นมีข้อมูลเกี่ยวกับข้อมูลในเครื่องเท่านั้น ไซต์ควบคุมใช้พจนานุกรมข้อมูลส่วนกลางเพื่อรวบรวมข้อมูลเกี่ยวกับการแจกจ่ายและสร้างมุมมองส่วนกลางใหม่จากส่วนย่อย
หากไม่มีการจำลองแบบเครื่องมือเพิ่มประสิทธิภาพส่วนกลางจะเรียกใช้การสืบค้นภายในที่ไซต์ที่จัดเก็บชิ้นส่วน หากมีการจำลองแบบเครื่องมือเพิ่มประสิทธิภาพส่วนกลางจะเลือกไซต์ตามต้นทุนการสื่อสารปริมาณงานและความเร็วของเซิร์ฟเวอร์
เครื่องมือเพิ่มประสิทธิภาพระดับโลกจะสร้างแผนการดำเนินการแบบกระจายเพื่อให้การถ่ายโอนข้อมูลเกิดขึ้นระหว่างไซต์น้อยที่สุด แผนระบุตำแหน่งของชิ้นส่วนลำดับที่ต้องดำเนินการตามขั้นตอนการสืบค้นและกระบวนการที่เกี่ยวข้องกับการถ่ายโอนผลลัพธ์ระดับกลาง
คิวรีโลคัลถูกปรับให้เหมาะสมโดยเซิร์ฟเวอร์ฐานข้อมูลโลคัล สุดท้ายผลลัพธ์ของแบบสอบถามในเครื่องจะถูกรวมเข้าด้วยกันผ่านการดำเนินการร่วมกันในกรณีของส่วนแนวนอนและเข้าร่วมการดำเนินการสำหรับส่วนแนวตั้ง
ตัวอย่างเช่นให้เราพิจารณาว่าสคีมาโครงการต่อไปนี้มีการแยกส่วนในแนวนอนตามเมือง ได้แก่ นิวเดลีโกลกาตาและไฮเดอราบาด
โครงการ
PId | เมือง | สาขา | สถานะ |
สมมติว่ามีข้อความค้นหาเพื่อดึงรายละเอียดของโครงการทั้งหมดที่มีสถานะ "กำลังดำเนินการ"
ข้อความค้นหาส่วนกลางจะเป็น & inus;
$$ \ sigma_ {status} = {\ small "continuous"} ^ {(PROJECT)} $$
คำถามในเซิร์ฟเวอร์ของนิวเดลีจะเป็น -
$$ \ sigma_ {status} = {\ small "ต่อเนื่อง"} ^ {({NewD} _- {PROJECT})} $$
การสอบถามในเซิร์ฟเวอร์ของ Kolkata จะเป็น -
$$ \ sigma_ {status} = {\ small "ต่อเนื่อง"} ^ {({Kol} _- {PROJECT})} $$
คำถามในเซิร์ฟเวอร์ของไฮเดอราบาดจะเป็น -
$$ \ sigma_ {status} = {\ small "ต่อเนื่อง"} ^ {({Hyd} _- {PROJECT})} $$
เพื่อให้ได้ผลลัพธ์โดยรวมเราจำเป็นต้องรวมผลลัพธ์ของแบบสอบถามทั้งสามดังต่อไปนี้ -
$ \ sigma_ {status} = {\ small "continuous"} ^ {({NewD} _- {PROJECT})} \ cup \ sigma_ {status} = {\ small "continuous"} ^ {({kol} _- {PROJECT})} \ cup \ sigma_ {status} = {\ small "continuous"} ^ {({Hyd} _- {PROJECT})} $
การเพิ่มประสิทธิภาพการค้นหาแบบกระจาย
การเพิ่มประสิทธิภาพการสืบค้นแบบกระจายจำเป็นต้องมีการประเมินโครงสร้างแบบสอบถามจำนวนมากซึ่งแต่ละโครงสร้างจะให้ผลลัพธ์ที่ต้องการของแบบสอบถาม สาเหตุหลักมาจากการมีข้อมูลจำลองและแยกส่วนจำนวนมาก ดังนั้นเป้าหมายคือการหาทางออกที่ดีที่สุดแทนที่จะเป็นทางออกที่ดีที่สุด
ประเด็นหลักสำหรับการเพิ่มประสิทธิภาพการสืบค้นแบบกระจายคือ -
- การใช้ทรัพยากรอย่างเหมาะสมที่สุดในระบบกระจาย
- สอบถามการซื้อขาย
- การลดพื้นที่โซลูชันของแบบสอบถาม
การใช้ทรัพยากรอย่างเหมาะสมที่สุดในระบบกระจาย
ระบบกระจายมีเซิร์ฟเวอร์ฐานข้อมูลจำนวนมากในไซต์ต่างๆเพื่อดำเนินการเกี่ยวกับแบบสอบถาม ต่อไปนี้เป็นแนวทางในการใช้ทรัพยากรอย่างเหมาะสม -
Operation Shipping- ในการดำเนินการจัดส่งการดำเนินการจะดำเนินการที่ไซต์ที่จัดเก็บข้อมูลไม่ใช่ที่ไซต์ไคลเอ็นต์ จากนั้นผลลัพธ์จะถูกโอนไปยังไซต์ไคลเอนต์ สิ่งนี้เหมาะสำหรับการดำเนินการที่มีตัวถูกดำเนินการอยู่ในไซต์เดียวกัน ตัวอย่าง: เลือกและการดำเนินโครงการ
Data Shipping- ในการจัดส่งข้อมูลชิ้นส่วนข้อมูลจะถูกถ่ายโอนไปยังเซิร์ฟเวอร์ฐานข้อมูลซึ่งการดำเนินการจะถูกดำเนินการ ใช้ในการดำเนินการที่มีการแจกจ่ายตัวถูกดำเนินการตามไซต์ต่างๆ นอกจากนี้ยังเหมาะสมในระบบที่ต้นทุนการสื่อสารต่ำและตัวประมวลผลภายในทำงานช้ากว่าไคลเอนต์เซิร์ฟเวอร์มาก
Hybrid Shipping- เป็นการรวมข้อมูลและการดำเนินการจัดส่ง ที่นี่ส่วนข้อมูลจะถูกถ่ายโอนไปยังโปรเซสเซอร์ความเร็วสูงซึ่งการดำเนินการทำงาน จากนั้นผลลัพธ์จะถูกส่งไปยังไซต์ไคลเอนต์
สอบถามการซื้อขาย
ในอัลกอริธึมการซื้อขายแบบสอบถามสำหรับระบบฐานข้อมูลแบบกระจายไซต์ควบคุม / ไคลเอนต์สำหรับแบบสอบถามแบบกระจายเรียกว่าผู้ซื้อและไซต์ที่ดำเนินการค้นหาในท้องถิ่นเรียกว่าผู้ขาย ผู้ซื้อกำหนดทางเลือกต่างๆสำหรับการเลือกผู้ขายและสำหรับการสร้างผลลัพธ์ใหม่ทั่วโลก เป้าหมายของผู้ซื้อคือการบรรลุต้นทุนที่เหมาะสม
อัลกอริทึมเริ่มต้นด้วยผู้ซื้อกำหนดคำถามย่อยให้กับไซต์ผู้ขาย แผนการที่ดีที่สุดถูกสร้างขึ้นจากแผนการสืบค้นที่ปรับให้เหมาะสมในท้องถิ่นที่เสนอโดยผู้ขายรวมกับค่าสื่อสารสำหรับการสร้างผลลัพธ์สุดท้ายขึ้นใหม่ เมื่อกำหนดแผนที่เหมาะสมที่สุดทั่วโลกแล้วแบบสอบถามจะดำเนินการ
การลดพื้นที่โซลูชันของแบบสอบถาม
โซลูชันที่ดีที่สุดโดยทั่วไปเกี่ยวข้องกับการลดพื้นที่โซลูชันเพื่อลดต้นทุนการสืบค้นและการถ่ายโอนข้อมูล สิ่งนี้สามารถทำได้ผ่านชุดของกฎฮิวริสติกเช่นเดียวกับการวิเคราะห์พฤติกรรมในระบบรวมศูนย์
ต่อไปนี้เป็นกฎบางส่วน -
ดำเนินการเลือกและการฉายภาพโดยเร็วที่สุด ซึ่งจะช่วยลดการไหลของข้อมูลผ่านเครือข่ายการสื่อสาร
ลดความซับซ้อนของการดำเนินการกับชิ้นส่วนแนวนอนโดยการกำจัดเงื่อนไขการเลือกที่ไม่เกี่ยวข้องกับไซต์ใดไซต์หนึ่ง
ในกรณีของการรวมและการดำเนินการสหภาพที่ประกอบด้วยส่วนย่อยที่อยู่ในหลายไซต์ให้ถ่ายโอนข้อมูลที่แยกส่วนไปยังไซต์ที่มีข้อมูลส่วนใหญ่อยู่และดำเนินการที่นั่น
ใช้การดำเนินการกึ่งเข้าร่วมเพื่อตรวจสอบคุณสมบัติสิ่งที่จะเข้าร่วม ซึ่งจะช่วยลดปริมาณการถ่ายโอนข้อมูลซึ่งจะช่วยลดต้นทุนการสื่อสาร
ผสานใบไม้ทั่วไปและต้นไม้ย่อยในแผนผังแบบสอบถามแบบกระจาย