การเพิ่มประสิทธิภาพการสืบค้นในระบบกระจาย

บทนี้จะกล่าวถึงการเพิ่มประสิทธิภาพแบบสอบถามในระบบฐานข้อมูลแบบกระจาย

สถาปัตยกรรมการประมวลผลแบบสอบถามแบบกระจาย

ในระบบฐานข้อมูลแบบกระจายการประมวลผลแบบสอบถามประกอบด้วยการเพิ่มประสิทธิภาพทั้งในระดับโลกและระดับท้องถิ่น แบบสอบถามเข้าสู่ระบบฐานข้อมูลที่ไคลเอนต์หรือไซต์ควบคุม ที่นี่ผู้ใช้จะได้รับการตรวจสอบความถูกต้องตรวจสอบแปลและปรับให้เหมาะสมในระดับโลก

สถาปัตยกรรมสามารถแสดงเป็น -

การแมปการสืบค้นส่วนกลางกับการสืบค้นข้อมูลในพื้นที่

กระบวนการแมปแบบสอบถามส่วนกลางกับคำถามในพื้นที่สามารถรับรู้ได้ดังต่อไปนี้ -

  • ตารางที่จำเป็นในแบบสอบถามส่วนกลางมีส่วนย่อยกระจายไปตามไซต์ต่างๆ ฐานข้อมูลท้องถิ่นมีข้อมูลเกี่ยวกับข้อมูลในเครื่องเท่านั้น ไซต์ควบคุมใช้พจนานุกรมข้อมูลส่วนกลางเพื่อรวบรวมข้อมูลเกี่ยวกับการแจกจ่ายและสร้างมุมมองส่วนกลางใหม่จากส่วนย่อย

  • หากไม่มีการจำลองแบบเครื่องมือเพิ่มประสิทธิภาพส่วนกลางจะเรียกใช้การสืบค้นภายในที่ไซต์ที่จัดเก็บชิ้นส่วน หากมีการจำลองแบบเครื่องมือเพิ่มประสิทธิภาพส่วนกลางจะเลือกไซต์ตามต้นทุนการสื่อสารปริมาณงานและความเร็วของเซิร์ฟเวอร์

  • เครื่องมือเพิ่มประสิทธิภาพระดับโลกจะสร้างแผนการดำเนินการแบบกระจายเพื่อให้การถ่ายโอนข้อมูลเกิดขึ้นระหว่างไซต์น้อยที่สุด แผนระบุตำแหน่งของชิ้นส่วนลำดับที่ต้องดำเนินการตามขั้นตอนการสืบค้นและกระบวนการที่เกี่ยวข้องกับการถ่ายโอนผลลัพธ์ระดับกลาง

  • คิวรีโลคัลถูกปรับให้เหมาะสมโดยเซิร์ฟเวอร์ฐานข้อมูลโลคัล สุดท้ายผลลัพธ์ของแบบสอบถามในเครื่องจะถูกรวมเข้าด้วยกันผ่านการดำเนินการร่วมกันในกรณีของส่วนแนวนอนและเข้าร่วมการดำเนินการสำหรับส่วนแนวตั้ง

ตัวอย่างเช่นให้เราพิจารณาว่าสคีมาโครงการต่อไปนี้มีการแยกส่วนในแนวนอนตามเมือง ได้แก่ นิวเดลีโกลกาตาและไฮเดอราบาด

โครงการ

PId เมือง สาขา สถานะ

สมมติว่ามีข้อความค้นหาเพื่อดึงรายละเอียดของโครงการทั้งหมดที่มีสถานะ "กำลังดำเนินการ"

ข้อความค้นหาส่วนกลางจะเป็น & inus;

$$ \ sigma_ {status} = {\ small "continuous"} ^ {(PROJECT)} $$

คำถามในเซิร์ฟเวอร์ของนิวเดลีจะเป็น -

$$ \ sigma_ {status} = {\ small "ต่อเนื่อง"} ^ {({NewD} _- {PROJECT})} $$

การสอบถามในเซิร์ฟเวอร์ของ Kolkata จะเป็น -

$$ \ sigma_ {status} = {\ small "ต่อเนื่อง"} ^ {({Kol} _- {PROJECT})} $$

คำถามในเซิร์ฟเวอร์ของไฮเดอราบาดจะเป็น -

$$ \ sigma_ {status} = {\ small "ต่อเนื่อง"} ^ {({Hyd} _- {PROJECT})} $$

เพื่อให้ได้ผลลัพธ์โดยรวมเราจำเป็นต้องรวมผลลัพธ์ของแบบสอบถามทั้งสามดังต่อไปนี้ -

$ \ sigma_ {status} = {\ small "continuous"} ^ {({NewD} _- {PROJECT})} \ cup \ sigma_ {status} = {\ small "continuous"} ^ {({kol} _- {PROJECT})} \ cup \ sigma_ {status} = {\ small "continuous"} ^ {({Hyd} _- {PROJECT})} $

การเพิ่มประสิทธิภาพการค้นหาแบบกระจาย

การเพิ่มประสิทธิภาพการสืบค้นแบบกระจายจำเป็นต้องมีการประเมินโครงสร้างแบบสอบถามจำนวนมากซึ่งแต่ละโครงสร้างจะให้ผลลัพธ์ที่ต้องการของแบบสอบถาม สาเหตุหลักมาจากการมีข้อมูลจำลองและแยกส่วนจำนวนมาก ดังนั้นเป้าหมายคือการหาทางออกที่ดีที่สุดแทนที่จะเป็นทางออกที่ดีที่สุด

ประเด็นหลักสำหรับการเพิ่มประสิทธิภาพการสืบค้นแบบกระจายคือ -

  • การใช้ทรัพยากรอย่างเหมาะสมที่สุดในระบบกระจาย
  • สอบถามการซื้อขาย
  • การลดพื้นที่โซลูชันของแบบสอบถาม

การใช้ทรัพยากรอย่างเหมาะสมที่สุดในระบบกระจาย

ระบบกระจายมีเซิร์ฟเวอร์ฐานข้อมูลจำนวนมากในไซต์ต่างๆเพื่อดำเนินการเกี่ยวกับแบบสอบถาม ต่อไปนี้เป็นแนวทางในการใช้ทรัพยากรอย่างเหมาะสม -

Operation Shipping- ในการดำเนินการจัดส่งการดำเนินการจะดำเนินการที่ไซต์ที่จัดเก็บข้อมูลไม่ใช่ที่ไซต์ไคลเอ็นต์ จากนั้นผลลัพธ์จะถูกโอนไปยังไซต์ไคลเอนต์ สิ่งนี้เหมาะสำหรับการดำเนินการที่มีตัวถูกดำเนินการอยู่ในไซต์เดียวกัน ตัวอย่าง: เลือกและการดำเนินโครงการ

Data Shipping- ในการจัดส่งข้อมูลชิ้นส่วนข้อมูลจะถูกถ่ายโอนไปยังเซิร์ฟเวอร์ฐานข้อมูลซึ่งการดำเนินการจะถูกดำเนินการ ใช้ในการดำเนินการที่มีการแจกจ่ายตัวถูกดำเนินการตามไซต์ต่างๆ นอกจากนี้ยังเหมาะสมในระบบที่ต้นทุนการสื่อสารต่ำและตัวประมวลผลภายในทำงานช้ากว่าไคลเอนต์เซิร์ฟเวอร์มาก

Hybrid Shipping- เป็นการรวมข้อมูลและการดำเนินการจัดส่ง ที่นี่ส่วนข้อมูลจะถูกถ่ายโอนไปยังโปรเซสเซอร์ความเร็วสูงซึ่งการดำเนินการทำงาน จากนั้นผลลัพธ์จะถูกส่งไปยังไซต์ไคลเอนต์

สอบถามการซื้อขาย

ในอัลกอริธึมการซื้อขายแบบสอบถามสำหรับระบบฐานข้อมูลแบบกระจายไซต์ควบคุม / ไคลเอนต์สำหรับแบบสอบถามแบบกระจายเรียกว่าผู้ซื้อและไซต์ที่ดำเนินการค้นหาในท้องถิ่นเรียกว่าผู้ขาย ผู้ซื้อกำหนดทางเลือกต่างๆสำหรับการเลือกผู้ขายและสำหรับการสร้างผลลัพธ์ใหม่ทั่วโลก เป้าหมายของผู้ซื้อคือการบรรลุต้นทุนที่เหมาะสม

อัลกอริทึมเริ่มต้นด้วยผู้ซื้อกำหนดคำถามย่อยให้กับไซต์ผู้ขาย แผนการที่ดีที่สุดถูกสร้างขึ้นจากแผนการสืบค้นที่ปรับให้เหมาะสมในท้องถิ่นที่เสนอโดยผู้ขายรวมกับค่าสื่อสารสำหรับการสร้างผลลัพธ์สุดท้ายขึ้นใหม่ เมื่อกำหนดแผนที่เหมาะสมที่สุดทั่วโลกแล้วแบบสอบถามจะดำเนินการ

การลดพื้นที่โซลูชันของแบบสอบถาม

โซลูชันที่ดีที่สุดโดยทั่วไปเกี่ยวข้องกับการลดพื้นที่โซลูชันเพื่อลดต้นทุนการสืบค้นและการถ่ายโอนข้อมูล สิ่งนี้สามารถทำได้ผ่านชุดของกฎฮิวริสติกเช่นเดียวกับการวิเคราะห์พฤติกรรมในระบบรวมศูนย์

ต่อไปนี้เป็นกฎบางส่วน -

  • ดำเนินการเลือกและการฉายภาพโดยเร็วที่สุด ซึ่งจะช่วยลดการไหลของข้อมูลผ่านเครือข่ายการสื่อสาร

  • ลดความซับซ้อนของการดำเนินการกับชิ้นส่วนแนวนอนโดยการกำจัดเงื่อนไขการเลือกที่ไม่เกี่ยวข้องกับไซต์ใดไซต์หนึ่ง

  • ในกรณีของการรวมและการดำเนินการสหภาพที่ประกอบด้วยส่วนย่อยที่อยู่ในหลายไซต์ให้ถ่ายโอนข้อมูลที่แยกส่วนไปยังไซต์ที่มีข้อมูลส่วนใหญ่อยู่และดำเนินการที่นั่น

  • ใช้การดำเนินการกึ่งเข้าร่วมเพื่อตรวจสอบคุณสมบัติสิ่งที่จะเข้าร่วม ซึ่งจะช่วยลดปริมาณการถ่ายโอนข้อมูลซึ่งจะช่วยลดต้นทุนการสื่อสาร

  • ผสานใบไม้ทั่วไปและต้นไม้ย่อยในแผนผังแบบสอบถามแบบกระจาย