DBMS - การจัดทำดัชนี

เรารู้ว่าข้อมูลถูกจัดเก็บในรูปแบบของบันทึก ทุกระเบียนมีฟิลด์หลักซึ่งช่วยให้จดจำได้โดยไม่ซ้ำกัน

การจัดทำดัชนีเป็นเทคนิคโครงสร้างข้อมูลในการดึงเร็กคอร์ดจากไฟล์ฐานข้อมูลอย่างมีประสิทธิภาพโดยพิจารณาจากคุณสมบัติบางอย่างที่มีการจัดทำดัชนี การจัดทำดัชนีในระบบฐานข้อมูลคล้ายกับที่เราเห็นในหนังสือ

การจัดทำดัชนีถูกกำหนดตามแอตทริบิวต์การจัดทำดัชนี การจัดทำดัชนีสามารถเป็นประเภทต่อไปนี้ -

  • Primary Index- ดัชนีหลักถูกกำหนดบนไฟล์ข้อมูลที่สั่งซื้อ ไฟล์ข้อมูลถูกเรียงลำดับในไฟล์key field. โดยทั่วไปฟิลด์คีย์จะเป็นคีย์หลักของรีเลชัน

  • Secondary Index - ดัชนีรองอาจถูกสร้างขึ้นจากฟิลด์ซึ่งเป็นคีย์ตัวเลือกและมีค่าที่ไม่ซ้ำกันในทุกเรคคอร์ดหรือไม่ใช่คีย์ที่มีค่าซ้ำกัน

  • Clustering Index- ดัชนีการจัดกลุ่มถูกกำหนดบนไฟล์ข้อมูลที่สั่งซื้อ ไฟล์ข้อมูลถูกเรียงลำดับบนฟิลด์ที่ไม่ใช่คีย์

การจัดทำดัชนีตามลำดับมีสองประเภท -

  • ดัชนีความหนาแน่น
  • ดัชนีกระจัดกระจาย

ดัชนีความหนาแน่น

ในดัชนีหนาแน่นจะมีการบันทึกดัชนีสำหรับค่าคีย์การค้นหาทั้งหมดในฐานข้อมูล ทำให้การค้นหาเร็วขึ้น แต่ต้องใช้พื้นที่มากขึ้นในการจัดเก็บเรกคอร์ดดัชนีเอง ระเบียนดัชนีประกอบด้วยค่าคีย์การค้นหาและตัวชี้ไปยังระเบียนจริงบนดิสก์

ดัชนีกระจัดกระจาย

ในดัชนีกระจัดกระจายระเบียนดัชนีจะไม่ถูกสร้างขึ้นสำหรับทุกคีย์การค้นหา ระเบียนดัชนีที่นี่ประกอบด้วยคีย์การค้นหาและตัวชี้จริงไปยังข้อมูลบนดิสก์ ในการค้นหาบันทึกอันดับแรกเราจะดำเนินการโดยบันทึกดัชนีและเข้าถึงตำแหน่งจริงของข้อมูล หากข้อมูลที่เรากำลังค้นหาไม่ใช่ที่ที่เราเข้าถึงโดยตรงโดยทำตามดัชนีระบบจะเริ่มการค้นหาตามลำดับจนกว่าจะพบข้อมูลที่ต้องการ

ดัชนีหลายระดับ

ระเบียนดัชนีประกอบด้วยค่าคีย์การค้นหาและตัวชี้ข้อมูล ดัชนีหลายระดับจะถูกเก็บไว้ในดิสก์พร้อมกับไฟล์ฐานข้อมูลจริง เมื่อขนาดของฐานข้อมูลเติบโตขึ้นขนาดของดัชนีก็เช่นกัน มีความจำเป็นอย่างยิ่งที่จะต้องเก็บบันทึกดัชนีไว้ในหน่วยความจำหลักเพื่อเพิ่มความเร็วในการค้นหา หากใช้ดัชนีระดับเดียวดัชนีขนาดใหญ่จะไม่สามารถเก็บไว้ในหน่วยความจำได้ซึ่งนำไปสู่การเข้าถึงดิสก์หลายรายการ

ดัชนีหลายระดับช่วยในการแยกดัชนีออกเป็นดัชนีขนาดเล็กหลาย ๆ ดัชนีเพื่อให้ระดับนอกสุดมีขนาดเล็กมากจนสามารถบันทึกไว้ในบล็อกดิสก์เดียวซึ่งสามารถรองรับได้ทุกที่ในหน่วยความจำหลัก

B +ต้นไม้

ต้นไม้AB +เป็นโครงสร้างการค้นหาแบบไบนารีที่สมดุลซึ่งเป็นไปตามรูปแบบดัชนีหลายระดับ โหนดใบของต้นไม้B +แสดงถึงตัวชี้ข้อมูลจริง ต้นไม้B +ช่วยให้มั่นใจได้ว่าโหนดของใบไม้ทั้งหมดยังคงมีความสูงเท่ากันดังนั้นจึงมีความสมดุล นอกจากนี้โหนดลีฟยังเชื่อมโยงโดยใช้ลิงค์ลิสต์ ดังนั้นต้นไม้B +สามารถรองรับการเข้าถึงแบบสุ่มและการเข้าถึงตามลำดับ

โครงสร้างของ B + Tree

โหนดลีฟทุกโหนดอยู่ห่างจากโหนดรูทเท่ากัน ต้นไม้AB +เป็นไปตามลำดับn ที่ไหน nได้รับการแก้ไขสำหรับต้นไม้B +ทุกต้น

Internal nodes -

  • โหนดภายใน (ไม่ใช่ลีฟ) มีพอยน์เตอร์ n / 2⌉เป็นอย่างน้อยยกเว้นโหนดรูท
  • โดยมากโหนดภายในสามารถมีได้ n พอยน์เตอร์

Leaf nodes -

  • โหนด Leaf มีตัวชี้บันทึกอย่างน้อย⌈n / 2⌉และค่าคีย์⌈n / 2⌉
  • โหนดลีฟสามารถมีได้มากที่สุด n บันทึกพอยน์เตอร์และ n ค่าคีย์
  • โหนดลีฟทุกโหนดมีตัวชี้หนึ่งบล็อก P เพื่อชี้ไปยังโหนดลีฟถัดไปและสร้างรายการที่เชื่อมโยง

การแทรกต้นไม้B +

  • ต้นไม้B +เต็มจากด้านล่างและแต่ละรายการจะทำที่โหนดใบไม้

  • หากโหนดลีฟล้น -
    • แยกโหนดออกเป็นสองส่วน

    • พาร์ทิชันที่ i = ⌊(m+1)/2⌋.

    • อันดับแรก i รายการจะถูกเก็บไว้ในโหนดเดียว

    • รายการที่เหลือ (i + 1 เป็นต้นไป) จะถูกย้ายไปยังโหนดใหม่

    • ith คีย์ซ้ำกันที่แม่ของใบไม้

  • หากโหนดที่ไม่ใช่ลีฟล้น -

    • แยกโหนดออกเป็นสองส่วน

    • แบ่งโหนดที่ i = ⌈(m+1)/2.

    • รายการได้ถึง i จะถูกเก็บไว้ในโหนดเดียว

    • รายการที่เหลือจะถูกย้ายไปยังโหนดใหม่

B +การลบทรี

  • รายการต้นไม้B +จะถูกลบที่โหนดใบไม้

  • รายการเป้าหมายถูกค้นหาและลบ

    • หากเป็นโหนดภายในให้ลบและแทนที่ด้วยรายการจากตำแหน่งด้านซ้าย

  • หลังจากลบแล้วจะมีการทดสอบ underflow

    • หากเกิด underflow ขึ้นให้กระจายรายการจากโหนดไปทางซ้าย

  • หากไม่สามารถกระจายจากด้านซ้ายได้

    • แจกจ่ายจากโหนดไปทางขวา

  • หากไม่สามารถกระจายจากทางซ้ายหรือทางขวาได้

    • รวมโหนดเข้ากับซ้ายและขวา