การขุดข้อมูล - การจำแนกประเภทแบบเบย์

การจำแนกแบบเบย์ขึ้นอยู่กับทฤษฎีบทของเบย์ ลักษณนามแบบเบย์คือลักษณนามทางสถิติ ลักษณนามแบบเบย์สามารถทำนายความน่าจะเป็นของการเป็นสมาชิกคลาสเช่นความน่าจะเป็นที่ทูเพิลที่กำหนดเป็นของคลาสเฉพาะ

ทฤษฎีบทของ Baye

Bayes 'Theorem ตั้งชื่อตาม Thomas Bayes ความน่าจะเป็นมีสองประเภท -

  • ความน่าจะเป็นหลัง [P (H / X)]
  • ความน่าจะเป็นก่อนหน้า [P (H)]

โดยที่ X คือ data tuple และ H คือสมมติฐานบางอย่าง

ตามทฤษฎีบทของ Bayes

P (สูง / X) = P (X / H) P (H) / P (X)

เครือข่ายความเชื่อแบบเบย์

Bayesian Belief Networks ระบุการแจกแจงความน่าจะเป็นแบบมีเงื่อนไขร่วมกัน พวกเขาเรียกอีกอย่างว่า Belief Networks, Bayesian Networks หรือ Probabilistic Networks

  • เครือข่ายความเชื่อช่วยให้สามารถกำหนดความเป็นอิสระแบบมีเงื่อนไขระหว่างตัวแปรย่อยได้

  • เป็นแบบจำลองกราฟิกของความสัมพันธ์เชิงสาเหตุที่สามารถดำเนินการเรียนรู้ได้

  • เราสามารถใช้ Bayesian Network ที่ได้รับการฝึกฝนมาเพื่อการจำแนกประเภท

มีองค์ประกอบสองส่วนที่กำหนดเครือข่ายความเชื่อแบบเบย์ -

  • กราฟ acyclic กำกับ
  • ชุดตารางความน่าจะเป็นแบบมีเงื่อนไข

กำกับ Acyclic Graph

  • แต่ละโหนดในกราฟ acyclic กำกับแสดงถึงตัวแปรสุ่ม
  • ตัวแปรเหล่านี้อาจมีมูลค่าไม่ต่อเนื่องหรือต่อเนื่อง
  • ตัวแปรเหล่านี้อาจสอดคล้องกับแอตทริบิวต์จริงที่ระบุในข้อมูล

การแสดง Acyclic Graph ที่กำกับ

แผนภาพต่อไปนี้แสดงกราฟ acyclic สำหรับตัวแปรบูลีนหกตัว

ส่วนโค้งในแผนภาพช่วยให้สามารถแสดงความรู้เชิงสาเหตุได้ ตัวอย่างเช่นมะเร็งปอดได้รับอิทธิพลจากประวัติครอบครัวของบุคคลที่เป็นมะเร็งปอดและบุคคลนั้นเป็นผู้สูบบุหรี่หรือไม่ เป็นที่น่าสังเกตว่าตัวแปร PositiveXray ไม่ขึ้นอยู่กับว่าผู้ป่วยมีประวัติครอบครัวเป็นมะเร็งปอดหรือผู้ป่วยสูบบุหรี่เนื่องจากเราทราบว่าผู้ป่วยเป็นมะเร็งปอด

ตารางความน่าจะเป็นตามเงื่อนไข

ตารางความน่าจะเป็นตามเงื่อนไขสำหรับค่าของตัวแปร LungCancer (LC) ที่แสดงการรวมกันที่เป็นไปได้ของค่าของโหนดแม่ FamilyHistory (FH) และ Smoker (S) มีดังนี้ -