डाटा माइनिंग - बायेसियन वर्गीकरण
बायेसियन वर्गीकरण बेयस के प्रमेय पर आधारित है। बायेसियन क्लासिफायर स्टैटिस्टिकल क्लासिफायर हैं। बायेसियन क्लासिफायर क्लास सदस्यता संभावनाओं की भविष्यवाणी कर सकते हैं जैसे कि संभावना है कि किसी दिए गए ट्यूपल एक विशेष वर्ग के हैं।
बे का प्रमेय
बेयस के प्रमेय का नाम थॉमस बेयस के नाम पर रखा गया है। संभाव्यता के दो प्रकार हैं -
- पश्चगामी संभावना [P (H / X)]
- पूर्व संभाव्यता [P (H)]
जहाँ X डेटा टपल है और H कुछ परिकल्पना है।
बेयस के प्रमेय के अनुसार,
बायेसियन विश्वास नेटवर्क
बायेसियन विश्वास नेटवर्क संयुक्त सशर्त संभाव्यता वितरण निर्दिष्ट करते हैं। उन्हें विश्वास नेटवर्क, बेइज़ियन नेटवर्क या प्रोबेबिलिस्टिक नेटवर्क के रूप में भी जाना जाता है।
एक विश्वास नेटवर्क वर्ग सशर्त स्वतंत्रताओं को चर के सबसेट के बीच परिभाषित करने की अनुमति देता है।
यह कार्य-कारण संबंध का एक चित्रमय मॉडल प्रदान करता है, जिस पर शिक्षण किया जा सकता है।
हम वर्गीकरण के लिए एक प्रशिक्षित बायेसियन नेटवर्क का उपयोग कर सकते हैं।
दो घटक हैं जो बायेसियन विश्वास नेटवर्क को परिभाषित करते हैं -
- निर्देशित अचक्रीय ग्राफ
- सशर्त संभाव्यता तालिकाओं का एक सेट
निर्देशित अचक्रीय ग्राफ
- एक निर्देशित चक्रीय ग्राफ में प्रत्येक नोड एक यादृच्छिक चर का प्रतिनिधित्व करता है।
- ये चर असतत या निरंतर मूल्यवान हो सकते हैं।
- ये चर डेटा में दी गई वास्तविक विशेषता के अनुरूप हो सकते हैं।
निर्देशित एसाइक्लिक ग्राफ प्रतिनिधित्व
निम्नलिखित आरेख छह बूलियन चर के लिए एक निर्देशित चक्रीय ग्राफ दिखाता है।
आरेख में चाप कारण ज्ञान का प्रतिनिधित्व करने की अनुमति देता है। उदाहरण के लिए, फेफड़े का कैंसर किसी व्यक्ति के फेफड़ों के कैंसर के पारिवारिक इतिहास से प्रभावित होता है, साथ ही व्यक्ति धूम्रपान करने वाला है या नहीं। यह ध्यान देने योग्य है कि चर पॉजिटिव एक्सरे इस बात से स्वतंत्र है कि क्या रोगी को फेफड़े के कैंसर का पारिवारिक इतिहास है या कि रोगी एक धूम्रपान करने वाला है, यह देखते हुए कि हमें पता है कि रोगी को फेफड़े का कैंसर है।
सशर्त संभाव्यता तालिका
चर LungCancer (LC) के मानों के लिए सशर्त संभाव्यता तालिका, इसके मूल नोड्स, FamilyHistory (FH), और Smoker (S) के मूल्यों के प्रत्येक संभावित संयोजन को निम्नानुसार दर्शाती है -