डिरिचलेट वितरण के लिए मापदंडों का एक गैर-जानकारीपूर्ण विकल्प क्या है?
ड्यूरिचलेट वितरण एक संयुग्म है बहुराष्ट्रीय वितरण से पहले। मैं सैंपलिंग वेट पर एक गैर-सूचनात्मक पूर्व लागू करना चाहता हूं$\pi$ एक ड्रॉ के लिए $x=(x_1,…,x_N)$ समर्थन के साथ एक बहुराष्ट्रीय वितरण से $d=(d_1,…,d_K)$ (सभी संभावित मान जो $x_i$ ले सकते हैं) और वजन का नमूना लिया $\pi=(\pi_1,…,\pi_K)$।
मैं इस बात से प्रभावित था $Dir(\alpha)$ साथ में $\alpha_i=1$एक सही विकल्प है। लेकिन मैं पढ़ा है कि (जैसे देखना यह )$Dir(\alpha)$ साथ में $\alpha_i=0$ एक अनुचित गैर-जानकारीपूर्ण वितरण पैदावार।
सवाल:
- क्यों $Dir(\alpha)$ साथ में $\alpha_i=0$गैर-जानकारीपूर्ण है? नहीं है$\alpha\to 0$ एक एकल डेटा पर उच्च नमूना वजन और अन्य सभी पर शून्य लगाते हैं?
- एक समान वितरण नहीं होना चाहिए $Dir(\alpha)$ साथ में $\alpha_i=1$ इसके बजाय गैर-जानकारीपूर्ण पसंद हो?
जवाब
यहां मुख्य मुद्दा यह है कि "गैर-सूचनात्मक" कला की एक शब्द है, और इसे विभिन्न तरीकों से तैयार किया जा सकता है ( विषय पर एक दिलचस्प चर्चा के लिए यहां देखें )। एक निश्चित सख्त अर्थ में, "गैर-सूचनात्मक पूर्व" जैसी कोई चीज नहीं है क्योंकि प्रत्येक पूर्व वितरण एक विशिष्ट वितरण है जिसमें कई विशिष्ट संभाव्य निहितार्थ हैं। हमारे पास कई अलग-अलग तरीके हैं जो गैर-व्यक्तिपरक पुजारी बना सकते हैं (यानी, पुजारी जो केवल डेटा मानों के विचार के बिना संभावना फ़ंक्शन के सामान्य रूप पर निर्भर करते हैं)।
गैर-विषयक पादरियों को तैयार करने पर कई प्रतिस्पर्धी सिद्धांत हैं। इसमें "संदर्भ पुजारी", जेफ्रीस पुजारी और विभिन्न अन्य के सिद्धांत शामिल हैं। ये सिद्धांत पूर्व रूपों की ओर ले जाते हैं जो एक-दूसरे के काफी करीब हैं, लेकिन वे थोड़ा अलग करते हैं, और इसलिए साहित्य पर भी काफी बहस हो रही है, जो सबसे अच्छा है। यदि आप इसके बारे में अधिक जानना चाहते हैं, तो मैं आपको जोस बर्नार्डो के कुछ कार्यों को पढ़ने की दृढ़ता से सलाह देता हूं, जो शायद इस क्षेत्र में प्रचलित बायेसियन सांख्यिकीविद् हैं। (एक और बात जो मैं सुझाऊंगा, वह है पीटर वाल्ले द्वारा "अप्रतिष्ठित संभावना" के सिद्धांत के बारे में पढ़ना; मेरे विचार में इस पद्धति का वास्तव में उद्देश्य और "गैर-सूचनात्मक" होने का एक बेहतर दावा है अन्य सिद्धांतों के माध्यम से एक विशिष्ट पूर्व चुनने से।)
आपके विशिष्ट प्रश्नों के संबंध में, हां, द $\text{Dirichlet}(\mathbf{0})$वितरण एक अनुचित वितरण है, इसलिए यदि आप इसे पूर्व के रूप में उपयोग करते हैं तो यह एक अनुचित पूर्व है। जैसा कि यह पूर्व फ्लैट से बेहतर या बुरा है, मैं इसे अनुचित पुजारियों पर साहित्य पढ़ने और प्रत्येक विधि के फायदे देखने के लिए आपको छोड़ दूंगा। यह ध्यान देने योग्य है कि वे बहुत भिन्न नहीं हैं जब तक आपके पास डेटा की एक उचित मात्रा होती है --- प्रत्येक अवलोकन किए गए डेटा बिंदु के लिए एक पैरामीटर मान में वृद्धि के रूप में डेटा पीछे के रूप में प्रकट होता है। बायेसियन विश्लेषण में कई उपयोगी संगतता प्रमेय हैं जो यह स्थापित करते हैं कि पीछे के विश्वास अलग-अलग पादरियों के साथ भी अभिसरण करते हैं, और इस तरह के पादरियों के लिए, यह केवल थोड़ा अलग है, यह अभिसरण काफी तीव्र है।
मैं आपसे सहमत होने के लिए इच्छुक था, क्योंकि मुझे पता है कि रोस्टर αi = 1 का उपयोग डिफ़ॉल्ट डिरिक्लेट पूर्व पसंद के रूप में करता है। उनकी डिफ़ॉल्ट पसंद कमजोर सूचनात्मक होने का इरादा है । लेकिन मुझे यह पेपर चर्चा में आया कि क्यों डेयर (0) एक वैध विकल्प है। मैं एक अच्छा सारांश देने के लिए इसे अच्छी तरह से नहीं समझता हूं, लेकिन ऐसा लगता है कि डीर (0) एकमात्र विकल्प है जो सामान्यताओं को बनाए रखने वाले परिवर्तनों के तहत noninformative है।