हमें महत्व के नमूने की आवश्यकता क्यों है?
मैं ऑफ-पॉलिसी नीति सुधार पद्धति का अध्ययन कर रहा था। तब मुझे महत्व का नमूना मिला । मैंने गणना के पीछे के गणित को पूरी तरह से समझा, लेकिन मैं सोच रहा हूं कि महत्व के नमूने का व्यावहारिक उदाहरण क्या है।
उदाहरण के लिए, एक वीडियो में , यह कहा गया है कि हमें पक्षपाती पासा के अपेक्षित मूल्य की गणना करने की आवश्यकता है, यहां$g(x)$उचित पासा के अपेक्षित मूल्य के संदर्भ में, $f(x)$। यहां वीडियो का स्क्रीनशॉट है।
जब हमें पक्षपातपूर्ण पासा का प्रायिकता वितरण होता है, तो हमें इसकी आवश्यकता क्यों होती है?
जवाब
महत्व नमूना का उपयोग आम तौर पर तब किया जाता है जब ब्याज का वितरण से नमूना करना मुश्किल होता है - जैसे कि वितरण से नमूने खींचना कम्प्यूटेशनल रूप से महंगा हो सकता है - या जब वितरण केवल एक गुणक निरंतर तक जाना जाता है, जैसे कि बायेसियन आंकड़ों में यह है सीमांत संभावना की गणना करने में असमर्थ; अर्थात्
$$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} \propto p(x|\theta)p(\theta)$$
कहां है $p(x)$क्या हमारी सीमांत संभावना है कि यह संभव नहीं हो सकता है और इसलिए हम पूर्ण पश्च की गणना नहीं कर सकते हैं और इसलिए इस वितरण से नमूने उत्पन्न करने के लिए अन्य तरीकों का उपयोग किया जाना चाहिए। जब मैं अचूक कहता हूं, तो ध्यान दें
$$p(x) = \int_{\Theta} p(x|\theta)p(\theta) d\theta$$
और इसलिए यहाँ अट्रैक्टिव का मतलब है कि या तो ए) इंटीग्रल का कोई विश्लेषणात्मक समाधान नहीं है या बी) इस इंटीग्रल की गणना के लिए एक संख्यात्मक तरीका चलाना बहुत महंगा हो सकता है।
आपके मरने के उदाहरण के उदाहरण में, आप सही हैं कि आप पूर्वाग्रह पासा के सैद्धांतिक अपेक्षा की गणना विश्लेषणात्मक रूप से कर सकते हैं और यह संभवतः अपेक्षाकृत सरल गणना होगी। हालांकि, इस बात को प्रेरित करने के लिए कि इस परिदृश्य में नमूनाकरण क्यों उपयोगी हो सकता है, मोंटे कार्लो विधियों का उपयोग करके अपेक्षा की गणना करने पर विचार करें। 1-6 से एक यादृच्छिक पूर्णांक को समान रूप से नमूना करना और महत्व के नमूने अनुपात की गणना करना बहुत सरल होगा$x \frac{g(x)}{f(x)}$ की तुलना में यह पूर्वाग्रह पासा से नमूने आकर्षित करने के लिए होगा, कम से कम नहीं क्योंकि अधिकांश प्रोग्रामिंग भाषाओं ने बेतरतीब ढंग से नमूना पूर्णांक बनाने के तरीकों में बनाया है।
जैसा कि आपके प्रश्न को सुदृढीकरण सीखने के रूप में टैग किया गया है, मैं जोड़ूंगा कि यह आरएल डोमेन में क्यों उपयोगी है। एक कारण यह है कि यह हमारी ब्याज की नीति हो सकती है, जिससे नमूना लेना महंगा है, इसलिए इसके बजाय हम कुछ अन्य सरल नीति से कार्रवाई उत्पन्न कर सकते हैं, जबकि ब्याज की नीति के बारे में अभी भी सीख रहे हैं। दूसरा, हम एक ऐसी नीति में रुचि रख सकते हैं जो निर्धारक (लालची) हो लेकिन फिर भी खोज करने में सक्षम हो, इसलिए हमारे पास एक ऑफ-पॉलिसी वितरण हो सकता है जो बहुत अधिक बार अन्वेषण करता है।
नायब: यह स्पष्ट नहीं हो सकता है कि आप महत्व नमूने का उपयोग कैसे कर सकते हैं यदि वितरण केवल एक निरंतर तक ज्ञात है, इसलिए स्पष्टीकरण के लिए इस उत्तर को देखें ।