एक प्रतिगमन मॉडल में बहुपद (बायेसियन श्रेणीबद्ध मॉडल)

Aug 17 2020

मैं एक प्रशिक्षित सांख्यिकीविद् नहीं हूँ और साहित्य से एक मॉडल का कुछ स्पष्टीकरण प्राप्त करने के लिए देख रहा हूँ। प्रश्न में अध्ययन ` गणना डेटा में सुधार रिपोर्टिंग के लिए एक पदानुक्रमित रूपरेखा है । 11 से 14 के समीकरणों द्वारा परिभाषित मॉडल (सदस्यता के साथ, आसान व्याख्या के लिए हटाए गए अप्रासंगिक शब्द)$$ \begin{align} z_{t} \mid y_{t} &\sim \operatorname{Binomial}\left(\pi, y_t \right) \\ \log \left(\frac{\pi}{1-\pi}\right)&=\beta_{0}+g\left(u\right) \\ y_{t} &\sim \operatorname{Poisson}\left(\lambda_{t}\right) \\ \log \left(\lambda_{t}\right) &=\log \left(P_{t, s}\right)+a_{0}+f_{1}\left(x_{s}^{(1)}\right)+f_{2}\left(x_{s}^{(2)}\right) \\ &+f_{3}\left(x_{s}^{(3)}\right)+f_{4}\left(x_{s}^{(4)}\right) \end{align} $$

कहाँ पे $z_t$ मनाया जाता है और मायने रखता है $y_t$असली, असली मायने रखता है। और कार्य$g, f_1, \ldots, f_4(\cdot)$ हैं (कागज से)

डिग्री 3,2,2,2 के रूढ़िवादी बहुपद, कच्चे बहुपद की तुलना में, ये मोनोमियल शब्दों (कैनेडी और जेंटल 1980) के बीच कई-कोलिनियरिटी को कम करते हैं, और आर में "पाली" फ़ंक्शन का उपयोग करके स्थापित किए गए थे

मेरी समझ से, यह मॉडल पहली बार सही गणना का अनुमान लगाता है $y_t$। सही गणना अपने आप में एक लॉजिस्टिक रिग्रेशन फॉर्मूला पर निर्भर करती है, जहां कोवरिएट्स जनसंख्या, और सामाजिक संकेतक जैसे हैं$x_s^{(1)} = $बेरोजगारी। सहसंयोजक का उपयोग ऑर्थोगोनल कार्यों के इनपुट के रूप में किया जाता है । एक बार जब यह सही गणना का अनुमान लगाता है, तो यह "सफलताओं" की संख्या, यानी देखी गई गिनती की गणना करने के लिए एक द्विपद मॉडल में उस मूल्य का उपयोग करता है। इस मामले में सफलता की संभावना एक और प्रतिगमन सूत्र द्वारा दी गई है जिसमें कोवरिएट के लिए एक ऑर्थोगोनल फ़ंक्शन भी है।

मेरे प्रश्न सरल हैं:

  1. प्रतिगमन मॉडल में ऑर्थोगोनल कार्यों का उपयोग करने के बारे में इतना महत्वपूर्ण क्या है। सरल गुणांक का उपयोग क्यों नहीं किया जा सकता है (और इन गुणांक का अनुमान बायेसियन कार्यान्वयन में है)।

  2. की व्याख्या logकी$\pi$ तथा $\lambda$। के लिये$\pi$, मैं अनुमान लगा रहा हूं, प्रतिगमन सूत्र (0, 1) के बाहर की संख्याओं का मूल्यांकन कर सकता है, इसलिए ilogit इसे 0 के बीच बदल देगा, 1. मुझे समझ नहीं आता कि लॉग क्यों ले रहा है $\lambda$

जवाब

3 ThomasLumley Aug 17 2020 at 21:35

चलो संभालो 2. पहले।

जैसा कि आपने अनुमान लगाया है, का परिवर्तन $\pi$इस तरह से डिज़ाइन किया गया है कि प्रतिगमन सूत्र का उसके मूल्यों पर कोई प्रतिबंध नहीं है; किसी भी मूल्य में मैप किया जाएगा$(0,1)$। लॉग के परिवर्तन के लिए भी यही सच है$\lambda$: $\lambda$ सकारात्मक होना चाहिए, और लॉग ट्रांसफ़ॉर्मेशन का उपयोग करके प्रतिगमन सूत्र को किसी भी मूल्य, सकारात्मक या नकारात्मक लेने की अनुमति मिलती है।

दोनों परिवर्तनों के लॉग भाग का अर्थ यह भी है कि हमें एडिटिव के बजाय एक गुणा मॉडल मिलता है, जो अक्सर मायने रखता है और अनुपात के लिए अधिक समझ में आता है।

और, इन सभी के शीर्ष पर, गणितीय कारण हैं कि इन विशेष वितरणों के लिए इन परिवर्तनों के कारण थोड़ा टिडियर कम्प्यूटेशन होता है और यह चूक हैं, हालांकि यह बहुत महत्वपूर्ण कारण नहीं होना चाहिए।

अब ऑर्थोगोनल कार्यों के लिए। ये नहीं कह रहे हैं$f_1$ के लिए रूढ़िवादी है $f_2$; यह तय करने के लिए डेटा पर निर्भर है। वे ऐसा कह रहे हैं$f_1$ एक द्विघात बहुपद है $x^{(1)}$, और यह एक भारित राशि के बजाय ऑर्थोगोनल शब्दों के भारित योग के रूप में लागू किया गया है $x$, $x^2$। ऑर्थोगोनल पॉलीओनियम्स वास्तव में डेटा पर निर्भर करते हैं, लेकिन आइए दिखाते हैं कि डेटा समान रूप से दूरी पर हैं$[-1,1]$ और वे चेबीशेव बहुपद हैं $T_0(x)=1,\, T_1(x)=x,\, T_2(x)=2x^2-1,\, T_3(x)=4x^3-3x$

अगर हम अधिकतम संभावना कर रहे थे तो यह बिल्कुल भी मायने नहीं रखेगा। मान लीजिए कि शक्तियों के आधार पर एमएल का अनुमान है$x$ था $-0.1+2.7x-3x^2+4.5x^3$। हम इसे ऑर्थोगोनल बहुपद के संदर्भ में फिर से लिख सकते हैं: स्पष्ट रूप से गुणांक$T_3$ बनाने के लिए 4.5 / 4 होना चाहिए $x^3$मैच, और बाकी गणना करेंगे। यह पता चला है$-1.6T_0+6.075T_1-1.5T_2+1.125T_3$। ये एक ही बहुपद हैं , यह एक ही मॉडल को लिखने का एक अलग तरीका है, और इस मामले में (और लगभग हमेशा आधुनिक कंप्यूटरों के साथ) कोलीनैरिटी कहीं भी इतनी मजबूत नहीं है कि संख्यात्मक गोलाई समस्याओं का कारण बन सके।

हालांकि, बायेसियन इंट्रेंस के साथ, पुजारियों का सवाल है। स्वतंत्र पुजारी लगाने के लिए यह अधिक समझ में आता है ($\alpha_j$ तथा $\beta_k$ ऑर्थोगोनल बहुपद के गुणांक पर कागज में) स्वतंत्र गुणकों को गुणांक पर रखने की तुलना में $x$, $x^2$, $x^3$। इसलिए, मेरी धारणा यह है कि ऑर्थोगोनल पॉलीओनियम्स को चुना गया था ताकि अपेक्षाकृत फ्लैट ($N(0,10^2)$) उनके गुणांक पर स्वतंत्र पुजारियों ने समझदारी दिखाई।