ถ้า Y มีการแจกแจงแบบตระกูลเอกซ์โพเนนเชียลแสดงว่า $E(\frac{\partial L}{\partial \theta}) = 0$

Aug 17 2020

ฉันกำลังทำงานในรูปแบบการศึกษาด้วยตนเองเพื่อเตรียมความพร้อมสำหรับหลักสูตรฉันจะลงเรียนภาคเรียนนี้ในรูปแบบเชิงเส้นทั่วไป คำถามคือเนื่องจากตัวแปรสุ่ม Y เป็นของตระกูลเลขชี้กำลังแสดงว่า:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$

$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$

ฉันค่อนข้างกังวลกับการออกกำลังกายประเภทนี้ แต่นี่คือสิ่งที่ฉันจัดการได้แล้ว

สำหรับส่วนแรกมันเป็นเรื่องง่ายที่จะแยกความแตกต่าง $L(\theta)$, ที่ไหน $L$คือความเป็นไปได้ในการบันทึก พารามิเตอร์ที่แน่นอนของตระกูลเอกซ์โพเนนเชียลที่ฉันใช้คือ (การรักษา$\phi$ ตามที่ทราบ) ดังต่อไปนี้:

$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$

และ $Y$ คือตัวแปรสุ่มที่กระจายโดย $f$.

ฉันสามารถมาถึงที่ $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (ฟังก์ชั่น $b$ และ $c$มีความแตกต่างกัน) อย่างไรก็ตามเพื่อที่จะสรุปว่า$E(\frac{\partial L}{\partial \theta}) = 0$ ฉันต้องสมมติว่า $b'(\theta) = E(Y) = \mu$เพื่อที่ฉันจะได้ใช้คุณสมบัติของความคาดหวังกำจัดมันออกไปทั้งหมด และรู้สึกเหมือนฉันกำลังโกงเนื่องจากฉันไม่มีสมมติฐานนี้ตั้งแต่แรก

กำลังคำนวณ $E(Y) = \int_{\mathbb{R}}yf(y)dy$ ก็ไม่ได้ผลดี

ส่วนที่สองยังมีจุดสูงสุดในการที่ฉันต้องคำนวณ $E(b''(\theta))$ ในรูปแบบเดียวกัน


ในหนังสือของ McCullagh และ Nelder [1] พวกเขากล่าวถึงความสัมพันธ์ $E(\frac{\partial L}{\partial \theta}) = 0$ และ $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ เป็นที่รู้จักกันดี (หน้า 28) และใช้เพื่อสร้าง $E(Y)$ดังนั้นผลลัพธ์ที่ฉันพยายามพิสูจน์ให้เห็นได้ชัดก่อนหน้าไฟล์ $E(Y)$ การคำนวณ

1: Generalized Linear Models, 2nd edition P. McCullagh และ. จาเนลเดอร์ (1989)

คำตอบ

1 SextusEmpiricus Aug 17 2020 at 04:43

อย่างไรก็ตามเพื่อที่จะสรุปว่า $E(\frac{\partial L}{\partial \theta}) = 0$ ฉันต้องสมมติว่า $b'(\theta) = E(Y) = \mu$เพื่อที่ฉันจะได้ใช้คุณสมบัติของความคาดหวังกำจัดมันออกไปทั้งหมด และรู้สึกเหมือนฉันกำลังโกงเนื่องจากฉันไม่มีสมมติฐานนี้ตั้งแต่แรก

$b(\theta)$ คือฟังก์ชันล็อกพาร์ติชันและอนุพันธ์เกี่ยวข้องกับช่วงเวลาของ $y$.

สำหรับความสัมพันธ์กับ $\mu$ ดู https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values


ทั่วไปมากขึ้น

ให้การกระจายอธิบายโดย:

$$f(x,\theta) \propto e^{g(x,\theta)}$$

หรือด้วยปัจจัย $z(\theta) = \int e^{g(x,\theta)} dx $ เพื่อทำให้เป็นปกติ

$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$

แล้วเรามี (ที่นายก $'$ หมายถึงความแตกต่าง $\theta$)

$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$

และตอนนี้คำถามคือว่า

$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$

ถ้าเราแสดงออกได้

$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$

แล้ว

$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$

รากศัพท์ที่คล้ายกันตรงกว่าโดยไม่มีเลขชี้กำลังอยู่ที่นี่: https://en.wikipedia.org/wiki/Score_(statistics)#Mean

1 GordonSmyth Aug 19 2020 at 13:49

อัตลักษณ์ที่คุณระบุนั้นเป็นเรื่องทั่วไปและเป็นที่รู้จักกันดี พวกเขาใช้กับฟังก์ชันความเป็นไปได้ใด ๆ หากความเป็นไปได้ของการบันทึกมีความแตกต่างอย่างต่อเนื่องสองครั้งและการสนับสนุนการแจกจ่ายไม่ขึ้นอยู่กับ$\theta$. ไม่จำเป็นต้องถือว่าครอบครัวเลขชี้กำลังหรือแบบจำลองการกระจายเลขชี้กำลังหรืออะไรเกี่ยวกับ$\mu$.

ถ้า $f(y;\theta)$ คือฟังก์ชันความหนาแน่นของความน่าจะเป็นจากนั้นตามคำจำกัดความจะเป็นไปตาม $$\int f(y;\theta)dy=1$$ เขียนสิ่งนี้ในแง่ของฟังก์ชัน log-likelihood $L(\theta;y)=\log f(y;\theta)$ ให้ $$\int \exp L(\theta;y)dy=1$$ ความแตกต่างของทั้งสองฝ่ายด้วยความเคารพ $\theta$ ให้ $$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ ซึ่งเป็นเอกลักษณ์แรก $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$

การแยกความแตกต่างของทั้งสองฝ่ายเป็นครั้งที่สองทำให้เกิดตัวตนที่สอง