Se Y tiver uma distribuição familiar exponencial, mostre que $E(\frac{\partial L}{\partial \theta}) = 0$

Aug 17 2020

Estou trabalhando como autodidata, preparando-me para um curso que farei neste semestre em modelos lineares generalizados. A questão é, dado que a variável aleatória Y pertence à família exponencial, mostre que:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$

$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$

Estou um pouco enferrujado nesse tipo de exercício, mas é o que consegui até agora.

Para a primeira parte, é fácil diferenciar $L(\theta)$, Onde $L$é a probabilidade de log. A parametrização exata da família exponencial que estou usando é (tratando$\phi$ como conhecido) o seguinte:

$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$

E $Y$ é a variável aleatória distribuída por $f$.

Eu posso chegar a $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (As funções $b$ e $c$são diferenciáveis). No entanto, a fim de concluir que$E(\frac{\partial L}{\partial \theta}) = 0$ Eu preciso assumir que $b'(\theta) = E(Y) = \mu$para que eu possa usar as propriedades da expectativa e eliminá-la completamente. E parece que estou trapaceando, já que não tenho essa suposição em primeiro lugar.

Calculando $E(Y) = \int_{\mathbb{R}}yf(y)dy$ simplesmente não funciona bem.

A segunda parte também culmina em eu ter que calcular $E(b''(\theta))$ da mesma maneira.


No livro de McCullagh e Nelder [1], eles dizem que as relações $E(\frac{\partial L}{\partial \theta}) = 0$ e $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ são bem conhecidos (p. 28) e usam-no para estabelecer $E(Y)$, então o resultado que estou tentando provar precede aparentemente o $E(Y)$ Cálculo.

1: Modelos Lineares Generalizados, 2ª edição P. McCullagh e. JA Nelder (1989)

Respostas

1 SextusEmpiricus Aug 17 2020 at 04:43

No entanto, a fim de concluir que $E(\frac{\partial L}{\partial \theta}) = 0$ Eu preciso assumir que $b'(\theta) = E(Y) = \mu$para que eu possa usar as propriedades da expectativa e eliminá-la completamente. E parece que estou trapaceando, já que não tenho essa suposição em primeiro lugar.

$b(\theta)$ é a função de partição de log e seus derivados se relacionam com os momentos de $y$.

Para a relação com $\mu$ Vejo https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values


Mais general

Deixe a distribuição ser descrita por:

$$f(x,\theta) \propto e^{g(x,\theta)}$$

ou com um fator $z(\theta) = \int e^{g(x,\theta)} dx $ para normalizar isso

$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$

Então temos (onde o primo $'$ denota diferenciação para $\theta$)

$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$

E agora a questão é se

$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$

Se pudermos expressar

$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$

então

$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$

Uma derivação semelhante, mais direta sem o expoente está aqui: https://en.wikipedia.org/wiki/Score_(statistics)#Mean

1 GordonSmyth Aug 19 2020 at 13:49

As identidades que você declara são completamente gerais e, de fato, bem conhecidas. Eles se aplicam a qualquer função de probabilidade, desde que a probabilidade logarítmica seja duas vezes continuamente diferenciável e o suporte da distribuição não dependa de$\theta$. Não há necessidade de assumir uma família exponencial ou modelo de dispersão exponencial ou qualquer coisa sobre$\mu$.

E se $f(y;\theta)$ é a função de densidade de probabilidade, então, por definição, ela satisfaz $$\int f(y;\theta)dy=1$$ Escrevendo isso em termos da função log-verossimilhança $L(\theta;y)=\log f(y;\theta)$$$\int \exp L(\theta;y)dy=1$$ Diferenciando ambos os lados em relação a $\theta$$$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ qual é a primeira identidade $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$

Diferenciar os dois lados uma segunda vez dá a segunda identidade.