Se Y ha una distribuzione familiare esponenziale, dimostralo $E(\frac{\partial L}{\partial \theta}) = 0$
Lavoro da autodidatta preparandomi per un corso che seguirò questo semestre sui modelli lineari generalizzati. La domanda è, dato che la variabile casuale Y appartiene alla famiglia esponenziale, mostrare che:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$
$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$
Sono un po 'arrugginito in questo tipo di esercizio, ma questo è quello che sono riuscito finora.
Per la prima parte, è facile differenziare $L(\theta)$, dove $L$è la probabilità del log. L'esatta parametrizzazione della famiglia esponenziale che sto usando è (treating$\phi$ come noto) quanto segue:
$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$
E $Y$ è la variabile casuale distribuita da $f$.
Posso arrivare a $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (le funzioni $b$ e $c$sono differenziabili). Tuttavia, per concludere che$E(\frac{\partial L}{\partial \theta}) = 0$ Devo presumere che $b'(\theta) = E(Y) = \mu$in modo che io possa usare le proprietà dell'aspettativa ed eliminarla del tutto. E mi sembra di barare, dal momento che non ho questa supposizione in primo luogo.
Calcolo $E(Y) = \int_{\mathbb{R}}yf(y)dy$ semplicemente non funziona bene.
La seconda parte culmina anche in me che devo calcolare $E(b''(\theta))$ allo stesso modo.
Nel libro di McCullagh e Nelder [1], dicono le relazioni $E(\frac{\partial L}{\partial \theta}) = 0$ e $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ sono ben noti (p. 28) e lo usano per stabilire $E(Y)$, quindi il risultato che sto cercando di dimostrare apparentemente precede il $E(Y)$ calcolo.
1: Generalized Linear Models, 2a edizione P. McCullagh e. JA Nelder (1989)
Risposte
Tuttavia, per concludere che $E(\frac{\partial L}{\partial \theta}) = 0$ Devo presumere che $b'(\theta) = E(Y) = \mu$in modo che io possa usare le proprietà dell'aspettativa ed eliminarla del tutto. E mi sembra di barare, dal momento che non ho questa supposizione in primo luogo.
$b(\theta)$ è la funzione di partizione del registro e le sue derivate si riferiscono ai momenti di $y$.
Per la relazione con $\mu$ vedere https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values
Più generico
Lascia che la distribuzione sia descritta da:
$$f(x,\theta) \propto e^{g(x,\theta)}$$
o con un fattore $z(\theta) = \int e^{g(x,\theta)} dx $ per normalizzarlo
$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$
Quindi abbiamo (dove il primo $'$ denota la differenziazione in $\theta$)
$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$
E ora la domanda è se
$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$
Se possiamo esprimere
$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$
poi
$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$
Una derivazione simile, più diretta senza esponente è qui: https://en.wikipedia.org/wiki/Score_(statistics)#Mean
Le identità che affermi sono completamente generali e sono davvero ben note. Si applicano a qualsiasi funzione di verosimiglianza purché la verosimiglianza sia due volte continuamente differenziabili e il supporto della distribuzione non dipenda da$\theta$. Non è necessario assumere una famiglia esponenziale o un modello di dispersione esponenziale o altro$\mu$.
Se $f(y;\theta)$ è la funzione di densità di probabilità, quindi per definizione soddisfa $$\int f(y;\theta)dy=1$$ Scrivendo questo in termini di funzione di verosimiglianza $L(\theta;y)=\log f(y;\theta)$ dà $$\int \exp L(\theta;y)dy=1$$ Differenziando entrambi i lati rispetto a $\theta$ dà $$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ che è la prima identità $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$
Differenziare entrambe le parti una seconda volta dà la seconda identità.