Se Y ha una distribuzione familiare esponenziale, dimostralo $E(\frac{\partial L}{\partial \theta}) = 0$

Aug 17 2020

Lavoro da autodidatta preparandomi per un corso che seguirò questo semestre sui modelli lineari generalizzati. La domanda è, dato che la variabile casuale Y appartiene alla famiglia esponenziale, mostrare che:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$

$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$

Sono un po 'arrugginito in questo tipo di esercizio, ma questo è quello che sono riuscito finora.

Per la prima parte, è facile differenziare $L(\theta)$, dove $L$è la probabilità del log. L'esatta parametrizzazione della famiglia esponenziale che sto usando è (treating$\phi$ come noto) quanto segue:

$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$

E $Y$ è la variabile casuale distribuita da $f$.

Posso arrivare a $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (le funzioni $b$ e $c$sono differenziabili). Tuttavia, per concludere che$E(\frac{\partial L}{\partial \theta}) = 0$ Devo presumere che $b'(\theta) = E(Y) = \mu$in modo che io possa usare le proprietà dell'aspettativa ed eliminarla del tutto. E mi sembra di barare, dal momento che non ho questa supposizione in primo luogo.

Calcolo $E(Y) = \int_{\mathbb{R}}yf(y)dy$ semplicemente non funziona bene.

La seconda parte culmina anche in me che devo calcolare $E(b''(\theta))$ allo stesso modo.


Nel libro di McCullagh e Nelder [1], dicono le relazioni $E(\frac{\partial L}{\partial \theta}) = 0$ e $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ sono ben noti (p. 28) e lo usano per stabilire $E(Y)$, quindi il risultato che sto cercando di dimostrare apparentemente precede il $E(Y)$ calcolo.

1: Generalized Linear Models, 2a edizione P. McCullagh e. JA Nelder (1989)

Risposte

1 SextusEmpiricus Aug 17 2020 at 04:43

Tuttavia, per concludere che $E(\frac{\partial L}{\partial \theta}) = 0$ Devo presumere che $b'(\theta) = E(Y) = \mu$in modo che io possa usare le proprietà dell'aspettativa ed eliminarla del tutto. E mi sembra di barare, dal momento che non ho questa supposizione in primo luogo.

$b(\theta)$ è la funzione di partizione del registro e le sue derivate si riferiscono ai momenti di $y$.

Per la relazione con $\mu$ vedere https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values


Più generico

Lascia che la distribuzione sia descritta da:

$$f(x,\theta) \propto e^{g(x,\theta)}$$

o con un fattore $z(\theta) = \int e^{g(x,\theta)} dx $ per normalizzarlo

$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$

Quindi abbiamo (dove il primo $'$ denota la differenziazione in $\theta$)

$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$

E ora la domanda è se

$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$

Se possiamo esprimere

$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$

poi

$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$

Una derivazione simile, più diretta senza esponente è qui: https://en.wikipedia.org/wiki/Score_(statistics)#Mean

1 GordonSmyth Aug 19 2020 at 13:49

Le identità che affermi sono completamente generali e sono davvero ben note. Si applicano a qualsiasi funzione di verosimiglianza purché la verosimiglianza sia due volte continuamente differenziabili e il supporto della distribuzione non dipenda da$\theta$. Non è necessario assumere una famiglia esponenziale o un modello di dispersione esponenziale o altro$\mu$.

Se $f(y;\theta)$ è la funzione di densità di probabilità, quindi per definizione soddisfa $$\int f(y;\theta)dy=1$$ Scrivendo questo in termini di funzione di verosimiglianza $L(\theta;y)=\log f(y;\theta)$$$\int \exp L(\theta;y)dy=1$$ Differenziando entrambi i lati rispetto a $\theta$$$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ che è la prima identità $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$

Differenziare entrambe le parti una seconda volta dà la seconda identità.