Si Y a une distribution familiale exponentielle, montrer que $E(\frac{\partial L}{\partial \theta}) = 0$

Aug 17 2020

Je travaille de manière autonome en préparation d'un cours que je vais suivre ce semestre sur les modèles linéaires généralisés. La question est, étant donné que la variable aléatoire Y appartient à la famille exponentielle, montrer que:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$

$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$

Je suis un peu rouillé dans ce type d'exercice, mais c'est ce que j'ai réussi jusqu'à présent.

Pour la première partie, il est facile de différencier $L(\theta)$, où $L$est la vraisemblance logarithmique. La paramétrisation exacte de la famille exponentielle que j'utilise est (traiter$\phi$ comme connu) ce qui suit:

$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$

Et $Y$ est la variable aléatoire distribuée par $f$.

Je peux arriver à $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (les fonctions $b$ et $c$sont différenciables). Cependant, pour conclure que$E(\frac{\partial L}{\partial \theta}) = 0$ Je dois supposer que $b'(\theta) = E(Y) = \mu$afin que je puisse utiliser les propriétés de l'attente et l'éliminer complètement. Et j'ai l'impression de tricher, car je n'ai pas cette hypothèse en premier lieu.

Calculateur $E(Y) = \int_{\mathbb{R}}yf(y)dy$ ne fonctionne tout simplement pas bien.

La deuxième partie aboutit également à ce que je doive calculer $E(b''(\theta))$ de la même manière.


Dans le livre de McCullagh et Nelder [1], on dit que les relations $E(\frac{\partial L}{\partial \theta}) = 0$ et $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ sont bien connus (p. 28) et l'utilisent pour établir $E(Y)$, donc le résultat que j'essaie de prouver précède apparemment le $E(Y)$ calcul.

1: Modèles linéaires généralisés, 2e édition P. McCullagh et. JA Nelder (1989)

Réponses

1 SextusEmpiricus Aug 17 2020 at 04:43

Cependant, pour conclure que $E(\frac{\partial L}{\partial \theta}) = 0$ Je dois supposer que $b'(\theta) = E(Y) = \mu$afin que je puisse utiliser les propriétés de l'attente et l'éliminer complètement. Et j'ai l'impression de tricher, car je n'ai pas cette hypothèse en premier lieu.

$b(\theta)$ est la fonction de partition du journal et ses dérivés se rapportent aux moments de $y$.

Pour la relation avec $\mu$ voir https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values


Plus général

Laissez la distribution être décrite par:

$$f(x,\theta) \propto e^{g(x,\theta)}$$

ou avec un facteur $z(\theta) = \int e^{g(x,\theta)} dx $ pour le normaliser

$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$

Ensuite, nous avons (où le premier $'$ dénote une différenciation en $\theta$)

$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$

Et maintenant la question est de savoir si

$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$

Si nous pouvons exprimer

$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$

puis

$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$

Une dérivation similaire, plus directe sans l'exposant est ici: https://en.wikipedia.org/wiki/Score_(statistics)#Mean

1 GordonSmyth Aug 19 2020 at 13:49

Les identités que vous indiquez sont tout à fait générales et sont en effet bien connues. Ils s'appliquent à toute fonction de vraisemblance à condition que la log-vraisemblance soit deux fois continuellement différentiable et que le support de la distribution ne dépende pas de$\theta$. Il n'est pas nécessaire de supposer une famille exponentielle ou un modèle de dispersion exponentielle ou quoi que ce soit sur$\mu$.

Si $f(y;\theta)$ est la fonction de densité de probabilité, alors par définition elle satisfait $$\int f(y;\theta)dy=1$$ Écrire ceci en termes de fonction log-vraisemblance $L(\theta;y)=\log f(y;\theta)$ donne $$\int \exp L(\theta;y)dy=1$$ Différencier les deux côtés par rapport à $\theta$ donne $$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ qui est la première identité $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$

Différencier les deux côtés une seconde fois donne la seconde identité.