Si Y a une distribution familiale exponentielle, montrer que $E(\frac{\partial L}{\partial \theta}) = 0$
Je travaille de manière autonome en préparation d'un cours que je vais suivre ce semestre sur les modèles linéaires généralisés. La question est, étant donné que la variable aléatoire Y appartient à la famille exponentielle, montrer que:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$
$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$
Je suis un peu rouillé dans ce type d'exercice, mais c'est ce que j'ai réussi jusqu'à présent.
Pour la première partie, il est facile de différencier $L(\theta)$, où $L$est la vraisemblance logarithmique. La paramétrisation exacte de la famille exponentielle que j'utilise est (traiter$\phi$ comme connu) ce qui suit:
$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$
Et $Y$ est la variable aléatoire distribuée par $f$.
Je peux arriver à $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (les fonctions $b$ et $c$sont différenciables). Cependant, pour conclure que$E(\frac{\partial L}{\partial \theta}) = 0$ Je dois supposer que $b'(\theta) = E(Y) = \mu$afin que je puisse utiliser les propriétés de l'attente et l'éliminer complètement. Et j'ai l'impression de tricher, car je n'ai pas cette hypothèse en premier lieu.
Calculateur $E(Y) = \int_{\mathbb{R}}yf(y)dy$ ne fonctionne tout simplement pas bien.
La deuxième partie aboutit également à ce que je doive calculer $E(b''(\theta))$ de la même manière.
Dans le livre de McCullagh et Nelder [1], on dit que les relations $E(\frac{\partial L}{\partial \theta}) = 0$ et $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ sont bien connus (p. 28) et l'utilisent pour établir $E(Y)$, donc le résultat que j'essaie de prouver précède apparemment le $E(Y)$ calcul.
1: Modèles linéaires généralisés, 2e édition P. McCullagh et. JA Nelder (1989)
Réponses
Cependant, pour conclure que $E(\frac{\partial L}{\partial \theta}) = 0$ Je dois supposer que $b'(\theta) = E(Y) = \mu$afin que je puisse utiliser les propriétés de l'attente et l'éliminer complètement. Et j'ai l'impression de tricher, car je n'ai pas cette hypothèse en premier lieu.
$b(\theta)$ est la fonction de partition du journal et ses dérivés se rapportent aux moments de $y$.
Pour la relation avec $\mu$ voir https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values
Plus général
Laissez la distribution être décrite par:
$$f(x,\theta) \propto e^{g(x,\theta)}$$
ou avec un facteur $z(\theta) = \int e^{g(x,\theta)} dx $ pour le normaliser
$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$
Ensuite, nous avons (où le premier $'$ dénote une différenciation en $\theta$)
$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$
Et maintenant la question est de savoir si
$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$
Si nous pouvons exprimer
$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$
puis
$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$
Une dérivation similaire, plus directe sans l'exposant est ici: https://en.wikipedia.org/wiki/Score_(statistics)#Mean
Les identités que vous indiquez sont tout à fait générales et sont en effet bien connues. Ils s'appliquent à toute fonction de vraisemblance à condition que la log-vraisemblance soit deux fois continuellement différentiable et que le support de la distribution ne dépende pas de$\theta$. Il n'est pas nécessaire de supposer une famille exponentielle ou un modèle de dispersion exponentielle ou quoi que ce soit sur$\mu$.
Si $f(y;\theta)$ est la fonction de densité de probabilité, alors par définition elle satisfait $$\int f(y;\theta)dy=1$$ Écrire ceci en termes de fonction log-vraisemblance $L(\theta;y)=\log f(y;\theta)$ donne $$\int \exp L(\theta;y)dy=1$$ Différencier les deux côtés par rapport à $\theta$ donne $$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ qui est la première identité $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$
Différencier les deux côtés une seconde fois donne la seconde identité.