Si Y tiene una distribución familiar exponencial, demuestre que $E(\frac{\partial L}{\partial \theta}) = 0$

Aug 17 2020

Estoy trabajando de manera autodidacta preparándome para un curso que voy a tomar este semestre en modelos lineales generalizados. La pregunta es, dado que la variable aleatoria Y pertenece a la familia exponencial, demuestre que:$$ E(\frac{\partial L}{\partial \theta}) = 0 $$

$$ E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2) $$

Estoy un poco oxidado en este tipo de ejercicio, pero esto es lo que he logrado hasta ahora.

Para la primera parte, es fácil diferenciar $L(\theta)$, dónde $L$es la probabilidad logarítmica. La parametrización exacta de la familia exponencial que estoy usando es (tratando$\phi$ como se conoce) lo siguiente:

$$ f(y; \theta, \phi) = exp[\phi(y\theta - b(\theta)) + c(y;\phi)] $$

Y $Y$ es la variable aleatoria distribuida por $f$.

Puedo llegar a $\frac{\partial L}{\partial \theta} = \phi y - \phi b'(\theta)$ (Las funciones $b$ y $c$son diferenciables). Sin embargo, para concluir que$E(\frac{\partial L}{\partial \theta}) = 0$ Necesito asumir que $b'(\theta) = E(Y) = \mu$para poder utilizar las propiedades de la expectativa y eliminarla por completo. Y se siente como si estuviera haciendo trampa, ya que no tengo esta suposición en primer lugar.

Calculador $E(Y) = \int_{\mathbb{R}}yf(y)dy$ simplemente no funciona bien.

La segunda parte también culmina en tener que calcular $E(b''(\theta))$ en la misma moda.


En el libro de McCullagh y Nelder [1], dicen que las relaciones $E(\frac{\partial L}{\partial \theta}) = 0$ y $E(\frac{\partial^2 L}{\partial \theta^2}) = -E((\frac{\partial L}{\partial \theta})^2)$ son bien conocidos (p. 28) y lo utilizan para establecer $E(Y)$, por lo que el resultado que intento probar aparentemente precede al $E(Y)$ cálculo.

1: Modelos lineales generalizados, 2ª edición P. McCullagh y. JA Nelder (1989)

Respuestas

1 SextusEmpiricus Aug 17 2020 at 04:43

Sin embargo, para concluir que $E(\frac{\partial L}{\partial \theta}) = 0$ Necesito asumir que $b'(\theta) = E(Y) = \mu$para poder utilizar las propiedades de la expectativa y eliminarla por completo. Y se siente como si estuviera haciendo trampa, ya que no tengo esta suposición en primer lugar.

$b(\theta)$ es la función de partición logarítmica y sus derivadas se relacionan con los momentos de $y$.

Para la relación con $\mu$ ver https://en.m.wikipedia.org/wiki/Partition_function_(mathematics)#Expectation_values


Mas general

Deje que la distribución se describa por:

$$f(x,\theta) \propto e^{g(x,\theta)}$$

o con un factor $z(\theta) = \int e^{g(x,\theta)} dx $ para normalizarlo

$$f(x,\theta) = \frac{e^{g(x,\theta)}}{\int e^{g(x,\theta)} dx} = \frac{e^{g(x,\theta)}}{z(\theta)}$$

Entonces tenemos (donde la prima $'$ denota diferenciación a $\theta$)

$$\begin{array}{}\frac{\partial}{\partial \theta} \log \left[ f(x,\theta) \right] &=& \log \left[ f(x,\theta) \right]' & =& \frac{f'(x,\theta)}{f(x,\theta)}\\ &&&=& \frac{\left(-z'(\theta)/z(\theta)^2 + g'(x,\theta)/ z(\theta) \right) \, e^{g(x,\theta)}} { e^{g(x,\theta)}/z(\theta)}\\ &&&=& \frac{-z'(\theta)}{z(\theta)} + g'(x,\theta) \end{array}$$

Y ahora la pregunta es si

$$\frac{z'(\theta)}{z(\theta)} = E\left[ g'(x,\theta) \right]$$

Si podemos expresar

$$z'(\theta) = \frac{\partial}{\partial \theta} \int e^{g(x,\theta)} dx = \int \frac{\partial}{\partial \theta} e^{g(x,\theta)} dx = \int g'(x,\theta) e^{g(x,\theta)} dx$$

luego

$$\frac{z'(\theta)}{z(\theta)} = \frac{\int g'(x,\theta) e^{g(x,\theta)} dx}{\int e^{g(x,\theta)} dx} = E\left[ g'(x,\theta) \right]$$

Una derivación similar, más directa sin el exponente está aquí: https://en.wikipedia.org/wiki/Score_(statistics)#Mean

1 GordonSmyth Aug 19 2020 at 13:49

Las identidades que declara son completamente generales y de hecho son bien conocidas. Se aplican a cualquier función de probabilidad siempre que la probabilidad logarítmica sea dos veces diferenciable de forma continua y el soporte de la distribución no dependa de$\theta$. No es necesario asumir una familia exponencial o un modelo de dispersión exponencial ni nada al respecto.$\mu$.

Si $f(y;\theta)$ es la función de densidad de probabilidad, entonces, por definición, satisface $$\int f(y;\theta)dy=1$$ Escribiendo esto en términos de la función logarítmica de verosimilitud $L(\theta;y)=\log f(y;\theta)$ gives $$\int \exp L(\theta;y)dy=1$$ Differentiating both sides with respect to $\theta$ gives $$\int \frac{\partial L}{\partial\theta}\exp L(\theta;y)dy=0$$ which is the first identity $$E\left(\frac{\partial L}{\partial\theta}\right)=0.$$

Differentiating both sides a second time gives the second identity.