¿Cuál es la distinción entre el sesgo en la predicción y la estimación de parámetros?

Aug 16 2020

Estoy tratando de entender la distinción entre el sesgo en la predicción y la estimación de parámetros. Este ejemplo en Gelman, Bayesian Data Analysis , 2nd ed. 2004 pp. 255-256 es muy confuso para mí.

  1. ¿Por qué obtienes el presupuesto?$\hat{y} = 160 + 0.25(\theta - 160)$dado fijo$\theta$y$\hat{\theta} = 160 + 2(y - 160)$bajo muestreo repetido de$y$condicionado a$\theta$? No estoy seguro de dónde vienen estas ecuaciones.

  2. ¿El problema surge aquí del hecho de que la distribución es bivariada (normal) en lugar de$y$tener una distribución basada en cada$\theta$?

Respuestas

1 Michael Aug 16 2020 at 06:02
  1. Condicional a$\theta$, la distribución de$y$es normal con media$160 + 0.5 (\theta - 160)$. Para cada realización$y'$de esta distribución condicional, la media posterior de$\theta$es$$ \hat\theta(y') = 160 + 0.5 (y' - 160). $$Entonces el valor esperado de$\hat\theta(y')$condicionado a$\theta$es$$ 160 + 0.5 [160 + 0.5 (\theta - 160) - 160] = 160 + 0.25 (\theta - 160). $$

  2. La distribución bivariada se introduce en el ejemplo para que se pueda hablar de "...bajo muestreo repetido de$y$condicionado a$θ$...", es decir, de la distribución condicional de$y$en$\theta$.

En todo caso, parece muy bayesiano, y un poco extraño desde la perspectiva frecuentista, hablar de "...bajo muestreo repetido de$y$condicionado a$θ$...", dónde$\theta$es la variable que se intenta predecir.

(Para un frecuentista, la predicción imparcial significa la media del valor predicho$\hat{\theta}$es igual a la media de la variable$\theta$condicional en el predictor,$E[\theta|y]$.)