Jaka jest różnica między błędem w prognozowaniu a estymacją parametrów?

Aug 16 2020

Próbuję zrozumieć różnicę między obciążeniem w prognozowaniu a estymacją parametrów. Ten przykład w Gelman, Bayesian Data Analysis , wyd. 2004 s. 255-256 jest dla mnie bardzo zagmatwana.

  1. Dlaczego otrzymujesz oszacowanie $\hat{y} = 160 + 0.25(\theta - 160)$ podane ustalone $\theta$ i $\hat{\theta} = 160 + 2(y - 160)$ przy wielokrotnym pobieraniu próbek $y$ zależne od $\theta$? Nie jestem pewien, skąd pochodzą te równania.

  2. Czy problem tutaj wynika z faktu, że rozkład jest dwuwymiarowy (normalny), a nie $y$ posiadanie dystrybucji opartej na każdym $\theta$?

Odpowiedzi

1 Michael Aug 16 2020 at 06:02
  1. W zależności od $\theta$, dystrybucja $y$ jest normalne ze średnią $160 + 0.5 (\theta - 160)$. Do każdej realizacji$y'$ z tego warunkowego rozkładu, późniejsza średnia $\theta$ jest $$ \hat\theta(y') = 160 + 0.5 (y' - 160). $$ A więc oczekiwana wartość $\hat\theta(y')$ zależne od $\theta$ jest $$ 160 + 0.5 [160 + 0.5 (\theta - 160) - 160] = 160 + 0.25 (\theta - 160). $$

  2. Rozkład dwuwymiarowy został wprowadzony do przykładu, aby można było mówić o „… przy wielokrotnym próbkowaniu $y$ zależne od $θ$... ”, czyli z warunkowej dystrybucji $y$ na $\theta$.

W każdym razie wydaje się bardzo bayesowskie i nieco dziwne z punktu widzenia częstości mówienia o „… przy wielokrotnym próbkowaniu $y$ zależne od $θ$...", gdzie $\theta$ jest zmienną, którą próbuje się przewidzieć.

(Dla częstych, obiektywnych przewidywań oznacza średnią przewidywaną wartość $\hat{\theta}$ równa się średniej zmiennej $\theta$ zależne od predyktora, $E[\theta|y]$.)