AICとBICの式の違い
情報量基準AICとBICに関して質問があります。
AIC / BICのさまざまな式、可能性を含む一般的な式を見つけました $\mathcal{L}$ です $$AIC = 2K - 2 ln(\mathcal{L})\quad\text{and}\quad BIC =K\;ln(n)- 2 ln(\mathcal{L}).$$ Dieboldの「ElementsofForecasting」とGreeneの「EconometricAnalysis」で、MSE(またはRSS)と非常によく似た定式化をいくつか見つけました。 $$AIC = ln(\frac{RSS}{n}) + \frac{2K}{n} \quad\text{and}\quad BIC = ln(\frac{RSS}{n}) + \frac{K \;ln(n)}{n}.$$前者の式の1つで得られた値を後者の式の値と比較できないという事実は別として、それらはどのように異なるのか、それともすべて同等ですか?それらはすべてiid正規分布を仮定していますか、それともこれらの式の基礎となる異なる仮定がありますか?
回答
正規分布のエラーを想定している場合、MSEを最小化することは、尤度関数を最大化することと同じです。したがって、後のAICおよびBICの式は、一般式の特殊なケースです(比例定数まで)。
$$\text{AIC} = 2K - 2 \ln(\mathcal{L})\quad\text{and}\quad \text{BIC} =K\;\ln(n)- 2 \ln(\mathcal{L}).$$
データの分布が異なると仮定すると、MSE推定値は最尤推定値と同じではなくなり、代わりにMSEを使用できなくなります。 $\mathcal{L}$、それはあなたのモデルの可能性ではないので。AICの使用の詳細については、この投稿を参照してください。