Diferenças entre fórmulas para AIC e BIC
Tenho uma dúvida em relação aos critérios de informação AIC e BIC:
Encontrei diferentes fórmulas para o AIC/BIC, as mais comuns incluindo a probabilidade$\mathcal{L}$são$$AIC = 2K - 2 ln(\mathcal{L})\quad\text{and}\quad BIC =K\;ln(n)- 2 ln(\mathcal{L}).$$Em "Elements of Forecasting" de Diebold e em "Econometric Analysis" de Greene, encontrei algumas formulações muito semelhantes com MSE (ou RSS),$$AIC = ln(\frac{RSS}{n}) + \frac{2K}{n} \quad\text{and}\quad BIC = ln(\frac{RSS}{n}) + \frac{K \;ln(n)}{n}.$$Além do fato de que os valores obtidos por uma das primeiras fórmulas não podem ser comparados com os das últimas: Em que diferem ou são todos equivalentes? Todos eles assumem uma distribuição normal iid ou existem diferentes suposições subjacentes a essas fórmulas?
Respostas
Se você assumir erros normalmente distribuídos, minimizar o MSE é equivalente a maximizar a função de verossimilhança. Sua expressão posterior para AIC e BIC são, portanto, casos especiais da fórmula geral (até uma constante proporcional):
$$\text{AIC} = 2K - 2 \ln(\mathcal{L})\quad\text{and}\quad \text{BIC} =K\;\ln(n)- 2 \ln(\mathcal{L}).$$
Se você assumir uma distribuição diferente para seus dados, as estimativas de MSE não serão mais as mesmas que as estimativas de probabilidade máxima e você não poderá mais usar o MSE no lugar de$\mathcal{L}$, já que não é a verossimilhança do seu modelo. Veja este post para mais informações sobre o uso do AIC.