A média posterior pode ser sempre expressa como uma soma ponderada da estimativa de máxima verossimilhança e a média anterior?

Nov 26 2020

Veja esta pergunta.
Isso sempre é verdade? A média posterior pode sempre ser expressa como uma soma ponderada da estimativa de máxima verossimilhança e a média anterior (após escolher algum prior apropriado)?

Respostas

3 Xi'an Nov 27 2020 at 08:16

Na dimensão (parâmetro) um, uma vez que $$\mathbb E[\theta | x_1,\ldots,x_n]= \dfrac{\mathbb E[\theta | x_1,\ldots,x_n]}{\hat{\theta}(x_1,\ldots,x_n)+\mathbb E[\theta]}\hat{\theta}(x_1,\ldots,x_n)+\dfrac{\mathbb E[\theta | x_1,\ldots,x_n]}{\hat{\theta}(x_1,\ldots,x_n)+\mathbb E[\theta]}\mathbb E[\theta]$$ é formalmente sempre possível.

Para citar uma resposta minha anterior a uma pergunta anterior ,

quando $\theta$ é de dimensão um, sempre é possível escrever $$\mathbb E[\theta|\mathbf x] = w(\mathbf x) \mathbb E[\theta] + (1-w(\mathbf x)) \hat\theta(\mathbf x)$$ resolvendo em $w(x)$ mas (i) não há razão para $0\le w(x)\le 1$ e (ii) esta representação não se estende a dimensões maiores como $w(\mathbf x)$ irá variar para cada componente.

                                             

Para famílias exponenciais, é uma propriedade genérica (ver Diaconis e Ylvisaker, 1979 , e meu slide do curso de graduação acima) que a expectativa posterior da média da estatística natural é uma combinação convexa da expectativa anterior e a estimativa de máxima verossimilhança. (A questão a que você se refere é um caso especial.) Observe, porém, que isso não se transfere para a média posterior de qualquer transformação$\phi(\theta)$ do parâmetro médio $\nabla\psi(\theta)$já que a expectativa da transformação não é a transformação da expectativa ( outro slide do meu curso de graduação!), enquanto a estimativa de máxima verossimilhança da transformada é a transformação da estimativa de máxima verossimilhança.

Diaconis e Ylvisaker, 1979 na verdade mostram uma recíproca ao resultado acima, ou seja, que se a expectativa posterior de$\nabla\psi(\theta)$é linear na estatística natural suficiente com pesos fixos, então o anterior é necessariamente conjugado:

Em um cenário geral, não há razão para a média posterior estar localizada "entre" a média anterior e a probabilidade máxima. Considere uma situação onde

  1. a probabilidade é multimodal, com o modo mais alto (ou seja, a estimativa de probabilidade máxima $\hat\theta_1$) sendo muito estreito e com outro modo local $\hat\theta_2$ sendo bastante difundido
  2. o anterior é multimodal, com o meio anterior localizado em uma região modal onde a probabilidade é essencialmente zero, e uma segunda região modal $A_2$ cobrindo o segundo modo de probabilidade $\hat\theta_2$

a média posterior poderia então ser localizada perto $\hat\theta_2$, longe da média anterior e da estimativa de probabilidade máxima $\hat\theta_1$.