O que é uma escolha não informativa de parâmetros para uma distribuição Dirichlet?

Aug 17 2020

A distribuição de Dirichlet é um conjugado anterior à distribuição multinomial. Eu quero impor uma prioridade não informativa sobre os pesos de amostragem$\pi$ para um empate $x=(x_1,…,x_N)$ de uma distribuição multinomial com suporte $d=(d_1,…,d_K)$ (todos os valores possíveis que $x_i$ pode levar) e pesos de amostragem $\pi=(\pi_1,…,\pi_K)$.

Eu estava com a impressão de que $Dir(\alpha)$ com $\alpha_i=1$é uma escolha certa. Mas eu li que (ver, por exemplo este )$Dir(\alpha)$ com $\alpha_i=0$ produz uma distribuição não informativa imprópria.

Questão:

  1. Por quê $Dir(\alpha)$ com $\alpha_i=0$é não informativo? Não faz$\alpha\to 0$ impor maior peso de amostragem em um único dado e zero em todos os outros?
  2. Não deveria uma distribuição uniforme $Dir(\alpha)$ com $\alpha_i=1$ em vez disso, ser uma escolha não informativa para o anterior?

Respostas

4 Ben Aug 17 2020 at 07:46

A questão principal aqui é que "não informativo" é uma espécie de termo da arte e pode ser formulado de várias maneiras (veja aqui uma discussão interessante sobre o assunto). Em um certo sentido estrito, não existe algo como um "prior não informativo", uma vez que toda distribuição anterior é uma distribuição específica que tem uma série de implicações probabilísticas específicas. O que temos são várias metodologias diferentes que podem formar a priori não subjetivas (ou seja, a priori que dependem apenas da forma geral da função de verossimilhança sem consideração dos valores dos dados).

Existem várias teorias concorrentes na formulação de antecedentes não subjetivos. Isso inclui a teoria dos "priors de referência", os priors de Jeffries e vários outros. Essas teorias levam a formas anteriores que são bastante próximas umas das outras, mas elas diferem um pouco e, portanto, também há bastante literatura discutindo sobre qual é a melhor. Se quiser saber mais sobre isso, recomendo fortemente que você leia algumas das obras de José Bernardo, que é provavelmente o estatístico bayesiano mais proeminente neste campo. (Outra coisa que eu recomendaria é ler sobre a teoria da "probabilidade imprecisa" de Peter Walley; na minha opinião, este método tem uma pretensão melhor de ser verdadeiramente objetivo e "não informativo" do que escolher uma prévia específica por meio de outras teorias.)

Em relação às suas perguntas específicas, sim, o $\text{Dirichlet}(\mathbf{0})$distribuição é uma distribuição imprópria, portanto, se você usá-la como um prior, então é um prior impróprio. Quanto a se este prior é melhor ou pior do que o prior plano, deixo para vocês que leiam a literatura sobre prioris impróprios e vejam as vantagens de cada método. É importante notar que eles não são muito diferentes, desde que você tenha uma quantidade razoável de dados --- os dados se manifestam na parte posterior como um aumento de um no valor do parâmetro para cada ponto de dados observado. A análise bayesiana tem uma série de teoremas de consistência úteis que estabelecem que crenças posteriores convergem mesmo com anteriores diferentes, e para anteriores como este, que são apenas ligeiramente diferentes, essa convergência é bastante rápida.

1 Elenchus Aug 17 2020 at 01:55

Eu estava inclinado a concordar com você, porque sei que rstan usa αi = 1 como a escolha prévia de Dirichlet padrão . Suas escolhas padrão são pouco informativas . Mas eu encontrei este artigo discutindo porque Dir (0) é uma escolha válida. Não entendo bem o suficiente para dar um bom resumo, mas parece que Dir (0) é a única escolha que não é informativa sob transformações que preservam a normalidade.