¿Qué es una elección no informativa de parámetros para una distribución de Dirichlet?
La distribución de Dirichlet es un conjugado previo para la distribución multinomial. Quiero imponer una prioridad no informativa sobre los pesos muestrales.$\pi$ para un sorteo $x=(x_1,…,x_N)$ de una distribución multinomial con soporte $d=(d_1,…,d_K)$ (todos los valores posibles que $x_i$ puede tomar) y pesos de muestreo $\pi=(\pi_1,…,\pi_K)$.
Tenía la impresión de que $Dir(\alpha)$ con $\alpha_i=1$es una buena elección. Pero lo he leído (ver, por ejemplo, esto )$Dir(\alpha)$ con $\alpha_i=0$ produce una distribución no informativa inadecuada.
Pregunta:
- Por qué $Dir(\alpha)$ con $\alpha_i=0$no es informativo? No$\alpha\to 0$ imponer un mayor peso de muestreo a un solo dato y cero a todos los demás?
- ¿No debería una distribución uniforme $Dir(\alpha)$ con $\alpha_i=1$ ¿Será una elección no informativa para el anterior?
Respuestas
El problema principal aquí es que "no informativo" es algo así como un término de arte, y se puede formular de varias maneras (ver aquí una discusión interesante sobre el tema). En cierto sentido estricto, no existe un "a priori no informativo" ya que cada distribución a priori es una distribución específica que tiene una serie de implicaciones probabilísticas específicas. Lo que sí tenemos son varias metodologías diferentes que pueden formar a priori no subjetivos (es decir, a priori que dependen sólo de la forma general de la función de verosimilitud sin considerar los valores de los datos).
Hay varias teorías en competencia sobre la formulación de antecedentes no subjetivos. Esto incluye la teoría de los "antecedentes de referencia", los antecedentes de Jeffries y varios otros. Estas teorías conducen a formas anteriores que son bastante cercanas entre sí, pero difieren un poco, por lo que también hay bastante literatura discutiendo cuál es la mejor. Si desea obtener más información al respecto, le recomiendo encarecidamente que lea algunos de los trabajos de José Bernardo, quien probablemente sea el estadístico bayesiano preeminente en este campo. (Otra cosa que recomendaría es leer sobre la teoría de la "probabilidad imprecisa" de Peter Walley; en mi opinión, este método tiene más posibilidades de ser verdaderamente objetivo y "no informativo" que elegir un previo específico a través de otras teorías).
Con respecto a sus preguntas específicas, sí, el $\text{Dirichlet}(\mathbf{0})$La distribución es una distribución incorrecta, por lo que si la usa como anterior, entonces es una distribución incorrecta. En cuanto a si esta previa es mejor o peor que la previa plana, dejaré que usted lea la literatura sobre las anteriores incorrectas y vea las ventajas de cada método. Vale la pena señalar que no son muy diferentes siempre que tenga una cantidad razonable de datos; los datos se manifiestan en la parte posterior como un aumento de uno en el valor de un parámetro para cada punto de datos observado. El análisis bayesiano tiene una serie de teoremas de consistencia útiles que establecen que las creencias posteriores convergen incluso con diferentes previos, y para anteriores como este, que son solo ligeramente diferentes, esta convergencia es bastante rápida.
Me incliné a estar de acuerdo con usted, porque sé que rstan usa αi = 1 como la opción anterior predeterminada de Dirichlet. Sus opciones predeterminadas están destinadas a ser poco informativas . Pero encontré este artículo discutiendo por qué Dir (0) es una opción válida. No lo entiendo lo suficientemente bien como para dar un buen resumen, pero parece que Dir (0) es la única opción que no es informativa bajo transformaciones que preservan la normalidad.