ディリクレ分布のパラメーターの有益でない選択は何ですか?

Aug 17 2020

ディリクレ分布は、多項分布の共役事前分布です。重みをサンプリングするよりも、情報量の少ない事前確率を課したい$\pi$ 引き分けのために $x=(x_1,…,x_N)$ サポート付きの多項分布から $d=(d_1,…,d_K)$ (すべての可能な値 $x_i$ 取ることができます)とサンプリングの重み $\pi=(\pi_1,…,\pi_K)$

私はその印象を受けました $Dir(\alpha)$$\alpha_i=1$正しい選択です。しかし、私はそれを読みました(例えばこれを参照してください)$Dir(\alpha)$$\alpha_i=0$ 不適切な非情報分布を生成します。

質問:

  1. なぜ $Dir(\alpha)$$\alpha_i=0$情報がないですか?そうではありません$\alpha\to 0$ 単一のデータに高いサンプリング重みを課し、他のすべてのデータにゼロを課しますか?
  2. 一様分布であってはなりません $Dir(\alpha)$$\alpha_i=1$ 代わりに、以前の情報を提供しない選択になりますか?

回答

4 Ben Aug 17 2020 at 07:46

ここでの主な問題は、「非情報的」は芸術用語のようなものであり、さまざまな方法で定式化できることです(この主題に関する興味深い議論については、ここを参照してください)。ある厳密な意味では、すべての事前分布は特定の確率的意味を持つ特定の分布であるため、「非情報的事前分布」のようなものはありません。私たちが持っているのは、非主観的な事前確率(つまり、データ値を考慮せずに尤度関数の一般的な形式のみに依存する事前確率)を形成できるいくつかの異なる方法論です。

非主観的事前確率の定式化に関しては、いくつかの競合する理論があります。これには、「参照事前確率」、ジェフリーズ事前確率、およびその他のさまざまな理論が含まれます。これらの理論は、互いに非常に近い以前の形式につながりますが、それらは少し異なります。そのため、どちらが最適かについて議論している文献もかなりあります。これについてもっと知りたい場合は、おそらくこの分野で卓越したベイズ統計学者であるホセ・ベルナルドの作品のいくつかを読むことを強くお勧めします。(私がお勧めするもう1つのことは、Peter Walleyによる「不正確な確率」の理論について読むことです。私の見解では、この方法は、他の理論を介して特定の事前情報を選択するよりも、真に客観的で「情報がない」という主張が優れています。)

あなたの特定の質問に関しては、はい、 $\text{Dirichlet}(\mathbf{0})$分布は不適切な分布であるため、事前分布として使用すると、不適切な事前分布になります。この事前確率がフラット事前確率よりも優れているか悪いかについては、不適切な事前確率に関する文献を読んで、各方法の利点を確認することをお任せします。妥当な量のデータがある限り、それらはそれほど異ならないことに注意してください---データは、観測された各データポイントのパラメーター値が1つ増えると後部に現れます。ベイズ分析には、事後信念が異なる事前確率でも収束することを確立する多くの有用な一貫性定理があります。このようなわずかに異なる事前確率の場合、この収束は非常に高速です。

1 Elenchus Aug 17 2020 at 01:55

rstanがデフォルトのディリクレ事前選択としてαi= 1を使用することを知っているので、私はあなたに同意する傾向がありました。それらのデフォルトの選択は、情報量が少ないことを目的としています。しかし、Dir(0)が有効な選択である理由について説明しているこのペーパーを見つけました。良い要約を与えるには十分に理解していませんが、正規性を維持する変換では情報が得られない唯一の選択肢はDir(0)のようです。