サンプルサイズが母集団サイズとともに増加する場合の超幾何分布の限界

Aug 19 2020

選択を検討してください $Mn/6$ からなる母集団からのボール $M$ それぞれのボール $n$ 色(そう $Mn$合計でボール)。したがって、サンプルの密度関数は、多変量超幾何分布によって与えられます。$$f(x_1,\ldots, x_n) = \frac{\binom{M}{x_1}\cdots\binom{M}{x_n}}{\binom{Mn}{Mn/6}}.$$ 分布の制限的な振る舞いについて何か言うことができますか? $M\to\infty$、ここで色の数 $n$固定されています?サンプルサイズは母集団サイズと同じ速度で増加するため、サンプルサイズが固定されている場合のように、これは二項/多項分布に収束しません。どんな助けでも大歓迎です!($1/6$$Mn/6$ は恣意的ですが、サンプルサイズが常に母集団サイズの固定部分である場合について一般的に興味があります)。

本当に役立つことが何も言えなくても驚かないと思いますが、その場合は関連する質問があります。同じシナリオを検討していると仮定しますが、$M$ 各色のボール、私たちは、例えば、 $5M/6$各色のボール。したがって、修正された密度関数は次のようになります。$$g(x_1,\ldots, x_n) = \frac{\binom{5M/6}{x_1}\cdots\binom{5M/6}{x_n}}{\binom{5Mn/6}{Mn/6}}.$$ なので $M\to\infty$、間に意味のある関係はありますか $f$ そして $g$それを作ることができますか?ぼんやりと私には$M$ 大きくなると、2つの密度はますます似ているはずですが、その直感が間違っている可能性があります。

回答

1 SherwinLott Aug 21 2020 at 10:56

のために $m^{th}$ 色のボール $n$ しましょう $X_{m}^{n}$それが描かれたかどうかの指標確率変数である。分数を描画していると仮定します$\mu \in (0,1)$ 人口のボールの(例えば $\mu = 1/6$)、次に:

$$\mathbb{E}[X_{m}^{n}] = \mu$$

$$Var(X_{m}^{n}) = \mu(1-\mu) \equiv \sigma^{2}$$

どんな場合でも $(m,n) \neq (m',n')$

$$\begin{align} Cov(X^{n}_{m}, X^{n'}_{m'}) &= \mathbb{E}[X_{m}^{n}X_{m'}^{n'}]-\mu^{2} \\ &= -\mu (1-\mu)/(MN-1) \\ &= -\sigma^{2}/(MN-1) \end{align}$$

修正 $N$、任意の $M$ 示す: $$\bar{X}^{n}_{M} = \frac{1}{M}\sum_{m=1}^{M} X_{m}^{n}$$ 次のプロパティがあります。 $$\mathbb{E}[\bar{X}^{n}_{M}] = \mu$$

$$\begin{align} Var(\bar{X}^{n}_{M}) &= \frac{1}{M^{2}} \left[ M Var(X_{m}^{n}) + M(M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ Var(X_{m}^{n}) + (M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ \sigma^{2} - (M-1)\sigma^{2}/(MN-1) \right] \\ &= \frac{\sigma^{2}}{M}\left( \frac{M(N-1)}{MN-1} \right) \end{align}$$

定義する $Y^{n}_{M} = \sqrt{M}(\bar{X}^{n}_{M} - \mu)$、次に中心極限定理による $Y^{n}_{M}$ に分布が収束する $N(0, \sigma^{2}(N-1)/N)$。(ランダム変数はわずかに依存していますが、ここでも中心極限定理が適用されることに注意してください。WassilyHoeffdingとHerbert Robbinsによる「従属確率変数の中心極限定理」の定理1を引用してください。)

の共分散 $n \neq n'$ は:

$$Cov(\bar{X}^{n}_{M}, \bar{X}^{n'}_{M}) = Cov(X^{n}_{m}, X^{n'}_{m'}) = -\sigma^{2}/(MN-1)$$

$$\Rightarrow Cov(Y^{n}_{M}, Y^{n'}_{M}) = M\sigma^{2}/(MN-1) \rightarrow -\sigma^{2}/(N-1)$$

したがって、 $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ 分布が中心の多変量正規分布に収束します $0$ を持っている共分散行列で $\sigma^{2}(N-1)/N$ 対角線上と $-\sigma^{2}/(N-1)$非対角で。(この共分散行列にはランクがあることに注意してください$N-1$。)

(証明する $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ 確かに多変量正規分布に収束するので、それらの線形結合が正規分布に収束することを示す必要があります。これは、表示に使用したのと同じ引数を介して続きます。 $Y^{n}_{M}$ 正常に収束します。)

1 DinosaurEgg Aug 21 2020 at 10:45

今回の場合、厳密な意味での限定分布は存在しないと思います。 $M\to\infty$。ただし、超幾何分布はこの限界で正規分布に近づき、高さが減少し、平均と偏差が増加する場合があります。より明確に、ケースを検討してください$n=2$、超幾何分布は次のようになります。

$$P(x)=\frac{\binom{m}{x}\binom{M-m}{N-x}}{\binom{M}{N}}$$

手元にある特定の問題に取り組むために $m=\frac{M}{2}~,~N=fM~,~ f< 1/2$。サンプリング率が臨界値を超える場合は注意してください$1/2$階乗のスターリング近似を使用して単純な推定値を取得するのはより複雑になるため、前述の制限されたケースを使用します。この場合、それは明らかです$x\in [0,fM]$。スターリング近似をプラグインした後$$x!\approx x^xe^{-x}\sqrt{2\pi x}$$

単純化すると、次のような巨大な表現が得られます。 $P(x)$ 限界に $M\to\infty$とりあえず省略します。この表現の限界は$M$厳密に言えば、成長はゼロです。しかし、それは$\ln P(x=fMt)$ に比例します $M$。これは、$M\to\infty$、以来 $\ln P<0$ の最大値に近いポイントのみ $P$ゼロ以外の値になります。最大値はで達成されていることがわかります$t=1/2$。これにより、簡略化した後、次のように結論付けます。

$$P(x)\approx\sqrt{\frac{2}{\pi f(1-f)M}}\exp\left[-\frac{2}{f(1-f)M}(x-fM/2)^2\right]$$

これは、分布がx軸に沿ってさらに移動することを意味します。 $M\to\infty$また、正規化を一定に保つために短縮および拡大します。以下のプロットに示すように、数値的証拠がこの結果を裏付けています。