Batasan distribusi hipergeometrik ketika ukuran sampel bertambah dengan ukuran populasi
Pertimbangkan memilih $Mn/6$ bola dari populasi yang terdiri dari $M$ bola dari masing-masing $n$ warna (jadi $Mn$bola secara total). Jadi fungsi kepadatan sampel diberikan oleh distribusi hipergeometrik multivariat:$$f(x_1,\ldots, x_n) = \frac{\binom{M}{x_1}\cdots\binom{M}{x_n}}{\binom{Mn}{Mn/6}}.$$ Dapatkah seseorang mengatakan sesuatu tentang perilaku membatasi distribusi sebagai $M\to\infty$, dimana jumlah warnanya $n$telah diperbaiki? Karena ukuran sampel tumbuh pada tingkat yang sama dengan ukuran populasi, ini tidak akan menyatu dengan distribusi binomial / multinomial seperti jika ukuran sampel ditetapkan. Bantuan apa pun dihargai! (Itu$1/6$ di $Mn/6$ sewenang-wenang, saya hanya ingin tahu secara umum tentang kasus di mana ukuran sampel selalu merupakan bagian tetap dari ukuran populasi).
Saya rasa tidak akan mengejutkan saya jika tidak ada yang benar-benar berguna yang dapat dikatakan, dalam hal ini saya memiliki pertanyaan terkait. Misalkan Anda mempertimbangkan skenario yang sama, tetapi bukannya memulai dengan$M$ bola dari setiap warna, kami hanya memulai dengan, katakanlah, $5M/6$bola dari setiap warna. Jadi fungsi kepadatan yang dimodifikasi adalah:$$g(x_1,\ldots, x_n) = \frac{\binom{5M/6}{x_1}\cdots\binom{5M/6}{x_n}}{\binom{5Mn/6}{Mn/6}}.$$ Sebagai $M\to\infty$, apakah ada hubungan yang berarti antara $f$ dan $g$itu bisa dibuat? Ini samar-samar bagi saya seperti$M$ tumbuh besar kedua kepadatan akan terlihat semakin mirip, tetapi mungkin saja intuisinya salah.
Jawaban
Untuk $m^{th}$ bola warna $n$ membiarkan $X_{m}^{n}$menjadi variabel acak indikator apakah itu ditarik. Misalkan kita menggambar pecahan$\mu \in (0,1)$ bola dalam populasi (mis $\mu = 1/6$), kemudian:
$$\mathbb{E}[X_{m}^{n}] = \mu$$
$$Var(X_{m}^{n}) = \mu(1-\mu) \equiv \sigma^{2}$$
Untuk apapun $(m,n) \neq (m',n')$:
$$\begin{align} Cov(X^{n}_{m}, X^{n'}_{m'}) &= \mathbb{E}[X_{m}^{n}X_{m'}^{n'}]-\mu^{2} \\ &= -\mu (1-\mu)/(MN-1) \\ &= -\sigma^{2}/(MN-1) \end{align}$$
Pemasangan $N$, untuk apa saja $M$ menunjukkan: $$\bar{X}^{n}_{M} = \frac{1}{M}\sum_{m=1}^{M} X_{m}^{n}$$ Yang memiliki properti berikut: $$\mathbb{E}[\bar{X}^{n}_{M}] = \mu$$
$$\begin{align} Var(\bar{X}^{n}_{M}) &= \frac{1}{M^{2}} \left[ M Var(X_{m}^{n}) + M(M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ Var(X_{m}^{n}) + (M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ \sigma^{2} - (M-1)\sigma^{2}/(MN-1) \right] \\ &= \frac{\sigma^{2}}{M}\left( \frac{M(N-1)}{MN-1} \right) \end{align}$$
Menetapkan $Y^{n}_{M} = \sqrt{M}(\bar{X}^{n}_{M} - \mu)$, kemudian dengan teorema limit pusat $Y^{n}_{M}$ menyatu dalam distribusi ke $N(0, \sigma^{2}(N-1)/N)$. (Perhatikan teorema batas pusat masih berlaku di sini meskipun variabel acak sedikit bergantung. Kutip Teorema 1 dari "Teorema Batas Pusat Untuk Variabel Acak Bergantung" oleh Wassily Hoeffding dan Herbert Robbins.)
Kovariansi untuk $n \neq n'$ adalah:
$$Cov(\bar{X}^{n}_{M}, \bar{X}^{n'}_{M}) = Cov(X^{n}_{m}, X^{n'}_{m'}) = -\sigma^{2}/(MN-1)$$
$$\Rightarrow Cov(Y^{n}_{M}, Y^{n'}_{M}) = M\sigma^{2}/(MN-1) \rightarrow -\sigma^{2}/(N-1)$$
Jadi, $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ berkumpul dalam distribusi ke normal multivariasi yang berpusat di sekitar $0$ dengan matriks kovarians yang memiliki $\sigma^{2}(N-1)/N$ di diagonal dan $-\sigma^{2}/(N-1)$di off-diagonal. (Perhatikan, matriks kovarians ini memiliki peringkat$N-1$.)
(Untuk membuktikan $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ memang konvergen ke multivariasi normal, kita harus menunjukkan kombinasi linier apa pun yang konvergen ke normal, yang mengikuti melalui argumen yang sama yang digunakan untuk menunjukkan $Y^{n}_{M}$ konvergen ke normal.)
Saya tidak berpikir bahwa dalam kasus ini distribusi yang membatasi ada dalam arti yang sempit $M\to\infty$. Namun, tampaknya kasus distribusi hipergeometrik mendekati distribusi normal dalam batas ini, dengan ketinggian yang semakin berkurang, rata-rata meningkat dan deviasi. Lebih eksplisit, pertimbangkan kasusnya$n=2$, yang dalam distribusi hipergeometriknya berbunyi:
$$P(x)=\frac{\binom{m}{x}\binom{M-m}{N-x}}{\binom{M}{N}}$$
dan untuk mengatasi masalah khusus yang dihadapi $m=\frac{M}{2}~,~N=fM~,~ f< 1/2$. Perhatikan bahwa jika fraksi sampling melebihi nilai kritis$1/2$menjadi lebih rumit untuk mendapatkan perkiraan sederhana menggunakan pendekatan Stirling untuk faktorial, jadi saya akan bekerja dengan kasus terbatas yang disebutkan sebelumnya. Dalam hal ini jelas bahwa$x\in [0,fM]$. Setelah memasukkan perkiraan Stirling$$x!\approx x^xe^{-x}\sqrt{2\pi x}$$
dan menyederhanakan kita mendapatkan ekspresi mengerikan untuk $P(x)$ di batas $M\to\infty$yang akan saya hilangkan untuk saat ini. Batas ekspresi ini sebagai salah satu memungkinkan$M$tumbuh, tegasnya, nol. Namun, ternyata itu$\ln P(x=fMt)$ sebanding dengan $M$. Ini menunjukkan fakta bahwa sebagai$M\to\infty$, sejak $\ln P<0$ hanya titik mendekati maksimum $P$akan mencapai nilai bukan nol. Kami melihat bahwa maksimum dicapai pada$t=1/2$. Dengan ini, kami menyimpulkan setelah penyederhanaan itu
$$P(x)\approx\sqrt{\frac{2}{\pi f(1-f)M}}\exp\left[-\frac{2}{f(1-f)M}(x-fM/2)^2\right]$$
Ini berarti bahwa distribusi bergerak lebih jauh di sepanjang sumbu x sebagai $M\to\infty$tetapi juga mempersingkat dan memperluas untuk menjaga agar normalisasi tetap konstan. Bukti numerik mendukung hasil ini seperti yang ditunjukkan pada plot di bawah ini.
