Предел гипергеометрического распределения при росте размера выборки с размером популяции
Подумайте о выборе $Mn/6$ шары из популяции, состоящей из $M$ шары каждого из $n$ цвета (так $Mn$всего мячей). Таким образом, функция плотности выборки задается многомерным гипергеометрическим распределением:$$f(x_1,\ldots, x_n) = \frac{\binom{M}{x_1}\cdots\binom{M}{x_n}}{\binom{Mn}{Mn/6}}.$$ Можно ли что-нибудь сказать об ограничивающем поведении распределения как $M\to\infty$, где количество цветов $n$фиксированный? Поскольку размер выборки растет с той же скоростью, что и размер генеральной совокупности, это не сходится к биномиальному / полиномиальному распределению, как если бы размер выборки был фиксированным. Любая помощь приветствуется! (В$1/6$ в $Mn/6$ произвольно, мне просто любопытно в целом случай, когда размер выборки всегда является фиксированной долей от размера генеральной совокупности).
Думаю, меня не удивит, если нельзя будет сказать ничего действительно полезного, и в этом случае у меня есть связанный с этим вопрос. Предположим, вы рассматриваете тот же сценарий, но вместо того, чтобы начинать с$M$ шарики каждого цвета, мы только начали, скажем, с $5M/6$шары каждого цвета. Таким образом, модифицированная функция плотности будет:$$g(x_1,\ldots, x_n) = \frac{\binom{5M/6}{x_1}\cdots\binom{5M/6}{x_n}}{\binom{5Mn/6}{Mn/6}}.$$ В виде $M\to\infty$, есть ли значимая связь между $f$ и $g$что можно сделать? Мне это смутно кажется как$M$ становится все больше, две плотности должны выглядеть все более и более похожими, но возможно, что эта интуиция ошибается.
Ответы
Для $m^{th}$ шар цвета $n$ позволять $X_{m}^{n}$быть индикаторной случайной величиной, определяющей, был ли он нарисован. Допустим, мы рисуем дробь$\mu \in (0,1)$ шариков в популяции (например, $\mu = 1/6$), тогда:
$$\mathbb{E}[X_{m}^{n}] = \mu$$
$$Var(X_{m}^{n}) = \mu(1-\mu) \equiv \sigma^{2}$$
Для любой $(m,n) \neq (m',n')$:
$$\begin{align} Cov(X^{n}_{m}, X^{n'}_{m'}) &= \mathbb{E}[X_{m}^{n}X_{m'}^{n'}]-\mu^{2} \\ &= -\mu (1-\mu)/(MN-1) \\ &= -\sigma^{2}/(MN-1) \end{align}$$
Фиксация $N$, для любой $M$ обозначают: $$\bar{X}^{n}_{M} = \frac{1}{M}\sum_{m=1}^{M} X_{m}^{n}$$ Которая имеет следующие свойства: $$\mathbb{E}[\bar{X}^{n}_{M}] = \mu$$
$$\begin{align} Var(\bar{X}^{n}_{M}) &= \frac{1}{M^{2}} \left[ M Var(X_{m}^{n}) + M(M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ Var(X_{m}^{n}) + (M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ \sigma^{2} - (M-1)\sigma^{2}/(MN-1) \right] \\ &= \frac{\sigma^{2}}{M}\left( \frac{M(N-1)}{MN-1} \right) \end{align}$$
Определить $Y^{n}_{M} = \sqrt{M}(\bar{X}^{n}_{M} - \mu)$, то по центральной предельной теореме $Y^{n}_{M}$ сходится по распределению к $N(0, \sigma^{2}(N-1)/N)$. (Обратите внимание, что центральная предельная теорема все еще применяется здесь, хотя случайные величины немного зависят. Приведите теорему 1 из «Центральной предельной теоремы для зависимых случайных величин» Василия Хёффдинга и Герберта Роббинса.)
Ковариация для $n \neq n'$ является:
$$Cov(\bar{X}^{n}_{M}, \bar{X}^{n'}_{M}) = Cov(X^{n}_{m}, X^{n'}_{m'}) = -\sigma^{2}/(MN-1)$$
$$\Rightarrow Cov(Y^{n}_{M}, Y^{n'}_{M}) = M\sigma^{2}/(MN-1) \rightarrow -\sigma^{2}/(N-1)$$
Таким образом, $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ сходится по распределению к многомерной нормали с центром вокруг $0$ с ковариационной матрицей, которая имеет $\sigma^{2}(N-1)/N$ по диагонали и $-\sigma^{2}/(N-1)$по недиагонали. (Обратите внимание, что эта ковариационная матрица имеет ранг$N-1$.)
(Чтобы доказать $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ действительно сходится к многомерной нормали, мы должны были бы показать, что любая их линейная комбинация сходится к нормали, что следует с помощью того же аргумента, который использовался для отображения $Y^{n}_{M}$ сходится к нормальному.)
Я не думаю, что в данном случае существует предельное распределение в строгом смысле слова, поскольку $M\to\infty$. Однако кажется, что в этом пределе гипергеометрическое распределение приближается к нормальному распределению с уменьшением высоты, увеличением среднего и отклонением. Более подробно рассмотрим случай$n=2$, для которого гипергеометрическое распределение имеет вид:
$$P(x)=\frac{\binom{m}{x}\binom{M-m}{N-x}}{\binom{M}{N}}$$
и для решения конкретной проблемы. $m=\frac{M}{2}~,~N=fM~,~ f< 1/2$. Учтите, что если доля выборки превышает критическое значение$1/2$становится сложнее получить простую оценку с использованием приближения Стирлинга для факториала, поэтому я буду работать с ранее упомянутым ограниченным случаем. В этом случае ясно, что$x\in [0,fM]$. После включения приближения Стирлинга$$x!\approx x^xe^{-x}\sqrt{2\pi x}$$
и, упрощая, получаем чудовищное выражение для $P(x)$ в пределе $M\to\infty$которые я пока опущу. Предел этого выражения, как можно$M$Grow, строго говоря, равен нулю. Однако оказывается, что$\ln P(x=fMt)$ пропорционально $M$. Это указывает на то, что как$M\to\infty$, поскольку $\ln P<0$ только точки около максимума $P$достигнет ненулевых значений. Мы видим, что максимум достигается при$t=1/2$. Отсюда после упрощения заключаем, что
$$P(x)\approx\sqrt{\frac{2}{\pi f(1-f)M}}\exp\left[-\frac{2}{f(1-f)M}(x-fM/2)^2\right]$$
Это означает, что распределение движется дальше по оси x как $M\to\infty$но также укорачивается и расширяется, чтобы нормализация оставалась постоянной. Численные доказательства подтверждают этот результат, как показано на графике ниже.
