Limite de la distribution hypergéométrique lorsque la taille de l'échantillon augmente avec la taille de la population
Pensez à choisir $Mn/6$ balles d'une population composée de $M$ boules de chacun de $n$ couleurs (donc $Mn$boules au total). Ainsi, la fonction de densité de l'échantillon est donnée par une distribution hypergéométrique multivariée:$$f(x_1,\ldots, x_n) = \frac{\binom{M}{x_1}\cdots\binom{M}{x_n}}{\binom{Mn}{Mn/6}}.$$ Peut-on dire quelque chose sur le comportement limitatif de la distribution comme $M\to\infty$, où le nombre de couleurs $n$c'est réglé? Étant donné que la taille de l'échantillon augmente au même rythme que la taille de la population, cela ne convergerait pas vers une distribution binomiale / multinomiale comme ce serait le cas si la taille de l'échantillon était fixe. Toute aide est appréciée! (Le$1/6$ dans $Mn/6$ est arbitraire, je suis simplement curieux de savoir en général le cas où la taille de l'échantillon est toujours une fraction fixe de la taille de la population).
Je suppose que cela ne me surprendrait pas si rien de vraiment utile ne peut être dit, auquel cas j'ai une question connexe. Supposons que vous envisagiez le même scénario, mais au lieu de commencer par$M$ boules de chaque couleur, nous avons seulement commencé avec, disons, $5M/6$boules de chaque couleur. Ainsi, la fonction de densité modifiée serait:$$g(x_1,\ldots, x_n) = \frac{\binom{5M/6}{x_1}\cdots\binom{5M/6}{x_n}}{\binom{5Mn/6}{Mn/6}}.$$ Comme $M\to\infty$, y a-t-il une relation significative entre $f$ et $g$qui peut être fait? Cela me semble vaguement comme$M$ grandit, les deux densités devraient se ressembler de plus en plus, mais il est possible que cette intuition soit erronée.
Réponses
Pour le $m^{th}$ boule de couleur $n$ laisser $X_{m}^{n}$être l'indicateur variable aléatoire pour savoir s'il a été tiré. Supposons que nous dessinions une fraction$\mu \in (0,1)$ des balles dans la population (par exemple $\mu = 1/6$), puis:
$$\mathbb{E}[X_{m}^{n}] = \mu$$
$$Var(X_{m}^{n}) = \mu(1-\mu) \equiv \sigma^{2}$$
Pour toute $(m,n) \neq (m',n')$:
$$\begin{align} Cov(X^{n}_{m}, X^{n'}_{m'}) &= \mathbb{E}[X_{m}^{n}X_{m'}^{n'}]-\mu^{2} \\ &= -\mu (1-\mu)/(MN-1) \\ &= -\sigma^{2}/(MN-1) \end{align}$$
Fixation $N$, pour toute $M$ dénoter: $$\bar{X}^{n}_{M} = \frac{1}{M}\sum_{m=1}^{M} X_{m}^{n}$$ Qui a les propriétés suivantes: $$\mathbb{E}[\bar{X}^{n}_{M}] = \mu$$
$$\begin{align} Var(\bar{X}^{n}_{M}) &= \frac{1}{M^{2}} \left[ M Var(X_{m}^{n}) + M(M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ Var(X_{m}^{n}) + (M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ \sigma^{2} - (M-1)\sigma^{2}/(MN-1) \right] \\ &= \frac{\sigma^{2}}{M}\left( \frac{M(N-1)}{MN-1} \right) \end{align}$$
Définir $Y^{n}_{M} = \sqrt{M}(\bar{X}^{n}_{M} - \mu)$, puis par le théorème central limite $Y^{n}_{M}$ converge dans la distribution vers $N(0, \sigma^{2}(N-1)/N)$. (Notez que le théorème de la limite centrale s'applique toujours ici bien que les variables aléatoires soient légèrement dépendantes. Citez le théorème 1 du "Théorème central de limite pour les variables aléatoires dépendantes" par Wassily Hoeffding et Herbert Robbins.)
La covariance pour $n \neq n'$ est:
$$Cov(\bar{X}^{n}_{M}, \bar{X}^{n'}_{M}) = Cov(X^{n}_{m}, X^{n'}_{m'}) = -\sigma^{2}/(MN-1)$$
$$\Rightarrow Cov(Y^{n}_{M}, Y^{n'}_{M}) = M\sigma^{2}/(MN-1) \rightarrow -\sigma^{2}/(N-1)$$
Donc, $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ converge en distribution vers une normale multivariée centrée autour $0$ avec une matrice de covariance qui a $\sigma^{2}(N-1)/N$ sur la diagonale et $-\sigma^{2}/(N-1)$sur le hors-diagonale. (Notez que cette matrice de covariance a le rang$N-1$.)
(Prouver $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ converge effectivement vers une normale multivariée, il faudrait montrer que toute combinaison linéaire de celles-ci converge vers une normale, qui suit via le même argument utilisé pour montrer $Y^{n}_{M}$ converge vers une normale.)
Je ne pense pas que dans le cas présent il existe une distribution limitative au sens strict du terme $M\to\infty$. Cependant, il semble que la distribution hypergéométrique se rapproche d'une distribution normale dans cette limite, avec une hauteur décroissante, une moyenne croissante et un écart. Plus explicitement, considérons le cas$n=2$, pour laquelle la distribution hypergéométrique se lit comme suit:
$$P(x)=\frac{\binom{m}{x}\binom{M-m}{N-x}}{\binom{M}{N}}$$
et pour aborder le problème particulier à portée de main $m=\frac{M}{2}~,~N=fM~,~ f< 1/2$. Notez que si la fraction d'échantillonnage dépasse la valeur critique$1/2$il devient plus compliqué d'obtenir une estimation simple en utilisant l'approximation de Stirling pour la factorielle, je vais donc travailler avec le cas restreint mentionné précédemment. Dans ce cas, il est clair que$x\in [0,fM]$. Après avoir branché l'approximation de Stirling$$x!\approx x^xe^{-x}\sqrt{2\pi x}$$
et en simplifiant on obtient une expression monstrueuse pour $P(x)$ dans la limite $M\to\infty$que je vais omettre pour le moment. La limite de cette expression comme on laisse$M$Grow est, à proprement parler, nul. Cependant, il s'avère que$\ln P(x=fMt)$ est proportionnel à $M$. Cela montre que comme$M\to\infty$, depuis $\ln P<0$ seuls les points proches du maximum de $P$atteindra des valeurs non nulles. On voit que le maximum est atteint à$t=1/2$. Avec cela, nous concluons après simplification que
$$P(x)\approx\sqrt{\frac{2}{\pi f(1-f)M}}\exp\left[-\frac{2}{f(1-f)M}(x-fM/2)^2\right]$$
Cela signifie que la distribution se déplace plus loin le long de l'axe des x comme $M\to\infty$mais aussi raccourcit et s'élargit pour maintenir la normalisation constante. Des preuves numériques soutiennent ce résultat, comme indiqué dans le graphique ci-dessous.
