모집단 크기에 따라 표본 크기가 증가 할 때 초기 하 분포의 한계

Aug 19 2020

선택 고려 $Mn/6$ 다음으로 구성된 인구의 공 $M$ 각각의 공 $n$ 색상 (그래서 $Mn$총 공). 따라서 표본의 밀도 함수는 다변량 초기 하 분포로 제공됩니다.$$f(x_1,\ldots, x_n) = \frac{\binom{M}{x_1}\cdots\binom{M}{x_n}}{\binom{Mn}{Mn/6}}.$$ 배포의 제한 동작에 대해 다음과 같이 말할 수 있습니까? $M\to\infty$, 여기서 색상 수 $n$고쳐 졌어? 표본 크기가 모집단 크기와 동일한 비율로 증가하기 때문에 표본 크기가 고정 된 경우처럼 이항 / 다항 분포로 수렴되지 않습니다. 도움을 주시면 감사하겠습니다! (그만큼$1/6$$Mn/6$ 임의적입니다. 일반적으로 표본 크기가 항상 모집단 크기의 고정 된 비율 인 경우에 대해 궁금합니다.)

정말 유용한 말을 할 수 없다고해도 놀라지 않을 것 같습니다.이 경우 관련 질문이 있습니다. 동일한 시나리오를 고려하지만 다음으로 시작하는 대신$M$ 각 색깔의 공, 우리는 단지, $5M/6$각 색상의 공. 따라서 수정 된 밀도 함수는 다음과 같습니다.$$g(x_1,\ldots, x_n) = \frac{\binom{5M/6}{x_1}\cdots\binom{5M/6}{x_n}}{\binom{5Mn/6}{Mn/6}}.$$ 같이 $M\to\infty$, 사이에 의미있는 관계가 있습니까? $f$$g$만들 수 있습니까? 막연하게 보이는 것처럼$M$ 두 밀도가 점점 더 비슷하게 보일 것입니다.하지만 그 직감이 잘못되었을 가능성이 있습니다.

답변

1 SherwinLott Aug 21 2020 at 10:56

에 대한 $m^{th}$ 색깔의 공 $n$ 허락하다 $X_{m}^{n}$그려 졌는지 여부에 대한 표시기 랜덤 변수가됩니다. 우리가 분수를 그린다고 가정하자$\mu \in (0,1)$ 인구에있는 공의 수 (예 : $\mu = 1/6$), 다음 :

$$\mathbb{E}[X_{m}^{n}] = \mu$$

$$Var(X_{m}^{n}) = \mu(1-\mu) \equiv \sigma^{2}$$

어떠한 것도 $(m,n) \neq (m',n')$:

$$\begin{align} Cov(X^{n}_{m}, X^{n'}_{m'}) &= \mathbb{E}[X_{m}^{n}X_{m'}^{n'}]-\mu^{2} \\ &= -\mu (1-\mu)/(MN-1) \\ &= -\sigma^{2}/(MN-1) \end{align}$$

고정 $N$, 어떠한 것도 $M$ 표시 : $$\bar{X}^{n}_{M} = \frac{1}{M}\sum_{m=1}^{M} X_{m}^{n}$$ 다음과 같은 속성이 있습니다. $$\mathbb{E}[\bar{X}^{n}_{M}] = \mu$$

$$\begin{align} Var(\bar{X}^{n}_{M}) &= \frac{1}{M^{2}} \left[ M Var(X_{m}^{n}) + M(M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ Var(X_{m}^{n}) + (M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ \sigma^{2} - (M-1)\sigma^{2}/(MN-1) \right] \\ &= \frac{\sigma^{2}}{M}\left( \frac{M(N-1)}{MN-1} \right) \end{align}$$

밝히다 $Y^{n}_{M} = \sqrt{M}(\bar{X}^{n}_{M} - \mu)$, 중앙 극한 정리에 의해 $Y^{n}_{M}$ 분포에서 수렴 $N(0, \sigma^{2}(N-1)/N)$. (무작위 변수가 약간 종속적이지만 중심 한계 정리가 여전히 여기에 적용됩니다. Wassily Hoeffding과 Herbert Robbins의 "종속 무작위 변수에 대한 중앙 한계 정리"의 정리 1을 인용하십시오.)

공분산 $n \neq n'$ is :

$$Cov(\bar{X}^{n}_{M}, \bar{X}^{n'}_{M}) = Cov(X^{n}_{m}, X^{n'}_{m'}) = -\sigma^{2}/(MN-1)$$

$$\Rightarrow Cov(Y^{n}_{M}, Y^{n'}_{M}) = M\sigma^{2}/(MN-1) \rightarrow -\sigma^{2}/(N-1)$$

그러므로, $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ 분포를 중심으로하는 다변량 정규 분포로 수렴합니다. $0$ 공분산 행렬이있는 $\sigma^{2}(N-1)/N$ 대각선에 $-\sigma^{2}/(N-1)$비 대각선에. (참고로,이 공분산 행렬은$N-1$.)

(를 입증하기 위해 $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ 실제로 다변량 정규로 수렴합니다. 선형 조합이 정규로 수렴된다는 것을 보여 주어야합니다. $Y^{n}_{M}$ 법선으로 수렴합니다.)

1 DinosaurEgg Aug 21 2020 at 10:45

나는 현재의 경우 제한적인 분포가 엄격한 의미로 존재한다고 생각하지 않습니다. $M\to\infty$. 그러나 초기 하 분포는 높이가 감소하고 평균과 편차가 증가하여이 한계에서 정규 분포에 접근하는 경우 인 것으로 보입니다. 보다 명시 적으로 사례를 고려하십시오.$n=2$, 초기 하 분포는 다음과 같습니다.

$$P(x)=\frac{\binom{m}{x}\binom{M-m}{N-x}}{\binom{M}{N}}$$

특정 문제를 해결하기 위해 $m=\frac{M}{2}~,~N=fM~,~ f< 1/2$. 샘플링 비율이 임계 값을 초과하는 경우$1/2$계승에 대한 Stirling 근사를 사용하여 간단한 추정값을 얻는 것이 더 복잡해 지므로 앞서 언급 한 제한된 사례로 작업하겠습니다. 이 경우에는$x\in [0,fM]$. Stirling 근사치를 연결 한 후$$x!\approx x^xe^{-x}\sqrt{2\pi x}$$

단순화하면 다음과 같은 괴물 같은 표현을 얻을 수 있습니다. $P(x)$ 한계에 $M\to\infty$지금은 생략하겠습니다. 이 표현의 한계는$M$성장은 엄밀히 말하면 0입니다. 그러나$\ln P(x=fMt)$ 비례한다 $M$. 이것은 다음과 같은 사실을 지적합니다.$M\to\infty$, 이후 $\ln P<0$ 최대 값에 가까운 지점 만 $P$0이 아닌 값을 얻습니다. 최대 값은$t=1/2$. 이것으로 우리는 단순화 후에 결론을 내립니다.

$$P(x)\approx\sqrt{\frac{2}{\pi f(1-f)M}}\exp\left[-\frac{2}{f(1-f)M}(x-fM/2)^2\right]$$

이것은 분포가 x 축을 따라 더 멀리 이동 함을 의미합니다. $M\to\infty$정규화를 일정하게 유지하기 위해 단축 및 확장합니다. 수치 증거는 아래 도표에 표시된 것처럼이 결과를 뒷받침합니다.