ขีด จำกัด ของการแจกแจงแบบไฮเปอร์จีโอเมตริกเมื่อขนาดของกลุ่มตัวอย่างเติบโตขึ้นตามขนาดประชากร

Aug 19 2020

พิจารณาเลือก $Mn/6$ ลูกบอลจากประชากรประกอบด้วย $M$ ลูกบอลของแต่ละลูก $n$ สี (ดังนั้น $Mn$ลูกทั้งหมด) ดังนั้นฟังก์ชันความหนาแน่นของตัวอย่างจึงถูกกำหนดโดยการแจกแจงไฮเปอร์จีโอเมตริกหลายตัวแปร:$$f(x_1,\ldots, x_n) = \frac{\binom{M}{x_1}\cdots\binom{M}{x_n}}{\binom{Mn}{Mn/6}}.$$ เราสามารถพูดอะไรก็ได้เกี่ยวกับพฤติกรรมที่ จำกัด ของการแจกจ่ายเป็น $M\to\infty$โดยที่จำนวนสี $n$ได้รับการแก้ไข? เนื่องจากขนาดของกลุ่มตัวอย่างเพิ่มขึ้นในอัตราเดียวกับขนาดของประชากรสิ่งนี้จะไม่รวมกันเป็นการแจกแจงแบบทวินาม / พหุนามเหมือนอย่างที่ควรจะเป็นหากขนาดของกลุ่มตัวอย่างได้รับการแก้ไข ขอความช่วยเหลือใด ๆ ! ($1/6$ ใน $Mn/6$ โดยพลการฉันแค่อยากรู้โดยทั่วไปเกี่ยวกับกรณีที่ขนาดตัวอย่างเป็นเศษส่วนคงที่ของขนาดประชากรเสมอ)

ฉันเดาว่ามันจะไม่แปลกใจเลยถ้าพูดอะไรที่เป็นประโยชน์ไม่ได้ในกรณีนี้ฉันมีคำถามที่เกี่ยวข้อง สมมติว่าคุณพิจารณาสถานการณ์เดียวกัน แต่แทนที่จะเริ่มต้นด้วย$M$ ลูกบอลแต่ละสีเราเริ่มต้นด้วยการพูดว่า $5M/6$ลูกบอลของแต่ละสี ดังนั้นฟังก์ชันความหนาแน่นที่ปรับเปลี่ยนจะเป็น:$$g(x_1,\ldots, x_n) = \frac{\binom{5M/6}{x_1}\cdots\binom{5M/6}{x_n}}{\binom{5Mn/6}{Mn/6}}.$$ เช่น $M\to\infty$มีความสัมพันธ์ที่มีความหมายระหว่าง $f$ และ $g$ที่สามารถทำได้? ดูเหมือนว่าฉันจะคลุมเครือเหมือน$M$ ความหนาแน่นทั้งสองเพิ่มขึ้นอย่างมากควรมีลักษณะเหมือนกันมากขึ้นเรื่อย ๆ แต่เป็นไปได้ว่าสัญชาตญาณนั้นผิดปกติ

คำตอบ

1 SherwinLott Aug 21 2020 at 10:56

สำหรับ $m^{th}$ ลูกบอลสี $n$ ปล่อย $X_{m}^{n}$เป็นตัวแปรสุ่มตัวบ่งชี้ว่าถูกวาดหรือไม่ สมมติว่าเรากำลังวาดเศษส่วน$\mu \in (0,1)$ ของลูกบอลในประชากร (เช่น $\mu = 1/6$) แล้ว:

$$\mathbb{E}[X_{m}^{n}] = \mu$$

$$Var(X_{m}^{n}) = \mu(1-\mu) \equiv \sigma^{2}$$

สำหรับใด ๆ $(m,n) \neq (m',n')$:

$$\begin{align} Cov(X^{n}_{m}, X^{n'}_{m'}) &= \mathbb{E}[X_{m}^{n}X_{m'}^{n'}]-\mu^{2} \\ &= -\mu (1-\mu)/(MN-1) \\ &= -\sigma^{2}/(MN-1) \end{align}$$

แก้ไข $N$สำหรับใด ๆ $M$ แสดงว่า: $$\bar{X}^{n}_{M} = \frac{1}{M}\sum_{m=1}^{M} X_{m}^{n}$$ ซึ่งมีคุณสมบัติดังนี้ $$\mathbb{E}[\bar{X}^{n}_{M}] = \mu$$

$$\begin{align} Var(\bar{X}^{n}_{M}) &= \frac{1}{M^{2}} \left[ M Var(X_{m}^{n}) + M(M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ Var(X_{m}^{n}) + (M-1)Cov(X_{m}^{n}) \right] \\ &= \frac{1}{M} \left[ \sigma^{2} - (M-1)\sigma^{2}/(MN-1) \right] \\ &= \frac{\sigma^{2}}{M}\left( \frac{M(N-1)}{MN-1} \right) \end{align}$$

กำหนด $Y^{n}_{M} = \sqrt{M}(\bar{X}^{n}_{M} - \mu)$แล้วตามทฤษฎีบทขีด จำกัด กลาง $Y^{n}_{M}$ มาบรรจบกันในการกระจายเป็น $N(0, \sigma^{2}(N-1)/N)$. (โปรดทราบว่าทฤษฎีบทขีด จำกัด กลางยังคงใช้ที่นี่แม้ว่าตัวแปรสุ่มจะขึ้นอยู่กับเล็กน้อยก็ตามอ้างอิง Theorem 1 ของ "The Central Limit Theorem For Dependent Random Variables" โดย Wassily Hoeffding และ Herbert Robbins)

ความแปรปรวนร่วมสำหรับ $n \neq n'$ คือ:

$$Cov(\bar{X}^{n}_{M}, \bar{X}^{n'}_{M}) = Cov(X^{n}_{m}, X^{n'}_{m'}) = -\sigma^{2}/(MN-1)$$

$$\Rightarrow Cov(Y^{n}_{M}, Y^{n'}_{M}) = M\sigma^{2}/(MN-1) \rightarrow -\sigma^{2}/(N-1)$$

ด้วยประการฉะนี้ $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ มาบรรจบกันในการแจกแจงเป็นค่าปกติหลายตัวแปรที่มีศูนย์กลางอยู่รอบ ๆ $0$ ด้วยเมทริกซ์ความแปรปรวนร่วมที่มี $\sigma^{2}(N-1)/N$ บนเส้นทแยงมุมและ $-\sigma^{2}/(N-1)$บนเส้นทแยงมุม (หมายเหตุเมทริกซ์ความแปรปรวนร่วมนี้มีอันดับ$N-1$.)

(เพื่อพิสูจน์ $(Y^{1}_{M}, \ldots , Y^{N}_{M})$ แน่นอนว่าจะมาบรรจบกันเป็นค่าปกติหลายตัวแปรเราจะต้องแสดงชุดค่าผสมเชิงเส้นใด ๆ ของพวกมันที่มาบรรจบกันเป็นค่าปกติซึ่งตามมาด้วยอาร์กิวเมนต์เดียวกันที่ใช้แสดง $Y^{n}_{M}$ มาบรรจบกันเป็นปกติ)

1 DinosaurEgg Aug 21 2020 at 10:45

ฉันไม่คิดว่าในกรณีปัจจุบันการกระจายแบบ จำกัด มีอยู่ในความหมายที่เข้มงวดเช่นเดียวกับ $M\to\infty$. อย่างไรก็ตามดูเหมือนว่าการแจกแจงแบบไฮเปอร์จีโอเมตริกจะเข้าใกล้การแจกแจงแบบปกติในขีด จำกัด นี้ด้วยความสูงที่ลดลงค่าเฉลี่ยและค่าเบี่ยงเบนที่เพิ่มขึ้น พิจารณากรณีนี้ให้ชัดเจนยิ่งขึ้น$n=2$ซึ่งการแจกแจงไฮเปอร์จีโอเมตริกอ่านว่า:

$$P(x)=\frac{\binom{m}{x}\binom{M-m}{N-x}}{\binom{M}{N}}$$

และจัดการกับปัญหาเฉพาะที่มือเซ็ต $m=\frac{M}{2}~,~N=fM~,~ f< 1/2$. โปรดทราบว่าหากเศษส่วนของการสุ่มตัวอย่างเกินค่าวิกฤต$1/2$มีความซับซ้อนมากขึ้นในการหาค่าประมาณอย่างง่ายโดยใช้การประมาณแบบสเตอร์ลิงสำหรับแฟกทอเรียลดังนั้นฉันจะทำงานกับกรณีที่ จำกัด ที่กล่าวถึงก่อนหน้านี้ ในกรณีนี้เป็นที่ชัดเจนว่า$x\in [0,fM]$. หลังจากเสียบค่าประมาณของสเตอร์ลิง$$x!\approx x^xe^{-x}\sqrt{2\pi x}$$

และทำให้ง่ายขึ้นเราได้รับการแสดงออกที่น่ากลัวสำหรับ $P(x)$ ในขีด จำกัด $M\to\infty$ซึ่งตอนนี้ฉันจะละไว้ ขีด จำกัด ของนิพจน์นี้เมื่ออนุญาต$M$เติบโตคือพูดอย่างเคร่งครัดศูนย์ อย่างไรก็ตามปรากฎว่า$\ln P(x=fMt)$ เป็นสัดส่วนกับ $M$. สิ่งนี้ชี้ให้เห็นถึงความจริงที่ว่า$M\to\infty$, ตั้งแต่ $\ln P<0$ เฉพาะจุดที่ใกล้ค่าสูงสุดของ $P$จะได้รับค่าที่ไม่ใช่ศูนย์ เราจะเห็นว่าบรรลุสูงสุดที่$t=1/2$. ด้วยเหตุนี้เราจึงสรุปได้หลังจากการทำให้เข้าใจง่ายว่า

$$P(x)\approx\sqrt{\frac{2}{\pi f(1-f)M}}\exp\left[-\frac{2}{f(1-f)M}(x-fM/2)^2\right]$$

ซึ่งหมายความว่าการกระจายจะเคลื่อนที่ไปตามแกน x มากขึ้นตาม $M\to\infty$แต่ยังย่อและขยายเพื่อรักษาค่าคงที่ หลักฐานเชิงตัวเลขสนับสนุนผลลัพธ์นี้ดังแสดงในพล็อตด้านล่าง