Ambil secara acak $51$angka dari set 1, 2,…, 159. Tentukan varian dari jumlah mereka. [duplikat]
Kami mengambil secara acak $51$ angka dari 159 bilangan asli $1,...,159$tanpa penggantian. Membiarkan$\alpha$menjadi variabel acak yang sama dengan jumlah dari angka yang dipilih. Temukan varians dari$\alpha$.
Pertama saya perlu memahami sesuatu tentang $\alpha$destribution. Benar-benar ada$$C^{51}_{159} = \frac{159!}{51!108!}$$jenis jumlah. Banyak dari mereka setara, karena$$\sum_{i=1}^{51}i = 1326\leq\alpha\leq\sum_{i=109}^{159}i=6834$$ Consequenlty, saya ingin tahu berapa subset dari $51$ angka memiliki jumlah yang sama dengan $N$, dimana $1362\leq N\leq6834$. Saya terjebak di sini karena saya tidak tahu bagaimana melakukannya.
Jawaban
Ganti 51 dan 159 dengan $n, M$masing-masing. Kami memiliki vektor$\mathbf{x}_{n\times 1}$ yang mengikuti distribusi multivariasi, dan $\alpha = \sum_{i=1}^n x_i$ dimana $x_i$ adalah $i^{th}$ komponen dari $\mathbf x$.
Kemudian, dengan simetri, $E(\alpha)=E(\sum x_i)=\sum_i E(x_i) =nE(x_1)= \frac{n(M+1)}{2}$.
$$E(\alpha^2)=E\left(\sum_i x_i\right)^2 = E\left(\sum_i x_i^2\right)+E\left(\sum_{i\neq j} x_i x_j \right)$$
Sekali lagi dengan simetri $$ E\left(\sum_i x_i^2\right)=nE(x_1^2)=\frac 16 n(M+1)(2M+1) $$
$$ E\left(\sum_{i\neq j} x_i x_j \right)=(n^2-n)E(x_1 x_2)=\frac{n^2-n}{M^2-M}\sum_{i\ne j}ij = \frac{n^2-n}{M^2-M}\left(\left(\frac{M(M+1)}{2}\right)^2 - \frac{M(M+1)(2M+1)}{6}\right) \\= \frac{1}{12} (n^2-n)(M+1)(3M+2) $$
Karena itu $$\text{var } \alpha = E(\alpha^2) - (E(\alpha))^2 = \cdots = 73440$$
Komentar: Anda bisa mendapatkan perkiraan yang masuk akal untuk$Var(\alpha)$dengan simulasi. Dalam simulasi, saya menganggap 51 nomor dipilih tanpa penggantian.
set.seed(2020)
alpha = replicate(10^5, sum(sample(1:159, 51)))
summary(alpha)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2915 3897 4081 4081 4266 5275
Perhatikan bahwa di antara 100.000 sampel yang saya jumlahkan, semua total berada di antara dua angka yang Anda sebutkan dalam pertanyaan Anda.
var(alpha)
[1] 74069.39
sd(alpha)
[1] 272.1569
Histogram dari nilai simulasi $\alpha$ terlihat kira-kira normal, jadi saya menunjukkan kerapatan normal yang paling pas di sepanjang histogram.

hist(alpha, prob=T, col="skyblue2")
curve(dnorm(x, mean(alpha), sd(alpha)), add=T, col="red")
Dengan penggantian, variannya agak lebih besar. (Sekali lagi di sini distribusi$\alpha$tampak kira-kira normal; histogram tidak ditampilkan.)
set.seed(1130)
alpha = replicate(10^6, sum(sample(1:159, 51, rep=T)))
summary(alpha)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2593 3859 4080 4080 4302 5590
var(alpha)
[1] 107274.7
Solusi yang mungkin: Jika Anda menganggap populasi adalah angka 1 sampai 159, maka populasi memiliki varian 2120, dan jumlah sampel acak dengan penggantian harus memiliki varian 51 kali lebih besar, yaitu 108.120, yang tampaknya sesuai dengan simulasi hasil dalam margin kesalahan simulasi.
var(1:159)
[1] 2120
51*var(1:159)
[1] 108120