Ambil secara acak $51$angka dari set 1, 2,…, 159. Tentukan varian dari jumlah mereka. [duplikat]

Nov 30 2020

Kami mengambil secara acak $51$ angka dari 159 bilangan asli $1,...,159$tanpa penggantian. Membiarkan$\alpha$menjadi variabel acak yang sama dengan jumlah dari angka yang dipilih. Temukan varians dari$\alpha$.

Pertama saya perlu memahami sesuatu tentang $\alpha$destribution. Benar-benar ada$$C^{51}_{159} = \frac{159!}{51!108!}$$jenis jumlah. Banyak dari mereka setara, karena$$\sum_{i=1}^{51}i = 1326\leq\alpha\leq\sum_{i=109}^{159}i=6834$$ Consequenlty, saya ingin tahu berapa subset dari $51$ angka memiliki jumlah yang sama dengan $N$, dimana $1362\leq N\leq6834$. Saya terjebak di sini karena saya tidak tahu bagaimana melakukannya.

Jawaban

4 NeatMath Dec 01 2020 at 21:50

Ganti 51 dan 159 dengan $n, M$masing-masing. Kami memiliki vektor$\mathbf{x}_{n\times 1}$ yang mengikuti distribusi multivariasi, dan $\alpha = \sum_{i=1}^n x_i$ dimana $x_i$ adalah $i^{th}$ komponen dari $\mathbf x$.

Kemudian, dengan simetri, $E(\alpha)=E(\sum x_i)=\sum_i E(x_i) =nE(x_1)= \frac{n(M+1)}{2}$.

$$E(\alpha^2)=E\left(\sum_i x_i\right)^2 = E\left(\sum_i x_i^2\right)+E\left(\sum_{i\neq j} x_i x_j \right)$$

Sekali lagi dengan simetri $$ E\left(\sum_i x_i^2\right)=nE(x_1^2)=\frac 16 n(M+1)(2M+1) $$

$$ E\left(\sum_{i\neq j} x_i x_j \right)=(n^2-n)E(x_1 x_2)=\frac{n^2-n}{M^2-M}\sum_{i\ne j}ij = \frac{n^2-n}{M^2-M}\left(\left(\frac{M(M+1)}{2}\right)^2 - \frac{M(M+1)(2M+1)}{6}\right) \\= \frac{1}{12} (n^2-n)(M+1)(3M+2) $$

Karena itu $$\text{var } \alpha = E(\alpha^2) - (E(\alpha))^2 = \cdots = 73440$$

1 BruceET Nov 30 2020 at 17:03

Komentar: Anda bisa mendapatkan perkiraan yang masuk akal untuk$Var(\alpha)$dengan simulasi. Dalam simulasi, saya menganggap 51 nomor dipilih tanpa penggantian.

set.seed(2020)
alpha = replicate(10^5, sum(sample(1:159, 51)))
summary(alpha)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2915    3897    4081    4081    4266    5275 

Perhatikan bahwa di antara 100.000 sampel yang saya jumlahkan, semua total berada di antara dua angka yang Anda sebutkan dalam pertanyaan Anda.

var(alpha)
[1] 74069.39
sd(alpha)
[1] 272.1569

Histogram dari nilai simulasi $\alpha$ terlihat kira-kira normal, jadi saya menunjukkan kerapatan normal yang paling pas di sepanjang histogram.

hist(alpha, prob=T, col="skyblue2")
 curve(dnorm(x, mean(alpha), sd(alpha)), add=T, col="red")

Dengan penggantian, variannya agak lebih besar. (Sekali lagi di sini distribusi$\alpha$tampak kira-kira normal; histogram tidak ditampilkan.)

set.seed(1130)
alpha = replicate(10^6, sum(sample(1:159, 51, rep=T)))
summary(alpha)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2593    3859    4080    4080    4302    5590 
var(alpha)
[1] 107274.7

Solusi yang mungkin: Jika Anda menganggap populasi adalah angka 1 sampai 159, maka populasi memiliki varian 2120, dan jumlah sampel acak dengan penggantian harus memiliki varian 51 kali lebih besar, yaitu 108.120, yang tampaknya sesuai dengan simulasi hasil dalam margin kesalahan simulasi.

var(1:159)
[1] 2120
51*var(1:159)
[1] 108120