Losowo weź $51$liczby ze zbioru 1, 2,…, 159. Znajdź wariancję ich sumy. [duplikować]
Bierzemy losowo $51$ liczby ze 159 liczb naturalnych $1,...,159$bez zamiany. Pozwolić$\alpha$być zmienną losową równą sumie wybranych liczb. Znajdź wariancję$\alpha$.
Najpierw muszę coś zrozumieć $\alpha$zniszczenie. Jest całkowicie$$C^{51}_{159} = \frac{159!}{51!108!}$$rodzaje sum. Wiele z nich jest równych, ponieważ$$\sum_{i=1}^{51}i = 1326\leq\alpha\leq\sum_{i=109}^{159}i=6834$$ W konsekwencji chcę wiedzieć, ile podzbiorów $51$ liczby mają sumę równą $N$, gdzie $1362\leq N\leq6834$. Utknąłem tutaj, ponieważ nie wiem, jak to zrobić.
Odpowiedzi
Wymień 51 i 159 na $n, M$odpowiednio. Mamy wektor$\mathbf{x}_{n\times 1}$ który jest zgodny z rozkładem wielowymiarowym i $\alpha = \sum_{i=1}^n x_i$ gdzie $x_i$ jest $i^{th}$ składnik $\mathbf x$.
Następnie przez symetrię $E(\alpha)=E(\sum x_i)=\sum_i E(x_i) =nE(x_1)= \frac{n(M+1)}{2}$.
$$E(\alpha^2)=E\left(\sum_i x_i\right)^2 = E\left(\sum_i x_i^2\right)+E\left(\sum_{i\neq j} x_i x_j \right)$$
Znowu przez symetrię $$ E\left(\sum_i x_i^2\right)=nE(x_1^2)=\frac 16 n(M+1)(2M+1) $$
$$ E\left(\sum_{i\neq j} x_i x_j \right)=(n^2-n)E(x_1 x_2)=\frac{n^2-n}{M^2-M}\sum_{i\ne j}ij = \frac{n^2-n}{M^2-M}\left(\left(\frac{M(M+1)}{2}\right)^2 - \frac{M(M+1)(2M+1)}{6}\right) \\= \frac{1}{12} (n^2-n)(M+1)(3M+2) $$
W związku z tym $$\text{var } \alpha = E(\alpha^2) - (E(\alpha))^2 = \cdots = 73440$$
Komentarz: Możesz uzyskać rozsądne przybliżenie do$Var(\alpha)$przez symulację. W symulacji zakładam, że 51 numerów jest wybranych bez zamiany.
set.seed(2020)
alpha = replicate(10^5, sum(sample(1:159, 51)))
summary(alpha)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2915 3897 4081 4081 4266 5275
Zauważ, że spośród 100 000 zsumowanych próbek wszystkie sumy znajdują się między dwiema liczbami, o których wspomniałeś w swoim pytaniu.
var(alpha)
[1] 74069.39
sd(alpha)
[1] 272.1569
Histogram symulowanych wartości $\alpha$ wygląda mniej więcej normalnie, więc na histogramie pokazuję najlepiej dopasowaną normalną gęstość.

hist(alpha, prob=T, col="skyblue2")
curve(dnorm(x, mean(alpha), sd(alpha)), add=T, col="red")
Po wymianie wariancja jest nieco większa. (Ponownie tutaj dystrybucja$\alpha$wydaje się w przybliżeniu normalny; histogram nie jest pokazany.)
set.seed(1130)
alpha = replicate(10^6, sum(sample(1:159, 51, rep=T)))
summary(alpha)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2593 3859 4080 4080 4302 5590
var(alpha)
[1] 107274.7
Możliwe rozwiązanie: jeśli weźmiemy pod uwagę populację o liczbach od 1 do 159, to populacja ma wariancję 2120, a suma próby losowej z zastąpieniem powinna mieć wariancję 51 razy większą, czyli 108,120, co wydaje się zgadzać z symulowanym wynik w granicach błędu symulacji.
var(1:159)
[1] 2120
51*var(1:159)
[1] 108120