무작위로 $51$집합 1, 2,…, 159의 숫자. 합계의 분산을 찾습니다. [복제]

Nov 30 2020

우리는 무작위로 $51$ 159 자연수의 숫자 $1,...,159$교체없이. 허락하다$\alpha$선택한 숫자의 합과 같은 랜덤 변수 여야합니다. 분산 찾기$\alpha$.

먼저 나는 뭔가를 이해해야 $\alpha$배포. 완전히 있습니다$$C^{51}_{159} = \frac{159!}{51!108!}$$종류의 합계. 그들 중 많은 수가 동일합니다.$$\sum_{i=1}^{51}i = 1326\leq\alpha\leq\sum_{i=109}^{159}i=6834$$ 결과적으로 몇 개의 하위 집합이 있는지 알고 싶습니다. $51$ 숫자의 합계는 다음과 같습니다. $N$, 어디 $1362\leq N\leq6834$. 나는 그것을하는 방법을 모르기 때문에 여기에 갇혀 있습니다.

답변

4 NeatMath Dec 01 2020 at 21:50

51과 159를 $n, M$각기. 벡터가 있습니다$\mathbf{x}_{n\times 1}$ 다변량 분포를 따르고 $\alpha = \sum_{i=1}^n x_i$ 어디 $x_i$ 이다 $i^{th}$ 구성 요소 $\mathbf x$.

그런 다음 대칭으로 $E(\alpha)=E(\sum x_i)=\sum_i E(x_i) =nE(x_1)= \frac{n(M+1)}{2}$.

$$E(\alpha^2)=E\left(\sum_i x_i\right)^2 = E\left(\sum_i x_i^2\right)+E\left(\sum_{i\neq j} x_i x_j \right)$$

다시 대칭으로 $$ E\left(\sum_i x_i^2\right)=nE(x_1^2)=\frac 16 n(M+1)(2M+1) $$

$$ E\left(\sum_{i\neq j} x_i x_j \right)=(n^2-n)E(x_1 x_2)=\frac{n^2-n}{M^2-M}\sum_{i\ne j}ij = \frac{n^2-n}{M^2-M}\left(\left(\frac{M(M+1)}{2}\right)^2 - \frac{M(M+1)(2M+1)}{6}\right) \\= \frac{1}{12} (n^2-n)(M+1)(3M+2) $$

따라서 $$\text{var } \alpha = E(\alpha^2) - (E(\alpha))^2 = \cdots = 73440$$

1 BruceET Nov 30 2020 at 17:03

코멘트 : 당신은 합리적인 근사치를 얻을 수 있습니다$Var(\alpha)$시뮬레이션으로. 시뮬레이션에서는 51 개의 숫자가 대체없이 선택되었다고 가정합니다 .

set.seed(2020)
alpha = replicate(10^5, sum(sample(1:159, 51)))
summary(alpha)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2915    3897    4081    4081    4266    5275 

내가 합산 한 100,000 개의 샘플 중 모든 합계가 질문에서 언급 한 두 숫자 사이에 있음을 유의하십시오.

var(alpha)
[1] 74069.39
sd(alpha)
[1] 272.1569

시뮬레이션 된 값의 히스토그램 $\alpha$ 거의 정상으로 보이므로 히스토그램과 함께 가장 적합한 정상 밀도를 보여줍니다.

hist(alpha, prob=T, col="skyblue2")
 curve(dnorm(x, mean(alpha), sd(alpha)), add=T, col="red")

교체 하면 분산이 다소 커집니다. (여기에 다시 분포$\alpha$거의 정상인 것 같습니다. 히스토그램은 표시되지 않습니다.)

set.seed(1130)
alpha = replicate(10^6, sum(sample(1:159, 51, rep=T)))
summary(alpha)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2593    3859    4080    4080    4302    5590 
var(alpha)
[1] 107274.7

가능한 솔루션 : 모집단을 1에서 159까지의 숫자로 간주하면 모집단의 분산이 2120이고 대체 된 랜덤 표본의 분산이 51 배 더 커야합니다. 즉, 시뮬레이션 결과와 일치하는 것으로 보입니다. 시뮬레이션 오류 범위 내에서 발생합니다.

var(1:159)
[1] 2120
51*var(1:159)
[1] 108120