ランダムに取る $51$セット1、2、…、159からの数。それらの合計の分散を見つけます。[複製]

Nov 30 2020

ランダムに取る $51$ 159の自然数からの数 $1,...,159$交換なし。しましょう$\alpha$選択した数の合計に等しい確率変数である。の分散を見つける$\alpha$。

まず、私はについて何かを理解する必要があります $\alpha$配布。完全にあります$$C^{51}_{159} = \frac{159!}{51!108!}$$合計の種類。それらの多くは等しいので$$\sum_{i=1}^{51}i = 1326\leq\alpha\leq\sum_{i=109}^{159}i=6834$$ 結果として、サブセットの数を知りたい $51$ 数値の合計は次のようになります $N$、どこ $1362\leq N\leq6834$。やり方がわからないのでここで立ち往生しています。

回答

4 NeatMath Dec 01 2020 at 21:50

51と159を次のように置き換えます $n, M$それぞれ。ベクトルがあります$\mathbf{x}_{n\times 1}$ これは多変量分布に従い、 $\alpha = \sum_{i=1}^n x_i$ どこ $x_i$ それは $i^{th}$ のコンポーネント $\mathbf x$。

次に、対称性によって、 $E(\alpha)=E(\sum x_i)=\sum_i E(x_i) =nE(x_1)= \frac{n(M+1)}{2}$。

$$E(\alpha^2)=E\left(\sum_i x_i\right)^2 = E\left(\sum_i x_i^2\right)+E\left(\sum_{i\neq j} x_i x_j \right)$$

再び対称性によって $$ E\left(\sum_i x_i^2\right)=nE(x_1^2)=\frac 16 n(M+1)(2M+1) $$

$$ E\left(\sum_{i\neq j} x_i x_j \right)=(n^2-n)E(x_1 x_2)=\frac{n^2-n}{M^2-M}\sum_{i\ne j}ij = \frac{n^2-n}{M^2-M}\left(\left(\frac{M(M+1)}{2}\right)^2 - \frac{M(M+1)(2M+1)}{6}\right) \\= \frac{1}{12} (n^2-n)(M+1)(3M+2) $$

したがって、 $$\text{var } \alpha = E(\alpha^2) - (E(\alpha))^2 = \cdots = 73440$$

1 BruceET Nov 30 2020 at 17:03

コメント：あなたはに合理的な近似を得ることができます$Var(\alpha)$シミュレーションによる。シミュレーションでは、51個の番号が置き換えなしで選択されていると仮定します。

set.seed(2020)
alpha = replicate(10^5, sum(sample(1:159, 51)))
summary(alpha)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2915    3897    4081    4081    4266    5275

私が合計した100,000のサンプルのうち、すべての合計が質問で言及した2つの数値の間にあることに注意してください。

var(alpha)
[1] 74069.39
sd(alpha)
[1] 272.1569

のシミュレーション値のヒストグラム $\alpha$ ほぼ正規に見えるので、ヒストグラムに沿って最適な正規密度を示します。

hist(alpha, prob=T, col="skyblue2")
 curve(dnorm(x, mean(alpha), sd(alpha)), add=T, col="red")

交換すると、分散はやや大きくなります。（ここでも、$\alpha$ほぼ正常に見えます。ヒストグラムは表示されていません。）

set.seed(1130)
alpha = replicate(10^6, sum(sample(1:159, 51, rep=T)))
summary(alpha)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2593    3859    4080    4080    4302    5590 
var(alpha)
[1] 107274.7

考えられる解決策：母集団を1から159までの数値と見なすと、母集団の分散は2120になり、置換を伴うランダムサンプルの合計の分散は51倍、つまり108,120になります。これは、シミュレーションと一致しているようです。シミュレーションエラーの範囲内の結果。