正規分布の分散の信頼区間

Aug 20 2020

私が観察をしているとしましょう $a_{1},...,a_{n}$$X_{1},...,X_{n}$ 独立 $\mathcal{N}(m_{1}, m_{2})$-分散確率変数、ここで $m_{1}=E(X_{i})$ そして $m_{2}=Var(X_{i})$$i=1,...n$。どうすれば構築できますか$95$%の上限信頼区間 $\frac{1}{\sqrt(m_{2})}$

回答

3 BruceET Aug 21 2020 at 04:48

インターネットやさまざまな教科書を見ると遭遇する可能性が高い、より伝統的な記譜法では、 $X_1, X_2, \dots, X_n$ からのランダムサンプルです $\mathsf{Norm}(\mu, \sigma)$ そして、母分散の95%CIを求めます $\sigma^2,$ どちらも $\mu$ ノルム $\sigma$ 知られている。

コメントで言及されているカイ二乗分布との関係は次のとおりです。 $$\frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(\nu = n-1),$$ どこ $\sigma^2$ によって推定されます $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_u - \bar X)^2$ そして $\mu$ によって推定されます $\bar X = \frac 1n\sum_{i=1}^n X_i.$

そこから、カイ2乗分布の印刷された表またはソフトウェアを使用して検索できます $L$ そのような $$P\left(L \le \frac{(n-1)S^2}{\sigma^2}\right) = P\left(\sigma^2 \le \frac{(n-1)S^2}{L}\right) = 0.95.$$

新しいデータセットにはそれぞれ独自の値があります $\bar X,$ の計算に使用されます $S^2.$ しかし、サンプルの分散を見つけたら $S^2,$あなたの信頼限界が決定されます。あなたはそれを計算するだけです。

サイズのサンプルを使用した例を次に示します $n = 50$ を持っている正規分布の母集団から $\mu=100,$ $\sigma=15,$ そして $\sigma^2 = 225.$ この特定のサンプルでは、​​95%の上限があります $365.3.$ [実際のアプリケーションでは、の真の値はわかりません。 $\mu$ そして $\sigma,$ しかし、このシミュレーションでは、これが正しい範囲の95%の1つであることがわかります。]

set.seed(810)
x = rnorm(50, 100, 15)
summary(x); length(x);  sd(x);  var(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  66.13   90.98  101.76  100.48  109.32  136.47 
[1] 50          sample size
[1] 15.90439    # sample SD
[1] 252.9496    $ sample variance

49*var(x)/qchisq(.05, 49)
[1] 365.2939

サンプルが大きいほど、より多くの情報が得られ、通常、$ \ sigma = 15 ^ 2 = 225の実際の値に近い範囲が得られます。$ n = 500 $の観測値を持つ同じ母集団を使用して、範囲を取得しました。$ 283.9。$

set.seed(2020)
x = rnorm(500, 100, 15)
499*var(x)/qchisq(.05, 499)
[1] 283.9234

注:(1)$ \ frac {1} {\ sqrt {\ sigma ^ 2}} = \ frac {1} {\ sigma}の信頼上限を取得するには、$ P \のように$ U $で開始します。left(\ frac {(n-1)S ^ 2} {\ sigma ^ 2} \ le U \ right)= P \ left(\ frac {1} {\ sigma ^ 2} \ le \ frac {U} { (n-1)S ^ 2} \ right)= 0.95 $を使用して、$ 1 / \ sigma ^ 2 $の信頼限界を取得し、平方根を取ります。

(2)カイ二乗法を使用する理由は、それが正規データに対して正確であり、最小限の計算しか必要としないためです。対照的に、ブートストラップ法(コメントで提案されている)は概算であり、計算量が多くなります。

それでも、ブートストラップCIは、人口分布のタイプが不明な場合、または理論的な導出によって計算が困難になる場合に役立ちます。私はあなたの質問のためにいくつかのタイプのブートストラップ法を試しました-かなり良いおおよその結果で。

以下のブートストラップのデモンストレーションについては、サンプル分散$ S ^ 2_ {obs} = 252.95 $および95%カイ2乗境界$ 365.29。$の$ n = 50 $ランダム観測を使用した上記の例を思い出してください。

データが正常であることがわからない場合は、ノンパラメトリックブートストラップを使用できます私たちは、大きさの「再サンプル」取る$ N = 50 $のデータからxとの交換が)。再サンプリングごとに、サンプル分散$ S ^ 2_ {re} $と比率r.re $ = S ^ 2_ {re} / S ^ 2_ {obs}、$を見つけ、再サンプリングされた分散を観測された分散と比較します。

このような比率が$ 5000 $の場合、観測されたサンプル分散と比較して、母分散$ \ sigma ^ 2 $がどれだけ大きいかが理想的です。次に、r.reの分位数0.025を使用して、95%の上限$ 373.1、$を取得します。これは、カイ2乗法の結果$ 365.29 $よりも少し大きい値です。

set.seed(810);  x = rnorm(50, 100, 15)
v.obs = var(x);   v.obs
[1] 252.9496
# nonpar boot
set.seed(2020)
r.re = replicate(10^5, var(sample(x,50,rep=T))/v.obs)
L = quantile(r.re, .05)
v.obs/L
      5% 
373.1255 

データが正常であると信じているが、カイ2乗法(記憶喪失?無知?怠惰?)について知らない場合は、パラメトリックブートストラップを使用できます主な違いは、再サンプルはからではなく、「」xによって提案された正規サンプルであるということですx(観測されたサンプルの平均と分散を使用)。

これ、数値的手段によって$ S ^ 2 $の正規理論分布を近似することになります。100万回の反復(シミュレーションエラーを最小限に抑えようとする)で、95%の上限$ 365.31、$得られます。これは、正確な結果$ 365.29。$と本質的に同じです

set.seed(810);  x = rnorm(50, 100, 15)
v.obs = var(x);  a.obs = mean(x)
v.obs
[1] 252.9496
# param boot
r.re = replicate(10^6,var(rnorm(50,a.obs,sqrt(v.obs)))/v.obs)
L = quantile(r.re, .05)
v.obs/L
      5% 
365.3132