Доверительный интервал дисперсии для нормального распределения

Aug 20 2020

Предположим, у меня есть наблюдения $a_{1},...,a_{n}$ из $X_{1},...,X_{n}$ независимый $\mathcal{N}(m_{1}, m_{2})$-распределенные случайные величины, где $m_{1}=E(X_{i})$ и $m_{2}=Var(X_{i})$, $i=1,...n$. Как мне построить$95$% верхний ограниченный доверительный интервал для $\frac{1}{\sqrt(m_{2})}$?

Ответы

3 BruceET Aug 21 2020 at 04:48

В более традиционных обозначениях, с которыми вы, скорее всего, столкнетесь, если посмотрите в Интернете или в различных учебниках, предположим, что $X_1, X_2, \dots, X_n$ случайная выборка из $\mathsf{Norm}(\mu, \sigma)$ и вы ищете 95% доверительный интервал для дисперсии совокупности $\sigma^2,$ где ни $\mu$ норма $\sigma$ известен.

Отношение к распределению хи-квадрат, упомянутое в комментариях, следующее: $$\frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(\nu = n-1),$$ где $\sigma^2$ оценивается $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_u - \bar X)^2$ и $\mu$ оценивается $\bar X = \frac 1n\sum_{i=1}^n X_i.$

Из него вы можете использовать распечатанные таблицы распределений хи-квадрат или программное обеспечение, чтобы найти $L$ такой, что $$P\left(L \le \frac{(n-1)S^2}{\sigma^2}\right) = P\left(\sigma^2 \le \frac{(n-1)S^2}{L}\right) = 0.95.$$

Каждый новый набор данных будет иметь собственное значение $\bar X,$ используется при вычислении $S^2.$ Но как только вы обнаружите дисперсию выборки $S^2,$предел вашей уверенности определен; вам нужно только вычислить это.

Вот пример с использованием выборки размера $n = 50$ от нормально распределенного населения, которое $\mu=100,$ $\sigma=15,$ и $\sigma^2 = 225.$ Для этого конкретного образца вы получаете верхнюю границу 95% $365.3.$ [В реальном приложении вы не знаете истинных значений $\mu$ и $\sigma,$ но в этой модели вы знаете, что это одна из 95% правильных границ.]

set.seed(810)
x = rnorm(50, 100, 15)
summary(x); length(x);  sd(x);  var(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  66.13   90.98  101.76  100.48  109.32  136.47 
[1] 50          sample size
[1] 15.90439    # sample SD
[1] 252.9496    $ sample variance

49*var(x)/qchisq(.05, 49)
[1] 365.2939

С большей выборкой у вас больше информации, и вы обычно получаете границу, которая ближе к фактическому значению $ \ sigma = 15 ^ 2 = 225. $ Используя ту же популяцию с наблюдениями $ n = 500 $ , я получил границу 283,9 долл. США

set.seed(2020)
x = rnorm(500, 100, 15)
499*var(x)/qchisq(.05, 499)
[1] 283.9234

Примечания: (1) Чтобы получить верхнюю доверительную границу для $ \ frac {1} {\ sqrt {\ sigma ^ 2}} = \ frac {1} {\ sigma}, $ начните с $ U $ так , чтобы $ P \ left (\ frac {(n-1) S ^ 2} {\ sigma ^ 2} \ le U \ right) = P \ left (\ frac {1} {\ sigma ^ 2} \ le \ frac {U} { (n-1) S ^ 2} \ right) = 0,95 $, чтобы получить доверительную границу для $ 1 / \ sigma ^ 2 $, а затем извлечь квадратный корень.

(2) Причины использования метода хи-квадрат заключаются в том, что он точен для нормальных данных и требует минимальных вычислений. Напротив, методы начальной загрузки (предложенные в комментарии) являются приблизительными и требуют больших вычислительных ресурсов.

Тем не менее, бутстрапные КИ полезны, когда тип распределения населения неизвестен или когда теоретические выводы приводят к трудным вычислениям. Я пробовал несколько типов методов начальной загрузки для вашего вопроса - с достаточно хорошими приблизительными результатами.

Для демонстрации начальной загрузки, приведенной ниже, вспомните мой пример выше с $ n = 50 $ случайных наблюдений с выборочной дисперсией $ S ^ 2_ {obs} = 252,95 $ и 95% граничным значением хи-квадрат 365,29 $. $

Если вы не знаете, что данные нормальные, вы можете использовать непараметрический бутстрап. Берем «повторные выборки» размером $ n = 50 $ из данных x( с заменой). Для каждой повторной выборки найдите дисперсию выборки $ S ^ 2_ {re} $ и соотношение r.re $ = S ^ 2_ {re} / S ^ 2_ {obs}, $ сравнивая повторно выбранную дисперсию с наблюдаемой дисперсией.

При таких соотношениях $ 5000 $ у нас есть идеальная величина дисперсии генеральной совокупности $ \ sigma ^ 2 $ по сравнению с наблюдаемой дисперсией выборки. Затем мы используем квантиль 0,025, r.reчтобы получить верхнюю границу 95% в размере 373,1 доллара США, что немного больше, чем результат 365,29 доллара США по методу хи-квадрат.

set.seed(810);  x = rnorm(50, 100, 15)
v.obs = var(x);   v.obs
[1] 252.9496
# nonpar boot
set.seed(2020)
r.re = replicate(10^5, var(sample(x,50,rep=T))/v.obs)
L = quantile(r.re, .05)
v.obs/L
      5% 
373.1255 

Если вы считаете, что данные нормальны, но не знаете о методе хи-квадрат (амнезия? Невежество? Лень?), Вы можете использовать параметрический бутстрап. Основное различие заключается в том, что повторные выборки не из, xа являются нормальными выборками, предложенными x«(с использованием наблюдаемого среднего и дисперсии выборки).

Это равносильно аппроксимации распределения $ S ^ 2 $ по нормальной теории численными методами. Сделав миллион итераций (пытаясь свести к минимуму ошибку моделирования), мы получаем 95% верхнюю границу 365,31 доллара США, что по существу идентично точному результату 365,29 доллара США.

set.seed(810);  x = rnorm(50, 100, 15)
v.obs = var(x);  a.obs = mean(x)
v.obs
[1] 252.9496
# param boot
r.re = replicate(10^6,var(rnorm(50,a.obs,sqrt(v.obs)))/v.obs)
L = quantile(r.re, .05)
v.obs/L
      5% 
365.3132