Intervalo de confianza para la varianza para distribución normal

Aug 20 2020

Supongamos que tengo observaciones $a_{1},...,a_{n}$ de $X_{1},...,X_{n}$ independiente $\mathcal{N}(m_{1}, m_{2})$-variables aleatorias distribuidas, donde $m_{1}=E(X_{i})$ y $m_{2}=Var(X_{i})$, $i=1,...n$. ¿Cómo construyo un$95$% intervalo de confianza acotado superior para $\frac{1}{\sqrt(m_{2})}$?

Respuestas

3 BruceET Aug 21 2020 at 04:48

En notación más tradicional, que es más probable que encuentre si busca en Internet o en varios libros de texto, suponga $X_1, X_2, \dots, X_n$ es una muestra aleatoria de $\mathsf{Norm}(\mu, \sigma)$ y busca un IC del 95% para la varianza de la población $\sigma^2,$ donde ni $\mu$ norma $\sigma$ es conocida.

La relación con la distribución chi-cuadrado mencionada en los comentarios es: $$\frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(\nu = n-1),$$ dónde $\sigma^2$ es estimado por $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_u - \bar X)^2$ y $\mu$ es estimado por $\bar X = \frac 1n\sum_{i=1}^n X_i.$

A partir de él, puede utilizar tablas impresas de distribuciones chi-cuadrado o software para encontrar $L$ tal que $$P\left(L \le \frac{(n-1)S^2}{\sigma^2}\right) = P\left(\sigma^2 \le \frac{(n-1)S^2}{L}\right) = 0.95.$$

Cada nuevo conjunto de datos tendrá su propio valor de $\bar X,$ utilizado en el cálculo de $S^2.$ Pero una vez que encuentre la varianza de la muestra $S^2,$su límite de confianza está determinado; solo tienes que calcularlo.

Aquí hay un ejemplo, usando una muestra de tamaño $n = 50$ de una población normalmente distribuida que ha $\mu=100,$ $\sigma=15,$ y $\sigma^2 = 225.$ Para esta muestra en particular, obtiene el límite superior del 95% $365.3.$ [En una aplicación real, no conocería los verdaderos valores de $\mu$ y $\sigma,$ pero en esta simulación, sabes que este es uno del 95% de los límites que es correcto.]

set.seed(810)
x = rnorm(50, 100, 15)
summary(x); length(x);  sd(x);  var(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  66.13   90.98  101.76  100.48  109.32  136.47 
[1] 50          sample size
[1] 15.90439    # sample SD
[1] 252.9496    $ sample variance

49*var(x)/qchisq(.05, 49)
[1] 365.2939

Con una muestra más grande, tiene más información y normalmente obtiene un límite más cercano al valor real de $ \ sigma = 15 ^ 2 = 225. $ Usando la misma población con $ n = 500 $ observaciones, obtuve el límite $ 283,9. $

set.seed(2020)
x = rnorm(500, 100, 15)
499*var(x)/qchisq(.05, 499)
[1] 283.9234

Notas: (1) Para obtener un límite de confianza superior para $ \ frac {1} {\ sqrt {\ sigma ^ 2}} = \ frac {1} {\ sigma}, $ comience con $ U $ tal que $ P \ izquierda (\ frac {(n-1) S ^ 2} {\ sigma ^ 2} \ le U \ right) = P \ left (\ frac {1} {\ sigma ^ 2} \ le \ frac {U} { (n-1) S ^ 2} \ right) = 0.95 $ para obtener un límite de confianza para $ 1 / \ sigma ^ 2 $ y luego sacar la raíz cuadrada.

(2) Las razones para utilizar el método chi-cuadrado son que es exacto para datos normales y requiere un cálculo mínimo. Por el contrario, los métodos de bootstrap (sugeridos en un comentario) son aproximados y computacionalmente intensivos.

Sin embargo, los IC de arranque son útiles cuando se desconoce el tipo de distribución de la población o cuando las derivaciones teóricas conducen a cálculos difíciles. Probé un par de tipos de métodos de arranque para su pregunta, con resultados aproximados razonablemente buenos.

Para las demostraciones de arranque a continuación, recuerde mi ejemplo anterior con $ n = 50 $ observaciones aleatorias con varianza de muestra $ S ^ 2_ {obs} = 252.95 $ y límite de chi-cuadrado del 95% $ 365.29. $

Si no sabe que los datos son normales, puede usar un bootstrap no paramétrico. Tomamos 're-muestras' de tamaño $ n = 50 $ de los datos x( con reemplazo). Para cada nueva muestra, busque la varianza de la muestra $ S ^ 2_ {re} $ y la razón r.re $ = S ^ 2_ {re} / S ^ 2_ {obs}, $ comparando la varianza de la muestra nuevamente con la varianza observada.

Con $ 5000 $ tales razones, tenemos un ideal de cuán grande es la varianza poblacional $ \ sigma ^ 2 $ en relación con la varianza muestral observada. Luego usamos el cuantil 0.025 de los r.repara obtener un límite superior del 95% $ 373.1, $ que es un poco más grande que el resultado $ 365.29 $ del método de chi-cuadrado.

set.seed(810);  x = rnorm(50, 100, 15)
v.obs = var(x);   v.obs
[1] 252.9496
# nonpar boot
set.seed(2020)
r.re = replicate(10^5, var(sample(x,50,rep=T))/v.obs)
L = quantile(r.re, .05)
v.obs/L
      5% 
373.1255 

Si cree que los datos son normales, pero no conoce el método chi-cuadrado (¿amnesia ?, ¿ignorancia ?, ¿pereza?), Podría utilizar un bootstrap paramétrico. La principal diferencia es que las nuevas muestras no son de, xsino muestras normales "sugeridas por x" (utilizando la media y la varianza de la muestra observada).

Esto equivale a aproximar la distribución de la teoría normal de $ S ^ 2 $ por medios numéricos. Con un millón de iteraciones (tratando de minimizar el error de simulación), obtenemos un límite superior del 95% $ 365.31, $ que es esencialmente idéntico al resultado exacto $ 365.29.

set.seed(810);  x = rnorm(50, 100, 15)
v.obs = var(x);  a.obs = mean(x)
v.obs
[1] 252.9496
# param boot
r.re = replicate(10^6,var(rnorm(50,a.obs,sqrt(v.obs)))/v.obs)
L = quantile(r.re, .05)
v.obs/L
      5% 
365.3132