Intervalo de confianza para la varianza para distribución normal
Supongamos que tengo observaciones $a_{1},...,a_{n}$ de $X_{1},...,X_{n}$ independiente $\mathcal{N}(m_{1}, m_{2})$-variables aleatorias distribuidas, donde $m_{1}=E(X_{i})$ y $m_{2}=Var(X_{i})$, $i=1,...n$. ¿Cómo construyo un$95$% intervalo de confianza acotado superior para $\frac{1}{\sqrt(m_{2})}$?
Respuestas
En notación más tradicional, que es más probable que encuentre si busca en Internet o en varios libros de texto, suponga $X_1, X_2, \dots, X_n$ es una muestra aleatoria de $\mathsf{Norm}(\mu, \sigma)$ y busca un IC del 95% para la varianza de la población $\sigma^2,$ donde ni $\mu$ norma $\sigma$ es conocida.
La relación con la distribución chi-cuadrado mencionada en los comentarios es: $$\frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(\nu = n-1),$$ dónde $\sigma^2$ es estimado por $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_u - \bar X)^2$ y $\mu$ es estimado por $\bar X = \frac 1n\sum_{i=1}^n X_i.$
A partir de él, puede utilizar tablas impresas de distribuciones chi-cuadrado o software para encontrar $L$ tal que $$P\left(L \le \frac{(n-1)S^2}{\sigma^2}\right) = P\left(\sigma^2 \le \frac{(n-1)S^2}{L}\right) = 0.95.$$
Cada nuevo conjunto de datos tendrá su propio valor de $\bar X,$ utilizado en el cálculo de $S^2.$ Pero una vez que encuentre la varianza de la muestra $S^2,$su límite de confianza está determinado; solo tienes que calcularlo.
Aquí hay un ejemplo, usando una muestra de tamaño $n = 50$ de una población normalmente distribuida que ha $\mu=100,$ $\sigma=15,$ y $\sigma^2 = 225.$ Para esta muestra en particular, obtiene el límite superior del 95% $365.3.$ [En una aplicación real, no conocería los verdaderos valores de $\mu$ y $\sigma,$ pero en esta simulación, sabes que este es uno del 95% de los límites que es correcto.]
set.seed(810)
x = rnorm(50, 100, 15)
summary(x); length(x); sd(x); var(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
66.13 90.98 101.76 100.48 109.32 136.47
[1] 50 sample size
[1] 15.90439 # sample SD
[1] 252.9496 $ sample variance
49*var(x)/qchisq(.05, 49)
[1] 365.2939
Con una muestra más grande, tiene más información y normalmente obtiene un límite más cercano al valor real de $ \ sigma = 15 ^ 2 = 225. $ Usando la misma población con $ n = 500 $ observaciones, obtuve el límite $ 283,9. $
set.seed(2020)
x = rnorm(500, 100, 15)
499*var(x)/qchisq(.05, 499)
[1] 283.9234
Notas: (1) Para obtener un límite de confianza superior para $ \ frac {1} {\ sqrt {\ sigma ^ 2}} = \ frac {1} {\ sigma}, $ comience con $ U $ tal que $ P \ izquierda (\ frac {(n-1) S ^ 2} {\ sigma ^ 2} \ le U \ right) = P \ left (\ frac {1} {\ sigma ^ 2} \ le \ frac {U} { (n-1) S ^ 2} \ right) = 0.95 $ para obtener un límite de confianza para $ 1 / \ sigma ^ 2 $ y luego sacar la raíz cuadrada.
(2) Las razones para utilizar el método chi-cuadrado son que es exacto para datos normales y requiere un cálculo mínimo. Por el contrario, los métodos de bootstrap (sugeridos en un comentario) son aproximados y computacionalmente intensivos.
Sin embargo, los IC de arranque son útiles cuando se desconoce el tipo de distribución de la población o cuando las derivaciones teóricas conducen a cálculos difíciles. Probé un par de tipos de métodos de arranque para su pregunta, con resultados aproximados razonablemente buenos.
Para las demostraciones de arranque a continuación, recuerde mi ejemplo anterior con $ n = 50 $ observaciones aleatorias con varianza de muestra $ S ^ 2_ {obs} = 252.95 $ y límite de chi-cuadrado del 95% $ 365.29. $
Si no sabe que los datos son normales, puede usar un bootstrap no paramétrico. Tomamos 're-muestras' de tamaño $ n = 50 $ de los datos x
( con reemplazo). Para cada nueva muestra, busque la varianza de la muestra $ S ^ 2_ {re} $ y la razón r.re
$ = S ^ 2_ {re} / S ^ 2_ {obs}, $ comparando la varianza de la muestra nuevamente con la varianza observada.
Con $ 5000 $ tales razones, tenemos un ideal de cuán grande es la varianza poblacional $ \ sigma ^ 2 $ en relación con la varianza muestral observada. Luego usamos el cuantil 0.025 de los r.re
para obtener un límite superior del 95% $ 373.1, $ que es un poco más grande que el resultado $ 365.29 $ del método de chi-cuadrado.
set.seed(810); x = rnorm(50, 100, 15)
v.obs = var(x); v.obs
[1] 252.9496
# nonpar boot
set.seed(2020)
r.re = replicate(10^5, var(sample(x,50,rep=T))/v.obs)
L = quantile(r.re, .05)
v.obs/L
5%
373.1255
Si cree que los datos son normales, pero no conoce el método chi-cuadrado (¿amnesia ?, ¿ignorancia ?, ¿pereza?), Podría utilizar un bootstrap paramétrico. La principal diferencia es que las nuevas muestras no son de, x
sino muestras normales "sugeridas por x
" (utilizando la media y la varianza de la muestra observada).
Esto equivale a aproximar la distribución de la teoría normal de $ S ^ 2 $ por medios numéricos. Con un millón de iteraciones (tratando de minimizar el error de simulación), obtenemos un límite superior del 95% $ 365.31, $ que es esencialmente idéntico al resultado exacto $ 365.29.
set.seed(810); x = rnorm(50, 100, 15)
v.obs = var(x); a.obs = mean(x)
v.obs
[1] 252.9496
# param boot
r.re = replicate(10^6,var(rnorm(50,a.obs,sqrt(v.obs)))/v.obs)
L = quantile(r.re, .05)
v.obs/L
5%
365.3132