Covarianza entre $X_i-\overline{X}$ y $\overline{X}$ [duplicar]
Dejar $n>2$ y $\sigma^2>0$.
Se realizó un examen de matemáticas con $n$Participantes. La puntuación sigue la distribución normal con la media$\mu_X$ la varianza $\sigma^2$.
Las puntuaciones del examen de matemáticas son $X_1,...,X_n$.
$$\overline{ X }=\frac{1}{n}\displaystyle \sum_{i=1}^n X_i$$
Para cada $i = 1,...,n$, ¿cuál es el valor de la covarianza entre $X_i-\overline{X}$ y $\overline{X}$?
(Lo que he probado)
$\operatorname{Cov}[X_i-X,\overline{X}]$
$ = E[(X_i-X)\overline{X}]-E[X_i-X]E[\overline{X}]$
$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-E[\overline{X}])E[\overline{X}]$
$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-\mu)\mu$
y no sé cómo lidiar con el resto del trimestre con $E[]$.
¿Alguien puede ayudarme?
Respuestas
Los residuos de una media tienen $0$covarianza con la media. Sin perder la generalidad, encuentra$Cov(X_1-\bar X, \bar X):$ Entonces $$Cov(X_1 - \bar X, \bar X) = Cov(X_1, \bar X) - Cov(\bar X,\bar X)\\ = Cov(X_1, \bar X) + Var(\bar X) = Cov(X_1,\bar X) -\sigma^2/n.$$
Ahora $$Cov(X_1,\bar X) = Cov\left(X_1, \frac 1n\sum_{i=1}^nX_i\right)\\ =Cov\left(X_1,\frac 1n X_1\right) + 0 = \frac 1n Cov(X_1,X_1)\\ = \frac 1n Var(X_1) = \sigma^2/n.$$
Así, $Cov(X_1,\bar X) = \sigma^2/n - \sigma^2/n = 0.$
Relación con la inferencia estadística. Este resultado es importante en la inferencia estadística. Los residuales $r_i = X_i - \bar X$ de las observaciones de sus medias de grupo se utilizan ampliamente en ANOVA y regresión.
Media muestral y varianza independientes para datos normales. Para los datos normales no correlacionados implica independientes. Porque$\bar X$ es independiente de la $r_i,$ entonces es independiente de $S.$ Entonces, para datos normales $\bar X$ y $S_X^2$son estocásticamente independientes. (No son 'funcionalmente' independientes porque$\bar X$ se usa para encontrar $S_X^2.)$ Esto es importante para las estadísticas t porque la distribución t de Student se define en términos de una razón con numerador y denominador independientes.
Simulaciones que ilustran la falta de correlación. Una breve simulación en R ilustra que las medias no están correlacionadas con los residuos de ellas. (La simulación utiliza 10 millones de muestras normales de tamaño$n=10,$ dando varios lugares decimales de precisión para la correlación.)
set.seed(2020)
M = 10^7; n = 10
X = rnorm(M*n, 100, 15)
DTA = matrix(X, nrow=M)
A = rowMeans(DTA)
X1 = DTA[,1]
cor(X1-A,A)
[1] -0.0004722208 # aprx 0
Una simulación similar con datos exponenciales también muestra falta de correlación:
set.seed(2020)
M = 10^7; n = 10
Y = rexp(M*n)
DTA = matrix(Y, nrow=M)
A = rowMeans(DTA)
Y1 = DTA[,1]
cor(Y1-A,A)
[1] 4.620507e-08
Sin embargo, los diagramas de dispersión de los residuos frente a las medias ilustran la independencia de los datos normales, pero un patrón claro de dependencia de los datos exponenciales. (Usamos números reducidos de conjuntos de datos para un número manejable de puntos en los diagramas de dispersión).
m=30000
x1=X1[1:m]; a.x=A[1:m]; r.x=x1-a.x
y1=Y1[1:m]; a.y=A[1:m]; r.y=y1-a.y
par(mfrow=c(1,2))
plot(a.x,r.x, pch=".", main="Normal Data")
plot(a.y,r.y, pch=".", main="Exponential Data")
par(mfrow=c(1,1))