Covariância entre $X_i-\overline{X}$ e $\overline{X}$ [duplicado]
Deixei $n>2$ e $\sigma^2>0$.
Um exame de matemática foi realizado com $n$participantes. A pontuação segue a distribuição normal com a média$\mu_X$ a variância $\sigma^2$.
As pontuações do exame de matemática são $X_1,...,X_n$.
$$\overline{ X }=\frac{1}{n}\displaystyle \sum_{i=1}^n X_i$$
Para cada $i = 1,...,n$, qual é o valor da covariância entre $X_i-\overline{X}$ e $\overline{X}$?
(O que eu tentei)
$\operatorname{Cov}[X_i-X,\overline{X}]$
$ = E[(X_i-X)\overline{X}]-E[X_i-X]E[\overline{X}]$
$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-E[\overline{X}])E[\overline{X}]$
$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-\mu)\mu$
e eu não sei como lidar com o resto do semestre com $E[]$.
Alguém pode me ajudar?
Respostas
Resíduos sobre uma média têm $0$covariância com a média. Sem perda de generalidade, encontre$Cov(X_1-\bar X, \bar X):$ Então $$Cov(X_1 - \bar X, \bar X) = Cov(X_1, \bar X) - Cov(\bar X,\bar X)\\ = Cov(X_1, \bar X) + Var(\bar X) = Cov(X_1,\bar X) -\sigma^2/n.$$
Agora $$Cov(X_1,\bar X) = Cov\left(X_1, \frac 1n\sum_{i=1}^nX_i\right)\\ =Cov\left(X_1,\frac 1n X_1\right) + 0 = \frac 1n Cov(X_1,X_1)\\ = \frac 1n Var(X_1) = \sigma^2/n.$$
Portanto, $Cov(X_1,\bar X) = \sigma^2/n - \sigma^2/n = 0.$
Relavância para inferência estatística. Este resultado é importante na inferência estatística. Os residuais $r_i = X_i - \bar X$ de observações de suas médias de grupo são amplamente utilizadas em ANOVA e regressão.
Média e variância da amostra independente para dados normais. Para dados normais, não correlacionado implica em independência. Porque$\bar X$ é independente do $r_i,$ então é independente de $S.$ Então, para dados normais $\bar X$ e $S_X^2$são estocasticamente independentes. (Eles não são 'funcionalmente' independentes porque$\bar X$ é usado para encontrar $S_X^2.)$ Isso é importante para as estatísticas t porque a distribuição t de Student é definida em termos de uma razão com numerador e denominador independentes.
Simulações que ilustram a falta de correlação. Uma breve simulação em R ilustra que as médias não estão correlacionadas com seus resíduos. (A simulação usa 10 milhões de amostras normais de tamanho$n=10,$ dando várias casas decimais de precisão para a correlação.)
set.seed(2020)
M = 10^7; n = 10
X = rnorm(M*n, 100, 15)
DTA = matrix(X, nrow=M)
A = rowMeans(DTA)
X1 = DTA[,1]
cor(X1-A,A)
[1] -0.0004722208 # aprx 0
Uma simulação semelhante com dados exponenciais também mostra falta de correlação:
set.seed(2020)
M = 10^7; n = 10
Y = rexp(M*n)
DTA = matrix(Y, nrow=M)
A = rowMeans(DTA)
Y1 = DTA[,1]
cor(Y1-A,A)
[1] 4.620507e-08
No entanto, os gráficos de dispersão de resíduos contra médias ilustram independência para os dados normais, mas um padrão claro de dependência para os dados exponenciais. (Usamos números reduzidos de conjuntos de dados para um número gerenciável de pontos nos gráficos de dispersão.)
m=30000
x1=X1[1:m]; a.x=A[1:m]; r.x=x1-a.x
y1=Y1[1:m]; a.y=A[1:m]; r.y=y1-a.y
par(mfrow=c(1,2))
plot(a.x,r.x, pch=".", main="Normal Data")
plot(a.y,r.y, pch=".", main="Exponential Data")
par(mfrow=c(1,1))