Covarianza tra $X_i-\overline{X}$ e $\overline{X}$ [duplicare]
Permettere $n>2$ e $\sigma^2>0$.
Si è tenuto un esame di matematica con $n$partecipanti. Il punteggio segue la distribuzione normale con la media$\mu_X$ la varianza $\sigma^2$.
I punteggi dell'esame di matematica sono $X_1,...,X_n$.
$$\overline{ X }=\frac{1}{n}\displaystyle \sum_{i=1}^n X_i$$
Per ciascuno $i = 1,...,n$, qual è il valore della covarianza tra $X_i-\overline{X}$ e $\overline{X}$?
(Cosa ho provato)
$\operatorname{Cov}[X_i-X,\overline{X}]$
$ = E[(X_i-X)\overline{X}]-E[X_i-X]E[\overline{X}]$
$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-E[\overline{X}])E[\overline{X}]$
$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-\mu)\mu$
e non so come affrontare il resto del mandato $E[]$.
Qualcuno può aiutarmi?
Risposte
I residui su una media hanno $0$covarianza con la media. Senza perdere la generalità, trova$Cov(X_1-\bar X, \bar X):$ Poi $$Cov(X_1 - \bar X, \bar X) = Cov(X_1, \bar X) - Cov(\bar X,\bar X)\\ = Cov(X_1, \bar X) + Var(\bar X) = Cov(X_1,\bar X) -\sigma^2/n.$$
Adesso $$Cov(X_1,\bar X) = Cov\left(X_1, \frac 1n\sum_{i=1}^nX_i\right)\\ =Cov\left(X_1,\frac 1n X_1\right) + 0 = \frac 1n Cov(X_1,X_1)\\ = \frac 1n Var(X_1) = \sigma^2/n.$$
Quindi, $Cov(X_1,\bar X) = \sigma^2/n - \sigma^2/n = 0.$
Relavance all'inferenza statistica. Questo risultato è importante nell'inferenza statistica. I residui $r_i = X_i - \bar X$ delle osservazioni dalle loro medie di gruppo sono ampiamente utilizzate in ANOVA e regressione.
Media e varianza del campione indipendenti per i dati normali. Per dati normali non correlati significa indipendenza. Perché$\bar X$ è indipendente da $r_i,$ quindi è indipendente da $S.$ Quindi per dati normali $\bar X$ e $S_X^2$sono stocasticamente indipendenti. (Non sono "funzionalmente" indipendenti perché$\bar X$ è usato per trovare $S_X^2.)$ Questo è importante per le statistiche t perché la distribuzione t di Student è definita in termini di un rapporto con numeratore e denominatore indipendenti.
Simulazioni che illustrano la mancanza di correlazione. Una breve simulazione in R mostra che i mezzi non sono correlati con i loro residui. (La simulazione utilizza 10 milioni di campioni normali di dimensioni$n=10,$ fornendo diverse cifre decimali di accuratezza per la correlazione.)
set.seed(2020)
M = 10^7; n = 10
X = rnorm(M*n, 100, 15)
DTA = matrix(X, nrow=M)
A = rowMeans(DTA)
X1 = DTA[,1]
cor(X1-A,A)
[1] -0.0004722208 # aprx 0
Una simulazione simile con dati esponenziali mostra anche la mancanza di correlazione:
set.seed(2020)
M = 10^7; n = 10
Y = rexp(M*n)
DTA = matrix(Y, nrow=M)
A = rowMeans(DTA)
Y1 = DTA[,1]
cor(Y1-A,A)
[1] 4.620507e-08
Tuttavia, i grafici a dispersione dei residui rispetto alle medie illustrano l' indipendenza per i dati normali, ma un chiaro modello di dipendenza per i dati esponenziali. (Usiamo un numero ridotto di set di dati per un numero gestibile di punti nei grafici a dispersione.)
m=30000
x1=X1[1:m]; a.x=A[1:m]; r.x=x1-a.x
y1=Y1[1:m]; a.y=A[1:m]; r.y=y1-a.y
par(mfrow=c(1,2))
plot(a.x,r.x, pch=".", main="Normal Data")
plot(a.y,r.y, pch=".", main="Exponential Data")
par(mfrow=c(1,1))