Covariance entre $X_i-\overline{X}$ et $\overline{X}$ [dupliquer]

Aug 15 2020

Laisser $n>2$ et $\sigma^2>0$.

Un examen de mathématiques a eu lieu avec $n$participants. Le score suit la distribution normale avec la moyenne$\mu_X$ la variance $\sigma^2$.

Les scores de l'examen de mathématiques sont $X_1,...,X_n$.

$$\overline{ X }=\frac{1}{n}\displaystyle \sum_{i=1}^n X_i$$

Pour chaque $i = 1,...,n$, quelle est la valeur de la covariance entre $X_i-\overline{X}$ et $\overline{X}$?


(Ce que j'ai essayé)

$\operatorname{Cov}[X_i-X,\overline{X}]$

$ = E[(X_i-X)\overline{X}]-E[X_i-X]E[\overline{X}]$

$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-E[\overline{X}])E[\overline{X}]$

$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-\mu)\mu$

et je ne sais pas comment gérer le reste du trimestre avec $E[]$.

Quelqu'un peut-il m'aider?

Réponses

BruceET Aug 15 2020 at 14:46

Les résidus sur une moyenne ont $0$covariance avec la moyenne. Sans perte de généralité, trouvez$Cov(X_1-\bar X, \bar X):$ ensuite $$Cov(X_1 - \bar X, \bar X) = Cov(X_1, \bar X) - Cov(\bar X,\bar X)\\ = Cov(X_1, \bar X) + Var(\bar X) = Cov(X_1,\bar X) -\sigma^2/n.$$

Maintenant $$Cov(X_1,\bar X) = Cov\left(X_1, \frac 1n\sum_{i=1}^nX_i\right)\\ =Cov\left(X_1,\frac 1n X_1\right) + 0 = \frac 1n Cov(X_1,X_1)\\ = \frac 1n Var(X_1) = \sigma^2/n.$$

Donc, $Cov(X_1,\bar X) = \sigma^2/n - \sigma^2/n = 0.$

Relavance à l'inférence statistique. Ce résultat est important dans l'inférence statistique. Les résidus $r_i = X_i - \bar X$ des observations de leurs moyennes de groupe sont largement utilisées en ANOVA et en régression.

Échantillon de moyenne et de variance indépendants pour les données normales. Pour les données normales, non corrélé implique indépendant. Car$\bar X$ est indépendant de la $r_i,$ alors c'est indépendant de $S.$ Donc pour les données normales $\bar X$ et $S_X^2$sont stochastiquement indépendants. (Ils ne sont pas `` fonctionnellement '' indépendants car$\bar X$ est utilisé pour trouver $S_X^2.)$ Ceci est important pour les statistiques t parce que la distribution t de Student est définie en termes de rapport dont le numérateur et le dénominateur sont indépendants.

Simulations illustrant un manque de corrélation. Une brève simulation dans R montre que les moyennes ne sont pas corrélées avec leurs résidus. (La simulation utilise 10 millions d'échantillons normaux de taille$n=10,$ donnant plusieurs décimales de précision pour la corrélation.)

set.seed(2020)
M = 10^7; n = 10
X = rnorm(M*n, 100, 15)
DTA = matrix(X, nrow=M)
A = rowMeans(DTA)
X1 = DTA[,1]
cor(X1-A,A)
[1] -0.0004722208  # aprx 0

Une simulation similaire avec des données exponentielles montre également un manque de corrélation:

set.seed(2020)
M = 10^7; n = 10
Y = rexp(M*n)
DTA = matrix(Y, nrow=M)
A = rowMeans(DTA)
Y1 = DTA[,1]
cor(Y1-A,A)
[1] 4.620507e-08

Cependant, les nuages ​​de points des résidus par rapport aux moyennes illustrent l' indépendance pour les données normales, mais un modèle clair de dépendance pour les données exponentielles. (Nous utilisons un nombre réduit d'ensembles de données pour un nombre gérable de points dans les nuages ​​de points.)

m=30000
x1=X1[1:m]; a.x=A[1:m]; r.x=x1-a.x
y1=Y1[1:m]; a.y=A[1:m]; r.y=y1-a.y
par(mfrow=c(1,2))
 plot(a.x,r.x, pch=".", main="Normal Data")
 plot(a.y,r.y, pch=".", main="Exponential Data")
par(mfrow=c(1,1))