Kovarian antara $X_i-\overline{X}$ dan $\overline{X}$ [duplikat]

Aug 15 2020

Membiarkan $n>2$ dan $\sigma^2>0$.

Ujian matematika diadakan dengan $n$peserta. Skor tersebut mengikuti distribusi normal dengan mean$\mu_X$ varians $\sigma^2$.

Skor ujian matematika adalah $X_1,...,X_n$.

$$\overline{ X }=\frac{1}{n}\displaystyle \sum_{i=1}^n X_i$$

Untuk setiap $i = 1,...,n$, berapakah nilai kovarian antara $X_i-\overline{X}$ dan $\overline{X}$?


(Apa yang telah saya coba)

$\operatorname{Cov}[X_i-X,\overline{X}]$

$ = E[(X_i-X)\overline{X}]-E[X_i-X]E[\overline{X}]$

$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-E[\overline{X}])E[\overline{X}]$

$=E[X_i\overline{X}] - E[\overline{X}^2] - (E[X_i]-\mu)\mu$

dan saya tidak tahu bagaimana menangani sisa semester dengan $E[]$.

Ada yang bisa bantu saya?

Jawaban

BruceET Aug 15 2020 at 14:46

Sisa tentang rata-rata punya $0$kovariansi dengan mean. Tanpa kehilangan keumuman, temukan$Cov(X_1-\bar X, \bar X):$ Kemudian $$Cov(X_1 - \bar X, \bar X) = Cov(X_1, \bar X) - Cov(\bar X,\bar X)\\ = Cov(X_1, \bar X) + Var(\bar X) = Cov(X_1,\bar X) -\sigma^2/n.$$

Sekarang $$Cov(X_1,\bar X) = Cov\left(X_1, \frac 1n\sum_{i=1}^nX_i\right)\\ =Cov\left(X_1,\frac 1n X_1\right) + 0 = \frac 1n Cov(X_1,X_1)\\ = \frac 1n Var(X_1) = \sigma^2/n.$$

Jadi, $Cov(X_1,\bar X) = \sigma^2/n - \sigma^2/n = 0.$

Relavansi dengan inferensi statistik. Hasil ini penting dalam inferensi statistik. The residual $r_i = X_i - \bar X$ pengamatan dari rata-rata kelompok mereka banyak digunakan dalam ANOVA dan regresi.

Rata-rata sampel dan varians tidak tergantung pada data normal. Untuk data normal, tidak berkorelasi berarti independen. Karena$\bar X$ tidak tergantung pada $r_i,$ maka itu tidak tergantung $S.$ Jadi untuk data normal $\bar X$ dan $S_X^2$independen secara stokastik. (Mereka tidak 'secara fungsional' independen karena$\bar X$ digunakan untuk menemukan $S_X^2.)$ Ini penting untuk statistik t karena distribusi t Student ditentukan dalam rasio dengan pembilang dan penyebut tidak tergantung.

Simulasi yang menggambarkan kurangnya korelasi. Simulasi singkat di R mengilustrasikan bahwa mean tidak berkorelasi dengan residual darinya. (Simulasi menggunakan 10 juta sampel ukuran normal$n=10,$ memberikan beberapa tempat desimal keakuratan untuk korelasi.)

set.seed(2020)
M = 10^7; n = 10
X = rnorm(M*n, 100, 15)
DTA = matrix(X, nrow=M)
A = rowMeans(DTA)
X1 = DTA[,1]
cor(X1-A,A)
[1] -0.0004722208  # aprx 0

Simulasi serupa dengan data eksponensial juga menunjukkan kurangnya korelasi:

set.seed(2020)
M = 10^7; n = 10
Y = rexp(M*n)
DTA = matrix(Y, nrow=M)
A = rowMeans(DTA)
Y1 = DTA[,1]
cor(Y1-A,A)
[1] 4.620507e-08

Bagaimanapun, scatterplot residual terhadap rata-rata menggambarkan kemandirian untuk data normal, tetapi pola ketergantungan yang jelas untuk data eksponensial. (Kami menggunakan jumlah set data yang dikurangi untuk jumlah titik yang dapat dikelola di sebar.)

m=30000
x1=X1[1:m]; a.x=A[1:m]; r.x=x1-a.x
y1=Y1[1:m]; a.y=A[1:m]; r.y=y1-a.y
par(mfrow=c(1,2))
 plot(a.x,r.x, pch=".", main="Normal Data")
 plot(a.y,r.y, pch=".", main="Exponential Data")
par(mfrow=c(1,1))