Saat menggunakan Model Linear dengan kovariat acak, apakah korelasi Pearson yang menentukan pengurangan varian sisa?

Aug 19 2020

Biasanya, jika Anda memiliki variabel dependen Y terdistribusi normal dengan varians $\sigma_Y^2$ indikator perlakuan dan kovariat acak yang juga terdistribusi normal, kemudian saat menyesuaikan model linier dengan perkiraan ML, varian sisa sebanding dengan faktor $(1-r^2)\cdot\sigma_Y^2$. Kemudian,$r^2$ harus menunjukkan koefisien korelasi Pearson kuadrat antara variabel $Y$ dan variabel $X$.

Apakah itu benar? Korelasi Pearson akan tetap digunakan, jika variabel acak$X$ tidak terdistribusi normal tetapi terdistribusi eksponensial atau biner?

Adakah yang mau menjelaskan poin-poin itu dengan saya dan mungkin memberi saya beberapa referensi untuk bacaan lebih lanjut?

Jawaban

BigBendRegion Aug 26 2020 at 18:10

Tentu, Anda masih dapat menggunakan korelasi kuadrat sebagai "$R^2$"statistik di bawah nonnormalitas, bahkan untuk non-normal $Y$. Estimasi ML mungkin mengambil bentuk yang berbeda, mungkin tidak melibatkan sampel korelasi Pearson, tetapi korelasi sampel Pearson biasa akan tetap menjadi estimasi yang konsisten secara asimtotik.

Berikut adalah alasan mengapa korelasi pearson kuadrat sebenarnya adalah "$R^2$"statistik, bahkan di bawah non-normalitas $X$ dan $Y$.

Pertama, hukum varian total menyatakan bahwa jika $(X,Y)$ kemudian didistribusikan bersama-sama dengan varian hingga

$$Var(Y) = Var\{f(X)\} + E\{\nu(X)\},$$

dimana

$$ f(x) = E(Y | X=x)$$

dan

$$ \nu(x) = Var(Y | X=x).$$

Sejak $R^2$ seharusnya menjadi proporsi varian dalam $Y$ yang dijelaskan oleh $X$, kebenaran $R^2$ dapat secara wajar didefinisikan sebagai

$$ R^2 = \frac{Var\{f(X)\}}{Var\{f(X)\} + E\{\nu(X)\}} = \frac{Var\{f(X)\}}{Var(Y)}. $$

Sekarang, dengan asumsi linieritas itu $E(Y | X=x) = \beta_0 + \beta_1 x$, kami punya itu $$ \beta_1 = \frac{\sigma_{XY}}{\sigma^2_X} = \rho_{XY}\frac{\sigma_Y}{\sigma_X},$$

dimana

$$ \sigma_{XY} = E\{(Y-\mu_y)\}\{X-\mu_X)\}$$ adalah kovarians antara $X$ dan $Y$, dan $$ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$ adalah korelasi antara $X$ dan $Y$.

Sekarang, kembali menggunakan hukum varian total, yang benar $R^2$ diberikan oleh

$$R^2 = \frac{Var\{f(X)\}}{Var(Y)} = \frac{Var\{\beta_0 + \beta_1 X\}}{\sigma^2_Y} = \frac{\beta_1^2 \sigma_X^2}{\sigma^2_Y} = \rho_{XY}^2.$$

Pertanyaan menanyakan lebih dari satu $X$, dalam hal ini korelasi Pearson biasa tidak memberi Anda $R^2$bahkan di bawah normalitas. Namun, argumen di atas mudah digeneralisasikan menjadi beberapa$X$ variabel, dengan definisi ulang dari koefisien korelasi yang melibatkan $(X_1,X_2,\dots,Y)$matriks kovarians. Sekali lagi, normalitas tidak diperlukan.