Cuando se utilizan modelos lineales con covariables aleatorias, ¿es la correlación de Pearson la que determina la reducción de la varianza residual?

Aug 19 2020

Normalmente, si tiene una variable dependiente Y distribuida normalmente con varianza $\sigma_Y^2$ un indicador de tratamiento y una covariable aleatoria que también se distribuye normalmente, luego, cuando se ajusta un modelo lineal con estimaciones ML, la varianza residual es proporcional al factor $(1-r^2)\cdot\sigma_Y^2$. Luego,$r^2$ debe denotar el coeficiente de correlación de Pearson al cuadrado entre variables $Y$ y variable $X$.

¿Es eso correcto? La correlación de Pearson todavía se usaría, si la variable aleatoria$X$ no se distribuye normalmente pero se distribuye exponencial o binaria?

¿Alguien podría aclarar esos puntos conmigo y tal vez darme algunas referencias para leer más?

Respuestas

BigBendRegion Aug 26 2020 at 18:10

Claro, aún puede usar la correlación al cuadrado como "$R^2$"estadística bajo anormalidad, incluso para casos no normales $Y$. La estimación de ML puede tomar una forma diferente, quizás sin incluir la correlación muestral de Pearson, pero la correlación muestral ordinaria de Pearson será, no obstante, una estimación asintóticamente consistente.

Aquí hay una justificación de por qué la correlación de Pearson al cuadrado verdadero es una "$R^2$"estadística, incluso en condiciones no normales $X$ y $Y$.

Primero, la ley de la varianza total establece que si $(X,Y)$ se distribuyen conjuntamente con varianza finita, entonces

$$Var(Y) = Var\{f(X)\} + E\{\nu(X)\},$$

dónde

$$ f(x) = E(Y | X=x)$$

y

$$ \nu(x) = Var(Y | X=x).$$

Ya que $R^2$ se supone que es la proporción de varianza en $Y$ eso se explica por $X$, la verdad $R^2$ puede definirse razonablemente como

$$ R^2 = \frac{Var\{f(X)\}}{Var\{f(X)\} + E\{\nu(X)\}} = \frac{Var\{f(X)\}}{Var(Y)}. $$

Ahora, bajo el supuesto de linealidad de que $E(Y | X=x) = \beta_0 + \beta_1 x$, tenemos eso $$ \beta_1 = \frac{\sigma_{XY}}{\sigma^2_X} = \rho_{XY}\frac{\sigma_Y}{\sigma_X},$$

dónde

$$ \sigma_{XY} = E\{(Y-\mu_y)\}\{X-\mu_X)\}$$ es la covarianza entre $X$ y $Y$y $$ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$ es la correlación entre $X$ y $Y$.

Ahora, volviendo a usar la ley de la varianza total, la verdadera $R^2$ es dado por

$$R^2 = \frac{Var\{f(X)\}}{Var(Y)} = \frac{Var\{\beta_0 + \beta_1 X\}}{\sigma^2_Y} = \frac{\beta_1^2 \sigma_X^2}{\sigma^2_Y} = \rho_{XY}^2.$$

La pregunta formulada sobre más de uno $X$, en cuyo caso la correlación de Pearson ordinaria no le da la $R^2$incluso bajo la normalidad. Sin embargo, el argumento anterior se generaliza fácilmente a múltiples$X$ variables, con una redefinición del coeficiente de correlación que involucra la $(X_1,X_2,\dots,Y)$Matriz de covarianza. Una vez más, la normalidad no es necesaria.