Lorsque vous utilisez des modèles linéaires avec des covariables aléatoires, est-ce la corrélation de Pearson qui détermine la réduction de la variance résiduelle?

Aug 19 2020

En règle générale, si vous avez une variable dépendante Y normalement distribuée avec variance $\sigma_Y^2$ un indicateur de traitement et une covariable aléatoire qui est également normalement distribuée, puis lors de l'ajustement d'un modèle linéaire avec des estimations ML, la variance résiduelle est proportionnelle au facteur $(1-r^2)\cdot\sigma_Y^2$. Ensuite,$r^2$ devrait désigner le coefficient de corrélation de Pearson au carré entre les variables $Y$ et variable $X$.

Est-ce exact? La corrélation de Pearson serait toujours utilisée, si la variable aléatoire$X$ n'est pas normalement distribué mais être distribué exponentiel ou binaire?

Quelqu'un voudrait-il clarifier ces points avec moi et peut-être me donner quelques références pour une lecture plus approfondie?

Réponses

BigBendRegion Aug 26 2020 at 18:10

Bien sûr, vous pouvez toujours utiliser la corrélation au carré comme "$R^2$"statistique sous non-normalité, même pour non-normal $Y$. L'estimation du ML pourrait prendre une forme différente, peut-être n'impliquant pas la corrélation de Pearson de l'échantillon, mais la corrélation de l'échantillon de Pearson ordinaire sera néanmoins une estimation asymptotiquement cohérente.

Voici une justification de la raison pour laquelle la vraie corrélation de Pearson au carré est un "$R^2$"statistique, même en cas de non-normalité de $X$ et $Y$.

Premièrement, la loi de la variance totale stipule que si $(X,Y)$ sont distribués conjointement avec une variance finie, alors

$$Var(Y) = Var\{f(X)\} + E\{\nu(X)\},$$

$$ f(x) = E(Y | X=x)$$

et

$$ \nu(x) = Var(Y | X=x).$$

Depuis $R^2$ est censé être la proportion de variance dans $Y$ cela s'explique par $X$, la vérité $R^2$ peut raisonnablement être défini comme

$$ R^2 = \frac{Var\{f(X)\}}{Var\{f(X)\} + E\{\nu(X)\}} = \frac{Var\{f(X)\}}{Var(Y)}. $$

Maintenant, sous l'hypothèse de linéarité que $E(Y | X=x) = \beta_0 + \beta_1 x$, nous avons ça $$ \beta_1 = \frac{\sigma_{XY}}{\sigma^2_X} = \rho_{XY}\frac{\sigma_Y}{\sigma_X},$$

$$ \sigma_{XY} = E\{(Y-\mu_y)\}\{X-\mu_X)\}$$ est la covariance entre $X$ et $Y$, et $$ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$ est la corrélation entre $X$ et $Y$.

Maintenant, revenons à l'utilisation de la loi de la variance totale, le vrai $R^2$ est donné par

$$R^2 = \frac{Var\{f(X)\}}{Var(Y)} = \frac{Var\{\beta_0 + \beta_1 X\}}{\sigma^2_Y} = \frac{\beta_1^2 \sigma_X^2}{\sigma^2_Y} = \rho_{XY}^2.$$

La question posée sur plus d'un $X$, auquel cas la corrélation de Pearson ordinaire ne vous donne pas $R^2$même dans des conditions normales. Cependant, l'argument ci-dessus se généralise facilement à plusieurs$X$ variables, avec une redéfinition du coefficient de corrélation qui implique $(X_1,X_2,\dots,Y)$matrice de covariance. Encore une fois, la normalité n'est pas nécessaire.