При использовании линейных моделей со случайными ковариатами, определяет ли корреляция Пирсона уменьшение остаточной дисперсии?

Aug 19 2020

Обычно, если у вас есть нормально распределенная зависимая переменная Y с дисперсией $\sigma_Y^2$ индикатор лечения и случайная ковариата, которая также нормально распределена, то при подгонке линейной модели с ML-оценками остаточная дисперсия пропорциональна коэффициенту $(1-r^2)\cdot\sigma_Y^2$. Потом,$r^2$ должен обозначать квадрат коэффициента корреляции Пирсона между переменными $Y$ и переменная $X$.

Это правильно? Корреляция Пирсона все равно будет использоваться, если случайная величина$X$ не имеет нормального распределения, но имеет экспоненциальное или двоичное распределение?

Не мог бы кто-нибудь прояснить мне эти моменты и, может быть, дать мне несколько ссылок для дальнейшего чтения?

Ответы

BigBendRegion Aug 26 2020 at 18:10

Конечно, вы все равно можете использовать квадрат корреляции как "$R^2$"статистика при ненормальном состоянии, даже при ненормальном $Y$. Оценка ML может принимать другую форму, возможно, не включая выборочную корреляцию Пирсона, но обычная выборочная корреляция Пирсона, тем не менее, будет асимптотически согласованной оценкой.

Вот обоснование того, почему истинно квадратная корреляция Пирсона является "$R^2$"статистика, даже при ненормальном $X$ и $Y$.

Во-первых, закон полной дисперсии гласит, что если $(X,Y)$ совместно распределены с конечной дисперсией, то

$$Var(Y) = Var\{f(X)\} + E\{\nu(X)\},$$

где

$$ f(x) = E(Y | X=x)$$

и

$$ \nu(x) = Var(Y | X=x).$$

поскольку $R^2$ предполагается, что это доля дисперсии в $Y$ это объясняется $X$, верно $R^2$ можно разумно определить как

$$ R^2 = \frac{Var\{f(X)\}}{Var\{f(X)\} + E\{\nu(X)\}} = \frac{Var\{f(X)\}}{Var(Y)}. $$

Теперь в предположении линейности $E(Y | X=x) = \beta_0 + \beta_1 x$у нас есть это $$ \beta_1 = \frac{\sigma_{XY}}{\sigma^2_X} = \rho_{XY}\frac{\sigma_Y}{\sigma_X},$$

где

$$ \sigma_{XY} = E\{(Y-\mu_y)\}\{X-\mu_X)\}$$ ковариация между $X$ и $Y$, и $$ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$ корреляция между $X$ и $Y$.

А теперь вернемся к закону полной дисперсии. $R^2$ дан кем-то

$$R^2 = \frac{Var\{f(X)\}}{Var(Y)} = \frac{Var\{\beta_0 + \beta_1 X\}}{\sigma^2_Y} = \frac{\beta_1^2 \sigma_X^2}{\sigma^2_Y} = \rho_{XY}^2.$$

Вопрос задан более чем об одном $X$, и в этом случае обычная корреляция Пирсона не дает $R^2$даже в нормальном состоянии. Однако приведенный выше аргумент легко обобщается на несколько$X$ переменных, с повторным определением коэффициента корреляции, который включает $(X_1,X_2,\dots,Y)$ковариационная матрица. Опять же, нормальность не нужна.