Quando si utilizzano modelli lineari con covariate casuali, è la correlazione di Pearson che determina la riduzione della varianza residua?
In genere, se si dispone di una variabile dipendente Y normalmente distribuita con varianza $\sigma_Y^2$ un indicatore di trattamento e una covariata casuale che è anche normalmente distribuita, quindi quando si adatta un modello lineare con stime ML la varianza residua è proporzionale al fattore $(1-r^2)\cdot\sigma_Y^2$. Poi,$r^2$ dovrebbe indicare il coefficiente di correlazione di Pearson al quadrato tra le variabili $Y$ e variabile $X$.
È corretto? La correlazione di Pearson sarebbe ancora utilizzata, se la variabile casuale$X$ non è distribuito normalmente ma può essere distribuito in modo esponenziale o binario?
Qualcuno potrebbe chiarire questi punti con me e magari darmi alcuni riferimenti per ulteriori letture?
Risposte
Certo, puoi ancora utilizzare la correlazione al quadrato come "$R^2$"statistica in non normale, anche per non normale $Y$. La stima ML potrebbe assumere una forma diversa, forse non coinvolgendo la correlazione di Pearson campionaria, ma la correlazione campionaria ordinaria di Pearson sarà comunque una stima asintoticamente coerente.
Ecco una giustificazione del motivo per cui la vera correlazione di Pearson al quadrato è un "$R^2$"statistica, anche in condizioni di non normalità di $X$ e $Y$.
In primo luogo, la legge della varianza totale afferma che se $(X,Y)$ sono distribuiti congiuntamente con varianza finita, quindi
$$Var(Y) = Var\{f(X)\} + E\{\nu(X)\},$$
dove
$$ f(x) = E(Y | X=x)$$
e
$$ \nu(x) = Var(Y | X=x).$$
Da $R^2$ dovrebbe essere la proporzione della varianza in $Y$ che è spiegato da $X$, il vero $R^2$ può ragionevolmente essere definito come
$$ R^2 = \frac{Var\{f(X)\}}{Var\{f(X)\} + E\{\nu(X)\}} = \frac{Var\{f(X)\}}{Var(Y)}. $$
Ora, nell'ipotesi di linearità che $E(Y | X=x) = \beta_0 + \beta_1 x$, ce l'abbiamo $$ \beta_1 = \frac{\sigma_{XY}}{\sigma^2_X} = \rho_{XY}\frac{\sigma_Y}{\sigma_X},$$
dove
$$ \sigma_{XY} = E\{(Y-\mu_y)\}\{X-\mu_X)\}$$ è la covarianza tra $X$ e $Y$, e $$ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$ è la correlazione tra $X$ e $Y$.
Ora, torniamo a usare la legge della varianza totale, la verità $R^2$ è dato da
$$R^2 = \frac{Var\{f(X)\}}{Var(Y)} = \frac{Var\{\beta_0 + \beta_1 X\}}{\sigma^2_Y} = \frac{\beta_1^2 \sigma_X^2}{\sigma^2_Y} = \rho_{XY}^2.$$
La domanda ha chiesto più di uno $X$, nel qual caso la normale correlazione di Pearson non ti dà il $R^2$anche sotto la normalità. Tuttavia, l'argomento di cui sopra si generalizza facilmente a multiplo$X$ variabili, con una ridefinizione del coefficiente di correlazione che coinvolge le $(X_1,X_2,\dots,Y)$matrice di covarianza. Ancora una volta, la normalità non è necessaria.