Non standardizzato $\beta_0$ e $\beta_1$ Quando Both $X$ e $Y$ sono standardizzati
In un modello di regressione lineare univariata, capisco che la pendenza non standardizzata per il predittore standardizzato $z=(x - \mu)/\sigma$ è uguale a $\beta_1 \sigma_y / \sigma_x$, ma mi chiedo quale sia la pendenza quando $y$è anche standardizzato? E il termine costante quando$y$ è standardizzato?
Di seguito sono riportati alcuni risultati delle regressioni:
- regressione standardizzata $y$ su standardizzato $x$: $\beta_{0}=0$ e $\beta_{1}=0.5585$
- regressione di non standardizzato $y$ su non standardizzato $x$: $\beta_{0}=0.338$ e $\beta_{1}=1.556$.
- significare e sigma di $x$ siamo $\bar{x}=0.206$ e $\sigma_x=1.047$
- significare e sigma di $y$ siamo $\bar{y}=0.661$ e $\sigma_y=2.934$
Uso del tipico
$ \beta_{unstd}=\beta_1 \left( \frac{\sigma_y}{\sigma_x} \right) $
$ 1.565=0.5585 \left( \frac{2.934}{1.047} \right) $
che è vicino, ma non uguale a 1,556. Tuttavia, non sono sicuro che questa relazione tipica valga se$y$ è anche standardizzato (?).
Risposte
Nella regressione lineare semplice:
La pendenza è $\beta_1 = r_{xy}\frac{\sigma_y}{\sigma_x}$
Il termine costante è $\beta_0 = \bar{y} -\bar{x}\beta_1$
È possibile standardizzare i dati o spostare e ridimensionare i dati in qualsiasi altro modo, ma questo coefficiente di correlazione, $r_{xy}$, rimarrà lo stesso.
In un modello di regressione lineare univariata, capisco che la pendenza non standardizzata per il predittore standardizzato $z=(x - \mu)/\sigma$ è uguale a $\beta_1 \sigma_y / \sigma_x$, ma mi chiedo quale sia la pendenza quando $y$ è anche standardizzato?
Tuttavia, non sono sicuro che questa relazione tipica valga se $y$ è anche standardizzato (?).
Questa tipica relazione $\beta_{unstd} = \beta_{std} \sigma_y / \sigma_x$è particolarmente vero quando$y$è anche standardizzato, e non solo$x$ è standardizzato.
Per standardizzato $x$ e $y$ ottieni $\sigma_x=\sigma_y =1$ e $\beta_{std} = r_{xy}$. Per non standardizzato$x$ e $y$ ottieni $\beta_{unstd} = r_{xy}\frac{\sigma_y}{\sigma_x}$. Allo stesso modo puoi capire cosa succede quando solo$x$ o solo $y$ è standardizzato.
Intuizione: i cambiamenti in$\sigma_x$ e $\sigma_y$quando si standardizzano, sono come allungare o comprimere il grafico. Se$\sigma_y$ va da $1$ per $2.934$ allora è come allungare il grafico $y$ direzione che fa la pendenza $2.934$ volte più grande ed è per questo $\sigma_y$ è al numeratore di $\frac{\sigma_y}{\sigma_x}$. Per un tratto$x$ direzione la pendenza si riduce e cambia con la velocità (inversa) del tratto ed è per questo $\sigma_x$ è nel denominatore di $\frac{\sigma_y}{\sigma_x}$.
E il termine costante quando $y$ è standardizzato?
Puoi semplicemente compilare la formula sopra:
$\bar{y} - \bar{x}\beta_1=0.661 - 0.206 \times 1.556 \approx 0.340$
Questo non è esattamente lo stesso di $0.338$, proprio come il tuo $1.556$ e $1.565$non corrispondeva. Probabilmente ciò è dovuto a qualche errore di calcolo e ai risultati delle regressioni che hai fornito. Questo errore di calcolo non posso effettivamente immaginare poiché la regressione lineare, un semplice calcolo, non dovrebbe darti un errore più grande di un round di errore. Tale errore non è sufficiente per spiegare la differenza, ma forse hai fatto il calcolo a mano?). O forse hai commesso un errore di battitura e hai cambiato un 5 e un 6? Come hai ottenuto questi risultati di regressione?
In semplice regressione, quando $Y$ è anche standardizzato, oltre a standardizzare $X$ la pendenza diventa semplicemente il coefficiente di correlazione campionaria tra $X$ e $Y$, $S_{X,Y}$. Per vedere questo, nota quanto segue:
Nella regressione semplice, non esiste un termine costante nel modello, quindi questo è sempre zero (ad es $\hat{\beta}_0=0$). Per determinare la forma dello slop, dobbiamo impostare la notazione e poi fare l'algebra. Nel modello standardizzato, poiché non esiste un termine di intercettazione, la matrice del modello è semplicemente un tuo vettore$X$-valori (cioè non esiste una colonna di 1 che rappresenta il termine di intercetta nella regressione non standardizzata). In altre parole,$\boldsymbol{X}$ ecco un vettore 1-D del tuo standardizzato $X$-valori:
\ begin {eqnarray *} \ boldsymbol {X} & = & \ frac {1} {S_ {X}} \ begin {bmatrix} X_ {1} -X \\ X_ {2} - \ bar {X} \\ \ vdots \\ X_ {n} - \ bar {X} \ end {bmatrix} \ end {eqnarray *}
Dove $S_x$ è la deviazione standard campionaria di $X$-valori. È facilmente dimostrato che:
\ begin {eqnarray} \ boldsymbol {X ^ {\ prime} X} & = & \ boldsymbol {r_ {XX}} \ end {eqnarray}
dove $\boldsymbol{r_{XX}}$è la matrice di correlazione. Ma poiché c'è sempre una perfetta correlazione tra$X$ e di per sé è 1, $\boldsymbol{r_{XX}}=1$.
Ora, le equazioni normali dei minimi quadrati sono scritte come:
\ begin {eqnarray *} \ boldsymbol {X ^ {\ prime} X} \ boldsymbol {b} & = & \ boldsymbol {X ^ {\ prime} Y} \ end {eqnarray *}
o usando il risultato sopra, quello $\boldsymbol{X^{\prime}X}=\boldsymbol{r_{XX}}=1$, questo si riduce a:
\ begin {eqnarray *} \ boldsymbol {b} & = & \ boldsymbol {X ^ {\ prime} Y} \ end {eqnarray *}
Quindi tutto ciò che resta da fare è trovare la forma di $\boldsymbol{X^{\prime}Y}$ per ottenere il preventivo per $\hat{\beta_1}$.
\ begin {eqnarray *} \ boldsymbol {X ^ {\ prime} Y} & = & \ frac {1} {S_ {X}} \ begin {bmatrix} X_ {1} - \ bar {X} & X_ {2 } - \ bar {X} & \ cdots & X_ {n} - \ bar {X} \ end {bmatrix} \ frac {1} {S_ {Y}} \ begin {bmatrix} Y_ {1} -Y \\ Y_ {2} - \ bar {Y} \\ \ vdots \\ Y_ {n} - \ bar {Y} \ end {bmatrix} \\ & = & \ frac {\ sum_ {i = 1} ^ {n} \ left (X_ {i} - \ bar {X} \ right) \ left (Y_ {i} - \ bar {Y} \ right)} {(n-1) S_ {X} S_ {Y}} \\ & = & \ boldsymbol {r_ {XY}} \ end {eqnarray *}
Quindi vediamo quando entrambi $X$ e $Y$ sono standardizzati, il $\boldsymbol{X^{\prime}Y}=\boldsymbol{r_{XY}}$, che è solo il coefficiente di correlazione nella regressione semplice. Quindi, in questo caso,$\hat{\beta}_1$ è il coefficiente di correlazione tra i non standardizzati $X$ e $Y$.
Possiamo verificare questi risultati in R
:
#Generate some data
x<-rnorm(10, 5, 3)
y<-rnorm(10, 18, 2)
#Standardize x and y
x.standardized<-scale(x)
y.standardized<-scale(y)
#Compute estimated regression coefficients with both x and y standardized
betas.hats<-lm(y.standardized~x.standardized)$coeff
round(betas.hats, 5)
(Intercept) x.standardized
0.00000 0.60224
#Verify that beta_1 = correlation(x,y)
round(cor(x,y), 5)
[1] 0.60224