標準化されていない $\beta_0$ そして $\beta_1$ 両方の場合 $X$ そして $Y$ 標準化されています
単変量線形回帰モデルでは、標準化された予測子の標準化されていない勾配を理解しています $z=(x - \mu)/\sigma$ に等しい $\beta_1 \sigma_y / \sigma_x$、でもスロープはいつなのか気になります $y$標準化されていますか?定数項はどうですか$y$ 標準化されていますか?
以下は、回帰の結果です。
- 標準化された回帰 $y$ 標準化された $x$: $\beta_{0}=0$ そして $\beta_{1}=0.5585$
- 標準化されていない回帰 $y$ 標準化されていない $x$: $\beta_{0}=0.338$ そして $\beta_{1}=1.556$。
- の平均とシグマ $x$ です $\bar{x}=0.206$ そして $\sigma_x=1.047$
- の平均とシグマ $y$ です $\bar{y}=0.661$ そして $\sigma_y=2.934$
典型的なの使用
$ \beta_{unstd}=\beta_1 \left( \frac{\sigma_y}{\sigma_x} \right) $
$ 1.565=0.5585 \left( \frac{2.934}{1.047} \right) $
これは近いですが、1.556と等しくありません。ただし、この典型的な関係が成り立つかどうかはわかりません$y$ 標準化されています(?)。
回答
単純な線形回帰の場合:
傾斜は $\beta_1 = r_{xy}\frac{\sigma_y}{\sigma_x}$
定数項は $\beta_0 = \bar{y} -\bar{x}\beta_1$
データを標準化することも、他の方法でデータをシフトおよびスケーリングすることもできますが、この相関係数は、 $r_{xy}$、同じままになります。
単変量線形回帰モデルでは、標準化された予測子の標準化されていない勾配を理解しています $z=(x - \mu)/\sigma$ に等しい $\beta_1 \sigma_y / \sigma_x$、でもスロープはいつなのか気になります $y$ 標準化されていますか?
ただし、この典型的な関係が成り立つかどうかはわかりません $y$ 標準化されています(?)。
この典型的な関係 $\beta_{unstd} = \beta_{std} \sigma_y / \sigma_x$ある特にとき場合$y$だけでなく、標準化されています$x$ 標準化されています。
標準化された $x$ そして $y$ あなたが得る $\sigma_x=\sigma_y =1$ そして $\beta_{std} = r_{xy}$。標準化されていない場合$x$ そして $y$ あなたが得る $\beta_{unstd} = r_{xy}\frac{\sigma_y}{\sigma_x}$。同様に、次の場合にのみ何が起こるかを理解できます。$x$ またはのみ $y$ 標準化されています。
直感:の変化$\sigma_x$ そして $\sigma_y$標準化するとき、それらはグラフを伸ばしたり絞ったりするようなものです。場合$\sigma_y$ から行く $1$ に $2.934$ グラフを引き伸ばすようなものです $y$ 傾斜を作る方向 $2.934$ 倍大きく、それが理由です $\sigma_y$ の分子にあります $\frac{\sigma_y}{\sigma_x}$。ストレッチのために$x$ 方向傾斜が小さくなり、ストレッチの速度(逆)に応じて変化するため、 $\sigma_x$ の分母にあります $\frac{\sigma_y}{\sigma_x}$。
定数項はどうですか $y$ 標準化されていますか?
上記の式を入力するだけです。
$\bar{y} - \bar{x}\beta_1=0.661 - 0.206 \times 1.556 \approx 0.340$
これは完全に同じではありません $0.338$、あなたのように $1.556$ そして $1.565$一致しませんでした。おそらくこれは、いくつかの計算エラーと、提供した回帰の結果が原因です。単純な計算である線形回帰では、丸め誤差よりも大きな誤差が発生することはないため、この計算誤差は実際には想像できません。そのようなエラーは違いを説明するのに十分ではありませんが、多分あなたは手で計算をしましたか?)。または、入力ミスをして5と6を切り替えたのではないでしょうか。これらの回帰結果はどのようにして得られましたか?
単純な回帰では、 $Y$ に標準化することに加えて、また標準化されています $X$ 傾きは単に間のサンプル相関係数になります $X$ そして $Y$、 $S_{X,Y}$。これを確認するには、次の点に注意してください。
単純な回帰では、モデルに定数項がないため、これは常にゼロです(つまり、 $\hat{\beta}_0=0$)。スロップの形を決定するには、表記法を設定してから代数を実行する必要があります。標準化されたモデルでは、切片の項がないため、モデル行列は単純に次のベクトルになります。$X$-値(つまり、非標準化回帰の切片項を表す1の列はありません)。言い換えると、$\boldsymbol{X}$ これがあなたの標準化された一次元ベクトルです $X$-値:
\ begin {eqnarray *} \ boldsymbol {X}&=&\ frac {1} {S_ {X}} \ begin {bmatrix} X_ {1} -X \\ X_ {2}-\ bar {X} \\ \ vdots \\ X_ {n}-\ bar {X} \ end {bmatrix} \ end {eqnarray *}
どこ $S_x$ のサンプル標準偏差です $X$-値。次のことが簡単にわかります。
\ begin {eqnarray} \ boldsymbol {X ^ {\ prime} X}&=&\ boldsymbol {r_ {XX}} \ end {eqnarray}
どこ $\boldsymbol{r_{XX}}$は相関行列です。しかし、常に完全な相関関係があるので$X$ そしてそれ自体は1です $\boldsymbol{r_{XX}}=1$。
ここで、最小二乗正規方程式は次のように記述されます。
\ begin {eqnarray *} \ boldsymbol {X ^ {\ prime} X} \ boldsymbol {b}&=&\ boldsymbol {X ^ {\ prime} Y} \ end {eqnarray *}
または上記の結果を使用して、 $\boldsymbol{X^{\prime}X}=\boldsymbol{r_{XX}}=1$、これは次のようになります。
\ begin {eqnarray *} \ boldsymbol {b}&=&\ boldsymbol {X ^ {\ prime} Y} \ end {eqnarray *}
あとは、次の形式を見つけるだけです。 $\boldsymbol{X^{\prime}Y}$ の見積もりを取得するには $\hat{\beta_1}$。
\ begin {eqnarray *} \ boldsymbol {X ^ {\ prime} Y}&=&\ frac {1} {S_ {X}} \ begin {bmatrix} X_ {1}-\ bar {X}&X_ {2 }-\ bar {X}&\ cdots&X_ {n}-\ bar {X} \ end {bmatrix} \ frac {1} {S_ {Y}} \ begin {bmatrix} Y_ {1} -Y \\ Y_ {2}-\ bar {Y} \\ \ vdots \\ Y_ {n}-\ bar {Y} \ end {bmatrix} \\&=&\ frac {\ sum_ {i = 1} ^ {n} \ left(X_ {i}-\ bar {X} \ right)\ left(Y_ {i}-\ bar {Y} \ right)} {(n-1)S_ {X} S_ {Y}} \\ &=&\ boldsymbol {r_ {XY}} \ end {eqnarray *}
だから私たちは両方がいつ $X$ そして $Y$ 標準化されている、 $\boldsymbol{X^{\prime}Y}=\boldsymbol{r_{XY}}$、これは単純な回帰の相関係数です。したがって、この場合、$\hat{\beta}_1$ 標準化されていない間の相関係数です $X$ そして $Y$。
これらの結果は次のように確認できますR
。
#Generate some data
x<-rnorm(10, 5, 3)
y<-rnorm(10, 18, 2)
#Standardize x and y
x.standardized<-scale(x)
y.standardized<-scale(y)
#Compute estimated regression coefficients with both x and y standardized
betas.hats<-lm(y.standardized~x.standardized)$coeff
round(betas.hats, 5)
(Intercept) x.standardized
0.00000 0.60224
#Verify that beta_1 = correlation(x,y)
round(cor(x,y), 5)
[1] 0.60224