分離可能な非線形最小二乗問題の勾配を計算する方法は？

Nov 25 2020

1つの従属変数を持つ非線形最小二乗回帰の場合を考えてみましょう。 $y_i$ および2つの独立変数 $x_{i1}$ そして $x_{i2}$ ここで、非線形関数は2つの非線形関数の線形関数です。 $f_1$ そして $f_2$ （簡単にするために、これを2つの関数と1つのパラメーター/係数のみを持つ関数に減らしますが、より一般的にすることもできます）

$$y_i = \sum_{j=1,2} \alpha_j f_j(x_{ij},\beta_j) + \epsilon_i$$

この関数を最小二乗回帰のあるデータに適合させたいとすると、次の適合を交互に行う段階的なアルゴリズムで解を見つけることができます。 $\alpha_j$ そして $\beta_j$。これは便利なアプローチになる可能性があります。$\alpha_j$ いつ $\beta_j$ 固定は通常の最小二乗回帰で簡単に見つかります。

の最適化手順を実行するには $\beta_j$損失関数の勾配を知る必要があります。導関数を計算で推定できるソルバーがありますが、導関数を自分で提供できる場合、アルゴリズムはより高速で正確になります。

導関数をどのように説明しますか $\frac{\partial L}{\partial \beta_j}$ 残差平方和損失関数の $$L = \Vert y - \hat{y}\Vert ^2$$

いつ

$$\hat y = F (F^T F)^{-1} F^T y$$

どこ $F$ リグレッサーのマトリックスです $f(x_{ij}, \beta_{j})$

$$F = \begin{bmatrix} f(x_{{11}}, \beta_1) & f(x_{12}, \beta_2) \\ f(x_{{21}}, \beta_1) & f(x_{22}, \beta_2) \\ f(x_{{31}}, \beta_1) & f(x_{32}, \beta_2) \\ \vdots & \vdots \\ f(x_{{n1}}, \beta_1) & f(x_{n2}, \beta_2) \\ \end{bmatrix}$$

表現する簡単な方法があるはずです

$$\frac{\partial L}{\partial \beta_j}$$

の面では $\frac{\partial f(x_{ij})}{\partial \beta_j}$

回答

SextusEmpiricus Nov 25 2020 at 21:01

答えは、次のような積の法則を使用することを提案しています。

$$\begin{align}\hat{y}^\prime =(X(X^TX)^{-1}X^Ty)^\prime&=X^\prime(X^TX)^{-1}X^Ty\\&-X(X^TX)^{-1}(X^{\prime T}X+X^TX^\prime)(X^TX)^{-1}X^Ty\\&+X(X^TX)^{-1}X^{\prime T}y\prime.\end{align}$$

次に、損失関数の導関数を次のように計算します。

$$L^\prime = \left( \sum (y-\hat{y})^2 \right)^\prime = \sum -2(y-\hat{y})\hat{y}^\prime$$

どこ $^\prime$ のいずれかの導関数を示します $\beta_j$

例：

以下の例では、関数を適合させます

$$y_i = \alpha_{1} e^{\beta_1 x_{1,i}} + \alpha_2 e^{\beta_2 x_{2,i}}$$

この場合 $X^\prime = \frac{\partial}{\beta_j} X$ と同じになります $X$ しかし、 $i$-番目の列に乗算 $x_i$ そして他はゼロ。

以下は、計算を説明するいくつかのRコードです。これは、関数frを使用してコスト関数grを計算し、関数を使用して勾配を計算する勾配降下法です。この関数grでは、上記のように導関数を計算しました。の関数としてのコスト関数の値$\beta_1$ そして $\beta_2$下図に示します。太い黒い線は、最急降下法がたどる経路を示しています。