Wie berechnet man den Gradienten für ein trennbares nichtlineares Problem der kleinsten Quadrate?

Nov 25 2020

Betrachten Sie den Fall einer nichtlinearen Regression der kleinsten Quadrate mit einer abhängigen Variablen $y_i$ und zwei unabhängige Variablen $x_{i1}$ und $x_{i2}$ wobei die nichtlineare Funktion eine lineare Funktion zweier nichtlinearer Funktionen ist $f_1$ und $f_2$ (Der Einfachheit halber reduziere ich dies auf zwei Funktionen und Funktionen mit nur einem Parameter / Koeffizienten, aber es kann allgemeiner sein)

$$y_i = \sum_{j=1,2} \alpha_j f_j(x_{ij},\beta_j) + \epsilon_i$$

Angenommen, wir möchten diese Funktion an einige Daten mit Regression der kleinsten Quadrate anpassen, dann könnten wir die Lösung mit einem schrittweisen Algorithmus finden, der zwischen dem Anpassen der $\alpha_j$ und $\beta_j$. Dies kann ein nützlicher Ansatz sein, da die Lösung für die$\alpha_j$ wenn die $\beta_j$ fest sind, wird leicht durch gewöhnliche Regression der kleinsten Quadrate gefunden.

Um den Optimierungsschritt für die durchzuführen $\beta_j$Wir müssen den Gradienten der Verlustfunktion kennen. Es gibt Löser, die die Ableitungen rechnerisch schätzen können, aber die Algorithmen sind schneller und genauer, wenn wir die Ableitungen selbst bereitstellen können.

Wie beschreiben wir die Ableitung? $\frac{\partial L}{\partial \beta_j}$ der Summe der quadratischen Residuenverlustfunktion $$L = \Vert y - \hat{y}\Vert ^2$$

wann

$$\hat y = F (F^T F)^{-1} F^T y$$

bei dem die $F$ ist die Matrix der Regressoren $f(x_{ij}, \beta_{j})$

$$F = \begin{bmatrix} f(x_{{11}}, \beta_1) & f(x_{12}, \beta_2) \\ f(x_{{21}}, \beta_1) & f(x_{22}, \beta_2) \\ f(x_{{31}}, \beta_1) & f(x_{32}, \beta_2) \\ \vdots & \vdots \\ f(x_{{n1}}, \beta_1) & f(x_{n2}, \beta_2) \\ \end{bmatrix}$$

Es sollte eine einfache Möglichkeit geben, sich auszudrücken

$$\frac{\partial L}{\partial \beta_j}$$

bezüglich $\frac{\partial f(x_{ij})}{\partial \beta_j}$

Antworten

SextusEmpiricus Nov 25 2020 at 21:01

Eine verwandte Frage existiert auf math.stackexchange.com. Ableitung der Projektion in Bezug auf einen Parameter:$D_{a}: X(a)[ X(a)^TX(a) ]^{-1}X(a)^Ty$

Die Antwort schlägt vor, die Produktregel zu verwenden, die zu Folgendem führt:

$$\begin{align}\hat{y}^\prime =(X(X^TX)^{-1}X^Ty)^\prime&=X^\prime(X^TX)^{-1}X^Ty\\&-X(X^TX)^{-1}(X^{\prime T}X+X^TX^\prime)(X^TX)^{-1}X^Ty\\&+X(X^TX)^{-1}X^{\prime T}y\prime.\end{align}$$

Dann berechnen wir die Ableitung der Verlustfunktion als

$$L^\prime = \left( \sum (y-\hat{y})^2 \right)^\prime = \sum -2(y-\hat{y})\hat{y}^\prime$$

Wo $^\prime$ bezeichnet die Ableitung zu einem der $\beta_j$

Beispiel:

Im folgenden Beispiel passen wir die Funktion an

$$y_i = \alpha_{1} e^{\beta_1 x_{1,i}} + \alpha_2 e^{\beta_2 x_{2,i}}$$

In diesem Fall $X^\prime = \frac{\partial}{\beta_j} X$ wird das gleiche sein wie $X$ aber mit dem $i$-te Spalte multipliziert mit $x_i$ und die anderen null.

Unten finden Sie einen R-Code, der die Berechnung veranschaulicht. Es ist eine Gradientenabstiegsmethode, die die Funktion frzum Berechnen der Kostenfunktion und die Funktion grzum Berechnen des Gradienten verwendet. In dieser Funktion haben grwir die Ableitungen wie oben berechnet. Der Wert der Kostenfunktion als Funktion von$\beta_1$ und $\beta_2$ist in der folgenden Abbildung dargestellt. Die dicke schwarze Linie zeigt den Pfad, dem die Gradientenabstiegsmethode folgt.