Jak obliczyć gradient dla rozdzielnego nieliniowego problemu najmniejszych kwadratów?

Nov 25 2020

Rozważmy przypadek nieliniowej regresji metodą najmniejszych kwadratów z jedną zmienną zależną $y_i$ i dwie zmienne niezależne $x_{i1}$ i $x_{i2}$ gdzie funkcja nieliniowa jest funkcją liniową dwóch funkcji nieliniowych $f_1$ i $f_2$ (dla uproszczenia sprowadzam to do dwóch funkcji i funkcji z tylko jednym parametrem / współczynnikiem, ale może być bardziej ogólne)

$$y_i = \sum_{j=1,2} \alpha_j f_j(x_{ij},\beta_j) + \epsilon_i$$

Powiedzmy, że chcemy użyć funkcji dopasowania tej funkcji do niektórych danych z regresją najmniejszych kwadratów, a następnie moglibyśmy znaleźć rozwiązanie za pomocą algorytmu krokowego, który zmienia się między dopasowywaniem $\alpha_j$ i $\beta_j$. Może to być przydatne podejście, ponieważ rozwiązanie dla$\alpha_j$ kiedy $\beta_j$ są stałe, można łatwo znaleźć za pomocą zwykłej regresji metodą najmniejszych kwadratów.

Aby wykonać krok optymalizacji dla $\beta_j$musimy znać gradient funkcji straty. Istnieją solwery, które potrafią oszacować pochodne obliczeniowo, ale algorytmy będą szybsze i dokładniejsze, gdy będziemy mogli sami zapewnić pochodne.

Jak opiszemy pochodną $\frac{\partial L}{\partial \beta_j}$ funkcji straty sumy kwadratów reszt $$L = \Vert y - \hat{y}\Vert ^2$$

gdy

$$\hat y = F (F^T F)^{-1} F^T y$$

gdzie $F$ jest macierzą regresorów $f(x_{ij}, \beta_{j})$

$$F = \begin{bmatrix} f(x_{{11}}, \beta_1) & f(x_{12}, \beta_2) \\ f(x_{{21}}, \beta_1) & f(x_{22}, \beta_2) \\ f(x_{{31}}, \beta_1) & f(x_{32}, \beta_2) \\ \vdots & \vdots \\ f(x_{{n1}}, \beta_1) & f(x_{n2}, \beta_2) \\ \end{bmatrix}$$

Powinien istnieć jakiś prosty sposób wyrażenia

$$\frac{\partial L}{\partial \beta_j}$$

pod względem $\frac{\partial f(x_{ij})}{\partial \beta_j}$

Odpowiedzi

SextusEmpiricus Nov 25 2020 at 21:01

Podobne pytanie istnieje na math.stackexchange.com Pochodna projekcji w odniesieniu do parametru:$D_{a}: X(a)[ X(a)^TX(a) ]^{-1}X(a)^Ty$

Odpowiedź sugeruje zastosowanie reguły iloczynu, która prowadzi do:

$$\begin{align}\hat{y}^\prime =(X(X^TX)^{-1}X^Ty)^\prime&=X^\prime(X^TX)^{-1}X^Ty\\&-X(X^TX)^{-1}(X^{\prime T}X+X^TX^\prime)(X^TX)^{-1}X^Ty\\&+X(X^TX)^{-1}X^{\prime T}y\prime.\end{align}$$

Następnie obliczamy pochodną funkcji straty jako

$$L^\prime = \left( \sum (y-\hat{y})^2 \right)^\prime = \sum -2(y-\hat{y})\hat{y}^\prime$$

Gdzie $^\prime$ oznacza pochodną dowolnego z $\beta_j$

Przykład:

W poniższym przykładzie dopasowujemy funkcję

$$y_i = \alpha_{1} e^{\beta_1 x_{1,i}} + \alpha_2 e^{\beta_2 x_{2,i}}$$

W tym przypadku $X^\prime = \frac{\partial}{\beta_j} X$ będzie taki sam jak $X$ ale z $i$-ta kolumna pomnożona przez $x_i$ a pozostałe zero.

Poniżej znajduje się kod R, który ilustruje obliczenia. Jest to metoda zstępowania gradientu, która używa funkcji frdo obliczenia funkcji kosztu i funkcji grdo obliczenia gradientu. W tej funkcji grobliczyliśmy pochodne jak powyżej. Wartość funkcji kosztu w funkcji$\beta_1$ i $\beta_2$pokazano na poniższym rysunku. Gruba czarna linia pokazuje ścieżkę, po której następuje metoda gradientu spadku.