Como calcular o gradiente para um problema de quadrados mínimos não linear separados?

Nov 25 2020

Considere o caso de regressão de mínimos quadrados não linear com uma variável dependente $y_i$ e duas variáveis independentes $x_{i1}$ e $x_{i2}$ onde a função não linear é uma função linear de duas funções não lineares $f_1$ e $f_2$ (para simplificar, reduzo isso a duas funções e funções com apenas um parâmetro / coeficiente, mas pode ser mais geral)

$$y_i = \sum_{j=1,2} \alpha_j f_j(x_{ij},\beta_j) + \epsilon_i$$

Digamos que desejamos usar o ajuste desta função para alguns dados com regressão de mínimos quadrados, então poderíamos encontrar a solução com um algoritmo passo a passo que alterna entre o ajuste do $\alpha_j$ e $\beta_j$. Esta pode ser uma abordagem útil porque a solução para o$\alpha_j$ quando o $\beta_j$ são fixos é facilmente encontrado por regressão de mínimos quadrados ordinários.

Para realizar a etapa de otimização para o $\beta_j$precisamos saber o gradiente da função de perda. Existem solucionadores que podem estimar as derivadas computacionalmente, mas os algoritmos serão mais rápidos e precisos quando pudermos fornecer as derivadas nós mesmos.

Como descrevemos a derivada $\frac{\partial L}{\partial \beta_j}$ da soma dos quadrados da função de perda de resíduos $$L = \Vert y - \hat{y}\Vert ^2$$

quando

$$\hat y = F (F^T F)^{-1} F^T y$$

onde o $F$ é a matriz dos regressores $f(x_{ij}, \beta_{j})$

$$F = \begin{bmatrix} f(x_{{11}}, \beta_1) & f(x_{12}, \beta_2) \\ f(x_{{21}}, \beta_1) & f(x_{22}, \beta_2) \\ f(x_{{31}}, \beta_1) & f(x_{32}, \beta_2) \\ \vdots & \vdots \\ f(x_{{n1}}, \beta_1) & f(x_{n2}, \beta_2) \\ \end{bmatrix}$$

Deve haver uma maneira simples de expressar

$$\frac{\partial L}{\partial \beta_j}$$

em termos de $\frac{\partial f(x_{ij})}{\partial \beta_j}$

Respostas

SextusEmpiricus Nov 25 2020 at 21:01

Uma pergunta relacionada existe em math.stackexchange.com Derivada da projeção em relação a um parâmetro:$D_{a}: X(a)[ X(a)^TX(a) ]^{-1}X(a)^Ty$

A resposta sugere o uso da regra do produto que leva a:

$$\begin{align}\hat{y}^\prime =(X(X^TX)^{-1}X^Ty)^\prime&=X^\prime(X^TX)^{-1}X^Ty\\&-X(X^TX)^{-1}(X^{\prime T}X+X^TX^\prime)(X^TX)^{-1}X^Ty\\&+X(X^TX)^{-1}X^{\prime T}y\prime.\end{align}$$

Em seguida, calculamos a derivada da função de perda como

$$L^\prime = \left( \sum (y-\hat{y})^2 \right)^\prime = \sum -2(y-\hat{y})\hat{y}^\prime$$

Onde $^\prime$ denota a derivada de qualquer um dos $\beta_j$

Exemplo:

No exemplo abaixo, ajustamos a função

$$y_i = \alpha_{1} e^{\beta_1 x_{1,i}} + \alpha_2 e^{\beta_2 x_{2,i}}$$

Nesse caso $X^\prime = \frac{\partial}{\beta_j} X$ será o mesmo que $X$ mas com o $i$-ésima coluna multiplicada por $x_i$ e os outros zero.

Abaixo está algum código R que ilustra o cálculo. É um método de gradiente descendente que usa a função frpara calcular a função de custo e a função grpara calcular o gradiente. Nesta função gr, calculamos as derivadas como acima. O valor da função de custo em função de$\beta_1$ e $\beta_2$é mostrado na figura abaixo. A linha preta grossa mostra o caminho seguido pelo método de descida gradiente.