¿Cómo calcular el gradiente para un problema de mínimos cuadrados no lineales separables?

Nov 25 2020

Considere el caso de la regresión de mínimos cuadrados no lineal con una variable dependiente $y_i$ y dos variables independientes $x_{i1}$ y $x_{i2}$ donde la función no lineal es una función lineal de dos funciones no lineales $f_1$ y $f_2$ (para simplificar, reduzco esto a dos funciones y funciones con un solo parámetro / coeficiente, pero puede ser más general)

$$y_i = \sum_{j=1,2} \alpha_j f_j(x_{ij},\beta_j) + \epsilon_i$$

Digamos que deseamos usar ajustar esta función a algunos datos con regresión de mínimos cuadrados, entonces podríamos encontrar la solución con un algoritmo paso a paso que alterna entre ajustar el $\alpha_j$ y $\beta_j$. Este puede ser un enfoque útil porque la solución para el$\alpha_j$ cuando el $\beta_j$ son fijos se encuentra fácilmente mediante regresión de mínimos cuadrados ordinarios.

Para realizar el paso de optimización para el $\beta_j$necesitamos conocer el gradiente de la función de pérdida. Hay solucionadores que pueden estimar las derivadas computacionalmente, pero los algoritmos serán más rápidos y precisos cuando podamos proporcionar las derivadas nosotros mismos.

¿Cómo describimos la derivada? $\frac{\partial L}{\partial \beta_j}$ de la suma de la función de pérdida de residuos al cuadrado $$L = \Vert y - \hat{y}\Vert ^2$$

cuando

$$\hat y = F (F^T F)^{-1} F^T y$$

donde el $F$ es la matriz de los regresores $f(x_{ij}, \beta_{j})$

$$F = \begin{bmatrix} f(x_{{11}}, \beta_1) & f(x_{12}, \beta_2) \\ f(x_{{21}}, \beta_1) & f(x_{22}, \beta_2) \\ f(x_{{31}}, \beta_1) & f(x_{32}, \beta_2) \\ \vdots & \vdots \\ f(x_{{n1}}, \beta_1) & f(x_{n2}, \beta_2) \\ \end{bmatrix}$$

Debería haber alguna forma sencilla de expresar

$$\frac{\partial L}{\partial \beta_j}$$

en términos de $\frac{\partial f(x_{ij})}{\partial \beta_j}$

Respuestas

SextusEmpiricus Nov 25 2020 at 21:01

Existe una pregunta relacionada en math.stackexchange.com Derivada de proyección con respecto a un parámetro:$D_{a}: X(a)[ X(a)^TX(a) ]^{-1}X(a)^Ty$

La respuesta sugiere usar la regla del producto que conduce a:

$$\begin{align}\hat{y}^\prime =(X(X^TX)^{-1}X^Ty)^\prime&=X^\prime(X^TX)^{-1}X^Ty\\&-X(X^TX)^{-1}(X^{\prime T}X+X^TX^\prime)(X^TX)^{-1}X^Ty\\&+X(X^TX)^{-1}X^{\prime T}y\prime.\end{align}$$

Luego calculamos la derivada de la función de pérdida como

$$L^\prime = \left( \sum (y-\hat{y})^2 \right)^\prime = \sum -2(y-\hat{y})\hat{y}^\prime$$

Dónde $^\prime$ denota la derivada de cualquiera de los $\beta_j$

Ejemplo:

En el siguiente ejemplo, ajustamos la función

$$y_i = \alpha_{1} e^{\beta_1 x_{1,i}} + \alpha_2 e^{\beta_2 x_{2,i}}$$

En este caso $X^\prime = \frac{\partial}{\beta_j} X$ será lo mismo que $X$ pero con el $i$-th columna multiplicada por $x_i$ y los demás cero.

A continuación se muestra un código R que ilustra el cálculo. Es un método de descenso de gradiente que usa la función frpara calcular la función de costo y la función grpara calcular el gradiente. En esta función grhemos calculado las derivadas como arriba. El valor de la función de costo en función de$\beta_1$ y $\beta_2$se muestra en la figura siguiente. La línea negra gruesa muestra el camino que sigue el método de descenso de gradiente.