Fundamentos de la regresión lineal
Definición
La Regresión Lineal es una metodología que nos permite relacionar dos fenómenos. Este enfoque permite identificar una regla basada en datos reales para predecir nuevos valores. Hay algoritmos y paquetes que realizan la regresión lineal de manera sencilla, pero no siempre entendemos lo que sucede detrás de las cortinas. El propósito de esta presentación es exponer los fundamentos matemáticos de la regresión lineal.
El método
El método se puede dividir en tres pasos:
- Vista inicial de datos;
- Determinación de parámetros;
- Generar los parámetros encontrados de la curva.
El objetivo de este paso es verificar si los datos siguen un comportamiento aproximadamente lineal. De lo contrario, no se debe aplicar el método de regresión lineal. Consideremos el siguiente conjunto de fechas.

Podemos trazar estos datos y comprobar su comportamiento. En la siguiente imagen podemos ver que la gráfica demuestra un comportamiento lineal, por lo que se justifica la aplicación de la técnica de regresión lineal.

En este repositorio he proporcionado un código de python que genera un ajuste de curva usando regresión lineal, como dije, los fundamentos matemáticos se suprimen y no tenemos idea de lo que sucede internamente. El código genera la imagen de abajo.


Determinación de los parámetros
Para determinar los parámetros a y b de la curva, utilizaremos el método de los mínimos cuadrados. En este método, los valores ayb se obtienen de tal forma que la suma de los cuadrados de las diferencias entre los valores observados de Y y los obtenidos de la curva ajustada para los mismos valores de X es mínima. Matemáticamente esta idea se puede representar como:

Para encontrar la configuración mínima, podemos derivar la expresión anterior con respecto a los parámetros ayb e igualarla a cero.

Sabiendo que n es el número de observaciones, podemos escribir las ecuaciones (I) y (II) como ecuaciones (III) y (IV) de la siguiente manera.

Para determinar el parámetro b, dividimos la primera ecuación por n y aislamos a para sustituirlo en la segunda ecuación:

Sustituyendo en la segunda ecuación:

El coeficiente lineal de la línea se puede determinar fácilmente mediante la ecuación ya definida anteriormente:

Podemos calcular estos parámetros directamente a partir de los datos, sin usar el paquete scipy a través del siguiente código:

Y finalmente, después de obtener el coeficiente lineal a y el coeficiente angular b, podemos trazar la curva de ajuste.