Fondamentaux de la régression linéaire

Nov 27 2022
Définition La régression linéaire est une méthodologie qui nous permet de relier deux phénomènes. Cette approche permet d'identifier une règle basée sur des données réelles pour prédire de nouvelles valeurs.

Définition

La régression linéaire est une méthodologie qui nous permet de relier deux phénomènes. Cette approche permet d'identifier une règle basée sur des données réelles pour prédire de nouvelles valeurs. Il existe des algorithmes et des packages qui effectuent une régression linéaire de manière simple, mais nous ne comprenons pas toujours ce qui se passe derrière les rideaux. Le but de cette présentation est d'exposer les fondements mathématiques de la régression linéaire.

La méthode

La méthode peut être divisée en trois étapes :

  • Vue initiale des données ;
  • Détermination des paramètres ;
  • Générer les paramètres trouvés de la courbe.

L'objectif de cette étape est de vérifier si les données suivent un comportement approximativement linéaire. Sinon, la méthode de régression linéaire ne doit pas être appliquée. Considérons l'ensemble de dates suivant.

Nous pouvons tracer ces données et vérifier leur comportement. Dans l'image ci-dessous, nous pouvons voir que le graphique démontre un comportement linéaire, donc l'application de la technique de régression linéaire est justifiée.

Dans ce référentiel, j'ai fourni un code python qui génère un ajustement de courbe à l'aide de la régression linéaire, comme je l'ai dit, les fondements mathématiques sont supprimés et nous n'avons aucune idée de ce qui se passe en interne. Le code génère l'image ci-dessous.

Détermination des paramètres

Pour déterminer les paramètres a et b de la courbe, nous utiliserons la méthode des moindres carrés. Dans cette méthode, les valeurs a et b sont obtenues de manière à ce que la somme des carrés des différences entre les valeurs observées de Y et celles obtenues à partir de la courbe ajustée pour les mêmes valeurs de X soit minimale. Mathématiquement, cette idée peut être représentée par :

Pour trouver la configuration minimale, nous pouvons dériver l'expression ci-dessus par rapport aux paramètres a et b et la définir égale à zéro.

Sachant que n est le nombre d'observations, on peut écrire les équations (I) et (II) comme les équations (III) et (IV) comme suit.

Pour déterminer le paramètre b, on divise la première équation par n et on isole a pour le substituer dans la deuxième équation :

En remplaçant dans la seconde équation :

Le coefficient linéaire de la ligne peut être facilement déterminé par l'équation déjà définie ci-dessus :

Nous pouvons calculer ces paramètres directement à partir des données, sans utiliser le package scipy via le code ci-dessous :

Et enfin, après avoir obtenu le coefficient linéaire a et le coefficient angulaire b, nous pouvons tracer la courbe d'ajustement.