Statistiques - Régression linéaire
Une fois que le degré de relation entre les variables a été établi à l'aide de l'analyse de co-relation, il est naturel de se plonger dans la nature de la relation. L'analyse de régression aide à déterminer la relation de cause à effet entre les variables. Il est possible de prédire la valeur d'autres variables (appelées variable dépendante) si les valeurs de variables indépendantes peuvent être prédites à l'aide d'une méthode graphique ou de la méthode algébrique.
Méthode graphique
Il s'agit de dessiner un diagramme de dispersion avec une variable indépendante sur l'axe X et une variable dépendante sur l'axe Y. Après cela, une ligne est tracée de telle manière qu'elle traverse la majeure partie de la distribution, les points restants étant répartis presque uniformément de chaque côté de la ligne.
Une ligne de régression est connue comme la ligne de meilleur ajustement qui résume le mouvement général des données. Il montre les meilleures valeurs moyennes d'une variable correspondant aux valeurs moyennes de l'autre. La droite de régression est basée sur le critère selon lequel il s'agit d'une ligne droite qui minimise la somme des écarts au carré entre les valeurs prédites et observées de la variable dépendante.
Méthode algébrique
La méthode algébrique développe deux équations de régression de X sur Y et de Y sur X.
Équation de régression de Y sur X
$ {Y = a + bX} $
Où -
$ {Y} $ = variable dépendante
$ {X} $ = variable indépendante
$ {a} $ = Constante montrant l'ordonnée à l'origine
$ {b} $ = Constante montrant la pente de la ligne
Les valeurs de a et b sont obtenues par les équations normales suivantes:
$ {\ somme Y = Na + b \ somme X \\ [7pt] \ somme XY = a \ somme X + b \ somme X ^ 2} $
Où -
$ {N} $ = Nombre d'observations
Équation de régression de X sur Y
$ {X = a + bY} $
Où -
$ {X} $ = variable dépendante
$ {Y} $ = variable indépendante
$ {a} $ = Constante montrant l'ordonnée à l'origine
$ {b} $ = Constante montrant la pente de la ligne
Les valeurs de a et b sont obtenues par les équations normales suivantes:
$ {\ somme X = Na + b \ somme Y \\ [7pt] \ somme XY = a \ somme Y + b \ somme Y ^ 2} $
Où -
$ {N} $ = Nombre d'observations
Exemple
Problem Statement:
Un chercheur a constaté qu'il existe une corrélation entre les tendances pondérales du père et du fils. Il s'intéresse maintenant au développement d'une équation de régression sur deux variables à partir des données données:
Poids du père (en Kg) | 69 | 63 | 66 | 64 | 67 | 64 | 70 | 66 | 68 | 67 | 65 | 71 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Poids du fils (en Kg) | 70 | 65 | 68 | 65 | 69 | 66 | 68 | 65 | 71 | 67 | 64 | 72 |
Développer
Équation de régression de Y sur X.
Équation de régression de sur Y.
Solution:
$ {X} $ | $ {X ^ 2} $ | $ {Y} $ | $ {Y ^ 2} $ | $ {XY} $ |
---|---|---|---|---|
69 | 4761 | 70 | 4900 | 4830 |
63 | 3969 | 65 | 4225 | 4095 |
66 | 4356 | 68 | 4624 | 4488 |
64 | 4096 | 65 | 4225 | 4160 |
67 | 4489 | 69 | 4761 | 4623 |
64 | 4096 | 66 | 4356 | 4224 |
70 | 4900 | 68 | 4624 | 4760 |
66 | 4356 | 65 | 4225 | 4290 |
68 | 4624 | 71 | 5041 | 4828 |
67 | 4489 | 67 | 4489 | 4489 |
65 | 4225 | 64 | 4096 | 4160 |
71 | 5041 | 72 | 5184 | 5112 |
$ {\ sum X = 800} $ | $ {\ somme X ^ 2 = 53 402} $ | $ {\ sum Y = 810} $ | $ {\ sum Y ^ 2 = 54 750} $ | $ {\ sum XY = 54 059} $ |
Équation de régression de Y sur X
Y = a + bX
Où, a et b sont obtenus par des équations normales
$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)
$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)
En multipliant l'équation (i) par 800 et l'équation (ii) par 12, on obtient:
96000 a + 640000 b = 648000 ... (iii)
96000 a + 640824 b = 648588 ... (iv)
Soustraire l'équation (iv) de (iii)
-824 b = -588
$ {\ Rightarrow} $ b = -.0713
Substituer la valeur de b dans l'éq. (je)
810 = 12a + 800 (-0,713)
810 = 12a + 570,4
12a = 239,6
$ {\ Rightarrow} $ a = 19,96
Par conséquent, l'équation Y sur X peut être écrite comme
Équation de régression de X sur Y
X = a + bY
Où, a et b sont obtenus par des équations normales
$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)
$ {\ Rightarrow} 54 049 $ = 810a + 54, 750 ... (vi)
En multipliant eq (v) par 810 et eq (vi) par 12, on obtient
9720 a + 656100 b = 648000 ... (vii)
9720 a + 65700 b = 648588 ... (viii)
Soustraction de l'eq viii de l'eq vii
900b = -588
$ {\ Rightarrow} $ b = 0,653
Substituer la valeur de b dans l'équation (v)
800 = 12a + 810 (0,653)
12a = 271,07
$ {\ Rightarrow} $ a = 22,58
Par conséquent, l'équation de régression de X et Y est