R - Régression multiple
La régression multiple est une extension de la régression linéaire en relation entre plus de deux variables. Dans une relation linéaire simple, nous avons un prédicteur et une variable de réponse, mais dans la régression multiple, nous avons plus d'une variable de prédicteur et une variable de réponse.
L'équation mathématique générale de la régression multiple est -
y = a + b1x1 + b2x2 +...bnxn
Voici la description des paramètres utilisés -
y est la variable de réponse.
a, b1, b2...bn sont les coefficients.
x1, x2, ...xn sont les variables prédictives.
Nous créons le modèle de régression en utilisant le lm()fonction en R. Le modèle détermine la valeur des coefficients en utilisant les données d'entrée. Ensuite, nous pouvons prédire la valeur de la variable de réponse pour un ensemble donné de variables prédictives en utilisant ces coefficients.
Fonction lm ()
Cette fonction crée le modèle de relation entre le prédicteur et la variable de réponse.
Syntaxe
La syntaxe de base pour lm() la fonction en régression multiple est -
lm(y ~ x1+x2+x3...,data)
Voici la description des paramètres utilisés -
formula est un symbole présentant la relation entre la variable de réponse et les variables prédictives.
data est le vecteur sur lequel la formule sera appliquée.
Exemple
Des données d'entrée
Considérez l'ensemble de données "mtcars" disponible dans l'environnement R. Il donne une comparaison entre les différents modèles de voitures en termes de kilométrage par gallon (mpg), cylindrée ("disp"), puissance ("hp"), poids de la voiture ("wt") et quelques autres paramètres.
Le but du modèle est d'établir la relation entre «mpg» en tant que variable de réponse avec «disp», «hp» et «wt» comme variables prédictives. Nous créons un sous-ensemble de ces variables à partir de l'ensemble de données mtcars à cet effet.
input <- mtcars[,c("mpg","disp","hp","wt")]
print(head(input))
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
mpg disp hp wt
Mazda RX4 21.0 160 110 2.620
Mazda RX4 Wag 21.0 160 110 2.875
Datsun 710 22.8 108 93 2.320
Hornet 4 Drive 21.4 258 110 3.215
Hornet Sportabout 18.7 360 175 3.440
Valiant 18.1 225 105 3.460
Créer un modèle de relation et obtenir les coefficients
input <- mtcars[,c("mpg","disp","hp","wt")]
# Create the relationship model.
model <- lm(mpg~disp+hp+wt, data = input)
# Show the model.
print(model)
# Get the Intercept and coefficients as vector elements.
cat("# # # # The Coefficient Values # # # ","\n")
a <- coef(model)[1]
print(a)
Xdisp <- coef(model)[2]
Xhp <- coef(model)[3]
Xwt <- coef(model)[4]
print(Xdisp)
print(Xhp)
print(Xwt)
Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -
Call:
lm(formula = mpg ~ disp + hp + wt, data = input)
Coefficients:
(Intercept) disp hp wt
37.105505 -0.000937 -0.031157 -3.800891
# # # # The Coefficient Values # # #
(Intercept)
37.10551
disp
-0.0009370091
hp
-0.03115655
wt
-3.800891
Créer une équation pour le modèle de régression
Sur la base des valeurs d'intersection et de coefficient ci-dessus, nous créons l'équation mathématique.
Y = a+Xdisp.x1+Xhp.x2+Xwt.x3
or
Y = 37.15+(-0.000937)*x1+(-0.0311)*x2+(-3.8008)*x3
Appliquer l'équation pour prédire les nouvelles valeurs
Nous pouvons utiliser l'équation de régression créée ci-dessus pour prédire le kilométrage lorsqu'un nouvel ensemble de valeurs de déplacement, de puissance et de poids est fourni.
Pour une voiture avec disp = 221, hp = 102 et wt = 2,91, le kilométrage prévu est -
Y = 37.15+(-0.000937)*221+(-0.0311)*102+(-3.8008)*2.91 = 22.7104