R - Régression multiple

La régression multiple est une extension de la régression linéaire en relation entre plus de deux variables. Dans une relation linéaire simple, nous avons un prédicteur et une variable de réponse, mais dans la régression multiple, nous avons plus d'une variable de prédicteur et une variable de réponse.

L'équation mathématique générale de la régression multiple est -

y = a + b1x1 + b2x2 +...bnxn

Voici la description des paramètres utilisés -

  • y est la variable de réponse.

  • a, b1, b2...bn sont les coefficients.

  • x1, x2, ...xn sont les variables prédictives.

Nous créons le modèle de régression en utilisant le lm()fonction en R. Le modèle détermine la valeur des coefficients en utilisant les données d'entrée. Ensuite, nous pouvons prédire la valeur de la variable de réponse pour un ensemble donné de variables prédictives en utilisant ces coefficients.

Fonction lm ()

Cette fonction crée le modèle de relation entre le prédicteur et la variable de réponse.

Syntaxe

La syntaxe de base pour lm() la fonction en régression multiple est -

lm(y ~ x1+x2+x3...,data)

Voici la description des paramètres utilisés -

  • formula est un symbole présentant la relation entre la variable de réponse et les variables prédictives.

  • data est le vecteur sur lequel la formule sera appliquée.

Exemple

Des données d'entrée

Considérez l'ensemble de données "mtcars" disponible dans l'environnement R. Il donne une comparaison entre les différents modèles de voitures en termes de kilométrage par gallon (mpg), cylindrée ("disp"), puissance ("hp"), poids de la voiture ("wt") et quelques autres paramètres.

Le but du modèle est d'établir la relation entre «mpg» en tant que variable de réponse avec «disp», «hp» et «wt» comme variables prédictives. Nous créons un sous-ensemble de ces variables à partir de l'ensemble de données mtcars à cet effet.

input <- mtcars[,c("mpg","disp","hp","wt")]
print(head(input))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

mpg   disp   hp    wt
Mazda RX4          21.0  160    110   2.620
Mazda RX4 Wag      21.0  160    110   2.875
Datsun 710         22.8  108     93   2.320
Hornet 4 Drive     21.4  258    110   3.215
Hornet Sportabout  18.7  360    175   3.440
Valiant            18.1  225    105   3.460

Créer un modèle de relation et obtenir les coefficients

input <- mtcars[,c("mpg","disp","hp","wt")]

# Create the relationship model.
model <- lm(mpg~disp+hp+wt, data = input)

# Show the model.
print(model)

# Get the Intercept and coefficients as vector elements.
cat("# # # # The Coefficient Values # # # ","\n")

a <- coef(model)[1]
print(a)

Xdisp <- coef(model)[2]
Xhp <- coef(model)[3]
Xwt <- coef(model)[4]

print(Xdisp)
print(Xhp)
print(Xwt)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Call:
lm(formula = mpg ~ disp + hp + wt, data = input)

Coefficients:
(Intercept)         disp           hp           wt  
  37.105505      -0.000937        -0.031157    -3.800891  

# # # # The Coefficient Values # # # 
(Intercept) 
   37.10551 
         disp 
-0.0009370091 
         hp 
-0.03115655 
       wt 
-3.800891

Créer une équation pour le modèle de régression

Sur la base des valeurs d'intersection et de coefficient ci-dessus, nous créons l'équation mathématique.

Y = a+Xdisp.x1+Xhp.x2+Xwt.x3
or
Y = 37.15+(-0.000937)*x1+(-0.0311)*x2+(-3.8008)*x3

Appliquer l'équation pour prédire les nouvelles valeurs

Nous pouvons utiliser l'équation de régression créée ci-dessus pour prédire le kilométrage lorsqu'un nouvel ensemble de valeurs de déplacement, de puissance et de poids est fourni.

Pour une voiture avec disp = 221, hp = 102 et wt = 2,91, le kilométrage prévu est -

Y = 37.15+(-0.000937)*221+(-0.0311)*102+(-3.8008)*2.91 = 22.7104