R - Régression linéaire

L'analyse de régression est un outil statistique très largement utilisé pour établir un modèle de relation entre deux variables. L'une de ces variables est appelée variable prédictive dont la valeur est recueillie par des expériences. L'autre variable est appelée variable de réponse dont la valeur est dérivée de la variable prédictive.

Dans la régression linéaire, ces deux variables sont liées par une équation, où l'exposant (puissance) de ces deux variables est 1. Mathématiquement, une relation linéaire représente une ligne droite lorsqu'elle est tracée sous forme de graphique. Une relation non linéaire où l'exposant d'une variable n'est pas égal à 1 crée une courbe.

L'équation mathématique générale pour une régression linéaire est -

y = ax + b

Voici la description des paramètres utilisés -

  • y est la variable de réponse.

  • x est la variable prédictive.

  • a et b sont des constantes que l'on appelle les coefficients.

Étapes pour établir une régression

Un exemple simple de régression consiste à prédire le poids d'une personne lorsque sa taille est connue. Pour ce faire, nous devons avoir la relation entre la taille et le poids d'une personne.

Les étapes pour créer la relation sont -

  • Réalisez l'expérience de collecte d'un échantillon de valeurs observées de taille et de poids correspondant.

  • Créez un modèle de relation à l'aide du lm() fonctions dans R.

  • Trouvez les coefficients du modèle créé et créez l'équation mathématique à l'aide de ces

  • Obtenez un résumé du modèle de relation pour connaître l'erreur moyenne de prédiction. Aussi appeléresiduals.

  • Pour prédire le poids des nouvelles personnes, utilisez le predict() fonction dans R.

Des données d'entrée

Voici les exemples de données représentant les observations -

# Values of height
151, 174, 138, 186, 128, 136, 179, 163, 152, 131

# Values of weight.
63, 81, 56, 91, 47, 57, 76, 72, 62, 48

Fonction lm ()

Cette fonction crée le modèle de relation entre le prédicteur et la variable de réponse.

Syntaxe

La syntaxe de base pour lm() la fonction en régression linéaire est -

lm(formula,data)

Voici la description des paramètres utilisés -

  • formula est un symbole présentant la relation entre x et y.

  • data est le vecteur sur lequel la formule sera appliquée.

Créer un modèle de relation et obtenir les coefficients

x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

print(relation)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept)            x  
   -38.4551          0.6746

Obtenez le résumé de la relation

x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

print(summary(relation))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q     Median      3Q     Max 
-6.3002    -1.6629  0.0412    1.8944  3.9775 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -38.45509    8.04901  -4.778  0.00139 ** 
x             0.67461    0.05191  12.997 1.16e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.253 on 8 degrees of freedom
Multiple R-squared:  0.9548,    Adjusted R-squared:  0.9491 
F-statistic: 168.9 on 1 and 8 DF,  p-value: 1.164e-06

Predict () Fonction

Syntaxe

La syntaxe de base de prédire () dans la régression linéaire est -

predict(object, newdata)

Voici la description des paramètres utilisés -

  • object est la formule déjà créée à l'aide de la fonction lm ().

  • newdata est le vecteur contenant la nouvelle valeur de la variable prédictive.

Prédire le poids des nouvelles personnes

# The predictor vector.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)

# The resposne vector.
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

# Find weight of a person with height 170.
a <- data.frame(x = 170)
result <-  predict(relation,a)
print(result)

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

1 
76.22869

Visualiser graphiquement la régression

# Create the predictor and response variable.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
relation <- lm(y~x)

# Give the chart file a name.
png(file = "linearregression.png")

# Plot the chart.
plot(y,x,col = "blue",main = "Height & Weight Regression",
abline(lm(x~y)),cex = 1.3,pch = 16,xlab = "Weight in Kg",ylab = "Height in cm")

# Save the file.
dev.off()

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -