R - Régression logistique

La régression logistique est un modèle de régression dans lequel la variable de réponse (variable dépendante) a des valeurs catégorielles telles que Vrai / Faux ou 0/1. Il mesure en fait la probabilité d'une réponse binaire comme la valeur de la variable de réponse basée sur l'équation mathématique la reliant aux variables prédictives.

L'équation mathématique générale de la régression logistique est -

y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...))

Voici la description des paramètres utilisés -

  • y est la variable de réponse.

  • x est la variable prédictive.

  • a et b sont les coefficients qui sont des constantes numériques.

La fonction utilisée pour créer le modèle de régression est la glm() fonction.

Syntaxe

La syntaxe de base pour glm() la fonction de régression logistique est -

glm(formula,data,family)

Voici la description des paramètres utilisés -

  • formula est le symbole présentant la relation entre les variables.

  • data est l'ensemble de données donnant les valeurs de ces variables.

  • familyest un objet R pour spécifier les détails du modèle. Sa valeur est binomiale pour la régression logistique.

Exemple

L'ensemble de données intégré «mtcars» décrit différents modèles de voitures avec leurs diverses spécifications de moteur. Dans le jeu de données "mtcars", le mode de transmission (automatique ou manuel) est décrit par la colonne am qui est une valeur binaire (0 ou 1). Nous pouvons créer un modèle de régression logistique entre les colonnes "am" et 3 autres colonnes - hp, wt et cyl.

# Select some columns form mtcars.
input <- mtcars[,c("am","cyl","hp","wt")]

print(head(input))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

am   cyl  hp    wt
Mazda RX4          1   6    110   2.620
Mazda RX4 Wag      1   6    110   2.875
Datsun 710         1   4     93   2.320
Hornet 4 Drive     0   6    110   3.215
Hornet Sportabout  0   8    175   3.440
Valiant            0   6    105   3.460

Créer un modèle de régression

Nous utilisons le glm() pour créer le modèle de régression et obtenir son résumé pour analyse.

input <- mtcars[,c("am","cyl","hp","wt")]

am.data = glm(formula = am ~ cyl + hp + wt, data = input, family = binomial)

print(summary(am.data))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Call:
glm(formula = am ~ cyl + hp + wt, family = binomial, data = input)

Deviance Residuals: 
     Min        1Q      Median        3Q       Max  
-2.17272     -0.14907  -0.01464     0.14116   1.27641  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) 19.70288    8.11637   2.428   0.0152 *
cyl          0.48760    1.07162   0.455   0.6491  
hp           0.03259    0.01886   1.728   0.0840 .
wt          -9.14947    4.15332  -2.203   0.0276 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43.2297  on 31  degrees of freedom
Residual deviance:  9.8415  on 28  degrees of freedom
AIC: 17.841

Number of Fisher Scoring iterations: 8

Conclusion

Dans le résumé, comme la valeur p de la dernière colonne est supérieure à 0,05 pour les variables "cyl" et "hp", nous les considérons comme insignifiantes pour contribuer à la valeur de la variable "am". Seul le poids (wt) influe sur la valeur «am» dans ce modèle de régression.