R - Régression de Poisson

La régression de Poisson implique des modèles de régression dans lesquels la variable de réponse se présente sous la forme de nombres et non de nombres fractionnaires. Par exemple, le nombre de naissances ou le nombre de victoires dans une série de matchs de football. Les valeurs des variables de réponse suivent également une distribution de Poisson.

L'équation mathématique générale de la régression de Poisson est -

log(y) = a + b1x1 + b2x2 + bnxn.....

Voici la description des paramètres utilisés -

  • y est la variable de réponse.

  • a et b sont les coefficients numériques.

  • x est la variable prédictive.

La fonction utilisée pour créer le modèle de régression de Poisson est la glm() fonction.

Syntaxe

La syntaxe de base pour glm() La fonction dans la régression de Poisson est -

glm(formula,data,family)

Voici la description des paramètres utilisés dans les fonctions ci-dessus -

  • formula est le symbole présentant la relation entre les variables.

  • data est l'ensemble de données donnant les valeurs de ces variables.

  • familyest un objet R pour spécifier les détails du modèle. Sa valeur est «Poisson» pour la régression logistique.

Exemple

Nous avons le jeu de données intégré "warpbreaks" qui décrit l'effet du type de laine (A ou B) et de la tension (faible, moyenne ou élevée) sur le nombre de cassures de chaîne par métier. Considérons les "pauses" comme la variable de réponse qui est un décompte du nombre de pauses. Le "type" et la "tension" de la laine sont considérés comme des variables prédictives.

Input Data

input <- warpbreaks
print(head(input))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

breaks   wool  tension
1     26       A     L
2     30       A     L
3     54       A     L
4     25       A     L
5     70       A     L
6     52       A     L

Créer un modèle de régression

output <-glm(formula = breaks ~ wool+tension, data = warpbreaks,
   family = poisson)
print(summary(output))

Lorsque nous exécutons le code ci-dessus, cela produit le résultat suivant -

Call:
glm(formula = breaks ~ wool + tension, family = poisson, data = warpbreaks)

Deviance Residuals: 
    Min       1Q     Median       3Q      Max  
  -3.6871  -1.6503  -0.4269     1.1902   4.2616  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.69196    0.04541  81.302  < 2e-16 ***
woolB       -0.20599    0.05157  -3.994 6.49e-05 ***
tensionM    -0.32132    0.06027  -5.332 9.73e-08 ***
tensionH    -0.51849    0.06396  -8.107 5.21e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 297.37  on 53  degrees of freedom
Residual deviance: 210.39  on 50  degrees of freedom
AIC: 493.06

Number of Fisher Scoring iterations: 4

Dans le résumé, nous recherchons la valeur p de la dernière colonne inférieure à 0,05 pour tenir compte de l'impact de la variable prédictive sur la variable de réponse. Comme on le voit, les laines de type B ayant des tensions de type M et H ont un impact sur le nombre de cassures.