आर - लॉजिस्टिक रिग्रेशन

लॉजिस्टिक रिग्रेशन एक रिग्रेशन मॉडल है जिसमें रिस्पॉन्स वेरिएबल (डिपेंडेंट वेरिएबल) में ट्रू / फाल्स या 0/1 जैसे श्रेणीबद्ध मूल्य होते हैं। यह वास्तव में द्विआधारी प्रतिक्रिया की संभावना को मापता है क्योंकि यह गणितीय समीकरण के आधार पर प्रतिक्रिया चर का मान है जो कि भविष्यवक्ता चर के साथ संबंधित है।

लॉजिस्टिक प्रतिगमन के लिए सामान्य गणितीय समीकरण है -

y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...))

निम्नलिखित मापदंडों का वर्णन है -

  • y प्रतिक्रिया चर है।

  • x भविष्यवक्ता चर है।

  • a तथा b गुणांक हैं जो संख्यात्मक स्थिरांक हैं।

प्रतिगमन मॉडल बनाने के लिए उपयोग किया जाने वाला कार्य है glm() समारोह।

वाक्य - विन्यास

के लिए मूल वाक्यविन्यास glm() लॉजिस्टिक रिग्रेशन में कार्य है -

glm(formula,data,family)

निम्नलिखित मापदंडों का वर्णन है -

  • formula चरों के बीच के संबंध को प्रस्तुत करने वाला प्रतीक है।

  • data इन चरों का मान देने वाला डेटा सेट है।

  • familyमॉडल का विवरण निर्दिष्ट करने के लिए आर ऑब्जेक्ट है। यह मूल्य लॉजिस्टिक प्रतिगमन के लिए द्विपद है।

उदाहरण

इन-बिल्ट डेटा सेट "mtcars" कार के विभिन्न मॉडलों को उनके विभिन्न इंजन विनिर्देशों के साथ वर्णन करता है। "Mtcars" डेटा सेट में, ट्रांसमिशन मोड (स्वचालित या मैनुअल) कॉलम द्वारा वर्णित है जो एक बाइनरी वैल्यू (0 या 1) है। हम कॉलम "हूँ" और 3 अन्य कॉलम - hp, wt और सिलेंडर के बीच एक लॉजिस्टिक रिग्रेशन मॉडल बना सकते हैं।

# Select some columns form mtcars.
input <- mtcars[,c("am","cyl","hp","wt")]

print(head(input))

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

am   cyl  hp    wt
Mazda RX4          1   6    110   2.620
Mazda RX4 Wag      1   6    110   2.875
Datsun 710         1   4     93   2.320
Hornet 4 Drive     0   6    110   3.215
Hornet Sportabout  0   8    175   3.440
Valiant            0   6    105   3.460

प्रतिगमन मॉडल बनाएँ

हम उपयोग करते हैं glm() प्रतिगमन मॉडल बनाने और विश्लेषण के लिए इसका सारांश प्राप्त करने के लिए कार्य करें।

input <- mtcars[,c("am","cyl","hp","wt")]

am.data = glm(formula = am ~ cyl + hp + wt, data = input, family = binomial)

print(summary(am.data))

जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है -

Call:
glm(formula = am ~ cyl + hp + wt, family = binomial, data = input)

Deviance Residuals: 
     Min        1Q      Median        3Q       Max  
-2.17272     -0.14907  -0.01464     0.14116   1.27641  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) 19.70288    8.11637   2.428   0.0152 *
cyl          0.48760    1.07162   0.455   0.6491  
hp           0.03259    0.01886   1.728   0.0840 .
wt          -9.14947    4.15332  -2.203   0.0276 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43.2297  on 31  degrees of freedom
Residual deviance:  9.8415  on 28  degrees of freedom
AIC: 17.841

Number of Fisher Scoring iterations: 8

निष्कर्ष

सारांश में जैसे कि अंतिम कॉलम में p- मान 0.05 "चर" और "hp" के लिए अधिक होता है, हम उन्हें चर "am" के मान में योगदान देने में महत्वहीन मानते हैं। केवल वजन (wt) इस प्रतिगमन मॉडल में "हूँ" मूल्य को प्रभावित करता है।