बिग डेटा एनालिटिक्स - लॉजिस्टिक रिग्रेशन

लॉजिस्टिक रिग्रेशन एक क्लासिफिकेशन मॉडल है, जिसमें रिस्पॉन्स वेरिएबल श्रेणीबद्ध होता है। यह एक एल्गोरिथ्म है जो आँकड़ों से आता है और इसका उपयोग पर्यवेक्षित वर्गीकरण समस्याओं के लिए किया जाता है। लॉजिस्टिक रिग्रेशन में हम निम्नलिखित समीकरण में मापदंडों के वेक्टर we को खोजने की कोशिश करते हैं जो लागत फ़ंक्शन को कम करते हैं।

$$ logit (p_i) = ln \ left (\ frac {p_i} {1 - p_i} \ right) = \ beta_0 + \ beta_1x_ {1, i} + ... + \ Beta_kill_ {k, i} $ $

निम्न कोड दर्शाता है कि आर में एक लॉजिस्टिक रिग्रेशन मॉडल को कैसे फिट किया जाए। हम यहां लॉजिस्टिक लॉजिस्टिक को प्रदर्शित करने के लिए स्पैम डेटासेट का उपयोग करेंगे, वही जिसका उपयोग नैवे बेस के लिए किया गया था।

सटीकता के संदर्भ में भविष्यवाणियों के परिणाम से, हम पाते हैं कि प्रतिगमन मॉडल टेस्ट सेट में 92.5% सटीकता प्राप्त करता है, जबकि नायव बेयस क्लासिफायर द्वारा प्राप्त 72% की तुलना में।

library(ElemStatLearn)
head(spam) 

# Split dataset in training and testing 
inx = sample(nrow(spam), round(nrow(spam) * 0.8)) 
train = spam[inx,] 
test = spam[-inx,]  

# Fit regression model 
fit = glm(spam ~ ., data = train, family = binomial()) 
summary(fit)  

# Call: 
#   glm(formula = spam ~ ., family = binomial(), data = train) 
#  

# Deviance Residuals:  
#   Min       1Q   Median       3Q      Max   
# -4.5172  -0.2039   0.0000   0.1111   5.4944
# Coefficients: 
# Estimate Std. Error z value Pr(>|z|)     
# (Intercept) -1.511e+00  1.546e-01  -9.772  < 2e-16 *** 
# A.1         -4.546e-01  2.560e-01  -1.776 0.075720 .   
# A.2         -1.630e-01  7.731e-02  -2.108 0.035043 *   
# A.3          1.487e-01  1.261e-01   1.179 0.238591     
# A.4          2.055e+00  1.467e+00   1.401 0.161153     
# A.5          6.165e-01  1.191e-01   5.177 2.25e-07 *** 
# A.6          7.156e-01  2.768e-01   2.585 0.009747 **  
# A.7          2.606e+00  3.917e-01   6.652 2.88e-11 *** 
# A.8          6.750e-01  2.284e-01   2.955 0.003127 **  
# A.9          1.197e+00  3.362e-01   3.559 0.000373 *** 
# Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 0.1  1  

### Make predictions 
preds = predict(fit, test, type = ’response’) 
preds = ifelse(preds > 0.5, 1, 0) 
tbl = table(target = test$spam, preds) 
tbl 

#         preds 
# target    0   1 
# email   535  23 
# spam     46 316 
sum(diag(tbl)) / sum(tbl) 
# 0.925