Big Data Analytics - Regresi Logistik

Regresi logistik adalah model klasifikasi dimana variabel respon bersifat kategorikal. Ini adalah algoritma yang berasal dari statistik dan digunakan untuk masalah klasifikasi terbimbing. Dalam regresi logistik kami mencari vektor β parameter dalam persamaan berikut yang meminimalkan fungsi biaya.

$$ logit (p_i) = ln \ kiri (\ frac {p_i} {1 - p_i} \ kanan) = \ beta_0 + \ beta_1x_ {1, i} + ... + \ beta_kx_ {k, i} $$

Kode berikut menunjukkan cara menyesuaikan model regresi logistik di R. Di sini kita akan menggunakan kumpulan data spam untuk mendemonstrasikan regresi logistik, yang sama yang digunakan untuk Naive Bayes.

Dari hasil prediksi dalam hal akurasi, kami menemukan bahwa model regresi mencapai akurasi 92,5% pada set pengujian, dibandingkan dengan 72% yang dicapai oleh pengklasifikasi Naive Bayes.

library(ElemStatLearn)
head(spam) 

# Split dataset in training and testing 
inx = sample(nrow(spam), round(nrow(spam) * 0.8)) 
train = spam[inx,] 
test = spam[-inx,]  

# Fit regression model 
fit = glm(spam ~ ., data = train, family = binomial()) 
summary(fit)  

# Call: 
#   glm(formula = spam ~ ., family = binomial(), data = train) 
#  

# Deviance Residuals:  
#   Min       1Q   Median       3Q      Max   
# -4.5172  -0.2039   0.0000   0.1111   5.4944
# Coefficients: 
# Estimate Std. Error z value Pr(>|z|)     
# (Intercept) -1.511e+00  1.546e-01  -9.772  < 2e-16 *** 
# A.1         -4.546e-01  2.560e-01  -1.776 0.075720 .   
# A.2         -1.630e-01  7.731e-02  -2.108 0.035043 *   
# A.3          1.487e-01  1.261e-01   1.179 0.238591     
# A.4          2.055e+00  1.467e+00   1.401 0.161153     
# A.5          6.165e-01  1.191e-01   5.177 2.25e-07 *** 
# A.6          7.156e-01  2.768e-01   2.585 0.009747 **  
# A.7          2.606e+00  3.917e-01   6.652 2.88e-11 *** 
# A.8          6.750e-01  2.284e-01   2.955 0.003127 **  
# A.9          1.197e+00  3.362e-01   3.559 0.000373 *** 
# Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 0.1  1  

### Make predictions 
preds = predict(fit, test, type = ’response’) 
preds = ifelse(preds > 0.5, 1, 0) 
tbl = table(target = test$spam, preds) 
tbl 

#         preds 
# target    0   1 
# email   535  23 
# spam     46 316 
sum(diag(tbl)) / sum(tbl) 
# 0.925