वर्गीकरण एल्गोरिदम - लॉजिस्टिक प्रतिगमन

लॉजिस्टिक रिग्रेशन का परिचय

लॉजिस्टिक रिग्रेशन एक पर्यवेक्षित शिक्षण वर्गीकरण एल्गोरिथ्म है जिसका उपयोग लक्ष्य चर की संभावना का अनुमान लगाने के लिए किया जाता है। लक्ष्य या आश्रित चर की प्रकृति द्विबीजपत्री है, जिसका अर्थ है कि केवल दो संभव वर्ग होंगे।

सरल शब्दों में, निर्भर चर प्रकृति में द्विआधारी होता है जिसमें डेटा को 1 के रूप में कोडित किया जाता है (सफलता / हां के लिए खड़ा है) या 0 (विफलता / नहीं के लिए खड़ा है)।

गणितीय रूप से, एक लॉजिस्टिक रिग्रेशन मॉडल X के एक फ़ंक्शन के रूप में P (Y = 1) की भविष्यवाणी करता है। यह सबसे सरल एमएल एल्गोरिदम में से एक है, जिसका उपयोग विभिन्न वर्गीकरण समस्याओं जैसे कि स्पैम डिटेक्शन, डायबिटीज भविष्यवाणी, कैंसर का पता लगाने आदि के लिए किया जा सकता है।

लॉजिस्टिक रिग्रेशन के प्रकार

आमतौर पर, लॉजिस्टिक रिग्रेशन का मतलब है बाइनरी लॉजिस्टिक रिग्रेशन, जिसमें बाइनरी टारगेट वेरिएबल्स होते हैं, लेकिन टारगेट वेरिएबल्स की दो और श्रेणियां हो सकती हैं, जिनके बारे में भविष्यवाणी की जा सकती है। उन श्रेणियों की संख्या के आधार पर, लॉजिस्टिक प्रतिगमन को निम्न प्रकारों में विभाजित किया जा सकता है -

द्विआधारी या द्विपद

इस तरह के वर्गीकरण में, एक आश्रित चर में केवल दो संभावित प्रकार होंगे 1 और 0. उदाहरण के लिए, ये चर सफलता या विफलता का प्रतिनिधित्व कर सकते हैं, हां या नहीं, जीत या हानि आदि।

बहुपद

इस तरह के वर्गीकरण में, आश्रित चर में 3 या अधिक संभावित अनियंत्रित प्रकार या प्रकार हो सकते हैं जिनका कोई मात्रात्मक महत्व नहीं है। उदाहरण के लिए, ये चर "टाइप ए" या "टाइप बी" या "टाइप सी" का प्रतिनिधित्व कर सकते हैं।

क्रमवाचक

इस तरह के वर्गीकरण में, आश्रित चर में 3 या अधिक संभव प्रकार के आदेश दिए गए प्रकार या मात्रात्मक महत्व हो सकते हैं। उदाहरण के लिए, ये चर "खराब" या "अच्छा", "बहुत अच्छा", "उत्कृष्ट" और प्रत्येक श्रेणी में 0,1,2,3 जैसे स्कोर हो सकते हैं।

लॉजिस्टिक रिग्रेशन एंथम

लॉजिस्टिक प्रतिगमन के कार्यान्वयन में गोता लगाने से पहले, हमें उसी के बारे में निम्नलिखित मान्यताओं के बारे में पता होना चाहिए -

  • बाइनरी लॉजिस्टिक रिग्रेशन के मामले में, लक्ष्य चर हमेशा बाइनरी होना चाहिए और वांछित परिणाम कारक स्तर 1 द्वारा दर्शाया जाता है।

  • मॉडल में कोई बहु-संप्रभुता नहीं होनी चाहिए, जिसका अर्थ है कि स्वतंत्र चर एक दूसरे से स्वतंत्र होना चाहिए।

  • हमें अपने मॉडल में सार्थक चर शामिल करना चाहिए।

  • हमें लॉजिस्टिक रिग्रेशन के लिए एक बड़ा नमूना आकार चुनना चाहिए।

बाइनरी लॉजिस्टिक रिग्रेशन मॉडल

लॉजिस्टिक रिग्रेशन का सबसे सरल रूप द्विआधारी या द्विपद लॉजिस्टिक रिग्रेशन है जिसमें लक्ष्य या आश्रित चर में केवल 2 संभव प्रकार हो सकते हैं 1 या 0. यह हमें कई भविष्यवक्ता चर और एक द्विआधारी / द्विपद वैरिएबल के बीच संबंध बनाने की अनुमति देता है। लॉजिस्टिक रिग्रेशन के मामले में, रैखिक फ़ंक्शन मूल रूप से एक अन्य फ़ंक्शन के इनपुट के रूप में उपयोग किया जाता है जैसे कि निम्नलिखित संबंध में -

$ $ h _ {\ _ थीटा} {(x)} = जी (\ _ थीटा {{T} x) {0 \h _ {{थीटा} ≤1 $ $

यहाँ, लॉजिस्टिक या सिग्मॉइड फ़ंक्शन है जिसे निम्नानुसार दिया जा सकता है -

$ $ जी (z) = \ frac {1} {1 + e ^ {- z}} ℎ = \ थीटा ^ {T} $ $ $

सिग्माइड वक्र को निम्नलिखित ग्राफ की सहायता से दर्शाया जा सकता है। हम 0 और 1 के बीच y- अक्ष के मान को देख सकते हैं और 0.5 पर अक्ष को पार कर सकते हैं।

वर्गों को सकारात्मक या नकारात्मक में विभाजित किया जा सकता है। आउटपुट पॉजिटिव क्लास की संभावना के तहत आता है अगर यह 0 और 1 के बीच है। हमारे कार्यान्वयन के लिए, हम हाइपोथीसिस फ़ंक्शन के आउटपुट को पॉज़िटिव बता रहे हैं यदि यह ≥0.5 है, तो नकारात्मक है।

हमें यह निर्धारित करने के लिए एक नुकसान फ़ंक्शन को परिभाषित करने की आवश्यकता है कि एल्गोरिथ्म फ़ंक्शन पर भार का उपयोग करके कितना अच्छा प्रदर्शन करता है, इस प्रकार थीटा द्वारा प्रस्तुत किया गया है -

ℎ = ()

$ $ J (\ theta) = \ frac {1} {m}। (- y ^ {T} लॉग (h) - (1 -y) ^ Tlog (1-h)) $$

अब नुकसान फ़ंक्शन को परिभाषित करने के बाद, हमारा मुख्य लक्ष्य नुकसान फ़ंक्शन को कम करना है। इसे वेट फिटिंग करने की मदद से किया जा सकता है, जिसका मतलब है वज़न बढ़ाना या घटाना। नुकसान फ़ंक्शन के व्युत्पन्न की मदद से प्रत्येक वजन को घटाया जाता है, हम यह जान पाएंगे कि किन मापदंडों का वजन अधिक होना चाहिए और छोटे वजन का क्या होना चाहिए।

निम्नलिखित ढाल वंश समीकरण हमें बताता है कि अगर हम मापदंडों को संशोधित करते हैं तो नुकसान कैसे बदलेगा -

$$ \ frac {()} {\ theta_ {j}} = \ frac {1} {m} एक्स ^ {टी} (() -) $$

पायथन में कार्यान्वयन

अब हम पायथन में द्विपद उपस्कर प्रतिगमन की उपरोक्त अवधारणा को लागू करेंगे। इस प्रयोजन के लिए, हम 'आईरिस' नाम के एक बहुभिन्नरूपी फूल डेटासेट का उपयोग कर रहे हैं, जिसमें प्रत्येक में 50 उदाहरणों के 3 वर्ग हैं, लेकिन हम पहले दो फीचर कॉलम का उपयोग करेंगे। हर वर्ग एक प्रकार के आईरिस फूल का प्रतिनिधित्व करता है।

सबसे पहले, हमें आवश्यक पुस्तकालयों को निम्नानुसार आयात करना होगा -

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets

अगला, आईरिस डेटासेट निम्नानुसार लोड करें -

iris = datasets.load_iris()
X = iris.data[:, :2]
y = (iris.target != 0) * 1

हम अपने प्रशिक्षण डेटा का अनुसरण कर सकते हैं -

plt.figure(figsize=(6, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='g', label='0')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='y', label='1')
plt.legend();

अगला, हम सिग्मॉइड फ़ंक्शन, लॉस फ़ंक्शन और ग्रेडिएंट अवरोह को निम्नानुसार परिभाषित करेंगे -

class LogisticRegression:
   def __init__(self, lr=0.01, num_iter=100000, fit_intercept=True, verbose=False):
      self.lr = lr
      self.num_iter = num_iter
      self.fit_intercept = fit_intercept
      self.verbose = verbose
   def __add_intercept(self, X):
      intercept = np.ones((X.shape[0], 1))
      return np.concatenate((intercept, X), axis=1)
   def __sigmoid(self, z):
      return 1 / (1 + np.exp(-z))
   def __loss(self, h, y):
      return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()
   def fit(self, X, y):
      if self.fit_intercept:
         X = self.__add_intercept(X)

अब, वज़न को इस प्रकार से प्रारंभ करें -

self.theta = np.zeros(X.shape[1])
   for i in range(self.num_iter):
      z = np.dot(X, self.theta)
      h = self.__sigmoid(z)
      gradient = np.dot(X.T, (h - y)) / y.size
      self.theta -= self.lr * gradient
      z = np.dot(X, self.theta)
      h = self.__sigmoid(z)
      loss = self.__loss(h, y)
      if(self.verbose ==True and i % 10000 == 0):
         print(f'loss: {loss} \t')

निम्नलिखित स्क्रिप्ट की मदद से, हम आउटपुट संभावनाओं की भविष्यवाणी कर सकते हैं -

def predict_prob(self, X):
   if self.fit_intercept:
      X = self.__add_intercept(X)
   return self.__sigmoid(np.dot(X, self.theta))
def predict(self, X):
   return self.predict_prob(X).round()

अगला, हम मॉडल का मूल्यांकन कर सकते हैं और इसे निम्नानुसार प्लॉट कर सकते हैं -

model = LogisticRegression(lr=0.1, num_iter=300000)
preds = model.predict(X)
(preds == y).mean()

plt.figure(figsize=(10, 6))
plt.scatter(X[y == 0][:, 0], X[y == 0][:, 1], color='g', label='0')
plt.scatter(X[y == 1][:, 0], X[y == 1][:, 1], color='y', label='1')
plt.legend()
x1_min, x1_max = X[:,0].min(), X[:,0].max(),
x2_min, x2_max = X[:,1].min(), X[:,1].max(),
xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max), np.linspace(x2_min, x2_max))
grid = np.c_[xx1.ravel(), xx2.ravel()]
probs = model.predict_prob(grid).reshape(xx1.shape)
plt.contour(xx1, xx2, probs, [0.5], linewidths=1, colors='red');

मल्टीमोनियल लॉजिस्टिक रिग्रेशन मॉडल

लॉजिस्टिक रिग्रेशन का एक अन्य उपयोगी रूप मल्टीमोनियल लॉजिस्टिक रिग्रेशन है जिसमें लक्ष्य या आश्रित चर में 3 या अधिक संभावित अनियंत्रित प्रकार हो सकते हैं अर्थात प्रकार जिनका कोई मात्रात्मक महत्व नहीं है।

पायथन में कार्यान्वयन

अब हम पायथन में बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन की उपरोक्त अवधारणा को लागू करेंगे। इस उद्देश्य के लिए, हम स्केलेर नाम के अंक से एक डेटासेट का उपयोग कर रहे हैं।

सबसे पहले, हमें आवश्यक पुस्तकालयों को निम्नानुसार आयात करना होगा -

Import sklearn
from sklearn import datasets
from sklearn import linear_model
from sklearn import metrics
from sklearn.model_selection import train_test_split

अगला, हमें डिजिट डेटा लोड करने की आवश्यकता है -

digits = datasets.load_digits()

अब, फीचर मैट्रिक्स (X) और प्रतिक्रिया वेक्टर (y) को निम्नानुसार परिभाषित करें -

X = digits.data
y = digits.target

कोड की अगली पंक्ति की मदद से, हम X और y को प्रशिक्षण और परीक्षण सेट में विभाजित कर सकते हैं -

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)

अब लॉजिस्टिक रिग्रेशन की एक वस्तु इस प्रकार बनाएं -

digreg = linear_model.LogisticRegression()

अब, हमें प्रशिक्षण सेट का उपयोग करके मॉडल को प्रशिक्षित करने की आवश्यकता है -

digreg.fit(X_train, y_train)

इसके बाद, परीक्षण सेट पर भविष्यवाणियां इस प्रकार करें -

y_pred = digreg.predict(X_test)

अगले मॉडल की सटीकता को निम्नानुसार प्रिंट करें -

print("Accuracy of Logistic Regression model is:",
metrics.accuracy_score(y_test, y_pred)*100)

उत्पादन

Accuracy of Logistic Regression model is: 95.6884561891516

उपरोक्त आउटपुट से हम देख सकते हैं कि हमारे मॉडल की सटीकता लगभग 96 प्रतिशत है।