समर्थन वेक्टर मशीन (SVM)
एसवीएम का परिचय
समर्थन वेक्टर मशीनें (एसवीएम) शक्तिशाली अभी तक लचीली पर्यवेक्षित मशीन लर्निंग एल्गोरिदम हैं जो वर्गीकरण और प्रतिगमन दोनों के लिए उपयोग की जाती हैं। लेकिन आम तौर पर, उनका उपयोग वर्गीकरण समस्याओं में किया जाता है। 1960 के दशक में, SVM को पहली बार पेश किया गया था, लेकिन बाद में उन्हें 1990 में परिष्कृत किया गया। SVM का अन्य मशीन लर्निंग एल्गोरिदम की तुलना में कार्यान्वयन का अपना अनूठा तरीका है। हाल ही में, वे कई निरंतर और श्रेणीबद्ध चर को संभालने की अपनी क्षमता के कारण बेहद लोकप्रिय हैं।
एसवीएम का कार्य करना
एक एसवीएम मॉडल मूल रूप से बहुआयामी अंतरिक्ष में एक हाइपरप्लेन में विभिन्न वर्गों का प्रतिनिधित्व करता है। एसवीएम द्वारा हाइपरप्लेन को पुनरावृत्त तरीके से उत्पन्न किया जाएगा ताकि त्रुटि को कम किया जा सके। एसवीएम का लक्ष्य एक अधिकतम सीमांत हाइपरप्लेन (एमएमएच) को खोजने के लिए डेटासेट को कक्षाओं में विभाजित करना है।
एसवीएम में अनुवर्ती महत्वपूर्ण अवधारणाएं हैं -
Support Vectors- हाइपरप्लेन के सबसे नजदीक होने वाले डैटपॉइंट्स को सपोर्ट वैक्टर कहा जाता है। इन डेटा बिंदुओं की मदद से अलग लाइन को परिभाषित किया जाएगा।
Hyperplane - जैसा कि हम उपरोक्त आरेख में देख सकते हैं, यह एक निर्णय विमान या स्थान है जो विभिन्न वर्गों वाली वस्तुओं के एक समूह के बीच विभाजित है।
Margin- इसे विभिन्न वर्गों के कोठरी डेटा बिंदुओं पर दो लाइनों के बीच अंतर के रूप में परिभाषित किया जा सकता है। इसकी गणना लाइन से सहायक वैक्टर तक लंबवत दूरी के रूप में की जा सकती है। बड़े मार्जिन को अच्छा मार्जिन माना जाता है और छोटे मार्जिन को खराब मार्जिन माना जाता है।
एसवीएम का मुख्य लक्ष्य एक अधिकतम सीमांत हाइपरप्लेन (एमएमएच) को खोजने के लिए डेटासेट को कक्षाओं में विभाजित करना है और इसे निम्नलिखित दो चरणों में किया जा सकता है -
सबसे पहले, एसवीएम हाइपरप्लेन को पुनरावृत्त रूप से उत्पन्न करेगा जो कक्षाओं को सर्वोत्तम तरीके से अलग करता है।
फिर, यह हाइपरप्लेन का चयन करेगा जो कक्षाओं को सही ढंग से अलग करता है।
पायथन में एसवीएम को लागू करना
पायथन में एसवीएम को लागू करने के लिए हम मानक पुस्तकालयों के आयात के साथ शुरू करेंगे -
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns; sns.set()
अगला, हम एक नमूना डेटासेट बना रहे हैं, जिसमें एसवीएम का उपयोग करके वर्गीकरण के लिए sklearn.dataset.sample_generator से रेखीय रूप से वियोज्य डेटा है -
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=100, centers=2, random_state=0, cluster_std=0.50)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer');
निम्नलिखित नमूना डेटासेट उत्पन्न करने के बाद आउटपुट होगा जिसमें 100 नमूने और 2 क्लस्टर होंगे -
हम जानते हैं कि एसवीएम भेदभावपूर्ण वर्गीकरण का समर्थन करता है। यह केवल दो आयामों के मामले में एक रेखा खोजकर या कई आयामों के मामले में एक दूसरे से वर्गों को विभाजित करता है। यह उपरोक्त डेटासेट पर निम्नानुसार लागू किया गया है -
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plt.plot([0.6], [2.1], 'x', color='black', markeredgewidth=4, markersize=12)
for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]:
plt.plot(xfit, m * xfit + b, '-k')
plt.xlim(-1, 3.5);
आउटपुट इस प्रकार है -
हम उपरोक्त आउटपुट से देख सकते हैं कि तीन अलग-अलग विभाजक हैं जो उपरोक्त नमूनों को पूरी तरह से भेदभाव करते हैं।
जैसा कि चर्चा की गई है, एसवीएम का मुख्य लक्ष्य एक अधिकतम सीमांत हाइपरप्लेन (एमएमएच) खोजने के लिए डेटासेट को कक्षाओं में विभाजित करना है, इसलिए कक्षाओं के बीच एक शून्य रेखा खींचने के बजाय हम प्रत्येक रेखा के चारों ओर कुछ चौड़ाई के मार्जिन को निकटतम बिंदु तक खींच सकते हैं। इसे निम्नानुसार किया जा सकता है -
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]:
yfit = m * xfit + b
plt.plot(xfit, yfit, '-k')
plt.fill_between(xfit, yfit - d, yfit + d, edgecolor='none',
color='#AAAAAA', alpha=0.4)
plt.xlim(-1, 3.5);
आउटपुट में ऊपर की छवि से, हम आसानी से भेदभावपूर्ण क्लासिफायर के भीतर "मार्जिन" का पालन कर सकते हैं। एसवीएम उस रेखा का चयन करेगा जो मार्जिन को अधिकतम करती है।
अगला, हम इस डेटा पर एसवीएम मॉडल को प्रशिक्षित करने के लिए स्किकिट-लर्न के सपोर्ट वेक्टर क्लासिफायरियर का उपयोग करेंगे। यहां, हम एसवीएम को फिट करने के लिए रैखिक कर्नेल का उपयोग कर रहे हैं -
from sklearn.svm import SVC # "Support vector classifier"
model = SVC(kernel='linear', C=1E10)
model.fit(X, y)
आउटपुट इस प्रकार है -
SVC(C=10000000000.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
kernel='linear', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)
अब, एक बेहतर समझ के लिए, निम्नलिखित 2 डी एसवीसी के लिए निर्णय कार्यों की साजिश करेगा -
def decision_function(model, ax=None, plot_support=True):
if ax is None:
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
मॉडल के मूल्यांकन के लिए, हमें निम्नानुसार ग्रिड बनाने की आवश्यकता है -
x = np.linspace(xlim[0], xlim[1], 30)
y = np.linspace(ylim[0], ylim[1], 30)
Y, X = np.meshgrid(y, x)
xy = np.vstack([X.ravel(), Y.ravel()]).T
P = model.decision_function(xy).reshape(X.shape)
इसके बाद, हमें निर्णय सीमाएँ और मार्जिन की योजना बनाने की आवश्यकता है -
ax.contour(X, Y, P, colors='k',
levels=[-1, 0, 1], alpha=0.5,
linestyles=['--', '-', '--'])
अब, इसी तरह से सपोर्ट वैक्टर को प्लॉट करें -
if plot_support:
ax.scatter(model.support_vectors_[:, 0],
model.support_vectors_[:, 1],
s=300, linewidth=1, facecolors='none');
ax.set_xlim(xlim)
ax.set_ylim(ylim)
अब, हमारे मॉडल को फिट करने के लिए इस फ़ंक्शन का उपयोग करें -
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
decision_function(model);
हम उपरोक्त आउटपुट से निरीक्षण कर सकते हैं कि एक SVM क्लासिफायरमास्टर डेटा के साथ हाशिये पर धराशायी लाइनों और समर्थन वैक्टर, इस फिट के निर्णायक तत्वों को धराशायी लाइन को छूता है। ये समर्थन वेक्टर पॉइंट्स क्लासिफायर के support_vectors_ विशेषता में संग्रहीत हैं: -
model.support_vectors_
आउटपुट इस प्रकार है -
array([[0.5323772 , 3.31338909],
[2.11114739, 3.57660449],
[1.46870582, 1.86947425]])
एसवीएम गुठली
व्यवहार में, SVM एल्गोरिथ्म को कर्नेल के साथ लागू किया जाता है जो एक इनपुट डेटा स्पेस को आवश्यक रूप में बदल देता है। एसवीएम कर्नेल ट्रिक नामक एक तकनीक का उपयोग करता है जिसमें कर्नेल एक कम आयामी इनपुट स्थान लेता है और इसे एक उच्च आयामी स्थान में बदल देता है। सरल शब्दों में, कर्नेल गैर-वियोज्य समस्याओं को अलग-अलग समस्याओं में परिवर्तित करता है और इसे अधिक आयाम जोड़ देता है। यह SVM को अधिक शक्तिशाली, लचीला और सटीक बनाता है। एसवीएम द्वारा उपयोग की जाने वाली गुठली के कुछ प्रकार निम्नलिखित हैं -
रैखिक कर्नेल
यह किसी भी दो टिप्पणियों के बीच एक डॉट उत्पाद के रूप में इस्तेमाल किया जा सकता है। रैखिक कर्नेल का सूत्र निम्नानुसार है -
k (x, x i ) = योग (x * x i )
उपरोक्त सूत्र से, हम देख सकते हैं कि दो वैक्टर के बीच का उत्पाद इनपुट मानों के प्रत्येक जोड़े के गुणन का योग है।
बहुपद कर्नेल
यह रैखिक कर्नेल का अधिक सामान्यीकृत रूप है और घुमावदार या गैर-रेखीय इनपुट स्थान को अलग करता है। निम्नलिखित बहुपद कर्नेल के लिए सूत्र है -
K (x, xi) = 1 + योग (x * xi) ^ d
यहां d बहुपद की डिग्री है, जिसे हमें लर्निंग एल्गोरिदम में मैन्युअल रूप से निर्दिष्ट करने की आवश्यकता है।
रेडियल बेसिस फ़ंक्शन (RBF) कर्नेल
आरबीएफ कर्नेल, ज्यादातर एसवीएम वर्गीकरण में उपयोग किया जाता है, अनिश्चित आयामी अंतरिक्ष में इनपुट स्पेस को मैप करता है। निम्नलिखित सूत्र इसे गणितीय रूप से बताते हैं -
K (x, xi) = exp (-गम्मा * योग ((x - xi ^ 2))
यहाँ, गामा 0 से 1 तक है। हमें इसे लर्निंग एल्गोरिदम में मैन्युअल रूप से निर्दिष्ट करने की आवश्यकता है। गामा का एक अच्छा डिफ़ॉल्ट मान 0.1 है।
जैसा कि हमने रैखिक रूप से वियोज्य डेटा के लिए एसवीएम लागू किया है, हम इसे पाइथन में उन डेटा के लिए लागू कर सकते हैं जो रैखिक रूप से अलग नहीं हैं। यह गुठली का उपयोग करके किया जा सकता है।
उदाहरण
निम्नलिखित गुठली का उपयोग करके एक SVM क्लासिफायर बनाने के लिए एक उदाहरण है। हम scikit से iris डेटासेट का उपयोग करेंगे-
हम निम्नलिखित पैकेज आयात करके शुरू करेंगे -
import pandas as pd
import numpy as np
from sklearn import svm, datasets
import matplotlib.pyplot as plt
अब, हमें इनपुट डेटा लोड करने की आवश्यकता है -
iris = datasets.load_iris()
इस डेटासेट से, हम पहले दो फीचर इस प्रकार ले रहे हैं -
X = iris.data[:, :2]
y = iris.target
अगला, हम मूल डेटा के साथ एसवीएम सीमाओं की साजिश करेंगे: -
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
X_plot = np.c_[xx.ravel(), yy.ravel()]
अब, हमें नियमितीकरण पैरामीटर का मान इस प्रकार प्रदान करना होगा -
C = 1.0
अगला, SVM क्लासिफायर ऑब्जेक्ट निम्नानुसार बनाया जा सकता है -
Svc_classifier = svm.SVC (कर्नेल = 'रैखिक', C = C) .fit (X, y)
Z = svc_classifier.predict(X_plot)
Z = Z.reshape(xx.shape)
plt.figure(figsize=(15, 5))
plt.subplot(121)
plt.contourf(xx, yy, Z, cmap=plt.cm.tab10, alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('Support Vector Classifier with linear kernel')
उत्पादन
Text(0.5, 1.0, 'Support Vector Classifier with linear kernel')
के साथ SVM क्लासिफायर बनाने के लिए rbf कर्नेल, हम कर्नेल को बदल सकते हैं rbf निम्नानुसार है -
Svc_classifier = svm.SVC(kernel='rbf', gamma =‘auto’,C=C).fit(X, y)
Z = svc_classifier.predict(X_plot)
Z = Z.reshape(xx.shape)
plt.figure(figsize=(15, 5))
plt.subplot(121)
plt.contourf(xx, yy, Z, cmap=plt.cm.tab10, alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('Support Vector Classifier with rbf kernel')
उत्पादन
Text(0.5, 1.0, 'Support Vector Classifier with rbf kernel')
हम 'ऑटो' के लिए गामा का मान रखते हैं लेकिन आप इसका मान 0 से 1 के बीच भी प्रदान कर सकते हैं।
एसवीएम क्लासिफायर के पेशेवरों और विपक्ष
एसवीएम क्लासिफायर के पेशेवरों
एसवीएम क्लासिफायर शानदार सटीकता प्रदान करता है और उच्च आयामी स्थान के साथ अच्छी तरह से काम करता है। एसवीएम क्लासिफायर मूल रूप से प्रशिक्षण बिंदुओं के सबसेट का उपयोग करते हैं इसलिए परिणाम में बहुत कम मेमोरी का उपयोग होता है।
एसवीएम क्लासिफायर के विपक्ष
उनके पास उच्च प्रशिक्षण समय है इसलिए अभ्यास में बड़े डेटासेट के लिए उपयुक्त नहीं है। एक और नुकसान यह है कि एसवीएम क्लासिफायर ओवरलैपिंग कक्षाओं के साथ अच्छी तरह से काम नहीं करते हैं।