स्किकिट सीखें - त्वरित गाइड
इस अध्याय में, हम समझेंगे कि Scikit-Learn या Sklearn क्या है, Scikit-Learn की उत्पत्ति और कुछ अन्य संबंधित विषय जैसे समुदाय और योगदानकर्ता Scikit-Learn के विकास और रखरखाव के लिए जिम्मेदार हैं, इसके पूर्वापेक्षाएँ, स्थापना और इसकी विशेषताएं।
क्या है स्किट-लर्न (स्केलेरन)
पाइथन में मशीन सीखने के लिए स्किकिट-लर्न (स्केलेरन) सबसे उपयोगी और मजबूत पुस्तकालय है। यह पायथन में एक संगति इंटरफ़ेस के माध्यम से वर्गीकरण, प्रतिगमन, क्लस्टरिंग और आयामीता सहित मशीन सीखने और सांख्यिकीय मॉडलिंग के लिए कुशल उपकरणों का चयन प्रदान करता है। यह पुस्तकालय, जो काफी हद तक अजगर में लिखा गया है, पर बनाया गया हैNumPy, SciPy तथा Matplotlib।
स्किकिट-लर्न की उत्पत्ति
यह मूल रूप से कहा जाता था scikits.learn और शुरू में 2007 में डेविड कॉर्नैप्यू द्वारा कोड प्रोजेक्ट की एक Google गर्मियों के रूप में विकसित किया गया था। बाद में, 2010 में, एफबीसीए (फ्रेंच इंस्टीट्यूट फॉर रिसर्च इन कंप्यूटर साइंस एंड ऑटोमेशन) से, फैबियन पेड्रिगोसा, गेल वोरक्वाक्स, अलेक्जेंड्रे ग्रामफोर्ट और विंसेंट मिशेल ने लिया। इस परियोजना को दूसरे स्तर पर और पहली सार्वजनिक रिलीज (v0.1 बीटा) को 1 फरवरी 2010 को बनाया गया।
आइए नजर डालते हैं इसके संस्करण इतिहास पर -
मई 2019: स्किटिट-सीखें 0.21.0
मार्च 2019: स्किटिट-सीखें 0.20.3
दिसंबर 2018: स्किटिट-सीखें 0.20.2
नवंबर 2018: स्किटिट-सीखें 0.20.1
सितंबर 2018: स्कोर-सीखें 0.20.0
जुलाई 2018: स्किटिट-सीखें 0.19.2
जुलाई 2017: स्कोर-सीखें 0.19.0
सितंबर 2016. स्किटिट-सीखें 0.18.0
नवंबर 2015। scikit-0.17.0-सीखें
मार्च 2015- scikit-learn 0.16.0
जुलाई 2014. स्किटिट-सीखें 0.15.0
अगस्त 2013. स्किटिट-सीखें 0.14
समुदाय और योगदानकर्ता
स्किकिट-लर्न एक सामुदायिक प्रयास है और कोई भी इसमें योगदान दे सकता है। इस प्रोजेक्ट को होस्ट किया गया हैhttps://github.com/scikit-learn/scikit-learn. वर्तमान में लोग स्केलेर के विकास और रखरखाव में मुख्य योगदानकर्ता हैं -
जॉरिस वैन डेन बॉसचे (डेटा वैज्ञानिक)
थॉमस जे फैन (सॉफ्टवेयर डेवलपर)
अलेक्जेंड्रे ग्रामफोर्ट (मशीन लर्निंग रिसर्चर)
ओलिवियर ग्रिसल (मशीन लर्निंग एक्सपर्ट)
निकोलस हग (एसोसिएट रिसर्च साइंटिस्ट)
एंड्रियास मुलर (मशीन लर्निंग साइंटिस्ट)
हनमिन किन (सॉफ्टवेयर इंजीनियर)
एड्रिन जलाली (ओपन सोर्स डेवलपर)
Nelle Varoquaux (डेटा साइंस रिसर्चर)
रोमन युरचैक (डेटा वैज्ञानिक)
Booking.com, JP Morgan, Evernote, Inria, AWeber, Spotify जैसे कई संगठन स्केलेर का उपयोग कर रहे हैं।
आवश्यक शर्तें
इससे पहले कि हम scikit-learn नवीनतम रिलीज़ का उपयोग करना शुरू करें, हमें निम्नलिखित की आवश्यकता है -
अजगर (> = 3.5)
NumPy (> = 1.11.0)
स्कैपी (> = 0.17.0) ली
जोबलिब (> = 0.11)
Sklearn प्लॉटिंग क्षमताओं के लिए Matplotlib (> = 1.5.1) की आवश्यकता है।
पंडों (> = 0.18.0) को डेटा संरचना और विश्लेषण का उपयोग करते हुए कुछ डरावने-सीखे उदाहरणों के लिए आवश्यक है।
इंस्टालेशन
यदि आप पहले से ही NumPy और Scipy स्थापित करते हैं, तो स्किकिट-लर्न को स्थापित करने के दो सबसे आसान तरीके हैं -
पाइप का उपयोग करना
निम्नलिखित कमांड का उपयोग पाइप के माध्यम से स्किकिट-सीखने को स्थापित करने के लिए किया जा सकता है -
pip install -U scikit-learn
कोंडा का उपयोग करना
निम्नलिखित कमांड का उपयोग कोंडा के माध्यम से स्किकिट-इनस्टॉल करने के लिए किया जा सकता है -
conda install scikit-learn
दूसरी ओर, यदि आपके Python वर्कस्टेशन पर NumPy और Scipy अभी तक स्थापित नहीं हुए हैं, तो आप या तो इसे स्थापित कर सकते हैं pip या conda।
स्किकिट-लर्न का उपयोग करने का एक अन्य विकल्प पायथन वितरण जैसे उपयोग करना है Canopy तथा Anaconda क्योंकि वे दोनों ही scikit-learn का नवीनतम संस्करण शिप करते हैं।
विशेषताएं
डेटा को लोड करने, हेरफेर करने और सारांशित करने पर ध्यान केंद्रित करने के बजाय, स्किकिट-लर्न लाइब्रेरी डेटा को मॉडलिंग करने पर केंद्रित है। Sklearn द्वारा प्रदान किए गए मॉडल के कुछ सबसे लोकप्रिय समूह इस प्रकार हैं -
Supervised Learning algorithms - लगभग सभी लोकप्रिय पर्यवेक्षित शिक्षण एल्गोरिदम, जैसे रैखिक प्रतिगमन, सपोर्ट वेक्टर मशीन (एसवीएम), डिसीजन ट्री आदि, स्किट-लर्न का हिस्सा हैं।
Unsupervised Learning algorithms - दूसरी ओर, इसके पास क्लस्टरिंग, फैक्टर एनालिसिस, PCA (प्रिंसिपल कंपोनेंट एनालिसिस) से लेकर अनसर्वलाइज्ड न्यूरल नेटवर्क तक सभी लोकप्रिय अनप्रूव्ड लर्निंग एल्गोरिदम हैं।
Clustering - इस मॉडल का इस्तेमाल अनलिस्टेड डेटा को ग्रुप करने के लिए किया जाता है।
Cross Validation - इसका उपयोग अनदेखी डेटा पर पर्यवेक्षित मॉडल की सटीकता की जांच करने के लिए किया जाता है।
Dimensionality Reduction - इसका उपयोग डेटा में उन विशेषताओं की संख्या को कम करने के लिए किया जाता है, जिन्हें संक्षेप में विज़ुअलाइज़ेशन और फ़ीचर चयन के लिए उपयोग किया जा सकता है।
Ensemble methods - जैसा कि नाम से पता चलता है, इसका उपयोग कई पर्यवेक्षित मॉडल की भविष्यवाणियों के संयोजन के लिए किया जाता है।
Feature extraction - इसका उपयोग छवि और पाठ डेटा में विशेषताओं को परिभाषित करने के लिए डेटा से सुविधाओं को निकालने के लिए किया जाता है।
Feature selection - पर्यवेक्षित मॉडल बनाने के लिए उपयोगी विशेषताओं की पहचान करने के लिए इसका उपयोग किया जाता है।
Open Source - यह ओपन सोर्स लाइब्रेरी है और बीएसडी लाइसेंस के तहत व्यावसायिक रूप से उपयोग करने योग्य भी है।
यह अध्याय स्केलेरन में शामिल मॉडलिंग प्रक्रिया से संबंधित है। आइए हम उसी के बारे में विस्तार से समझते हैं और डाटासेट लोडिंग के साथ शुरू करते हैं।
डेटासेट लोड हो रहा है
डेटा के संग्रह को डेटासेट कहा जाता है। इसके निम्नलिखित दो घटक हैं -
Features- डेटा के चर को इसकी विशेषताएं कहा जाता है। उन्हें भविष्यवक्ता, इनपुट या विशेषताओं के रूप में भी जाना जाता है।
Feature matrix - यह सुविधाओं का संग्रह है, मामले में एक से अधिक हैं।
Feature Names - यह सुविधाओं के सभी नामों की सूची है।
Response- यह आउटपुट चर है जो मूल रूप से सुविधा चर पर निर्भर करता है। उन्हें लक्ष्य, लेबल या आउटपुट के रूप में भी जाना जाता है।
Response Vector- इसका उपयोग प्रतिक्रिया कॉलम का प्रतिनिधित्व करने के लिए किया जाता है। आम तौर पर, हमारे पास सिर्फ एक प्रतिक्रिया कॉलम होता है।
Target Names - यह एक प्रतिक्रिया वेक्टर द्वारा उठाए गए संभावित मूल्यों का प्रतिनिधित्व करता है।
स्किकिट-लर्न में कुछ उदाहरण डेटासेट जैसे हैं iris तथा digits वर्गीकरण के लिए और Boston house prices प्रतिगमन के लिए।
उदाहरण
निम्नलिखित लोड करने के लिए एक उदाहरण है iris डेटासेट -
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names
print("Feature names:", feature_names)
print("Target names:", target_names)
print("\nFirst 10 rows of X:\n", X[:10])
उत्पादन
Feature names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Target names: ['setosa' 'versicolor' 'virginica']
First 10 rows of X:
[
[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]
[5.4 3.9 1.7 0.4]
[4.6 3.4 1.4 0.3]
[5. 3.4 1.5 0.2]
[4.4 2.9 1.4 0.2]
[4.9 3.1 1.5 0.1]
]
डेटासेट को विभाजित करना
हमारे मॉडल की सटीकता की जांच करने के लिए, हम डेटासेट को दो टुकड़ों में विभाजित कर सकते हैं-a training set तथा a testing set। मॉडल को प्रशिक्षित करने के लिए प्रशिक्षण सेट का उपयोग करें और मॉडल का परीक्षण करने के लिए परीक्षण सेट करें। उसके बाद, हम मूल्यांकन कर सकते हैं कि हमारे मॉडल ने कितना अच्छा किया।
उदाहरण
निम्न उदाहरण डेटा को 70:30 अनुपात में विभाजित करेगा, अर्थात 70% डेटा का उपयोग प्रशिक्षण डेटा के रूप में किया जाएगा और 30% का उपयोग परीक्षण डेटा के रूप में किया जाएगा। उपर्युक्त उदाहरण में डेटासेट iris डाटासेट है।
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size = 0.3, random_state = 1
)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)
उत्पादन
(105, 4)
(45, 4)
(105,)
(45,)
जैसा कि ऊपर दिए गए उदाहरण में देखा गया है, यह उपयोग करता है train_test_split()स्किकिट का कार्य- डेटासेट विभाजित करना सीखें। इस कार्य के निम्नलिखित तर्क हैं -
X, y - यहाँ X है feature matrix और वाई है response vector, जिसे विभाजित करने की आवश्यकता है।
test_size- यह कुल दिए गए डेटा के परीक्षण डेटा के अनुपात का प्रतिनिधित्व करता है। जैसा कि उपरोक्त उदाहरण में, हम सेट कर रहे हैंtest_data = 0.3 X की 150 पंक्तियों के लिए। यह 150 * 0.3 = 45 पंक्तियों के परीक्षण डेटा का उत्पादन करेगा।
random_size- यह गारंटी देने के लिए उपयोग किया जाता है कि विभाजन हमेशा समान होगा। यह उन स्थितियों में उपयोगी है जहां आप प्रजनन योग्य परिणाम चाहते हैं।
मॉडल को प्रशिक्षित करें
अगला, हम कुछ डेटा-मॉडल को प्रशिक्षित करने के लिए अपने डेटासेट का उपयोग कर सकते हैं। जैसा कि चर्चा की गई है, स्किकिट-लर्न की विस्तृत श्रृंखला हैMachine Learning (ML) algorithms जिसमें फिटिंग के लिए एक सुसंगत इंटरफ़ेस है, सटीकता की भविष्यवाणी करना, याद रखना आदि।
उदाहरण
नीचे दिए गए उदाहरण में, हम KNN (K निकटतम पड़ोसियों) क्लासिफायर का उपयोग करने जा रहे हैं। केएनएन एल्गोरिदम के विवरण में मत जाओ, क्योंकि इसके लिए एक अलग अध्याय होगा। इस उदाहरण का उपयोग केवल कार्यान्वयन भाग को समझने के लिए किया जाता है।
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size = 0.4, random_state=1
)
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors = 3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Finding accuracy by comparing actual response values(y_test)with predicted response value(y_pred)
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
# Providing sample data and the model will make prediction out of that data
sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] print("Predictions:", pred_species)
उत्पादन
Accuracy: 0.9833333333333333
Predictions: ['versicolor', 'virginica']
मॉडल की दृढ़ता
एक बार जब आप मॉडल को प्रशिक्षित करते हैं, तो यह वांछनीय है कि मॉडल भविष्य के उपयोग के लिए बने रहना चाहिए, ताकि हमें इसे बार-बार पीछे करने की आवश्यकता न हो। की सहायता से किया जा सकता हैdump तथा load की सुविधाएं joblib पैकेज।
नीचे दिए गए उदाहरण पर विचार करें जिसमें हम भविष्य के उपयोग के लिए उपरोक्त प्रशिक्षित मॉडल (क्लासिफायर_कन) को सहेज रहे हैं -
from sklearn.externals import joblib
joblib.dump(classifier_knn, 'iris_classifier_knn.joblib')
उपरोक्त कोड iris_classifier_knn.joblib नामक फाइल में मॉडल को बचाएगा। अब, वस्तु को निम्नलिखित कोड की मदद से फाइल से पुनः लोड किया जा सकता है -
joblib.load('iris_classifier_knn.joblib')
डेटा को रोकना
जैसा कि हम बहुत सारे डेटा के साथ काम कर रहे हैं और यह डेटा कच्चे रूप में है, उस डेटा को मशीन लर्निंग एल्गोरिदम में इनपुट करने से पहले, हमें इसे सार्थक डेटा में बदलने की आवश्यकता है। इस प्रक्रिया को डेटा प्रीप्रोसेसिंग कहा जाता है। स्किकिट-लर्न का पैकेज नाम दिया गया हैpreprocessingइस काम के लिए। preprocessing पैकेज में निम्नलिखित तकनीकें हैं -
Binarisation
इस प्रीप्रोसेसिंग तकनीक का उपयोग तब किया जाता है जब हमें अपने संख्यात्मक मूल्यों को बूलियन मूल्यों में बदलने की आवश्यकता होती है।
उदाहरण
import numpy as np
from sklearn import preprocessing
Input_data = np.array(
[2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8]]
)
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\nBinarized data:\n", data_binarized)
उपरोक्त उदाहरण में, हमने उपयोग किया threshold value = 0.5 और इसीलिए, 0.5 से ऊपर के सभी मानों को 1 में बदल दिया जाएगा, और 0.5 से नीचे के सभी मूल्यों को 0 में बदल दिया जाएगा।
उत्पादन
Binarized data:
[
[ 1. 0. 1.]
[ 0. 1. 1.]
[ 0. 0. 1.]
[ 1. 1. 0.]
]
मतलब निकालना
इस तकनीक का उपयोग फीचर वेक्टर से माध्य को खत्म करने के लिए किया जाता है ताकि हर सुविधा शून्य पर केंद्रित हो।
उदाहरण
import numpy as np
from sklearn import preprocessing
Input_data = np.array(
[2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8]]
)
#displaying the mean and the standard deviation of the input data
print("Mean =", input_data.mean(axis=0))
print("Stddeviation = ", input_data.std(axis=0))
#Removing the mean and the standard deviation of the input data
data_scaled = preprocessing.scale(input_data)
print("Mean_removed =", data_scaled.mean(axis=0))
print("Stddeviation_removed =", data_scaled.std(axis=0))
उत्पादन
Mean = [ 1.75 -1.275 2.2 ]
Stddeviation = [ 2.71431391 4.20022321 4.69414529]
Mean_removed = [ 1.11022302e-16 0.00000000e+00 0.00000000e+00]
Stddeviation_removed = [ 1. 1. 1.]
स्केलिंग
फीचर वैक्टर को स्केल करने के लिए हम इस प्रीप्रोसेसिंग तकनीक का उपयोग करते हैं। फीचर वैक्टर का स्केलिंग महत्वपूर्ण है, क्योंकि सुविधाओं को कृत्रिम रूप से बड़ा या छोटा नहीं होना चाहिए।
उदाहरण
import numpy as np
from sklearn import preprocessing
Input_data = np.array(
[
[2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8]
]
)
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nMin max scaled data:\n", data_scaled_minmax)
उत्पादन
Min max scaled data:
[
[ 0.48648649 0.58252427 0.99122807]
[ 0. 1. 0.81578947]
[ 0.27027027 0. 1. ]
[ 1. 0.99029126 0. ]
]
मानकीकरण
फीचर वैक्टर को संशोधित करने के लिए हम इस प्रीप्रोसेसिंग तकनीक का उपयोग करते हैं। फीचर वैक्टर का सामान्यीकरण आवश्यक है ताकि फीचर वैक्टर को सामान्य पैमाने पर मापा जा सके। सामान्यीकरण दो प्रकार के होते हैं -
एल 1 सामान्यीकरण
इसे Least Absolute Deviations भी कहा जाता है। यह इस तरह से मूल्य को संशोधित करता है कि प्रत्येक पंक्ति में पूर्ण मानों का योग हमेशा 1 तक रहता है। निम्नलिखित उदाहरण इनपुट डेटा पर एल 1 सामान्यीकरण के कार्यान्वयन को दर्शाता है।
उदाहरण
import numpy as np
from sklearn import preprocessing
Input_data = np.array(
[
[2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8]
]
)
data_normalized_l1 = preprocessing.normalize(input_data, norm='l1')
print("\nL1 normalized data:\n", data_normalized_l1)
उत्पादन
L1 normalized data:
[
[ 0.22105263 -0.2 0.57894737]
[-0.2027027 0.32432432 0.47297297]
[ 0.03571429 -0.56428571 0.4 ]
[ 0.42142857 0.16428571 -0.41428571]
]
L2 सामान्यीकरण
जिसे Least Squares भी कहा जाता है। यह मूल्य को इस तरह से संशोधित करता है कि वर्गों का योग प्रत्येक पंक्ति में हमेशा 1 तक रहता है। निम्नलिखित उदाहरण इनपुट डेटा पर L2 के सामान्यीकरण के कार्यान्वयन को दर्शाता है।
उदाहरण
import numpy as np
from sklearn import preprocessing
Input_data = np.array(
[
[2.1, -1.9, 5.5],
[-1.5, 2.4, 3.5],
[0.5, -7.9, 5.6],
[5.9, 2.3, -5.8]
]
)
data_normalized_l2 = preprocessing.normalize(input_data, norm='l2')
print("\nL1 normalized data:\n", data_normalized_l2)
उत्पादन
L2 normalized data:
[
[ 0.33946114 -0.30713151 0.88906489]
[-0.33325106 0.53320169 0.7775858 ]
[ 0.05156558 -0.81473612 0.57753446]
[ 0.68706914 0.26784051 -0.6754239 ]
]
जैसा कि हम जानते हैं कि मशीन लर्निंग डेटा से मॉडल बनाने वाली है। इस उद्देश्य के लिए, कंप्यूटर को पहले डेटा को समझना होगा। अगला, हम कंप्यूटर द्वारा समझा जाने वाले डेटा का प्रतिनिधित्व करने के लिए विभिन्न तरीकों पर चर्चा करने जा रहे हैं -
तालिका के रूप में डेटा
स्किकिट-लर्न में डेटा का प्रतिनिधित्व करने का सबसे अच्छा तरीका तालिकाओं के रूप में है। एक तालिका डेटा के 2-डी ग्रिड का प्रतिनिधित्व करती है जहां पंक्तियां डेटासेट के व्यक्तिगत तत्वों का प्रतिनिधित्व करती हैं और कॉलम उन व्यक्तिगत तत्वों से संबंधित मात्रा का प्रतिनिधित्व करता है।
उदाहरण
नीचे दिए गए उदाहरण से, हम डाउनलोड कर सकते हैं iris dataset अजगर की मदद से पंडों के डेटाफ़्रेम के रूप में seaborn पुस्तकालय।
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
उत्पादन
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
उपरोक्त आउटपुट से, हम देख सकते हैं कि डेटा की प्रत्येक पंक्ति एक एकल देखे गए फूल का प्रतिनिधित्व करती है और पंक्तियों की संख्या डेटासेट में फूलों की कुल संख्या का प्रतिनिधित्व करती है। आम तौर पर, हम मैट्रिक्स की पंक्तियों को नमूने के रूप में संदर्भित करते हैं।
दूसरी ओर, डेटा का प्रत्येक स्तंभ प्रत्येक नमूने का वर्णन करने वाली एक मात्रात्मक जानकारी का प्रतिनिधित्व करता है। आमतौर पर, हम मैट्रिक्स के कॉलम को सुविधाओं के रूप में संदर्भित करते हैं।
फ़ीचर मैट्रिक्स के रूप में डेटा
विशेषताएँ मैट्रिक्स को टेबल लेआउट के रूप में परिभाषित किया जा सकता है जहाँ जानकारी को 2-डी मैट्रिक्स के रूप में सोचा जा सकता है। इसे नाम के एक चर में संग्रहित किया जाता हैXऔर आकार के साथ दो आयामी माना जाता है [n_samples, n_features]। अधिकतर, यह एक NumPy सरणी या एक पंडों DataFrame में निहित है। जैसा कि पहले कहा गया था, नमूने हमेशा डेटासेट द्वारा बताई गई व्यक्तिगत वस्तुओं का प्रतिनिधित्व करते हैं और विशेषताएं उन अलग-अलग टिप्पणियों का प्रतिनिधित्व करती हैं जो प्रत्येक नमूने का एक मात्रात्मक तरीके से वर्णन करती हैं।
लक्ष्य सरणी के रूप में डेटा
एक्स द्वारा निरूपित फीचर्स मैट्रिक्स के साथ, हमारे पास लक्ष्य सरणी भी है। इसे लेबल भी कहा जाता है। इसे y द्वारा दर्शाया गया है। लेबल या लक्ष्य सरणी आमतौर पर एक आयामी लंबाई वाली n_samples होती है। यह आम तौर पर NumPy में निहित होता हैarray या पंडों Series। लक्ष्य सरणी में दोनों मान, निरंतर संख्यात्मक मान और असतत मान हो सकते हैं।
लक्ष्य सरणी फीचर कॉलम से कैसे भिन्न होती है?
हम दोनों को एक बिंदु से अलग कर सकते हैं कि लक्ष्य सरणी आमतौर पर वह मात्रा है जिसे हम डेटा से भविष्यवाणी करना चाहते हैं अर्थात सांख्यिकीय शब्दों में यह निर्भर चर है।
उदाहरण
नीचे दिए गए उदाहरण में, आईरिस डाटासेट से हम अन्य मापों के आधार पर फूल की प्रजातियों की भविष्यवाणी करते हैं। इस स्थिति में, प्रजाति स्तंभ को सुविधा माना जाएगा।
import seaborn as sns
iris = sns.load_dataset('iris')
%matplotlib inline
import seaborn as sns; sns.set()
sns.pairplot(iris, hue='species', height=3);
उत्पादन
X_iris = iris.drop('species', axis=1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
उत्पादन
(150,4)
(150,)
इस अध्याय में, हम इस बारे में जानेंगे Estimator API(एप्लीकेशन प्रोग्रामिंग इंटरफेस)। आइए हम यह समझकर शुरू करें कि एक अनुमानक एपीआई क्या है।
एस्टिमेटर एपीआई क्या है
यह स्किकिट-लर्न द्वारा कार्यान्वित मुख्य एपीआई में से एक है। यह ML अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए एक सुसंगत इंटरफ़ेस प्रदान करता है यही कारण है कि Scikit-Learn में सभी मशीन लर्निंग एल्गोरिदम को एस्टिमेटर एपीआई के माध्यम से कार्यान्वित किया जाता है। ऑब्जेक्ट जो डेटा से सीखता है (डेटा फिटिंग) एक अनुमानक है। इसका उपयोग किसी भी एल्गोरिदम जैसे वर्गीकरण, प्रतिगमन, क्लस्टरिंग या यहां तक कि एक ट्रांसफार्मर के साथ किया जा सकता है, जो कच्चे डेटा के लिए उपयोगी सुविधाओं को निकालता है।
डेटा की फिटिंग के लिए, सभी अनुमानक वस्तुएं एक फिट विधि को उजागर करती हैं जो कि दिखाए गए डेटासेट को निम्नानुसार लेता है -
estimator.fit(data)
अगला, एक अनुमानक के सभी मापदंडों को निम्नानुसार सेट किया जा सकता है, जब इसे संबंधित विशेषता द्वारा तत्काल किया जाता है।
estimator = Estimator (param1=1, param2=2)
estimator.param1
उपरोक्त का उत्पादन 1 होगा।
एक बार जब डेटा को एक अनुमानक के साथ फिट किया जाता है, तो हाथ में डेटा से मापदंडों का अनुमान लगाया जाता है। अब, सभी अनुमानित पैरामीटर निम्नानुसार अंडरस्कोर द्वारा समाप्त होने वाले अनुमानक ऑब्जेक्ट की विशेषताएं होंगे -
estimator.estimated_param_
अनुमानक एपीआई का उपयोग
अनुमानकों के मुख्य उपयोग इस प्रकार हैं -
एक मॉडल का अनुमान और डिकोडिंग
मॉडल के अनुमान और डिकोडिंग के लिए एस्टिमेटर ऑब्जेक्ट का उपयोग किया जाता है। इसके अलावा, मॉडल निम्नलिखित के एक नियतात्मक कार्य के रूप में अनुमानित है -
ऑब्जेक्ट निर्माण में प्रदान किए जाने वाले पैरामीटर।
वैश्विक रैंडम स्थिति (numpy.random) यदि अनुमानक के random_state पैरामीटर को किसी के लिए सेट नहीं किया गया है।
किसी भी डेटा को हाल ही में कॉल करने के लिए पास किया गया fit, fit_transform, or fit_predict।
किसी भी डेटा को कॉल करने के क्रम में पास किया गया partial_fit।
गैर-आयताकार डेटा प्रतिनिधित्व को आयताकार डेटा में मैप करना
यह एक गैर-आयताकार डेटा प्रतिनिधित्व को आयताकार डेटा में मैप करता है। सरल शब्दों में, यह इनपुट लेता है जहां प्रत्येक नमूने को निश्चित लंबाई की एक सरणी जैसी वस्तु के रूप में नहीं दर्शाया जाता है, और प्रत्येक नमूने के लिए सुविधाओं की एक सरणी जैसी वस्तु का उत्पादन होता है।
कोर और बाहरी नमूनों के बीच का अंतर
यह निम्नलिखित विधियों का उपयोग करके कोर और बाहरी नमूनों के बीच अंतर को दर्शाता है -
fit
अगर ट्रांसडक्टिव हो तो fit_predict
यदि प्रेरक हो तो भविष्यवाणी करें
मार्गदर्शक सिद्धांत
स्किकिट-लर्न एपीआई को डिजाइन करते समय, निम्नलिखित सिद्धांतों का ध्यान रखें -
संगति
यह सिद्धांत बताता है कि सभी वस्तुओं को सीमित तरीकों से तैयार किए गए एक सामान्य इंटरफ़ेस को साझा करना चाहिए। प्रलेखन भी सुसंगत होना चाहिए।
सीमित वस्तु पदानुक्रम
यह मार्गदर्शक सिद्धांत कहता है -
एल्गोरिदम को पायथन वर्गों द्वारा दर्शाया जाना चाहिए
डेटासेट्स को मानक प्रारूप जैसे नुम्पी सरणियों, पंडों डेटाफ्रैम, साइपी स्पार्स मैट्रिक्स में दर्शाया जाना चाहिए।
पैरामीटर नाम मानक पायथन स्ट्रिंग्स का उपयोग करना चाहिए।
रचना
जैसा कि हम जानते हैं कि, एमएल एल्गोरिदम को कई मौलिक एल्गोरिदम के अनुक्रम के रूप में व्यक्त किया जा सकता है। जब भी जरूरत हो, स्किकिट-लर्न इन मूलभूत एल्गोरिदम का उपयोग करता है।
संवेदनशील चूक
इस सिद्धांत के अनुसार, स्किट-लर्न लाइब्रेरी उचित डिफ़ॉल्ट मान को परिभाषित करती है जब भी एमएल मॉडल को उपयोगकर्ता द्वारा निर्दिष्ट मापदंडों की आवश्यकता होती है।
निरीक्षण
इस मार्गदर्शक सिद्धांत के अनुसार, प्रत्येक निर्दिष्ट पैरामीटर मान को यौवन विशेषताओं के रूप में उजागर किया जाता है।
अनुमानक एपीआई का उपयोग करने में कदम
फॉलोइंग Scikit-Learn आकलनकर्ता API का उपयोग करने के चरण हैं -
चरण 1: मॉडल का एक वर्ग चुनें
इस पहले चरण में, हमें मॉडल का एक वर्ग चुनने की आवश्यकता है। यह स्किकिट-लर्न से उपयुक्त एस्टीमेटर वर्ग को आयात करके किया जा सकता है।
चरण 2: मॉडल हाइपरपैरामीटर चुनें
इस चरण में, हमें क्लास मॉडल हाइपरपरमेटर्स चुनने की आवश्यकता है। यह वांछित मूल्यों के साथ वर्ग को तत्काल करके किया जा सकता है।
चरण 3: डेटा की व्यवस्था करना
इसके बाद, हमें डेटा को फीचर मैट्रिक्स (X) और लक्ष्य वेक्टर (y) में व्यवस्थित करने की आवश्यकता है।
चरण 4: मॉडल फिटिंग
अब, हमें मॉडल को आपके डेटा पर फिट करने की आवश्यकता है। यह मॉडल उदाहरण के फिट () विधि को कॉल करके किया जा सकता है।
चरण 5: मॉडल को लागू करना
मॉडल को फिट करने के बाद, हम इसे नए डेटा पर लागू कर सकते हैं। पर्यवेक्षित शिक्षण के लिए, का उपयोग करेंpredict()अज्ञात डेटा के लिए लेबल की भविष्यवाणी करने की विधि। अप्रमाणित शिक्षा के लिए, उपयोग करेंpredict() या transform() डेटा के गुणों का पता लगाने के लिए।
पर्यवेक्षित शिक्षण उदाहरण
यहां, इस प्रक्रिया के एक उदाहरण के रूप में हम एक लाइन (x, y) डेटा के लिए फिटिंग के सामान्य मामले ले रहे हैं simple linear regression।
सबसे पहले, हमें डेटासेट लोड करने की आवश्यकता है, हम आईरिस डेटासेट का उपयोग कर रहे हैं -
उदाहरण
import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
उत्पादन
(150, 4)
उदाहरण
y_iris = iris['species']
y_iris.shape
उत्पादन
(150,)
उदाहरण
अब, इस प्रतिगमन उदाहरण के लिए, हम निम्नलिखित नमूना डेटा का उपयोग करने जा रहे हैं -
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
उत्पादन
तो, हमारे पास हमारे रेखीय प्रतिगमन उदाहरण के लिए उपरोक्त डेटा है।
अब, इस डेटा के साथ, हम उपर्युक्त चरणों को लागू कर सकते हैं।
मॉडल का एक वर्ग चुनें
यहाँ, एक सरल रैखिक प्रतिगमन मॉडल की गणना करने के लिए, हमें निम्न प्रकार से रैखिक प्रतिगमन वर्ग को आयात करना होगा -
from sklearn.linear_model import LinearRegression
मॉडल हाइपरपैरमीटर चुनें
एक बार जब हम मॉडल का एक वर्ग चुनते हैं, तो हमें कुछ महत्वपूर्ण विकल्प बनाने की आवश्यकता होती है, जिन्हें अक्सर हाइपरपरमेटर्स के रूप में दर्शाया जाता है, या उन मापदंडों को निर्धारित किया जाना चाहिए जो मॉडल के डेटा में फिट होने से पहले सेट होने चाहिए। यहाँ, रैखिक प्रतिगमन के इस उदाहरण के लिए, हम का उपयोग करके अवरोधन को फिट करना चाहेंगेfit_intercept हाइपरपरमीटर निम्नानुसार है -
Example
model = LinearRegression(fit_intercept = True)
model
Output
LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None, normalize = False)
डेटा की व्यवस्था करना
अब, जैसा कि हम जानते हैं कि हमारा लक्ष्य चर है y सही रूप में है यानी लंबाई n_samples1-डी की सरणी। लेकिन, हमें फीचर मैट्रिक्स को फिर से आकार देना होगाX इसे आकार का एक मैट्रिक्स बनाने के लिए [n_samples, n_features]। इसे निम्नानुसार किया जा सकता है -
Example
X = x[:, np.newaxis]
X.shape
Output
(40, 1)
मॉडल फिटिंग
एक बार, हम डेटा की व्यवस्था करते हैं, यह मॉडल को फिट करने का समय है जो हमारे मॉडल को डेटा पर लागू करने के लिए है। की सहायता से यह किया जा सकता हैfit() विधि इस प्रकार है -
Example
model.fit(X, y)
Output
LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None,normalize = False)
स्किकिट-लर्न में, द fit() प्रक्रिया में कुछ अनुगामी अंडरस्कोर होते हैं।
इस उदाहरण के लिए, नीचे दिया गया पैरामीटर डेटा के सरल रेखीय फिट का ढलान दिखाता है -
Example
model.coef_
Output
array([1.99839352])
नीचे पैरामीटर डेटा के लिए सरल रेखीय फिट के अवरोधन का प्रतिनिधित्व करता है -
Example
model.intercept_
Output
-0.9895459457775022
मॉडल को नए डेटा पर लागू करना
मॉडल को प्रशिक्षित करने के बाद, हम इसे नए डेटा पर लागू कर सकते हैं। जैसा कि पर्यवेक्षित मशीन लर्निंग का मुख्य कार्य नए डेटा के आधार पर मॉडल का मूल्यांकन करना है जो प्रशिक्षण सेट का हिस्सा नहीं है। की सहायता से किया जा सकता हैpredict() विधि इस प्रकार है -
Example
xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);
Output
पूरा काम / निष्पादन योग्य उदाहरण
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)
model
X = x[:, np.newaxis]
X.shape
model.fit(X, y)
model.coef_
model.intercept_
xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);
अप्रमाणित शिक्षण उदाहरण
यहां, इस प्रक्रिया के एक उदाहरण के रूप में हम आइरिस डेटासेट की आयामीता को कम करने का सामान्य मामला ले रहे हैं ताकि हम इसे और अधिक आसानी से देख सकें। इस उदाहरण के लिए, हम प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) का इस्तेमाल करने जा रहे हैं, जो एक फास्ट-लीनियर डाइमेंशन रिडक्शन तकनीक है।
ऊपर दिए गए उदाहरण की तरह, हम आईरिस डेटासेट से यादृच्छिक डेटा को लोड और प्लॉट कर सकते हैं। उसके बाद हम नीचे दिए गए चरणों का पालन कर सकते हैं -
मॉडल का एक वर्ग चुनें
from sklearn.decomposition import PCA
मॉडल हाइपरपैरमीटर चुनें
Example
model = PCA(n_components=2)
model
Output
PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
svd_solver = 'auto', tol = 0.0, whiten = False)
मॉडल फिटिंग
Example
model.fit(X_iris)
Output
PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
svd_solver = 'auto', tol = 0.0, whiten = False)
डेटा को दो-आयामी में बदलना
Example
X_2D = model.transform(X_iris)
अब, हम परिणाम को निम्नानुसार प्लॉट कर सकते हैं -
Output
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue = 'species', data = iris, fit_reg = False);
Output
पूरा काम / निष्पादन योग्य उदाहरण
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.decomposition import PCA
model = PCA(n_components=2)
model
model.fit(X_iris)
X_2D = model.transform(X_iris)
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False);
स्किकिट-लर्न की वस्तुएं एक समान मूल एपीआई साझा करती हैं जिसमें निम्नलिखित तीन पूरक इंटरफेस होते हैं -
Estimator interface - यह मॉडल के निर्माण और फिटिंग के लिए है।
Predictor interface - यह भविष्यवाणियां करने के लिए है।
Transformer interface - यह डेटा परिवर्तित करने के लिए है।
एपीआई सरल सम्मेलनों को अपनाते हैं और डिजाइन विकल्पों को फ्रेमवर्क कोड के प्रसार से बचने के लिए एक तरीके से निर्देशित किया गया है।
अभिसमय का उद्देश्य
सम्मेलनों का उद्देश्य यह सुनिश्चित करना है कि एपीआई निम्नलिखित व्यापक सिद्धांतों से चिपके रहे -
Consistency - सभी ऑब्जेक्ट्स चाहे वे बुनियादी हों, या समग्र को एक सुसंगत इंटरफ़ेस साझा करना होगा जो आगे विधियों के सीमित सेट से बना है।
Inspection - एल्गोरिथ्म सीखने द्वारा निर्धारित कंस्ट्रक्टर पैरामीटर और पैरामीटर मान सार्वजनिक विशेषताओं के रूप में संग्रहीत और उजागर किए जाने चाहिए।
Non-proliferation of classes - डेटासेट को NumPy सरणियों या Scipy विरल मैट्रिक्स के रूप में प्रस्तुत किया जाना चाहिए, जबकि हाइपर-पैरामीटर नाम और मूल्यों को फ्रेमवर्क कोड के प्रसार से बचने के लिए मानक पायथन स्ट्रिंग्स के रूप में प्रतिनिधित्व किया जाना चाहिए।
Composition - एल्गोरिदम चाहे वे डेटा के लिए परिवर्तनों के अनुक्रम या संयोजन के रूप में अभिव्यक्त हों या स्वाभाविक रूप से अन्य एल्गोरिदम पर मापित मेटा-एल्गोरिदम के रूप में देखे गए हों, उन्हें मौजूदा भवन ब्लॉकों से लागू और बनाया जाना चाहिए।
Sensible defaults- जब भी किसी ऑपरेशन में उपयोगकर्ता-परिभाषित पैरामीटर की आवश्यकता होती है, तो स्किकिट-सीखें, एक उपयुक्त डिफ़ॉल्ट मान परिभाषित किया जाता है। इस डिफ़ॉल्ट मान के कारण ऑपरेशन को समझदार तरीके से किया जाना चाहिए, उदाहरण के लिए, हाथ में कार्य के लिए बेस-लाइन समाधान देना।
विभिन्न सम्मेलन
Sklearn में उपलब्ध सम्मेलनों को नीचे समझाया गया है -
कास्टिंग टाइप करें
यह बताता है कि इनपुट को कास्ट किया जाना चाहिए float64। निम्नलिखित उदाहरण में, जिसमेंsklearn.random_projection मॉड्यूल डेटा की गतिशीलता को कम करने के लिए इस्तेमाल किया, यह समझा जाएगा -
Example
import numpy as np
from sklearn import random_projection
rannge = np.random.RandomState(0)
X = range.rand(10,2000)
X = np.array(X, dtype = 'float32')
X.dtype
Transformer_data = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.dtype
Output
dtype('float32')
dtype('float64')
उपरोक्त उदाहरण में, हम देख सकते हैं कि X है float32 जो डाली जाती है float64 द्वारा fit_transform(X)।
रिफ़ॉर्मिंग एंड अपडेटिंग पैरामीटर्स
एक अनुमानक के हाइपर-मापदंडों को इसके माध्यम से निर्मित किए जाने के बाद अद्यतन और परिष्कृत किया जा सकता है set_params()तरीका। आइए इसे समझने के लिए निम्न उदाहरण देखें -
Example
import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])
Output
array([0, 0, 0, 0, 0])
एक बार अनुमानक का निर्माण हो जाने के बाद, उपरोक्त कोड डिफ़ॉल्ट कर्नेल को बदल देगा rbf के माध्यम से रैखिक करने के लिए SVC.set_params()।
अब, निम्न कोड अनुमान कर्ता को वापस करने और दूसरी भविष्यवाणी करने के लिए कर्नेल को rbf में बदल देगा।
Example
clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])
Output
array([0, 0, 0, 0, 0])
पूरा कोड
निम्नलिखित पूरा निष्पादन योग्य कार्यक्रम है -
import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])
clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])
Multiclass और Multilabel फिटिंग
बहुस्तरीय फिटिंग के मामले में, सीखना और भविष्यवाणी दोनों कार्य लक्ष्य डेटा के प्रारूप पर निर्भर होते हैं। उपयोग किया गया मॉड्यूल हैsklearn.multiclass। नीचे दिए गए उदाहरण की जांच करें, जहां 1d सरणी पर मल्टीस्केल्स क्लासिफायर फिट है।
Example
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = [0, 0, 1, 1, 2]
classif = OneVsRestClassifier(estimator = SVC(gamma = 'scale',random_state = 0))
classif.fit(X, y).predict(X)
Output
array([0, 0, 1, 1, 2])
उपरोक्त उदाहरण में, क्लासिफायर मल्टीलेबल लेबल के एक आयामी सरणी पर फिट है और predict()विधि इसलिए संबंधित मल्टीकलस भविष्यवाणी प्रदान करती है। लेकिन दूसरी ओर, द्विआधारी लेबल संकेतकों के द्वि-आयामी सरणी पर फिट होना भी संभव है -
Example
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = LabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)
Output
array(
[
[0, 0, 0],
[0, 0, 0],
[0, 1, 0],
[0, 1, 0],
[0, 0, 0]
]
)
इसी तरह, मल्टीलेबल फिटिंग के मामले में, एक उदाहरण को कई लेबल दिए जा सकते हैं -
Example
from sklearn.preprocessing import MultiLabelBinarizer
y = [[0, 1], [0, 2], [1, 3], [0, 2, 3], [2, 4]]
y = MultiLabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)
Output
array(
[
[1, 0, 1, 0, 0],
[1, 0, 1, 0, 0],
[1, 0, 1, 1, 0],
[1, 0, 1, 1, 0],
[1, 0, 1, 0, 0]
]
)
उपरोक्त उदाहरण में, sklearn.MultiLabelBinarizerपर फिट करने के लिए मल्टीलैबल्स के दो आयामी सरणी को दूर करने के लिए उपयोग किया जाता है। यही कारण है कि भविष्यवाणी () फ़ंक्शन प्रत्येक उदाहरण के लिए कई लेबल के साथ आउटपुट के रूप में 2d सरणी देता है।
यह अध्याय आपको Scikit-Learn में रैखिक मॉडलिंग के बारे में जानने में मदद करेगा। आइए हम यह समझकर शुरू करें कि स्केलेर में रैखिक प्रतिगमन क्या है।
निम्नलिखित तालिका स्किकिट-लर्न द्वारा प्रदान किए गए विभिन्न रैखिक मॉडलों को सूचीबद्ध करती है -
अनु क्रमांक | मॉडल वर्णन |
---|---|
1 | रेखीय प्रतिगमन यह सर्वश्रेष्ठ सांख्यिकीय मॉडलों में से एक है जो एक स्वतंत्र चर (एक्स) के एक सेट के साथ एक आश्रित चर (वाई) के बीच संबंधों का अध्ययन करता है। |
2 | रसद प्रतिगमन लॉजिस्टिक रिग्रेशन, इसके नाम के बावजूद, प्रतिगमन एल्गोरिदम के बजाय एक वर्गीकरण एल्गोरिथ्म है। स्वतंत्र चर के दिए गए सेट के आधार पर, असतत मान (0 या 1, हां / नहीं, सही / गलत) का अनुमान लगाने के लिए इसका उपयोग किया जाता है। |
3 | रिज रिग्रेशन रिज रिग्रेशन या तिखोनोव नियमितीकरण नियमितीकरण तकनीक है जो एल 2 नियमितीकरण करती है। यह गुणांक के परिमाण के वर्ग के बराबर दंड (संकोचन मात्रा) को जोड़कर हानि कार्य को संशोधित करता है। |
4 | बायेसियन रिज रिग्रेशन बायेसियन प्रतिगमन एक प्राकृतिक तंत्र को अपर्याप्त डेटा या खराब वितरित डेटा को जीवित रखने की अनुमति देता है, बिंदु अनुमानों के बजाय संभाव्यता वितरकों का उपयोग करके रैखिक प्रतिगमन तैयार करता है। |
5 | कमंद LASSO नियमितीकरण तकनीक है जो L1 नियमितीकरण करती है। यह गुणांक के निरपेक्ष मान के योग के बराबर जुर्माना (सिकुड़न मात्रा) जोड़कर हानि कार्य को संशोधित करता है। |
6 | बहु-कार्य LASSO यह संयुक्त रूप से सभी रिग्रेशन समस्याओं के लिए समान होने के लिए चयनित सुविधाओं को लागू करने के लिए कई रिग्रेशन समस्याओं को फिट करने की अनुमति देता है, जिन्हें कार्य भी कहा जाता है। स्केलेरन मल्टीटैस्कलैसो नामक एक रेखीय मॉडल प्रदान करता है, जो नियमित रूप से मिश्रित एल 1, एल 2-मानक के साथ प्रशिक्षित होता है, जो संयुक्त रूप से कई प्रतिगमन समस्याओं के लिए विरल गुणांक का अनुमान लगाता है। |
7 | लचीला-नेट इलास्टिक-नेट एक नियमित प्रतिगमन विधि है जो लीनो और रिज रिग्रेशन विधियों के दोनों दंड अर्थात L1 और L2 को रैखिक रूप से जोड़ती है। यह उपयोगी है जब कई सहसंबद्ध विशेषताएं हैं। |
8 | मल्टी-टास्क इलास्टिक-नेट यह एक इलास्टिक-नेट मॉडल है जो कई प्रतिगमन समस्याओं को संयुक्त रूप से फिट करने की अनुमति देता है, चयनित विशेषताओं को सभी प्रतिगमन समस्याओं के लिए समान होने के लिए, जिन्हें कार्य भी कहा जाता है |
यह अध्याय स्केलेरन में बहुपद सुविधाओं और पाइपलाइनिंग उपकरणों पर ध्यान केंद्रित करता है।
बहुपद सुविधाओं का परिचय
डेटा के गैर-रेखीय कार्यों पर प्रशिक्षित रैखिक मॉडल आमतौर पर रैखिक तरीकों के तेज प्रदर्शन को बनाए रखता है। यह उन्हें डेटा की एक व्यापक श्रेणी में फिट करने की अनुमति भी देता है। यही कारण है कि मशीन ऐसे लीनियर मॉडल्स को सीखने में, जिन्हें नॉनलाइनर फ़ंक्शंस में प्रशिक्षित किया जाता है, उपयोग किया जाता है।
ऐसा एक उदाहरण है कि गुणांकों से बहुपद सुविधाओं का निर्माण करके एक सरल रेखीय प्रतिगमन को बढ़ाया जा सकता है।
गणितीय रूप से, मान लें कि हमारे पास मानक रैखिक प्रतिगमन मॉडल है तो 2-डी डेटा के लिए यह इस तरह दिखाई देगा -
$$Y=W_{0}+W_{1}X_{1}+W_{2}X_{2}$$अब, हम दूसरे क्रम के बहुपद में सुविधाओं को जोड़ सकते हैं और हमारा मॉडल निम्नानुसार दिखेगा -
$$Y=W_{0}+W_{1}X_{1}+W_{2}X_{2}+W_{3}X_{1}X_{2}+W_{4}X_1^2+W_{5}X_2^2$$ऊपर अभी भी एक रेखीय मॉडल है। यहां, हमने देखा कि परिणामी बहुपद प्रतिगमन रैखिक मॉडल के एक ही वर्ग में है और इसी तरह हल किया जा सकता है।
ऐसा करने के लिए, scikit-learn नाम का एक मॉड्यूल प्रदान करता है PolynomialFeatures। यह मॉड्यूल इनपुट डेटा मैट्रिक्स को दिए गए डिग्री के नए डेटा मैट्रिक्स में बदल देता है।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं PolynomialFeatures मापांक
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | degree - पूर्णांक, डिफ़ॉल्ट = 2 यह बहुपद सुविधाओं की डिग्री का प्रतिनिधित्व करता है। |
2 | interaction_only - बूलियन, डिफ़ॉल्ट = गलत डिफ़ॉल्ट रूप से, यह गलत है, लेकिन यदि इसे सच के रूप में सेट किया जाता है, तो वे विशेषताएं जो अधिकांश डिग्री अलग इनपुट सुविधाओं के उत्पाद हैं, का उत्पादन किया जाता है। ऐसे फीचर्स को इंटरैक्शन फीचर्स कहा जाता है। |
3 | include_bias - बूलियन, डिफ़ॉल्ट = सही इसमें एक पूर्वाग्रह स्तंभ शामिल है अर्थात वह सुविधा जिसमें सभी बहुपद शक्तियाँ शून्य हैं। |
4 | order {Str in {'C', 'F'}, डिफ़ॉल्ट = 'C' यह पैरामीटर घने मामले में आउटपुट सरणी के आदेश का प्रतिनिधित्व करता है। 'एफ' ऑर्डर का मतलब तेजी से गणना करना है लेकिन दूसरी ओर, यह बाद के अनुमानकों को धीमा कर सकता है। |
गुण
अनुसरण तालिका में उपयोग की जाने वाली विशेषताएँ हैं PolynomialFeatures मापांक
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | powers_ - सरणी, आकार (n_output_features, n_input_features) यह शक्तियाँ दिखाता है_ [i, j] ith आउटपुट में jth इनपुट का प्रतिपादक है। |
2 | n_input_features _ - इंट जैसा कि नाम से पता चलता है, यह कुल इनपुट विशेषताओं को देता है। |
3 | n_output_features _ - इंट जैसा कि नाम से पता चलता है, यह बहुपद आउटपुट सुविधाओं की कुल संख्या देता है। |
कार्यान्वयन उदाहरण
पायथन लिपि का उपयोग करता है PolynomialFeatures ट्रांसफार्मर के आकार में 8 (4,2) को बदलने के लिए ट्रांसफार्मर -
from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)
उत्पादन
array(
[
[ 1., 0., 1., 0., 0., 1.],
[ 1., 2., 3., 4., 6., 9.],
[ 1., 4., 5., 16., 20., 25.],
[ 1., 6., 7., 36., 42., 49.]
]
)
पाइपलाइन टूल्स का उपयोग करके स्ट्रीमिंग करना
प्रीप्रोसेसिंग के उपरोक्त प्रकार अर्थात् एक इनपुट डेटा मैट्रिक्स को किसी दिए गए डिग्री के नए डेटा मैट्रिक्स में बदलना, को इसके साथ सुव्यवस्थित किया जा सकता है Pipeline उपकरण, जो मूल रूप से एक में कई अनुमानकों की श्रृंखला के लिए उपयोग किए जाते हैं।
उदाहरण
प्रीप्रोसेसिंग को सुव्यवस्थित करने के लिए स्किकिट-लर्न की पाइपलाइन टूल्स का उपयोग करते हुए नीचे पायथन स्क्रिप्ट (एक ऑर्डर -3 बहुपद डेटा के लिए फिट होगा)।
#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np
#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])
#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)
#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_
उत्पादन
array([ 3., -2., 1., -1.])
उपरोक्त आउटपुट से पता चलता है कि बहुपद सुविधाओं पर प्रशिक्षित रैखिक मॉडल सटीक इनपुट बहुपद गुणांक को पुनर्प्राप्त करने में सक्षम है।
यहां, हम Sklearn में एक अनुकूलन एल्गोरिथ्म के बारे में जानेंगे, जिसे स्टोचैस्टिक ग्रेडिएंट डिसेंट (SGD) कहा जाता है।
स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) एक सरल लेकिन कुशल अनुकूलन एल्गोरिथ्म है जिसका उपयोग फ़ंक्शंस के मानदंड / गुणांक के मूल्यों को खोजने के लिए किया जाता है जो एक लागत फ़ंक्शन को कम करते हैं। दूसरे शब्दों में, इसका उपयोग एसवीएम और लॉजिस्टिक रिग्रेशन जैसे उत्तल हानि कार्यों के तहत रेखीय क्लासिफायर के भेदभावपूर्ण सीखने के लिए किया जाता है। इसे बड़े पैमाने पर डेटासेट में सफलतापूर्वक लागू किया गया है क्योंकि गुणांक का अद्यतन प्रत्येक प्रशिक्षण उदाहरण के लिए किया जाता है, बजाय उदाहरण के अंत में।
SGD क्लासिफायरफ़ायर
स्टोचस्टिक ग्रेडिएंट डिसेंट (SGD) क्लासिफायर मूल रूप से वर्गीकरण के लिए विभिन्न हानि कार्यों और दंडों का समर्थन करते हुए एक सादे SGD सीखने की दिनचर्या को लागू करता है। स्किकिट-सीख प्रदान करता हैSGDClassifier SGD वर्गीकरण को लागू करने के लिए मॉड्यूल।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं SGDClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | loss - str, डिफ़ॉल्ट = 'काज' यह कार्यान्वयन करते समय उपयोग किए जाने वाले हानि फ़ंक्शन का प्रतिनिधित्व करता है। डिफ़ॉल्ट मान 'काज' है जो हमें एक रैखिक एसवीएम देगा। उपयोग किए जा सकने वाले अन्य विकल्प हैं -
|
2 | penalty - str, 'none', 'l2', 'l1', 'flexnet' यह मॉडल में उपयोग किया जाने वाला नियमितीकरण शब्द है। डिफ़ॉल्ट रूप से, यह L2 है। हम एल 1 या 'इलास्टिकनेट का उपयोग कर सकते हैं; और साथ ही साथ दोनों मॉडल में स्पार्सिटी ला सकते हैं, इसलिए L2 के साथ प्राप्य नहीं है। |
3 | alpha - फ्लोट, डिफ़ॉल्ट = 0.0001 अल्फा, स्थिरांक जो नियमितीकरण शब्द को गुणा करता है, ट्यूनिंग पैरामीटर है जो यह तय करता है कि हम मॉडल को कितना दंडित करना चाहते हैं। डिफ़ॉल्ट मान 0.0001 है। |
4 | l1_ratio - फ्लोट, डिफ़ॉल्ट = 0.15 इसे ElasticNet मिश्रण पैरामीटर कहा जाता है। इसकी सीमा 0 <= l1_ratio <= 1. यदि l1_ratio = 1 है, तो जुर्माना L1 जुर्माना होगा। यदि l1_ratio = 0 है, तो जुर्माना L2 जुर्माना होगा। |
5 | fit_intercept - बूलियन, डिफ़ॉल्ट = सत्य यह पैरामीटर निर्दिष्ट करता है कि निर्णय फ़ंक्शन में एक स्थिर (पूर्वाग्रह या अवरोधन) जोड़ा जाना चाहिए। गणना में किसी भी अवरोधक का उपयोग नहीं किया जाएगा और डेटा पहले से ही केंद्रित माना जाएगा, अगर यह गलत पर सेट होगा। |
6 | tol - फ्लोट या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = 1.e-3 यह पैरामीटर पुनरावृत्तियों के लिए स्टॉपिंग मानदंड का प्रतिनिधित्व करता है। इसका डिफ़ॉल्ट मान गलत है, लेकिन यदि कोई नहीं पर सेट किया जाता है, तो पुनरावृत्तियों को कब रोका जाएगाloss > best_loss - tol for n_iter_no_changeक्रमिक युग। |
7 | shuffle - बूलियन, वैकल्पिक, डिफ़ॉल्ट = सच यह पैरामीटर दर्शाता है कि हम चाहते हैं कि हमारे प्रशिक्षण डेटा को प्रत्येक युग के बाद फेरबदल किया जाए या नहीं। |
8 | verbose - पूर्णांक, डिफ़ॉल्ट = 0 यह क्रियात्मकता स्तर का प्रतिनिधित्व करता है। इसका डिफ़ॉल्ट मान 0 है। |
9 | epsilon - फ्लोट, डिफ़ॉल्ट = 0.1 यह पैरामीटर असंवेदनशील क्षेत्र की चौड़ाई को निर्दिष्ट करता है। यदि हानि = 'एप्सिलॉन-असंवेदनशील', वर्तमान भविष्यवाणी और सही लेबल के बीच कोई अंतर, सीमा से कम की अनदेखी की जाएगी। |
10 | max_iter - int, वैकल्पिक, डिफ़ॉल्ट = 1000 जैसा कि नाम से पता चलता है, यह युगों से अधिक से अधिक संख्याओं का प्रतिनिधित्व करता है अर्थात प्रशिक्षण डेटा। |
1 1 | warm_start - बूल, वैकल्पिक, डिफ़ॉल्ट = गलत True पर सेट किए गए इस पैरामीटर के साथ, हम आरंभिक रूप में फिट होने के लिए पिछली कॉल के समाधान का पुन: उपयोग कर सकते हैं। यदि हम डिफ़ॉल्ट यानी गलत चुनते हैं, तो यह पिछले समाधान को मिटा देगा। |
12 | random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुगमन विकल्प हैं।
|
13 | n_jobs - इंट या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह बहु-वर्ग की समस्याओं के लिए ओवीए (वन वर्सेस ऑल) अभिकलन में उपयोग किए जाने वाले सीपीयू की संख्या का प्रतिनिधित्व करता है। डिफ़ॉल्ट मान वह नहीं है जिसका अर्थ 1 है। |
14 | learning_rate - स्ट्रिंग, वैकल्पिक, डिफ़ॉल्ट = 'इष्टतम'
|
15 | eta0 - डबल, डिफ़ॉल्ट = 0.0 यह उपर्युक्त अधिगम दर विकल्पों के लिए प्रारंभिक सीखने की दर का प्रतिनिधित्व करता है, अर्थात 'निरंतर', 'इनवेसलिंग', या 'अनुकूली'। |
16 | power_t - निष्क्रिय, डिफ़ॉल्ट = 0.5 यह 'अधिगम' सीखने की दर का प्रतिपादक है। |
17 | early_stopping - बूल, डिफ़ॉल्ट = गलत यह पैरामीटर प्रशिक्षण को समाप्त करने के लिए प्रारंभिक रोक के उपयोग का प्रतिनिधित्व करता है जब सत्यापन स्कोर में सुधार नहीं होता है। इसका डिफ़ॉल्ट मान गलत है, लेकिन जब इसे सही किया जाता है, तो यह स्वचालित रूप से सत्यापन के रूप में प्रशिक्षण डेटा के एक स्तरीकृत अंश को अलग करता है और सत्यापन स्कोर में सुधार नहीं होने पर प्रशिक्षण रोक देता है। |
18 | validation_fraction - फ्लोट, डिफ़ॉल्ट = 0.1 इसका उपयोग केवल तभी किया जाता है जब शुरुआती_स्टॉपिंग सही हो। यह प्रशिक्षण डेटा के शुरुआती समाप्ति के लिए सत्यापन सेट के रूप में प्रशिक्षण डेटा के अनुपात का प्रतिनिधित्व करता है। |
19 | n_iter_no_change - int, default = ५ यह पुनरावृत्ति की संख्या का प्रतिनिधित्व करता है जिसमें सुधार को जल्दी रोकने से पहले एल्गोरिथ्म को चलना चाहिए। |
20 | classs_weight - तानाशाह, {class_label: वजन} या "संतुलित", या कोई नहीं, वैकल्पिक यह पैरामीटर कक्षाओं से जुड़े भार का प्रतिनिधित्व करता है। यदि प्रदान नहीं किया गया है, तो वर्गों का वजन 1 होना चाहिए। |
20 | warm_start - बूल, वैकल्पिक, डिफ़ॉल्ट = गलत True पर सेट किए गए इस पैरामीटर के साथ, हम आरंभिक रूप में फिट होने के लिए पिछली कॉल के समाधान का पुन: उपयोग कर सकते हैं। यदि हम डिफ़ॉल्ट यानी गलत चुनते हैं, तो यह पिछले समाधान को मिटा देगा। |
21 | average - बूलियन या इंट, वैकल्पिक, डिफ़ॉल्ट = गलत यह बहु-वर्ग की समस्याओं के लिए ओवीए (वन वर्सेस ऑल) अभिकलन में उपयोग किए जाने वाले सीपीयू की संख्या का प्रतिनिधित्व करता है। डिफ़ॉल्ट मान वह नहीं है जिसका अर्थ 1 है। |
गुण
निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं SGDClassifier मॉड्यूल -
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | coef_ - सरणी, आकार (1, n_features) यदि n_classes == 2, (n_classes, n_features) यह विशेषता सुविधाओं को निर्दिष्ट भार प्रदान करती है। |
2 | intercept_ - सरणी, आकार (1), अगर n_classes == 2, अन्यथा (n_classes,) यह निर्णय समारोह में स्वतंत्र शब्द का प्रतिनिधित्व करता है। |
3 | n_iter_ - इंट यह स्टॉपिंग मानदंड तक पहुंचने के लिए पुनरावृत्तियों की संख्या देता है। |
Implementation Example
अन्य क्लासिफायर की तरह, स्टोचैस्टिक ग्रैडिएंट डिसेंट (SGD) को निम्नलिखित दो सरणियों से सुसज्जित किया जाना है -
प्रशिक्षण नमूने पकड़े हुए एक एक्स एक्स। यह आकार [n_samples, n_features] का है।
प्रशिक्षण के नमूनों के लिए लक्ष्य मानों अर्थात कक्षा के लेबल रखने वाली एक सरणी Y। यह आकार [n_samples] का है।
Example
पायथन लिपि के बाद SGDClassifier रेखीय मॉडल का उपयोग करता है -
import numpy as np
from sklearn import linear_model
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
Y = np.array([1, 1, 2, 2])
SGDClf = linear_model.SGDClassifier(max_iter = 1000, tol=1e-3,penalty = "elasticnet")
SGDClf.fit(X, Y)
Output
SGDClassifier(
alpha = 0.0001, average = False, class_weight = None,
early_stopping = False, epsilon = 0.1, eta0 = 0.0, fit_intercept = True,
l1_ratio = 0.15, learning_rate = 'optimal', loss = 'hinge', max_iter = 1000,
n_iter = None, n_iter_no_change = 5, n_jobs = None, penalty = 'elasticnet',
power_t = 0.5, random_state = None, shuffle = True, tol = 0.001,
validation_fraction = 0.1, verbose = 0, warm_start = False
)
Example
अब, एक बार फिट होने के बाद, मॉडल नए मूल्यों की भविष्यवाणी कर सकता है -
SGDClf.predict([[2.,2.]])
Output
array([2])
Example
उपरोक्त उदाहरण के लिए, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
SGDClf.coef_
Output
array([[19.54811198, 9.77200712]])
Example
इसी तरह, हम निम्नलिखित लिपि की मदद से अवरोधन का मूल्य प्राप्त कर सकते हैं -
SGDClf.intercept_
Output
array([10.])
Example
हम उपयोग करके हाइपरप्लेन पर हस्ताक्षरित दूरी प्राप्त कर सकते हैं SGDClassifier.decision_function जैसा कि निम्नलिखित अजगर लिपि में किया गया है -
SGDClf.decision_function([[2., 2.]])
Output
array([68.6402382])
स्वदेशी Regressor
स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) रजिस्ट्रार मूल रूप से रैखिक सांद्रता मॉडल को फिट करने के लिए विभिन्न हानि कार्यों और दंडों का समर्थन करते हुए एक सादे SGD सीखने की दिनचर्या को लागू करता है। स्किकिट-सीख प्रदान करता हैSGDRegressor मॉड्यूल मॉड्यूल को लागू करने के लिए।
मापदंडों
द्वारा उपयोग किए गए पैरामीटर SGDRegressorलगभग वही हैं जो SGDClassifier मॉड्यूल में उपयोग किए गए थे। अंतर 'नुकसान' पैरामीटर में है। के लियेSGDRegressor मॉड्यूल के नुकसान पैरामीटर सकारात्मक मान निम्नानुसार हैं -
squared_loss - यह साधारण से कम वर्ग के फिट को संदर्भित करता है।
huber: SGDRegressor- एप्सिलॉन की दूरी से पहले रैखिक नुकसान की ओर बढ़ कर आउटलेर्स को सही करें। 'हब्बर' का काम 'स्क्वेरड_लॉस' को संशोधित करना है ताकि एल्गोरिथ्म आउटलेर्स को सही करने पर कम ध्यान केंद्रित करे।
epsilon_insensitive - दरअसल, यह एप्सिलॉन से कम त्रुटियों को नजरअंदाज करता है।
squared_epsilon_insensitive- यह epsilon_insensitive के समान है। अंतर केवल इतना है कि यह एप्सिलॉन की एक सहिष्णुता के कारण चुकता नुकसान हो जाता है।
एक और अंतर यह है कि 'power_t' नाम के पैरामीटर में 0.5 के बजाय 0.25 का डिफ़ॉल्ट मान है SGDClassifier। इसके अलावा, इसमें 'class_weight' और 'n_jobs' पैरामीटर नहीं हैं।
गुण
SGDRegressor की विशेषताएँ भी वही हैं जो SGDClassifier मॉड्यूल की थीं। बल्कि इसकी तीन अतिरिक्त विशेषताएं इस प्रकार हैं -
average_coef_ - सरणी, आकार (n_features,)
जैसा कि नाम से पता चलता है, यह सुविधाओं को सौंपे गए औसत वजन प्रदान करता है।
average_intercept_ - सरणी, आकार (1)
जैसा कि नाम से पता चलता है, यह औसतन इंटरसेप्ट टर्म प्रदान करता है।
t_ - इंट
यह प्रशिक्षण चरण के दौरान किए गए वजन अपडेट की संख्या प्रदान करता है।
Note - विशेषताएँ औसत_coef_ और average_intercept_ पैरामीटर 'एवरेज' को True पर इनेबल करने के बाद काम करेंगे।
Implementation Example
पायथन लिपि का उपयोग करता है SGDRegressor रैखिक मॉडल -
import numpy as np
from sklearn import linear_model
n_samples, n_features = 10, 5
rng = np.random.RandomState(0)
y = rng.randn(n_samples)
X = rng.randn(n_samples, n_features)
SGDReg =linear_model.SGDRegressor(
max_iter = 1000,penalty = "elasticnet",loss = 'huber',tol = 1e-3, average = True
)
SGDReg.fit(X, y)
Output
SGDRegressor(
alpha = 0.0001, average = True, early_stopping = False, epsilon = 0.1,
eta0 = 0.01, fit_intercept = True, l1_ratio = 0.15,
learning_rate = 'invscaling', loss = 'huber', max_iter = 1000,
n_iter = None, n_iter_no_change = 5, penalty = 'elasticnet', power_t = 0.25,
random_state = None, shuffle = True, tol = 0.001, validation_fraction = 0.1,
verbose = 0, warm_start = False
)
Example
अब, एक बार फिट होने के बाद, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
SGDReg.coef_
Output
array([-0.00423314, 0.00362922, -0.00380136, 0.00585455, 0.00396787])
Example
इसी तरह, हम निम्नलिखित लिपि की मदद से अवरोधन का मूल्य प्राप्त कर सकते हैं -
SGReg.intercept_
Output
SGReg.intercept_
Example
हम निम्नलिखित अजगर स्क्रिप्ट की मदद से प्रशिक्षण चरण के दौरान वजन अपडेट की संख्या प्राप्त कर सकते हैं -
SGDReg.t_
Output
61.0
पेशेवरों और बुरा के विपक्ष
SGD के पेशेवरों के बाद -
स्टोचैस्टिक ग्रेडिएंट डिसेंट (SGD) बहुत कुशल है।
इसे लागू करना बहुत आसान है क्योंकि कोड ट्यूनिंग के लिए बहुत सारे अवसर हैं।
SGD की सहमति के बाद -
स्टोचैस्टिक ग्रेडिएंट डिसेंट (SGD) को नियमितीकरण मापदंडों जैसे कई हाइपरपैरामीटर की आवश्यकता होती है।
यह स्केलिंग सुविधा के प्रति संवेदनशील है।
यह अध्याय मशीन लर्निंग विधि से सपोर्ट वेक्टर मशीन (एसवीएम) के रूप में जाना जाता है।
परिचय
समर्थन वेक्टर मशीनें (SVM) वर्गीकरण, प्रतिगमन और आउटलेर्स की पहचान के लिए उपयोग की जाने वाली शक्तिशाली अभी तक लचीली पर्यवेक्षित मशीन शिक्षण विधियाँ हैं। एसवीएम उच्च आयामी स्थानों में बहुत कुशल हैं और आमतौर पर वर्गीकरण की समस्याओं में उपयोग किया जाता है। SVM लोकप्रिय और मेमोरी कुशल हैं क्योंकि वे निर्णय फ़ंक्शन में प्रशिक्षण बिंदुओं के सबसेट का उपयोग करते हैं।
एसवीएम का मुख्य लक्ष्य ए को खोजने के लिए डेटासेट को कक्षाओं की संख्या में विभाजित करना है maximum marginal hyperplane (MMH) जो निम्नलिखित दो चरणों में किया जा सकता है -
सपोर्ट वेक्टर मशीनें सबसे पहले हाइपरप्लेन को पुन: उत्पन्न करती हैं जो कक्षाओं को सबसे अच्छे तरीके से अलग करती हैं।
उसके बाद यह हाइपरप्लेन का चयन करेगा जो कक्षाओं को सही ढंग से अलग करता है।
एसवीएम में कुछ महत्वपूर्ण अवधारणाएं इस प्रकार हैं -
Support Vectors-उन्हें परिभाषित किया जा सकता है कि वे डैटपॉइंट के रूप में हैं जो हाइपरप्लेन के सबसे करीब हैं। सपोर्ट वैक्टर अलग लाइन तय करने में मदद करते हैं।
Hyperplane - निर्णय विमान या अंतरिक्ष जो विभिन्न वर्गों वाली वस्तुओं के सेट को विभाजित करता है।
Margin - विभिन्न वर्गों के कोठरी डेटा बिंदुओं पर दो लाइनों के बीच के अंतर को मार्जिन कहा जाता है।
निम्नलिखित आरेख आपको इन एसवीएम अवधारणाओं के बारे में जानकारी देंगे -
स्किटिट-लर्न में एसवीएम इनपुट के रूप में विरल और घने नमूना वैक्टर दोनों का समर्थन करता है।
एसवीएम का वर्गीकरण
स्किकिट-लर्न अर्थात् तीन कक्षाएं प्रदान करता है SVC, NuSVC तथा LinearSVC जो बहु-स्तरीय वर्गीकरण का प्रदर्शन कर सकता है।
एसवीसी
यह सी-सपोर्ट वेक्टर वर्गीकरण है जिसके कार्यान्वयन पर आधारित है libsvm। स्किकिट-लर्न द्वारा उपयोग किया जाने वाला मॉड्यूल हैsklearn.svm.SVC। यह वर्ग एक-बनाम-एक योजना के अनुसार मल्टीक्लास समर्थन को संभालता है।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn.svm.SVC वर्ग -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | C - फ्लोट, वैकल्पिक, डिफ़ॉल्ट = 1.0 यह त्रुटि शब्द का पेनल्टी पैरामीटर है। |
2 | kernel - स्ट्रिंग, वैकल्पिक, डिफ़ॉल्ट = 'आरबीएफ' यह पैरामीटर एल्गोरिथ्म में उपयोग किए जाने वाले कर्नेल के प्रकार को निर्दिष्ट करता है। हम किसी एक को चुन सकते हैं,‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’। कर्नेल का डिफ़ॉल्ट मान होगा‘rbf’। |
3 | degree - int, वैकल्पिक, डिफ़ॉल्ट = 3 यह 'पॉली' कर्नेल फ़ंक्शन की डिग्री का प्रतिनिधित्व करता है और अन्य सभी कर्नेल द्वारा अनदेखा किया जाएगा। |
4 | gamma - {'स्केल', 'ऑटो'} या फ्लोट, यह कर्नेल 'आरबीएफ', 'पॉली' और 'सिग्मॉइड' के लिए कर्नेल गुणांक है। |
5 | optinal default - = 'पैमाना' यदि आप डिफॉल्ट यानी गामा = 'स्केल' चुनते हैं तो एसवीसी द्वारा इस्तेमाल किए जाने वाले गामा का मूल्य 1 / (_)। ()) है। दूसरी ओर, यदि गामा = 'ऑटो', यह 1 / _ का उपयोग करता है। |
6 | coef0 - फ्लोट, वैकल्पिक, डिफ़ॉल्ट = 0.0 कर्नेल फ़ंक्शन में एक स्वतंत्र शब्द जो केवल 'पॉली' और 'सिग्मॉइड' में महत्वपूर्ण है। |
7 | tol - फ्लोट, वैकल्पिक, डिफ़ॉल्ट = 1.e-3 यह पैरामीटर पुनरावृत्तियों के लिए स्टॉपिंग मानदंड का प्रतिनिधित्व करता है। |
8 | shrinking - बूलियन, वैकल्पिक, डिफ़ॉल्ट = सच यह पैरामीटर दर्शाता है कि हम सिकुड़ते हुए उपयोग करना चाहते हैं या नहीं। |
9 | verbose - बूलियन, डिफ़ॉल्ट: गलत यह वर्बोज़ आउटपुट को सक्षम या अक्षम करता है। इसका डिफ़ॉल्ट मान गलत है। |
10 | probability - बूलियन, वैकल्पिक, डिफ़ॉल्ट = सच यह पैरामीटर संभाव्यता अनुमानों को सक्षम या अक्षम करता है। डिफ़ॉल्ट मान गलत है, लेकिन इसे हम फिट होने से पहले सक्षम होना चाहिए। |
1 1 | max_iter - int, वैकल्पिक, डिफ़ॉल्ट = -1 जैसा कि नाम से पता चलता है, यह सॉल्वर के भीतर अधिकतम पुनरावृत्तियों का प्रतिनिधित्व करता है। मान -1 का अर्थ है कि पुनरावृत्तियों की संख्या की कोई सीमा नहीं है। |
12 | cache_size - फ्लोट, वैकल्पिक यह पैरामीटर कर्नेल कैश का आकार निर्दिष्ट करेगा। मान MB (MegaBytes) में होगा। |
13 | random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -
|
14 | class_weight - {तानाशाह, 'संतुलित'}, वैकल्पिक यह पैरामीटर SVC के लिए वर्ग J से _] [] parameter के पैरामीटर C को सेट करेगा। यदि हम डिफ़ॉल्ट विकल्प का उपयोग करते हैं, तो इसका मतलब है कि सभी वर्गों का वजन एक होना चाहिए। दूसरी ओर, यदि आप चुनते हैंclass_weight:balanced, यह स्वचालित रूप से वजन को समायोजित करने के लिए y के मूल्यों का उपयोग करेगा। |
15 | decision_function_shape - ovo ',' ovr ', default =' ovr ' यह पैरामीटर तय करेगा कि एल्गोरिथम वापस आएगा या नहीं ‘ovr’ (एक-बनाम-बाकी) सभी अन्य सहपाठियों, या मूल के रूप में आकार का निर्णय कार्य ovo(एक-बनाम-एक) libsvm का निर्णय कार्य। |
16 | break_ties - बूलियन, वैकल्पिक, डिफ़ॉल्ट = गलत True - निर्णय निर्णय के विश्वास मूल्यों के अनुसार संबंध टूट जाएगा False - भविष्यवाणी बंधे वर्गों के बीच पहली कक्षा को लौटा देगी। |
गुण
अनुसरण तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn.svm.SVC वर्ग -
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | support_ - सरणी-जैसा, आकार = [n_SV] यह समर्थन वैक्टर के सूचकांक लौटाता है। |
2 | support_vectors_ - सरणी-जैसा, आकार = [n_SV, n_features] यह सपोर्ट वैक्टर लौटाता है। |
3 | n_support_ - सरणी-जैसा, dtype = int32, shape = [n_class] यह प्रत्येक वर्ग के लिए समर्थन वैक्टर की संख्या का प्रतिनिधित्व करता है। |
4 | dual_coef_ - सरणी, आकार = [n_class-1, n_SV] ये निर्णय समारोह में समर्थन वैक्टर के गुणांक हैं। |
5 | coef_ - सरणी, आकार = [n_class * (n_class-1) / 2, n_features] यह विशेषता, केवल रैखिक कर्नेल के मामले में उपलब्ध है, सुविधाओं को सौंपा गया वजन प्रदान करता है। |
6 | intercept_ - सरणी, आकार = [n_class * (n_class-1) / 2] यह निर्णय समारोह में स्वतंत्र शब्द (स्थिर) का प्रतिनिधित्व करता है। |
7 | fit_status_ - इंट यदि यह सही ढंग से फिट है तो आउटपुट 0 होगा। यदि यह गलत तरीके से फिट किया गया है तो आउटपुट 1 होगा। |
8 | classes_ आकार की सरणी = [n_classes] यह कक्षाओं के लेबल देता है। |
Implementation Example
अन्य क्लासिफायर की तरह, SVC को भी दो सरणियों के साथ फिट किया जाना है -
एक सरणी Xप्रशिक्षण के नमूने पकड़े। यह आकार [n_samples, n_features] का है।
एक सरणी Yप्रशिक्षण के नमूनों के लिए लक्ष्य मान अर्थात कक्षा लेबल धारण करना। यह आकार [n_samples] का है।
पायथन लिपि का उपयोग करता है sklearn.svm.SVC वर्ग -
import numpy as np
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
from sklearn.svm import SVC
SVCClf = SVC(kernel = 'linear',gamma = 'scale', shrinking = False,)
SVCClf.fit(X, y)
Output
SVC(C = 1.0, cache_size = 200, class_weight = None, coef0 = 0.0,
decision_function_shape = 'ovr', degree = 3, gamma = 'scale', kernel = 'linear',
max_iter = -1, probability = False, random_state = None, shrinking = False,
tol = 0.001, verbose = False)
Example
अब, एक बार फिट होने के बाद, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
SVCClf.coef_
Output
array([[0.5, 0.5]])
Example
इसी प्रकार, हम अन्य विशेषताओं का मूल्य निम्नानुसार प्राप्त कर सकते हैं -
SVCClf.predict([[-0.5,-0.8]])
Output
array([1])
Example
SVCClf.n_support_
Output
array([1, 1])
Example
SVCClf.support_vectors_
Output
array(
[
[-1., -1.],
[ 1., 1.]
]
)
Example
SVCClf.support_
Output
array([0, 2])
Example
SVCClf.intercept_
Output
array([-0.])
Example
SVCClf.fit_status_
Output
0
NuSVC
NuSVC परमाणु समर्थन वेक्टर वर्गीकरण है। यह स्किकिट-लर्न द्वारा प्रदान की गई एक और क्लास है जो मल्टी-क्लास वर्गीकरण का प्रदर्शन कर सकती है। यह SVC की तरह है लेकिन NuSVC मापदंडों के थोड़ा अलग सेट को स्वीकार करता है। SVC से भिन्न पैरामीटर निम्नानुसार है -
nu - फ्लोट, वैकल्पिक, डिफ़ॉल्ट = 0.5
यह प्रशिक्षण त्रुटियों के अंश पर एक ऊपरी बाउंड और समर्थन वैक्टर के अंश के निचले हिस्से का प्रतिनिधित्व करता है। इसका मान (o, 1] के अंतराल में होना चाहिए।
बाकी पैरामीटर और विशेषताएँ SVC के समान हैं।
कार्यान्वयन उदाहरण
हम उसी उदाहरण का उपयोग करके लागू कर सकते हैं sklearn.svm.NuSVC वर्ग भी।
import numpy as np
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
from sklearn.svm import NuSVC
NuSVCClf = NuSVC(kernel = 'linear',gamma = 'scale', shrinking = False,)
NuSVCClf.fit(X, y)
उत्पादन
NuSVC(cache_size = 200, class_weight = None, coef0 = 0.0,
decision_function_shape = 'ovr', degree = 3, gamma = 'scale', kernel = 'linear',
max_iter = -1, nu = 0.5, probability = False, random_state = None,
shrinking = False, tol = 0.001, verbose = False)
हम बाकी विशेषताओं के आउटपुट प्राप्त कर सकते हैं जैसा कि एसवीसी के मामले में किया गया था।
LinearSVC
यह रैखिक समर्थन वेक्टर वर्गीकरण है। यह SVC कर्नेल = 'रैखिक' होने के समान है। उनके बीच अंतर यह है किLinearSVC एसवीसी में लागू होने के दौरान कामेच्छा के मामले में लागू किया जाता है libsvm। यही कारण हैLinearSVCदंड और नुकसान कार्यों की पसंद में अधिक लचीलापन है। यह बड़ी संख्या में नमूनों को बेहतर तरीके से मापता है।
अगर हम इसके मापदंडों और विशेषताओं के बारे में बात करते हैं तो यह समर्थन नहीं करता है ‘kernel’ क्योंकि इसे रेखीय माना जाता है और इसमें कुछ विशेषताओं का भी अभाव है support_, support_vectors_, n_support_, fit_status_ तथा, dual_coef_।
हालाँकि, यह समर्थन करता है penalty तथा loss पैरामीटर निम्नानुसार हैं -
penalty − string, L1 or L2(default = ‘L2’)
यह पैरामीटर दंड (नियमितीकरण) में उपयोग किए जाने वाले मानदंड (L1 या L2) को निर्दिष्ट करने के लिए उपयोग किया जाता है।
loss − string, hinge, squared_hinge (default = squared_hinge)
यह नुकसान फ़ंक्शन का प्रतिनिधित्व करता है जहां 'काज' मानक SVM नुकसान है और 'squared_hinge' काज हानि का वर्ग है।
कार्यान्वयन उदाहरण
पायथन लिपि का उपयोग करता है sklearn.svm.LinearSVC वर्ग -
from sklearn.svm import LinearSVC
from sklearn.datasets import make_classification
X, y = make_classification(n_features = 4, random_state = 0)
LSVCClf = LinearSVC(dual = False, random_state = 0, penalty = 'l1',tol = 1e-5)
LSVCClf.fit(X, y)
उत्पादन
LinearSVC(C = 1.0, class_weight = None, dual = False, fit_intercept = True,
intercept_scaling = 1, loss = 'squared_hinge', max_iter = 1000,
multi_class = 'ovr', penalty = 'l1', random_state = 0, tol = 1e-05, verbose = 0)
उदाहरण
अब, एक बार फिट होने के बाद, मॉडल नए मूल्यों की भविष्यवाणी कर सकता है -
LSVCClf.predict([[0,0,0,0]])
उत्पादन
[1]
उदाहरण
उपरोक्त उदाहरण के लिए, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
LSVCClf.coef_
उत्पादन
[[0. 0. 0.91214955 0.22630686]]
उदाहरण
इसी तरह, हम निम्नलिखित लिपि की मदद से अवरोधन का मूल्य प्राप्त कर सकते हैं -
LSVCClf.intercept_
उत्पादन
[0.26860518]
एसवीएम के साथ प्रतिगमन
जैसा कि पहले चर्चा की गई है, एसवीएम का उपयोग वर्गीकरण और प्रतिगमन समस्याओं दोनों के लिए किया जाता है। समर्थन वेक्टर वर्गीकरण (SVC) की स्किकिट-लर्न की विधि को प्रतिगमन समस्याओं को हल करने के लिए भी बढ़ाया जा सकता है। उस विस्तारित विधि को सपोर्ट वेक्टर रिग्रेशन (SVR) कहा जाता है।
एसवीएम और एसवीआर के बीच बुनियादी समानता
SVC द्वारा बनाया गया मॉडल केवल प्रशिक्षण डेटा के सबसेट पर निर्भर करता है। क्यों? क्योंकि मॉडल के निर्माण के लिए लागत फ़ंक्शन प्रशिक्षण डेटा बिंदुओं के बारे में परवाह नहीं करता है जो मार्जिन के बाहर स्थित हैं।
जबकि, SVR (सपोर्ट वेक्टर रिग्रेशन) द्वारा निर्मित मॉडल भी केवल प्रशिक्षण डेटा के सबसेट पर निर्भर करता है। क्यों? क्योंकि मॉडल के निर्माण की लागत फ़ंक्शन मॉडल की भविष्यवाणी के करीब किसी भी प्रशिक्षण डेटा बिंदुओं को अनदेखा करता है।
स्किकिट-लर्न अर्थात् तीन कक्षाएं प्रदान करता है SVR, NuSVR and LinearSVR एसवीआर के तीन अलग-अलग कार्यान्वयन के रूप में।
SVR
यह एप्सिलॉन-सपोर्ट वेक्टर रिग्रेशन है, जिसके कार्यान्वयन पर आधारित है libsvm। के विपरीत हैSVC मॉडल में दो मुक्त पैरामीटर हैं ‘C’ तथा ‘epsilon’।
epsilon - फ्लोट, वैकल्पिक, डिफ़ॉल्ट = 0.1
यह एप्सिलॉन-एसवीआर मॉडल में एप्सिलॉन का प्रतिनिधित्व करता है, और एप्सिलॉन-ट्यूब को निर्दिष्ट करता है, जिसके भीतर प्रशिक्षण हानि फ़ंक्शन में कोई जुर्माना नहीं जुड़ा होता है, जो वास्तविक मूल्य से दूरी एप्सिलॉन के भीतर अनुमानित अंकों के साथ होता है।
बाकी पैरामीटर और विशेषताएँ समान हैं जैसा कि हमने उपयोग किया था SVC।
कार्यान्वयन उदाहरण
पायथन लिपि का उपयोग करता है sklearn.svm.SVR वर्ग -
from sklearn import svm
X = [[1, 1], [2, 2]]
y = [1, 2]
SVRReg = svm.SVR(kernel = ’linear’, gamma = ’auto’)
SVRReg.fit(X, y)
उत्पादन
SVR(C = 1.0, cache_size = 200, coef0 = 0.0, degree = 3, epsilon = 0.1, gamma = 'auto',
kernel = 'linear', max_iter = -1, shrinking = True, tol = 0.001, verbose = False)
उदाहरण
अब, एक बार फिट होने के बाद, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
SVRReg.coef_
उत्पादन
array([[0.4, 0.4]])
उदाहरण
इसी प्रकार, हम अन्य विशेषताओं का मूल्य निम्नानुसार प्राप्त कर सकते हैं -
SVRReg.predict([[1,1]])
उत्पादन
array([1.1])
इसी तरह, हम अन्य विशेषताओं के मूल्यों को भी प्राप्त कर सकते हैं।
NuSVR
NuSVR परमाणु समर्थन वेक्टर प्रतिगमन है। यह NuSVC की तरह है, लेकिन NuSVR एक पैरामीटर का उपयोग करता हैnuसमर्थन वैक्टर की संख्या को नियंत्रित करने के लिए। और इसके अलावा, जहां NuSVC के विपरीत हैnu सी पैरामीटर को बदल दिया गया, यहां यह बदल जाता है epsilon।
कार्यान्वयन उदाहरण
पायथन लिपि का उपयोग करता है sklearn.svm.SVR वर्ग -
from sklearn.svm import NuSVR
import numpy as np
n_samples, n_features = 20, 15
np.random.seed(0)
y = np.random.randn(n_samples)
X = np.random.randn(n_samples, n_features)
NuSVRReg = NuSVR(kernel = 'linear', gamma = 'auto',C = 1.0, nu = 0.1)^M
NuSVRReg.fit(X, y)
उत्पादन
NuSVR(C = 1.0, cache_size = 200, coef0 = 0.0, degree = 3, gamma = 'auto',
kernel = 'linear', max_iter = -1, nu = 0.1, shrinking = True, tol = 0.001,
verbose = False)
उदाहरण
अब, एक बार फिट होने के बाद, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
NuSVRReg.coef_
उत्पादन
array(
[
[-0.14904483, 0.04596145, 0.22605216, -0.08125403, 0.06564533,
0.01104285, 0.04068767, 0.2918337 , -0.13473211, 0.36006765,
-0.2185713 , -0.31836476, -0.03048429, 0.16102126, -0.29317051]
]
)
इसी तरह, हम अन्य विशेषताओं का भी मूल्य प्राप्त कर सकते हैं।
LinearSVR
यह रैखिक समर्थन वेक्टर प्रतिगमन है। यह SVR कर्नेल = 'रैखिक' होने के समान है। उनके बीच अंतर यह है किLinearSVR के संदर्भ में लागू किया गया liblinear, जबकि SVC में लागू किया गया libsvm। यही कारण हैLinearSVRदंड और नुकसान कार्यों की पसंद में अधिक लचीलापन है। यह बड़ी संख्या में नमूनों को बेहतर तरीके से मापता है।
अगर हम इसके मापदंडों और विशेषताओं के बारे में बात करते हैं तो यह समर्थन नहीं करता है ‘kernel’ क्योंकि इसे रेखीय माना जाता है और इसमें कुछ विशेषताओं का भी अभाव है support_, support_vectors_, n_support_, fit_status_ तथा, dual_coef_।
हालाँकि, यह 'नुकसान' मापदंडों का समर्थन करता है -
loss - स्ट्रिंग, वैकल्पिक, डिफ़ॉल्ट = 'epsilon_insensitive'
यह हानि फ़ंक्शन का प्रतिनिधित्व करता है जहां epsilon_insensitive नुकसान L1 नुकसान है और चुकता epsilon-असंवेदनशील नुकसान L2 नुकसान है।
कार्यान्वयन उदाहरण
पायथन लिपि का उपयोग करता है sklearn.svm.LinearSVR वर्ग -
from sklearn.svm import LinearSVR
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 4, random_state = 0)
LSVRReg = LinearSVR(dual = False, random_state = 0,
loss = 'squared_epsilon_insensitive',tol = 1e-5)
LSVRReg.fit(X, y)
उत्पादन
LinearSVR(
C=1.0, dual=False, epsilon=0.0, fit_intercept=True,
intercept_scaling=1.0, loss='squared_epsilon_insensitive',
max_iter=1000, random_state=0, tol=1e-05, verbose=0
)
उदाहरण
अब, एक बार फिट होने के बाद, मॉडल नए मूल्यों की भविष्यवाणी कर सकता है -
LSRReg.predict([[0,0,0,0]])
उत्पादन
array([-0.01041416])
उदाहरण
उपरोक्त उदाहरण के लिए, हम पायथन लिपि की मदद से वेट वेक्टर प्राप्त कर सकते हैं -
LSRReg.coef_
उत्पादन
array([20.47354746, 34.08619401, 67.23189022, 87.47017787])
उदाहरण
इसी तरह, हम निम्नलिखित लिपि की मदद से अवरोधन का मूल्य प्राप्त कर सकते हैं -
LSRReg.intercept_
उत्पादन
array([-0.01041416])
यहां, हम जानेंगे कि स्केलेर में विसंगति क्या है और डेटा बिंदुओं की पहचान में इसका उपयोग कैसे किया जाता है।
विसंगति का पता लगाने के लिए डेटासेट में डेटा बिंदुओं की पहचान करने के लिए एक तकनीक का उपयोग किया जाता है जो बाकी डेटा के साथ अच्छी तरह से फिट नहीं होता है। यह व्यापार में कई अनुप्रयोगों जैसे धोखाधड़ी का पता लगाने, घुसपैठ का पता लगाने, सिस्टम स्वास्थ्य निगरानी, निगरानी और भविष्य कहनेवाला रखरखाव है। विसंगतियाँ, जिन्हें बहिर्मुखी भी कहा जाता है, को निम्नलिखित तीन श्रेणियों में विभाजित किया जा सकता है -
Point anomalies - यह तब होता है जब एक व्यक्तिगत डेटा उदाहरण को बाकी डेटा के रूप में विसंगत माना जाता है।
Contextual anomalies- इस तरह की विसंगति संदर्भ विशिष्ट है। यह तब होता है जब किसी विशिष्ट संदर्भ में डेटा इंस्टेंस असंगत होता है।
Collective anomalies - यह तब होता है जब संबंधित डेटा इंस्टेंस का एक संग्रह व्यक्तिगत मूल्यों के बजाय संपूर्ण संपूर्ण डेटासेट होता है।
तरीकों
दो विधियाँ अर्थात् outlier detection तथा novelty detectionविसंगति का पता लगाने के लिए इस्तेमाल किया जा सकता है। उनके बीच अंतर देखना आवश्यक है।
बाहरी पता लगाना
प्रशिक्षण डेटा में आउटलेयर होते हैं जो बाकी डेटा से दूर होते हैं। इस तरह के आउटलेर को टिप्पणियों के रूप में परिभाषित किया गया है। यही कारण है कि, बाह्य रूप से पता लगाने वाले अनुमानक हमेशा इस क्षेत्र को फिट करने की कोशिश करते हैं, जिसमें सबसे अधिक ध्यान केंद्रित प्रशिक्षण डेटा होता है, जबकि विचलित टिप्पणियों को अनदेखा किया जाता है। इसे अनिश्चित विसंगति का पता लगाने के रूप में भी जाना जाता है।
नवीनता का पता लगाने
यह नई टिप्पणियों में एक अप्राप्य पैटर्न का पता लगाने से संबंधित है जो प्रशिक्षण डेटा में शामिल नहीं है। यहां, प्रशिक्षण डेटा बाहरी लोगों द्वारा प्रदूषित नहीं है। इसे अर्ध-पर्यवेक्षित विसंगति का पता लगाने के रूप में भी जाना जाता है।
एमएल टूल्स का एक सेट है, जो स्किटिट-लर्न द्वारा प्रदान किया गया है, जिसका उपयोग बाहरी खोज के साथ-साथ नवीनता का पता लगाने के लिए भी किया जा सकता है। ये उपकरण सबसे पहले फिट () विधि का उपयोग करके एक अप्राप्त में डेटा से वस्तु सीखने को लागू कर रहे हैं -
estimator.fit(X_train)
अब, नए अवलोकनों को क्रमबद्ध किया जाएगा inliers (labeled 1) या outliers (labeled -1) निम्नानुसार भविष्यवाणी () विधि का उपयोग करके -
estimator.fit(X_test)
अनुमानक पहले कच्चे स्कोरिंग फ़ंक्शन की गणना करेगा और फिर भविष्यवाणी करेगा कि कच्चे स्कोरिंग फ़ंक्शन पर थ्रेशोल्ड का उपयोग किया जाएगा। हम इस कच्चे स्कोरिंग फ़ंक्शन की सहायता से एक्सेस कर सकते हैंscore_sample विधि और द्वारा सीमा को नियंत्रित कर सकते हैं contamination पैरामीटर।
हम भी परिभाषित कर सकते हैं decision_function ऐसी विधि जो ऋणात्मक मूल्य के रूप में और गैर-ऋणात्मक मूल्य के रूप में बाहरी लोगों को परिभाषित करती है।
estimator.decision_function(X_test)
बाहरी पता लगाने के लिए स्केलेर एल्गोरिदम
आइए हम समझते हैं कि एक अण्डाकार लिफाफा क्या है।
एक अण्डाकार कवरिंग फिटिंग
यह एल्गोरिथ्म मानता है कि नियमित डेटा एक ज्ञात वितरण से आता है जैसे कि गौसियन वितरण। बाह्य पहचान के लिए, स्किकिट-लर्न नाम की एक वस्तु प्रदान करता हैcovariance.EllipticEnvelop।
यह ऑब्जेक्ट डेटा के लिए एक मजबूत सहसंयोजक अनुमान लगाता है, और इस प्रकार, केंद्रीय डेटा बिंदुओं पर एक दीर्घवृत्त फिट बैठता है। यह केंद्रीय मोड के बाहर के बिंदुओं को अनदेखा करता है।
मापदंडों
निम्न तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn. covariance.EllipticEnvelop विधि -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | store_precision - बूलियन, वैकल्पिक, डिफ़ॉल्ट = सच यदि अनुमानित परिशुद्धता संग्रहीत है तो हम इसे निर्दिष्ट कर सकते हैं। |
2 | assume_centered - बूलियन, वैकल्पिक, डिफ़ॉल्ट = गलत अगर हम इसे गलत तरीके से सेट करते हैं, तो यह FastMCD एल्गोरिथ्म की मदद से सीधे मजबूत स्थान और कोवरियन की गणना करेगा। दूसरी ओर, यदि यह सही है, तो यह मजबूत स्थान और सह-नागरिक के समर्थन की गणना करेगा। |
3 | support_fraction - फ्लोट इन (0., 1.), वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर विधि को बताता है कि कच्चे एमसीडी अनुमानों के समर्थन में अंकों का कितना अनुपात शामिल किया जाना है। |
4 | contamination - फ्लोट इन (0., 1.), वैकल्पिक, डिफ़ॉल्ट = 0.1 यह डेटा सेट में आउटलेर का अनुपात प्रदान करता है। |
5 | random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -
|
गुण
निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn. covariance.EllipticEnvelop विधि -
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | support_ - सरणी की तरह, आकार (n_samples) यह स्थान और आकार के मजबूत अनुमानों की गणना करने के लिए उपयोग की जाने वाली टिप्पणियों के मुखौटे का प्रतिनिधित्व करता है। |
2 | location_ - सरणी की तरह, आकार (n_features) यह अनुमानित मजबूत स्थान देता है। |
3 | covariance_ - सरणी की तरह, आकार (n_features, n_features) यह अनुमानित मजबूत सहसंयोजक मैट्रिक्स लौटाता है। |
4 | precision_ - सरणी की तरह, आकार (n_features, n_features) यह अनुमानित छद्म उलटा मैट्रिक्स लौटाता है। |
5 | offset_ - तैरना इसका उपयोग कच्चे स्कोर से निर्णय फ़ंक्शन को परिभाषित करने के लिए किया जाता है। decision_function = score_samples -offset_ |
Implementation Example
import numpy as np^M
from sklearn.covariance import EllipticEnvelope^M
true_cov = np.array([[.5, .6],[.6, .4]])
X = np.random.RandomState(0).multivariate_normal(mean = [0, 0], cov=true_cov,size=500)
cov = EllipticEnvelope(random_state = 0).fit(X)^M
# Now we can use predict method. It will return 1 for an inlier and -1 for an outlier.
cov.predict([[0, 0],[2, 2]])
Output
array([ 1, -1])
अलगाव वन
उच्च-आयामी डेटासेट के मामले में, बाहरी जंगलों का एक कुशल तरीका यादृच्छिक जंगलों का उपयोग करना है। स्किटिट-सीख प्रदान करता हैensemble.IsolationForestवह विधि जो किसी विशेषता का चयन करके यादृच्छिक रूप से टिप्पणियों को अलग करती है। बाद में, यह चयनित सुविधाओं के अधिकतम और न्यूनतम मूल्यों के बीच बेतरतीब ढंग से एक मूल्य का चयन करता है।
यहां, एक नमूने को अलग करने के लिए आवश्यक विभाजन की संख्या रूट नोड से समाप्ति नोड तक पथ लंबाई के बराबर है।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn. ensemble.IsolationForest विधि -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | n_estimators - int, वैकल्पिक, डिफ़ॉल्ट = 100 यह पहनावा में आधार अनुमानकों की संख्या का प्रतिनिधित्व करता है। |
2 | max_samples - int या फ्लोट, वैकल्पिक, डिफ़ॉल्ट = "ऑटो" यह प्रत्येक आधार अनुमानक को प्रशिक्षित करने के लिए X से निकाले जाने वाले नमूनों की संख्या का प्रतिनिधित्व करता है। अगर हम int को उसके मूल्य के रूप में चुनते हैं, तो यह max_samples नमूने लेगा। यदि हम फ्लोट को उसके मूल्य के रूप में चुनते हैं, तो यह अधिकतम_समेनों को .shape [0] नमूने देगा। और, यदि हम ऑटो को उसके मूल्य के रूप में चुनते हैं, तो यह max_samples = min (256, n_samples) को आकर्षित करेगा। |
3 | support_fraction - फ्लोट इन (0., 1.), वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर विधि को बताता है कि कच्चे एमसीडी अनुमानों के समर्थन में अंकों का कितना अनुपात शामिल किया जाना है। |
4 | contamination - ऑटो या फ्लोट, वैकल्पिक, डिफ़ॉल्ट = ऑटो यह डेटा सेट में आउटलेर का अनुपात प्रदान करता है। यदि हम इसे डिफ़ॉल्ट यानी ऑटो सेट करते हैं, तो यह मूल पेपर की तरह सीमा निर्धारित करेगा। यदि तैरने के लिए सेट किया जाता है, तो संदूषण की सीमा [0,0.5] की सीमा में होगी। |
5 | random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -
|
6 | max_features - int या फ्लोट, वैकल्पिक (डिफ़ॉल्ट = 1.0) यह प्रत्येक बेस अनुमानक को प्रशिक्षित करने के लिए X से खींची जाने वाली सुविधाओं की संख्या का प्रतिनिधित्व करता है। यदि हम इसके मूल्य के रूप में int चुनते हैं, तो यह max_features सुविधाओं को आकर्षित करेगा। यदि हम फ्लोट को इसके मूल्य के रूप में चुनते हैं, तो यह अधिकतम_फ्रीचर * X.shape [] नमूने आकर्षित करेगा। |
7 | bootstrap - बूलियन, वैकल्पिक (डिफ़ॉल्ट = गलत) इसका डिफ़ॉल्ट विकल्प गलत है जिसका अर्थ है कि नमूना प्रतिस्थापन के बिना प्रदर्शन किया जाएगा। और दूसरी तरफ, अगर ट्रू में सेट किया गया है, तो इसका मतलब है कि व्यक्तिगत पेड़ प्रतिस्थापन के साथ नमूना किए गए प्रशिक्षण डेटा के यादृच्छिक सबसेट पर फिट हैं। |
8 | n_jobs - int या कोई नहीं, वैकल्पिक (डिफ़ॉल्ट = कोई नहीं) यह समानांतर में चलाने के लिए नौकरियों की संख्या का प्रतिनिधित्व करता है fit() तथा predict() दोनों तरीके। |
9 | verbose - int, वैकल्पिक (डिफ़ॉल्ट = 0) यह पैरामीटर ट्री बिल्डिंग प्रोसेस की वर्बोसिटी को नियंत्रित करता है। |
10 | warm_start - बूल, वैकल्पिक (डिफ़ॉल्ट = गलत) अगर warm_start = true, हम फिट होने के लिए पिछले कॉल समाधान का पुन: उपयोग कर सकते हैं और पहनावा में अधिक अनुमानक जोड़ सकते हैं। लेकिन अगर यह गलत है, तो हमें एक नया जंगल फिट करना होगा। |
गुण
निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn. ensemble.IsolationForest विधि -
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | estimators_ - DecisionTreeClassifier की सूची सभी फिट उप-अनुमानकों का संग्रह प्रदान करना। |
2 | max_samples_ - पूर्णांक यह उपयोग किए गए नमूनों की वास्तविक संख्या प्रदान करता है। |
3 | offset_ - तैरना इसका उपयोग कच्चे स्कोर से निर्णय फ़ंक्शन को परिभाषित करने के लिए किया जाता है। decision_function = score_samples -offset_ |
Implementation Example
नीचे पायथन लिपि का उपयोग होगा sklearn. ensemble.IsolationForest दिए गए आंकड़ों पर 10 पेड़ों को फिट करने की विधि
from sklearn.ensemble import IsolationForest
import numpy as np
X = np.array([[-1, -2], [-3, -3], [-3, -4], [0, 0], [-50, 60]])
OUTDClf = IsolationForest(n_estimators = 10)
OUTDclf.fit(X)
Output
IsolationForest(
behaviour = 'old', bootstrap = False, contamination='legacy',
max_features = 1.0, max_samples = 'auto', n_estimators = 10, n_jobs=None,
random_state = None, verbose = 0
)
स्थानीय बाहरी कारक
स्थानीय आयाम कारक (एलओएफ) एल्गोरिथ्म उच्च आयाम डेटा पर बाहरी पता लगाने के लिए एक और कुशल एल्गोरिथ्म है। स्किटिट-सीख प्रदान करता हैneighbors.LocalOutlierFactorविधि जो किसी स्कोर की गणना करती है, जिसे स्थानीय बाह्य कारक कहा जाता है, टिप्पणियों की विसंगति की डिग्री को दर्शाता है। इस एल्गोरिदम का मुख्य तर्क उन नमूनों का पता लगाना है जिनके पड़ोसियों की तुलना में काफी कम घनत्व है। यही कारण है कि यह दिए गए डेटा बिंदुओं के स्थानीय घनत्व के विचलन को उनके पड़ोसियों को प्रभावित करता है।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn. neighbors.LocalOutlierFactor तरीका
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | n_neighbors - int, वैकल्पिक, डिफ़ॉल्ट = 20 यह kneighbors क्वेरी के लिए डिफ़ॉल्ट रूप से पड़ोसियों के उपयोग की संख्या का प्रतिनिधित्व करता है। सभी नमूनों का इस्तेमाल किया जाएगा। |
2 | algorithm - वैकल्पिक निकटतम पड़ोसियों की गणना के लिए किस एल्गोरिथ्म का उपयोग किया जाना है।
|
3 | leaf_size - int, वैकल्पिक, डिफ़ॉल्ट = 30 इस पैरामीटर का मान निर्माण और क्वेरी की गति को प्रभावित कर सकता है। यह पेड़ को संग्रहीत करने के लिए आवश्यक स्मृति को भी प्रभावित करता है। यह पैरामीटर BallTree या KdTree एल्गोरिदम को पास किया गया है। |
4 | contamination - ऑटो या फ्लोट, वैकल्पिक, डिफ़ॉल्ट = ऑटो यह डेटा सेट में आउटलेर का अनुपात प्रदान करता है। यदि हम इसे डिफ़ॉल्ट यानी ऑटो सेट करते हैं, तो यह मूल पेपर की तरह सीमा निर्धारित करेगा। यदि तैरने के लिए सेट किया जाता है, तो संदूषण की सीमा [0,0.5] की सीमा में होगी। |
5 | metric - स्ट्रिंग या कॉल करने योग्य, डिफ़ॉल्ट यह दूरी की गणना के लिए उपयोग किए जाने वाले मीट्रिक का प्रतिनिधित्व करता है। |
6 | P - int, वैकल्पिक (डिफ़ॉल्ट = 2) यह Minkowski मीट्रिक के लिए पैरामीटर है। P = 1 मैनहट्टन_डिस्टेंस यानी L1 का उपयोग करने के बराबर है, जबकि P = 2 euclidean_distance यानी L2 का उपयोग करने के बराबर है। |
7 | novelty - बूलियन, (डिफ़ॉल्ट = गलत) डिफ़ॉल्ट रूप से, एलओएफ एल्गोरिथ्म का उपयोग बाह्य पहचान के लिए किया जाता है लेकिन इसका उपयोग नवीनता का पता लगाने के लिए किया जा सकता है यदि हम नवीनता = सत्य को निर्धारित करते हैं। |
8 | n_jobs - int या कोई नहीं, वैकल्पिक (डिफ़ॉल्ट = कोई नहीं) यह फिट () और भविष्यवाणी () दोनों तरीकों के समानांतर चलने वाली नौकरियों की संख्या का प्रतिनिधित्व करता है। |
गुण
निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn.neighbors.LocalOutlierFactor विधि -
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | negative_outlier_factor_ - सुन्न सरणी, आकार (n_samples) प्रशिक्षण के नमूनों के विपरीत LOF प्रदान करना। |
2 | n_neighbors_ - पूर्णांक यह पड़ोसियों की वास्तविक संख्या का उपयोग पड़ोसी प्रश्नों के लिए करता है। |
3 | offset_ - तैरना इसका उपयोग कच्चे स्कोर से बाइनरी लेबल को परिभाषित करने के लिए किया जाता है। |
Implementation Example
नीचे दी गई पायथन लिपि का उपयोग होगा sklearn.neighbors.LocalOutlierFactor हमारे डेटा सेट के अनुरूप किसी भी ऐरे से नेबर्सक्लासीफायर क्लास बनाने की विधि
from sklearn.neighbors import NearestNeighbors
samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
LOFneigh = NearestNeighbors(n_neighbors = 1, algorithm = "ball_tree",p=1)
LOFneigh.fit(samples)
Output
NearestNeighbors(
algorithm = 'ball_tree', leaf_size = 30, metric='minkowski',
metric_params = None, n_jobs = None, n_neighbors = 1, p = 1, radius = 1.0
)
Example
अब, हम इस निर्मित क्लासिफायर से पूछ सकते हैं कि कोठरी का बिंदु [0.5, 1., 1.5] है जो निम्नलिखित पायथन के उपयोग से है -
print(neigh.kneighbors([[.5, 1., 1.5]])
Output
(array([[1.7]]), array([[1]], dtype = int64))
वन-क्लास एसवीएम
Schölkopf et al। द्वारा शुरू की गई वन-क्लास SVM, अनचाहे आउटलाइर डिटेक्शन है। यह उच्च-आयामी डेटा में भी बहुत कुशल है और एक उच्च-आयामी वितरण के समर्थन का अनुमान लगाता है। में लागू किया गया हैSupport Vector Machines में मॉड्यूल Sklearn.svm.OneClassSVMवस्तु। सीमांत को परिभाषित करने के लिए, इसे कर्नेल की आवश्यकता होती है (ज्यादातर इसका उपयोग आरबीएफ होता है) और एक स्केलर पैरामीटर।
बेहतर समझ के लिए आइए हमारे डेटा के साथ फिट होते हैं svm.OneClassSVM वस्तु -
उदाहरण
from sklearn.svm import OneClassSVM
X = [[0], [0.89], [0.90], [0.91], [1]]
OSVMclf = OneClassSVM(gamma = 'scale').fit(X)
अब, हम इनपुट डेटा के लिए निम्न प्रकार से स्कोर प्राप्त कर सकते हैं -
OSVMclf.score_samples(X)
उत्पादन
array([1.12218594, 1.58645126, 1.58673086, 1.58645127, 1.55713767])
यह अध्याय आपको स्केलेरन में निकटतम पड़ोसी तरीकों को समझने में मदद करेगा।
पड़ोसी आधारित शिक्षण पद्धति दोनों प्रकार की होती है supervised तथा unsupervised. पर्यवेक्षित पड़ोसी आधारित शिक्षा का उपयोग दोनों वर्गीकरण के साथ-साथ प्रतिगमन भविष्य कहनेवाला समस्याओं के लिए भी किया जा सकता है लेकिन, इसका उपयोग मुख्य रूप से उद्योग में वर्गीकरण की पूर्वानुमान संबंधी समस्याओं के लिए किया जाता है।
पड़ोसी आधारित शिक्षण विधियों में एक विशेष प्रशिक्षण चरण नहीं है और वर्गीकरण के दौरान प्रशिक्षण के लिए सभी डेटा का उपयोग करता है। यह अंतर्निहित डेटा के बारे में कुछ भी नहीं मानता है। यही कारण है कि वे प्रकृति में आलसी और गैर-पैरामीट्रिक हैं।
निकटतम पड़ोसी विधियों के पीछे मुख्य सिद्धांत है -
नए डेटा बिंदु के लिए दूरी में प्रशिक्षण नमूनों की अलमारी की पूर्वनिर्धारित संख्या का पता लगाने के लिए
प्रशिक्षण नमूनों की इन संख्याओं से लेबल का अनुमान लगाएं।
यहाँ, नमूनों की संख्या K- निकटतम पड़ोसी शिक्षण की तरह उपयोगकर्ता-परिभाषित स्थिरांक हो सकती है या त्रिज्या-आधारित पड़ोसी शिक्षण में बिंदु के स्थानीय घनत्व के आधार पर भिन्न हो सकती है।
sklearn.neighbors मॉड्यूल
स्किकिट-सीखो sklearn.neighborsमॉड्यूल जो दोनों के लिए अप्रचलित और पर्यवेक्षित पड़ोसी आधारित शिक्षण विधियों के लिए कार्यक्षमता प्रदान करता है। इनपुट के रूप में, इस मॉड्यूल में कक्षाएं या तो NumPy सरणियों को संभाल सकती हैं याscipy.sparse मैट्रिक्स।
एल्गोरिदम के प्रकार
विभिन्न प्रकार के एल्गोरिदम जो पड़ोसी-आधारित तरीकों के कार्यान्वयन में उपयोग किए जा सकते हैं, वे निम्नानुसार हैं -
पाशविक बल
डेटासेट के सभी युग्मों के बीच दूरियों की ब्रूट-बल संगणना सबसे भोली पड़ोसी खोज कार्यान्वयन प्रदान करती है। गणितीय रूप से, डी आयामों में एन नमूनों के लिए, जानवर-बल दृष्टिकोण तराजू के रूप में0[DN2]
छोटे डेटा नमूनों के लिए, यह एल्गोरिथ्म बहुत उपयोगी हो सकता है, लेकिन यह तब और जब तक नमूनों की संख्या बढ़ती है, तब तक यह संभव हो जाता है। जानवर बल पड़ोसी खोज कीवर्ड लिखकर सक्षम किया जा सकता हैalgorithm=’brute’।
केडी का पेड़
पेड़-आधारित डेटा संरचनाओं में से एक है जिसे ब्रूट-बल दृष्टिकोण की कम्प्यूटेशनल अक्षमताओं को संबोधित करने के लिए आविष्कार किया गया है, केडी ट्री डेटा संरचना है। मूल रूप से, केडी वृक्ष एक द्विआधारी वृक्ष संरचना है जिसे के-आयामी वृक्ष कहा जाता है। यह डेटा अक्षों के साथ पैरामीटर स्थान को पुन: विभाजित करता है, इसे नेस्टेड ऑर्थोग्राफ़िक क्षेत्रों में विभाजित किया जाता है, जिसमें डेटा बिंदु भरे जाते हैं।
लाभ
केडी ट्री एल्गोरिदम के कुछ फायदे निम्नलिखित हैं -
Construction is fast - जैसा कि विभाजन केवल डेटा अक्षों के साथ किया जाता है, केडी पेड़ का निर्माण बहुत तेज है।
Less distance computations- क्वेरी बिंदु के निकटतम पड़ोसी को निर्धारित करने के लिए यह एल्गोरिथ्म बहुत कम दूरी की गणना करता है। ये केवल लेता है[ ()] दूरी की गणना।
नुकसान
Fast for only low-dimensional neighbor searches- यह कम-आयामी (डी <20) पड़ोसी खोजों के लिए बहुत तेज़ है लेकिन जब और जैसे-जैसे डी बढ़ता है यह अक्षम हो जाता है। चूंकि विभाजन केवल डेटा अक्षों के साथ किया जाता है,
केडी ट्री पड़ोसी खोजों को कीवर्ड लिखकर सक्षम किया जा सकता है algorithm=’kd_tree’।
बॉल ट्री
जैसा कि हम जानते हैं कि केडी ट्री उच्च आयामों में अक्षम है, इसलिए, केडी ट्री की इस अक्षमता को दूर करने के लिए, बॉल ट्री डेटा संरचना विकसित की गई थी। गणितीय रूप से, यह पुनरावर्ती रूप से डेटा को विभक्त करता है, एक केन्द्रक C और त्रिज्या r द्वारा परिभाषित नोड्स में, इस तरह से कि नोड में प्रत्येक बिंदु केन्द्रक द्वारा परिभाषित हाइपर-क्षेत्र के भीतर स्थित होता है।C और त्रिज्या r। यह नीचे दी गई त्रिभुज असमानता का उपयोग करता है, जो पड़ोसी खोज के लिए उम्मीदवारों के अंकों को कम करता है
$$\arrowvert X+Y\arrowvert\leq \arrowvert X\arrowvert+\arrowvert Y\arrowvert$$Advantages
Following are some advantages of Ball Tree algorithm −
Efficient on highly structured data − As ball tree partition the data in a series of nesting hyper-spheres, it is efficient on highly structured data.
Out-performs KD-tree − Ball tree out-performs KD tree in high dimensions because it has spherical geometry of the ball tree nodes.
Disadvantages
Costly − Partition the data in a series of nesting hyper-spheres makes its construction very costly.
Ball tree neighbor searches can be enabled by writing the keyword algorithm=’ball_tree’.
Choosing Nearest Neighbors Algorithm
The choice of an optimal algorithm for a given dataset depends upon the following factors −
Number of samples (N) and Dimensionality (D)
These are the most important factors to be considered while choosing Nearest Neighbor algorithm. It is because of the reasons given below −
The query time of Brute Force algorithm grows as O[DN].
The query time of Ball tree algorithm grows as O[D log(N)].
The query time of KD tree algorithm changes with D in a strange manner that is very difficult to characterize. When D < 20, the cost is O[D log(N)] and this algorithm is very efficient. On the other hand, it is inefficient in case when D > 20 because the cost increases to nearly O[DN].
डेटा संरचना
एक अन्य कारक जो इन एल्गोरिदम के प्रदर्शन को प्रभावित करता है, डेटा की आंतरिक गतिशीलता या डेटा की दुर्लभता है। ऐसा इसलिए है क्योंकि बॉल ट्री और केडी ट्री एल्गोरिदम का क्वेरी समय इससे बहुत प्रभावित हो सकता है। जबकि, Brute Force एल्गोरिथम का क्वेरी समय डेटा संरचना द्वारा अपरिवर्तित है। आम तौर पर, बॉल ट्री और केडी ट्री एल्गोरिदम, छोटे आंतरिक आयाम के साथ विरल डेटा पर प्रत्यारोपित होने पर तेज क्वेरी समय पैदा करते हैं।
पड़ोसियों की संख्या (k)
क्वेरी बिंदु के लिए अनुरोध किए गए पड़ोसियों (के) की संख्या बॉल ट्री और केडी ट्री एल्गोरिदम के क्वेरी समय को प्रभावित करती है। जैसे-जैसे पड़ोसी (के) की संख्या बढ़ती जाती है उनका क्वेरी समय धीमा होता जाता है। जबकि Brute Force का क्वेरी समय k के मान से अप्रभावित रहेगा।
क्वेरी बिंदुओं की संख्या
क्योंकि, उन्हें निर्माण चरण की आवश्यकता होती है, केडी ट्री और बॉल ट्री एल्गोरिदम दोनों प्रभावी होंगे यदि बड़ी संख्या में क्वेरी पॉइंट हैं। दूसरी ओर, यदि क्वेरी बिंदुओं की एक छोटी संख्या है, तो ब्रूट फोर्स एल्गोरिथ्म केडी पेड़ और बॉल ट्री एल्गोरिदम से बेहतर प्रदर्शन करता है।
k-NN (k-निकटतम पड़ोसी), जो सबसे सरल मशीन लर्निंग एल्गोरिदम में से एक है, प्रकृति में गैर-पैरामीट्रिक और आलसी है। गैर-पैरामीट्रिक का अर्थ है कि अंतर्निहित डेटा वितरण के लिए कोई धारणा नहीं है अर्थात मॉडल संरचना डेटासेट से निर्धारित होती है। आलसी या उदाहरण-आधारित सीखने का मतलब है कि मॉडल पीढ़ी के उद्देश्य के लिए, इसे किसी भी प्रशिक्षण डेटा बिंदु की आवश्यकता नहीं है और परीक्षण चरण में पूरे प्रशिक्षण डेटा का उपयोग किया जाता है।
K-NN एल्गोरिथ्म निम्नलिखित दो चरणों से मिलकर बनता है -
चरण 1
इस चरण में, यह प्रशिक्षण सेट में प्रत्येक नमूने के लिए k निकटतम पड़ोसियों की गणना करता है और संग्रहीत करता है।
चरण 2
इस चरण में, अनलिस्टेड नमूने के लिए, यह डेटासेट से निकटतम पड़ोसियों को पुनः प्राप्त करता है। फिर इन के-निकटतम पड़ोसियों के बीच, यह वोटिंग के माध्यम से वर्ग की भविष्यवाणी करता है (बहुमत वोट जीत के साथ वर्ग)।
मॉड्यूल, sklearn.neighbors कि k- निकटतम पड़ोसियों के एल्गोरिथ्म को लागू करता है, के लिए कार्यक्षमता प्रदान करता है unsupervised साथ ही साथ supervised पड़ोसी आधारित सीखने के तरीके।
अनियंत्रित निकटतम पड़ोसी प्रत्येक नमूने के लिए निकटतम पड़ोसी (एस) को खोजने के लिए विभिन्न एल्गोरिदम (बॉलट्री, केडीट्री या ब्रूट फोर्स) को लागू करते हैं। यह अनसुलझा संस्करण मूल रूप से केवल चरण 1 है, जिस पर ऊपर चर्चा की गई है, और कई एल्गोरिदम (केएनएन और के-साधन प्रसिद्ध होने का आधार) की आवश्यकता है जो पड़ोसी खोज की आवश्यकता होती है। सरल शब्दों में, यह पड़ोसी खोजों को लागू करने के लिए अनसुचित शिक्षार्थी है।
दूसरी ओर, पर्यवेक्षित पड़ोसी आधारित शिक्षा को वर्गीकरण के साथ-साथ प्रतिगमन के लिए उपयोग किया जाता है।
Unsupervised KNN Learning
जैसा कि चर्चा है, केएनएन और के-मीन्स जैसे कई एल्गोरिदम मौजूद हैं जिनके लिए निकटतम पड़ोसी खोजों की आवश्यकता होती है। यही कारण है कि स्किकिट-लर्न ने पड़ोसी खोज भाग को अपने "शिक्षार्थी" के रूप में लागू करने का निर्णय लिया। अलग-अलग सीखने वाले के रूप में पड़ोसी की खोज करने के पीछे कारण यह है कि निकटतम पड़ोसी को खोजने के लिए सभी जोड़ीदार दूरी की गणना करना स्पष्ट रूप से बहुत कुशल नहीं है। आइए देखें कि स्केलेर द्वारा उपयोग किए गए मॉड्यूल को उदाहरण के साथ अनपेक्षित निकटतम पड़ोसी सीखने को लागू करने के लिए किया जाता है।
स्किकिट-सीखो मॉड्यूल
sklearn.neighbors.NearestNeighborsमॉड्यूल का उपयोग किया गया है जिसका उपयोग पड़ोसी के निकटतम सीखने को लागू करने के लिए किया जाता है। यह विशिष्ट निकटतम पड़ोसी एल्गोरिदम का उपयोग करता है जिसका नाम बॉलट्री, केडीट्री या ब्रूट फोर्स है। दूसरे शब्दों में, यह इन तीन एल्गोरिदम के लिए एक समान इंटरफ़ेस के रूप में कार्य करता है।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं NearestNeighbors मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | n_neighbors - इंट, वैकल्पिक पड़ोसियों की संख्या प्राप्त करने के लिए। डिफ़ॉल्ट मान 5 है। |
2 | radius - फ्लोट, वैकल्पिक यह पड़ोसियों की वापसी की दूरी को सीमित करता है। डिफ़ॉल्ट मान 1.0 है। |
3 | algorithm - {'ऑटो', 'बॉल_ट्री', 'kd_tree', 'जानवर'}, वैकल्पिक यह पैरामीटर उस एल्गोरिथ्म (BallTree, KDTree या Brute-Force) को ले जाएगा जो आप निकटतम पड़ोसियों की गणना करने के लिए उपयोग करना चाहते हैं। यदि आप 'ऑटो' प्रदान करेंगे, तो यह उपयुक्त विधि के आधार पर पारित मूल्यों के आधार पर सबसे उपयुक्त एल्गोरिथ्म को तय करने का प्रयास करेगा। |
4 | leaf_size - इंट, वैकल्पिक यह निर्माण और क्वेरी की गति और साथ ही पेड़ को स्टोर करने के लिए आवश्यक मेमोरी को प्रभावित कर सकता है। इसे बॉलट्री या केडीट्री को पास किया जाता है। यद्यपि इष्टतम मान समस्या की प्रकृति पर निर्भर करता है, लेकिन इसका डिफ़ॉल्ट मान 30 है। |
5 | metric - स्ट्रिंग या कॉल करने योग्य यह बिंदुओं के बीच दूरी की गणना के लिए उपयोग करने के लिए मीट्रिक है। हम इसे एक स्ट्रिंग या कॉल करने योग्य फ़ंक्शन के रूप में पास कर सकते हैं। कॉल करने योग्य फ़ंक्शन के मामले में, मीट्रिक को प्रत्येक जोड़ी की पंक्तियों पर बुलाया जाता है और परिणामस्वरूप मूल्य दर्ज किया जाता है। यह एक स्ट्रिंग के रूप में मीट्रिक नाम को पारित करने से कम कुशल है। हम मैट्रिक से स्किट-लर्न या scipy.spatial.distance से चुन सकते हैं। मान्य मान इस प्रकार हैं - स्किकिट-लर्न - ['कोसाइन', 'मैनहट्टन', 'यूक्लिडियन', 'एल 1', 'एल 2', 'सिटीब्लॉक'] Scipy.spatial.distance - ['ब्रेयर्टिस', 'कैनबरा', 'चेबीशेव', 'पासा', 'हैमिंग', 'जेकॉर्ड', 'सहसंबंध', 'कुल्लिंस्की', 'महालनोबिस,' मिंकोव्स्की ',' रॉर्गिस्तानिमोटो ',' रुसेलेराव ',' sokalmicheme ',' sokalsneath ',' seuclidean ',' sqeuclidean ',' yule ']। डिफ़ॉल्ट मीट्रिक 'मिंकोव्स्की' है। |
6 | P - पूर्णांक, वैकल्पिक यह Minkowski मीट्रिक के लिए पैरामीटर है। डिफ़ॉल्ट मान 2 है जो यूक्लिडियन_डिस्टेंस (एल 2) का उपयोग करने के बराबर है। |
7 | metric_params - तानाशाही, वैकल्पिक यह मीट्रिक फ़ंक्शन के लिए अतिरिक्त कीवर्ड तर्क है। कोई डिफ़ॉल्ट मान नहीं है। |
8 | N_jobs - int या कोई नहीं, वैकल्पिक यह पड़ोसी खोज के लिए समानांतर नौकरियों के अंक को फिर से शुरू करता है। कोई डिफ़ॉल्ट मान नहीं है। |
Implementation Example
नीचे दिए गए उदाहरण में डेटा का उपयोग करके दो सेटों के बीच निकटतम पड़ोसियों को मिलेगा sklearn.neighbors.NearestNeighbors मापांक।
सबसे पहले, हमें आवश्यक मॉड्यूल और पैकेज आयात करने की आवश्यकता है -
from sklearn.neighbors import NearestNeighbors
import numpy as np
अब पैकेजों को आयात करने के बाद, हम निकटतम पड़ोसियों को खोजना चाहते हैं, बीच में डेटा के सेट को परिभाषित करें -
Input_data = np.array([[-1, 1], [-2, 2], [-3, 3], [1, 2], [2, 3], [3, 4],[4, 5]])
इसके बाद, अनियोजित शिक्षण एल्गोरिथ्म लागू करें, इस प्रकार है -
nrst_neigh = NearestNeighbors(n_neighbors = 3, algorithm = 'ball_tree')
अगला, इनपुट डेटा सेट के साथ मॉडल फिट करें।
nrst_neigh.fit(Input_data)
अब, डेटा सेट के K- पड़ोसियों को खोजें। यह प्रत्येक बिंदु के पड़ोसियों के सूचकांकों और दूरियों को लौटाएगा।
distances, indices = nbrs.kneighbors(Input_data)
indices
Output
array(
[
[0, 1, 3],
[1, 2, 0],
[2, 1, 0],
[3, 4, 0],
[4, 5, 3],
[5, 6, 4],
[6, 5, 4]
], dtype = int64
)
distances
Output
array(
[
[0. , 1.41421356, 2.23606798],
[0. , 1.41421356, 1.41421356],
[0. , 1.41421356, 2.82842712],
[0. , 1.41421356, 2.23606798],
[0. , 1.41421356, 1.41421356],
[0. , 1.41421356, 1.41421356],
[0. , 1.41421356, 2.82842712]
]
)
उपरोक्त आउटपुट से पता चलता है कि प्रत्येक बिंदु का निकटतम पड़ोसी बिंदु ही शून्य पर है। ऐसा इसलिए है क्योंकि क्वेरी सेट प्रशिक्षण सेट से मेल खाता है।
Example
हम एक विरल ग्राफ का निर्माण करके पड़ोसी बिंदुओं के बीच संबंध भी दिखा सकते हैं -
nrst_neigh.kneighbors_graph(Input_data).toarray()
Output
array(
[
[1., 1., 0., 1., 0., 0., 0.],
[1., 1., 1., 0., 0., 0., 0.],
[1., 1., 1., 0., 0., 0., 0.],
[1., 0., 0., 1., 1., 0., 0.],
[0., 0., 0., 1., 1., 1., 0.],
[0., 0., 0., 0., 1., 1., 1.],
[0., 0., 0., 0., 1., 1., 1.]
]
)
एक बार हम अनसुनी कर देते हैं NearestNeighbors मॉडल, डेटा को तर्क के लिए निर्धारित मूल्य के आधार पर डेटा संरचना में संग्रहीत किया जाएगा ‘algorithm’। उसके बाद हम इस अप्रशिक्षित शिक्षार्थी का उपयोग कर सकते हैंkneighbors एक मॉडल में जिसे पड़ोसी खोजों की आवश्यकता होती है।
Complete working/executable program
from sklearn.neighbors import NearestNeighbors
import numpy as np
Input_data = np.array([[-1, 1], [-2, 2], [-3, 3], [1, 2], [2, 3], [3, 4],[4, 5]])
nrst_neigh = NearestNeighbors(n_neighbors = 3, algorithm='ball_tree')
nrst_neigh.fit(Input_data)
distances, indices = nbrs.kneighbors(Input_data)
indices
distances
nrst_neigh.kneighbors_graph(Input_data).toarray()
केएनएन लर्निंग का पर्यवेक्षण किया
पर्यवेक्षित पड़ोसी आधारित सीखने का उपयोग निम्नलिखित के लिए किया जाता है -
- असतत लेबल वाले डेटा के लिए वर्गीकरण
- प्रतिगमन, निरंतर लेबल वाले डेटा के लिए।
निकटतम पड़ोसी क्लासिफायर
हम निम्नलिखित दो विशेषताओं की सहायता से पड़ोसियों पर आधारित वर्गीकरण को समझ सकते हैं -
- इसकी गणना प्रत्येक बिंदु के निकटतम पड़ोसियों के एक साधारण बहुमत से की जाती है।
- यह केवल प्रशिक्षण डेटा के उदाहरणों को संग्रहीत करता है, यही कारण है कि यह एक प्रकार का गैर-सामान्यकरण सीखने है।
स्किकिट-सीखो मॉड्यूल
फॉलोइंग दो अलग-अलग प्रकार के निकटतम पड़ोसी क्लासीफायर हैं, जिनका उपयोग शिकिट-लर्न द्वारा किया जाता है -
क्र.सं. | क्लासीफायर और विवरण |
---|---|
1। | KNeighborsClassifier इस क्लासिफायर के नाम के K, निकटतम पड़ोसियों का प्रतिनिधित्व करता है, जहां k उपयोगकर्ता द्वारा निर्दिष्ट पूर्णांक मान है। इसलिए जैसा कि नाम से पता चलता है, यह क्लासिफायरियर निकटतम पड़ोसियों के आधार पर सीखने को लागू करता है। K के मूल्य का चुनाव डेटा पर निर्भर है। |
2। | RadiusNeighborsClassifier इस क्लासिफायरियर के नाम पर त्रिज्या एक निर्दिष्ट त्रिज्या आर के भीतर निकटतम पड़ोसियों का प्रतिनिधित्व करता है, जहां आर उपयोगकर्ता द्वारा निर्दिष्ट एक अस्थायी-बिंदु मान है। इसलिए जैसा कि नाम से पता चलता है, यह क्लासिफायर प्रत्येक प्रशिक्षण बिंदु के निश्चित त्रिज्या r के भीतर संख्या पड़ोसियों के आधार पर सीखता है। |
निकटतम पड़ोसी रेजिस्टर
इसका उपयोग उन मामलों में किया जाता है जहां डेटा लेबल प्रकृति में निरंतर होते हैं। निर्दिष्ट डेटा लेबल की गणना उसके निकटतम पड़ोसियों के लेबल के माध्य के आधार पर की जाती है।
फॉलोइंग दो अलग-अलग प्रकार के निकटतम पड़ोसी हैं, जिनका उपयोग शिकिट-लर्न द्वारा किया जाता है -
KNeighborsRegressor
इस रजिस्ट्रार के नाम के K, निकटतम पड़ोसियों का प्रतिनिधित्व करता है, जहां k है एक integer valueउपयोगकर्ता द्वारा निर्दिष्ट। इसलिए, जैसा कि नाम से पता चलता है, यह प्रतिगामी k निकटतम पड़ोसियों के आधार पर सीखता है। K के मूल्य का चुनाव डेटा पर निर्भर है। आइए इसे एक कार्यान्वयन उदाहरण की सहायता से अधिक समझते हैं।
फॉलोइंग दो अलग-अलग प्रकार के निकटतम पड़ोसी हैं, जिनका उपयोग शिकिट-लर्न द्वारा किया जाता है -
कार्यान्वयन उदाहरण
इस उदाहरण में, हम scikit-learn का उपयोग करके Iris Flower डेटा सेट नाम के डेटा सेट पर KNN को लागू करेंगे KNeighborsRegressor।
सबसे पहले, आईरिस डेटासेट निम्नानुसार आयात करें -
from sklearn.datasets import load_iris
iris = load_iris()
अब, हमें डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करने की आवश्यकता है। हम स्केलेर का उपयोग करेंगेtrain_test_split 70 (प्रशिक्षण डेटा) और 20 (परीक्षण डेटा) के अनुपात में डेटा को विभाजित करने के लिए कार्य -
X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)
इसके बाद, हम स्केलेर प्रीप्रोसेसिंग मॉड्यूल की मदद से डेटा स्केलिंग करेंगे: -
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
अगला, आयात करें KNeighborsRegressor Sklearn से वर्ग और निम्न के रूप में पड़ोसियों के मूल्य प्रदान करते हैं।
उदाहरण
import numpy as np
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors = 8)
knnr.fit(X_train, y_train)
उत्पादन
KNeighborsRegressor(
algorithm = 'auto', leaf_size = 30, metric = 'minkowski',
metric_params = None, n_jobs = None, n_neighbors = 8, p = 2,
weights = 'uniform'
)
उदाहरण
अब, हम एमएसई (मीन चुकता त्रुटि) निम्नानुसार पा सकते हैं -
print ("The MSE is:",format(np.power(y-knnr.predict(X),4).mean()))
उत्पादन
The MSE is: 4.4333349609375
उदाहरण
अब, मूल्य का अनुमान लगाने के लिए इसका उपयोग इस प्रकार करें -
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors = 3)
knnr.fit(X, y)
print(knnr.predict([[2.5]]))
उत्पादन
[0.66666667]
पूर्ण कार्य / निष्पादन योग्य कार्यक्रम
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
import numpy as np
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=8)
knnr.fit(X_train, y_train)
print ("The MSE is:",format(np.power(y-knnr.predict(X),4).mean()))
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=3)
knnr.fit(X, y)
print(knnr.predict([[2.5]]))
RadiusNeighborsRegressor
इस रजिस्ट्रार के नाम में त्रिज्या एक निर्दिष्ट त्रिज्या आर के भीतर निकटतम पड़ोसियों का प्रतिनिधित्व करता है, जहां आर उपयोगकर्ता द्वारा निर्दिष्ट एक अस्थायी-बिंदु मान है। इसलिए जैसा कि नाम से पता चलता है, यह प्रतिगामी प्रत्येक प्रशिक्षण बिंदु के एक निश्चित त्रिज्या r के भीतर संख्या पड़ोसियों के आधार पर सीखता है। आइए इसे क्रियान्वयन के उदाहरण की मदद से अधिक समझें -
कार्यान्वयन उदाहरण
इस उदाहरण में, हम scikit-learn का उपयोग करके Iris Flower डेटा सेट नाम के डेटा सेट पर KNN को लागू करेंगे RadiusNeighborsRegressor -
सबसे पहले, आईरिस डेटासेट निम्नानुसार आयात करें -
from sklearn.datasets import load_iris
iris = load_iris()
अब, हमें डेटा को प्रशिक्षण और परीक्षण डेटा में विभाजित करने की आवश्यकता है। हम डेटा को 70 (प्रशिक्षण डेटा) और 20 (परीक्षण डेटा) के अनुपात में विभाजित करने के लिए Sklearn train_test_split फ़ंक्शन का उपयोग करेंगे -
X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)
इसके बाद, हम स्केलेर प्रीप्रोसेसिंग मॉड्यूल की मदद से डेटा स्केलिंग करेंगे: -
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
अगला, आयात करें RadiusneighborsRegressor स्केलेर से वर्ग और निम्न के रूप में त्रिज्या का मूल्य प्रदान करते हैं -
import numpy as np
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius=1)
knnr_r.fit(X_train, y_train)
उदाहरण
अब, हम एमएसई (मीन चुकता त्रुटि) निम्नानुसार पा सकते हैं -
print ("The MSE is:",format(np.power(y-knnr_r.predict(X),4).mean()))
उत्पादन
The MSE is: The MSE is: 5.666666666666667
उदाहरण
अब, मूल्य का अनुमान लगाने के लिए इसका उपयोग इस प्रकार करें -
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius=1)
knnr_r.fit(X, y)
print(knnr_r.predict([[2.5]]))
उत्पादन
[1.]
पूर्ण कार्य / निष्पादन योग्य कार्यक्रम
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
import numpy as np
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius = 1)
knnr_r.fit(X_train, y_train)
print ("The MSE is:",format(np.power(y-knnr_r.predict(X),4).mean()))
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius = 1)
knnr_r.fit(X, y)
print(knnr_r.predict([[2.5]]))
Nave बेयस तरीके एक मजबूत धारणा के साथ बेयस प्रमेय को लागू करने के आधार पर पर्यवेक्षित शिक्षण एल्गोरिदम का एक सेट है जो सभी भविष्यवक्ता एक-दूसरे के लिए स्वतंत्र होते हैं अर्थात किसी वर्ग में एक सुविधा की उपस्थिति उसी में किसी अन्य सुविधा की उपस्थिति से स्वतंत्र होती है कक्षा। यह भोली धारणा है यही वजह है कि इन तरीकों को नाओवे बेयस तरीके कहा जाता है।
बेयस प्रमेय में कक्षा की पूर्ववर्ती संभावना यानी लेबल की संभावना और कुछ देखी गई विशेषताओं को खोजने के लिए निम्नलिखित संबंध बताया गया है, $P\left(\begin{array}{c} Y\arrowvert features\end{array}\right)$।
$$P\left(\begin{array}{c} Y\arrowvert features\end{array}\right)=\left(\frac{P\lgroup Y\rgroup P\left(\begin{array}{c} features\arrowvert Y\end{array}\right)}{P\left(\begin{array}{c} features\end{array}\right)}\right)$$यहाँ, $P\left(\begin{array}{c} Y\arrowvert features\end{array}\right)$ वर्ग की पिछली संभावना है।
$P\left(\begin{array}{c} Y\end{array}\right)$ वर्ग की पूर्व संभावना है।
$P\left(\begin{array}{c} features\arrowvert Y\end{array}\right)$ संभावना है जो भविष्यवक्ता दी गई कक्षा की संभावना है।
$P\left(\begin{array}{c} features\end{array}\right)$ पूर्वसूचक की पूर्व संभावना है।
स्किटिट-लर्न अलग-अलग भोले बेयर्स के क्लासिफायर मॉडल प्रदान करता है, जैसे कि गाऊसी, बहुराष्ट्रीय, पूरक और बर्नौली। उनमें से सभी मुख्य रूप से उस धारणा से भिन्न होते हैं जो वे वितरण के संबंध में बनाते हैं$P\left(\begin{array}{c} features\arrowvert Y\end{array}\right)$ यानी भविष्यवक्ता द्वारा दी गई कक्षा की संभावना।
अनु क्रमांक | मॉडल वर्णन |
---|---|
1 | गौसियन नाओवे बेयस गाऊसी नाओवे बेयस क्लासिफायर मानता है कि प्रत्येक लेबल के डेटा को एक साधारण गाऊसी वितरण से खींचा जाता है। |
2 | बहुराष्ट्रीय Na Bayve Bayes यह मानता है कि सुविधाओं को एक साधारण बहुराष्ट्रीय वितरण से तैयार किया गया है। |
3 | बर्नौली नाओवे बेयस इस मॉडल में धारणा यह है कि प्रकृति में द्विआधारी (0s और 1s) की सुविधा है। बर्नौली नाओवे बेयस वर्गीकरण का एक अनुप्रयोग 'शब्दों के बैग' मॉडल के साथ पाठ वर्गीकरण है |
4 | पूरक Na Comve Bayes इसे मल्टीनोमियल बेयस क्लासिफायर द्वारा बनाई गई गंभीर मान्यताओं को सही करने के लिए डिज़ाइन किया गया था। असंतुलित डेटा सेट के लिए इस तरह का एनबी क्लासिफायरियर उपयुक्त है |
बिल्डिंग नाओवे बेयस क्लासिफायर
हम नैक्वे बेस क्लासिफायर को स्किकिट-लर्नकिट्स पर भी लागू कर सकते हैं। नीचे दिए गए उदाहरण में, हम GaussianNB को लागू कर रहे हैं और Scikit-leran के breast_cancer डाटासेट की फिटिंग कर रहे हैं।
उदाहरण
Import Sklearn
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
data = load_breast_cancer()
label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']
print(label_names)
print(labels[0])
print(feature_names[0])
print(features[0])
train, test, train_labels, test_labels = train_test_split(
features,labels,test_size = 0.40, random_state = 42
)
from sklearn.naive_bayes import GaussianNB
GNBclf = GaussianNB()
model = GNBclf.fit(train, train_labels)
preds = GNBclf.predict(test)
print(preds)
उत्पादन
[
1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1
1 1 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1
1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0
1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0
1 1 0 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1
0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1
1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0
1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1
1 1 1 1 0 1 0 0 1 1 0 1
]
उपरोक्त आउटपुट में 0s और 1s की एक श्रृंखला होती है, जो मूल रूप से ट्यूमर वर्ग से घातक मूल्यों और सौम्य हैं।
इस अध्याय में, हम Sklearn में सीखने की विधि के बारे में जानेंगे जिसे निर्णय वृक्ष कहा जाता है।
निर्णय ट्रेस (DTs) सबसे शक्तिशाली गैर-पैरामीट्रिक पर्यवेक्षित शिक्षण पद्धति है। उनका उपयोग वर्गीकरण और प्रतिगमन कार्यों के लिए किया जा सकता है। डीटीएस का मुख्य लक्ष्य एक मॉडल बनाना है जो डेटा फीचर्स से घटाए गए सरल निर्णय नियमों को सीखकर लक्ष्य परिवर्तनीय मूल्य का अनुमान लगाता है। निर्णय पेड़ों की दो मुख्य संस्थाएँ हैं; एक रूट नोड है, जहां डेटा विभाजित होता है, और अन्य निर्णय नोड्स या पत्ते होते हैं, जहां हमें अंतिम आउटपुट मिला।
निर्णय ट्री एल्गोरिदम
विभिन्न निर्णय ट्री एल्गोरिदम को नीचे समझाया गया है -
ID3
यह रॉस क्विनलान द्वारा 1986 में विकसित किया गया था। इसे Iterative Dichotomiser 3 भी कहा जाता है। इस एल्गोरिदम का मुख्य लक्ष्य उन सभी नोडल विशेषताओं को खोजना है, जो प्रत्येक नोड के लिए, श्रेणीबद्ध लक्ष्यों के लिए सबसे बड़ी सूचना प्राप्त करेंगे।
यह पेड़ को उनके अधिकतम आकार के लिए उगाया जाता है और फिर अनदेखी डेटा पर पेड़ की क्षमता में सुधार करने के लिए एक प्रूनिंग चरण लागू होता है। इस एल्गोरिदम का आउटपुट एक मल्टीवे ट्री होगा।
C4.5
यह ID3 का उत्तराधिकारी है और गतिशील रूप से एक असतत विशेषता को परिभाषित करता है जो निरंतर गुण मान को अंतराल के असतत सेट में विभाजित करता है। यही कारण है कि इसने श्रेणीबद्ध विशेषताओं के प्रतिबंध को हटा दिया। यह ID3 प्रशिक्षित वृक्ष को 'IF-THEN' नियमों के समुच्चय में परिवर्तित करता है।
उस क्रम को निर्धारित करने के लिए जिसमें इन नियमों को लागू किया जाना चाहिए, पहले प्रत्येक नियम की सटीकता का मूल्यांकन किया जाएगा।
C5.0
यह C4.5 के समान काम करता है, लेकिन यह कम मेमोरी का उपयोग करता है और छोटे नियम बनाता है। यह C4.5 से अधिक सटीक है।
कार्ट
इसे वर्गीकरण और प्रतिगमन पेड़ अल्गोरिद्म कहा जाता है। यह मूल रूप से सुविधाओं का उपयोग करके बाइनरी स्प्लिट्स उत्पन्न करता है और प्रत्येक नोड पर सबसे बड़ी जानकारी हासिल करने वाली सीमा (जिनि सूचकांक) कहा जाता है।
Homogeneity Gini Index पर निर्भर करती है, Gini Index का मान जितना अधिक होगा, उच्च समरूपता होगी। यह C4.5 एल्गोरिथ्म की तरह है, लेकिन, अंतर यह है कि यह नियम सेट की गणना नहीं करता है और साथ ही संख्यात्मक लक्ष्य चर (प्रतिगमन) का समर्थन नहीं करता है।
निर्णय पेड़ों के साथ वर्गीकरण
इस मामले में, निर्णय चर स्पष्ट हैं।
Sklearn Module - स्किटिट-लर्न लाइब्रेरी मॉड्यूल नाम प्रदान करता है DecisionTreeClassifier डेटासेट पर मल्टीक्लास वर्गीकरण करने के लिए।
मापदंडों
निम्न तालिका में उपयोग किए गए पैरामीटर शामिल हैं sklearn.tree.DecisionTreeClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | criterion - स्ट्रिंग, वैकल्पिक डिफ़ॉल्ट = "गिन्नी" यह विभाजन की गुणवत्ता को मापने के लिए कार्य का प्रतिनिधित्व करता है। समर्थित मानदंड "गिन्नी" और "एन्ट्रॉपी" हैं। डिफ़ॉल्ट गिन्नी है जो कि गिन्नी अशुद्धता के लिए है जबकि एन्ट्रापी सूचना लाभ के लिए है। |
2 | splitter - स्ट्रिंग, वैकल्पिक डिफ़ॉल्ट = "सर्वश्रेष्ठ" यह मॉडल को बताता है कि प्रत्येक नोड में विभाजन का चयन करने के लिए "सर्वश्रेष्ठ" या "यादृच्छिक" से कौन सी रणनीति है। |
3 | max_depth - int या कोई नहीं, वैकल्पिक डिफ़ॉल्ट = कोई नहीं यह पैरामीटर पेड़ की अधिकतम गहराई तय करता है। डिफ़ॉल्ट मान कोई भी नहीं है जिसका अर्थ है कि नोड्स का विस्तार तब तक होगा जब तक कि सभी पत्ते शुद्ध नहीं होते हैं या जब तक सभी पत्तियों में min_smaples_split नमूने से कम नहीं होते हैं। |
4 | min_samples_split - int, फ्लोट, वैकल्पिक डिफ़ॉल्ट = 2 यह पैरामीटर आंतरिक नोड को विभाजित करने के लिए आवश्यक न्यूनतम नमूने प्रदान करता है। |
5 | min_samples_leaf - int, फ्लोट, वैकल्पिक डिफ़ॉल्ट = 1 यह पैरामीटर पत्ती नोड पर होने के लिए आवश्यक न्यूनतम नमूने प्रदान करता है। |
6 | min_weight_fraction_leaf - फ्लोट, वैकल्पिक डिफ़ॉल्ट = 0। इस पैरामीटर के साथ, मॉडल को एक लीफ नोड पर होने वाले आवश्यक भार का न्यूनतम भारित अंश मिलेगा। |
7 | max_features - int, फ्लोट, स्ट्रिंग या कोई नहीं, वैकल्पिक डिफ़ॉल्ट = कोई नहीं यह मॉडल को सर्वश्रेष्ठ विभाजन की तलाश करते समय विचार की जाने वाली सुविधाओं की संख्या देता है। |
8 | random_state - int, randomState उदाहरण या कोई नहीं, वैकल्पिक, डिफ़ॉल्ट = कोई नहीं यह पैरामीटर उत्पन्न छद्म यादृच्छिक संख्या के बीज का प्रतिनिधित्व करता है जिसका उपयोग डेटा को फेरबदल करते समय किया जाता है। अनुवर्ती विकल्प हैं -
|
9 | max_leaf_nodes - int या कोई नहीं, वैकल्पिक डिफ़ॉल्ट = कोई नहीं यह पैरामीटर सर्वश्रेष्ठ-प्रथम फ़ैशन में एक पेड़ को max_leaf_nodes के साथ बढ़ने देगा। डिफ़ॉल्ट कोई भी नहीं है जिसका अर्थ है कि असीमित संख्या में पत्ती नोड्स होंगे। |
10 | min_impurity_decrease - फ्लोट, वैकल्पिक डिफ़ॉल्ट = 0। यह मान विभाजित करने के लिए नोड के लिए एक मानदंड के रूप में काम करता है क्योंकि मॉडल एक नोड को विभाजित करेगा यदि यह विभाजन अशुद्धता की कमी को इससे अधिक या बराबर करता है min_impurity_decrease value। |
1 1 | min_impurity_split - फ्लोट, डिफ़ॉल्ट = 1e-7 यह वृक्षों के विकास में शुरुआती रोक के लिए सीमा का प्रतिनिधित्व करता है। |
12 | class_weight - तानाशाही, dicts की सूची, "संतुलित" या कोई नहीं, डिफ़ॉल्ट = कोई नहीं यह कक्षाओं के साथ जुड़े वजन का प्रतिनिधित्व करता है। फॉर्म {class_label: वजन} है। यदि हम डिफ़ॉल्ट विकल्प का उपयोग करते हैं, तो इसका मतलब है कि सभी वर्गों का वजन एक होना चाहिए। दूसरी ओर, यदि आप चुनते हैंclass_weight: balanced, यह स्वचालित रूप से वजन को समायोजित करने के लिए y के मूल्यों का उपयोग करेगा। |
13 | presort - बूल, वैकल्पिक डिफ़ॉल्ट = गलत यह मॉडल को बताता है कि क्या फिटिंग में सर्वश्रेष्ठ विभाजन की खोज में तेजी लाने के लिए डेटा को निर्धारित करना है। डिफ़ॉल्ट गलत है लेकिन सही पर सेट है, यह प्रशिक्षण प्रक्रिया को धीमा कर सकता है। |
गुण
निम्न तालिका में उपयोग की जाने वाली विशेषताएँ हैं sklearn.tree.DecisionTreeClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | feature_importances_ आकार की सरणी = [n_features] यह विशेषता सुविधा के महत्व को लौटाएगी। |
2 | classes_: आकार की सरणी = [n_classes] या ऐसे सरणियों की एक सूची यह कक्षाओं के लेबल यानी एकल आउटपुट समस्या या वर्ग लेबल के सरणियों की सूची अर्थात बहु-आउटपुट समस्या का प्रतिनिधित्व करता है। |
3 | max_features_ - इंट यह max_features पैरामीटर के घटाए गए मूल्य का प्रतिनिधित्व करता है। |
4 | n_classes_ - int या सूची यह कक्षाओं की संख्या अर्थात एकल आउटपुट समस्या या हर आउटपुट यानी बहु-आउटपुट समस्या के वर्गों की संख्या का प्रतिनिधित्व करता है। |
5 | n_features_ - इंट की संख्या देता है features जब फिट () विधि की जाती है। |
6 | n_outputs_ - इंट की संख्या देता है outputs जब फिट () विधि की जाती है। |
तरीकों
निम्नलिखित तालिका में उपयोग की जाने वाली विधियाँ शामिल हैं sklearn.tree.DecisionTreeClassifier मॉड्यूल -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | apply(स्व, एक्स [, check_input]) यह विधि पत्ती के सूचकांक को वापस कर देगी। |
2 | decision_path(स्व, एक्स [, check_input]) जैसा कि नाम से पता चलता है, यह विधि पेड़ में निर्णय पथ को वापस कर देगी |
3 | fit(स्व, एक्स, वाई [, नमूना_वेट,…]) फिट () विधि दिए गए प्रशिक्षण सेट (एक्स, वाई) से एक निर्णय ट्री क्लासिफायर का निर्माण करेगी। |
4 | get_depth(स्वयं) जैसा कि नाम से पता चलता है, यह विधि निर्णय पेड़ की गहराई को वापस कर देगी |
5 | get_n_leaves(स्वयं) जैसा कि नाम से पता चलता है, यह विधि निर्णय पेड़ की पत्तियों की संख्या को वापस कर देगी। |
6 | get_params(स्व [, गहरा]) हम अनुमानक के लिए पैरामीटर प्राप्त करने के लिए इस पद्धति का उपयोग कर सकते हैं। |
7 | predict(स्व, एक्स [, check_input]) यह एक्स के लिए वर्ग मूल्य की भविष्यवाणी करेगा। |
8 | predict_log_proba(स्व, एक्स) यह हमारे द्वारा प्रदान किए गए इनपुट नमूनों की कक्षा लॉग-संभाव्यता की भविष्यवाणी करेगा, एक्स। |
9 | predict_proba(स्व, एक्स [, check_input]) यह हमारे द्वारा प्रदान किए गए इनपुट नमूनों की वर्ग संभावनाओं की भविष्यवाणी करेगा, एक्स। |
10 | score(स्व, एक्स, वाई [, नमूना_वेट]) जैसा कि नाम से ही स्पष्ट है, स्कोर () विधि दिए गए परीक्षण डेटा और लेबल पर औसत सटीकता लौटाएगा। |
1 1 | set_params(स्वयं, \ * \ * परम) हम इस विधि के साथ अनुमानक के मापदंडों को निर्धारित कर सकते हैं। |
कार्यान्वयन उदाहरण
नीचे पायथन लिपि का उपयोग होगा sklearn.tree.DecisionTreeClassifier हमारे डेटा सेट से पुरुष या महिला की भविष्यवाणी के लिए एक क्लासिफायरियर बनाने के लिए मॉड्यूल जिसमें 25 नमूने और दो विशेषताएं हैं 'ऊंचाई' और 'बालों की लंबाई' -
from sklearn import tree
from sklearn.model_selection import train_test_split
X=[[165,19],[175,32],[136,35],[174,65],[141,28],[176,15]
,[131,32],[166,6],[128,32],[179,10],[136,34],[186,2],[12
6,25],[176,28],[112,38],[169,9],[171,36],[116,25],[196,2
5], [196,38], [126,40], [197,20], [150,25], [140,32],[136,35]]
Y=['Man','Woman','Woman','Man','Woman','Man','Woman','Ma
n','Woman','Man','Woman','Man','Woman','Woman','Woman','
Man','Woman','Woman','Man', 'Woman', 'Woman', 'Man', 'Man', 'Woman', 'Woman']
data_feature_names = ['height','length of hair']
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, random_state = 1)
DTclf = tree.DecisionTreeClassifier()
DTclf = clf.fit(X,Y)
prediction = DTclf.predict([[135,29]])
print(prediction)
उत्पादन
['Woman']
हम भी निम्नानुसार python predict_proba () विधि का उपयोग करके प्रत्येक वर्ग की संभावना का अनुमान लगा सकते हैं -
उदाहरण
prediction = DTclf.predict_proba([[135,29]])
print(prediction)
उत्पादन
[[0. 1.]]
निर्णय पेड़ों के साथ प्रतिगमन
इस मामले में निर्णय चर निरंतर हैं।
Sklearn Module - स्किटिट-लर्न लाइब्रेरी मॉड्यूल नाम प्रदान करता है DecisionTreeRegressor प्रतिगमन समस्याओं पर निर्णय पेड़ लगाने के लिए।
मापदंडों
द्वारा उपयोग किए गए पैरामीटर DecisionTreeRegressor लगभग उसी रूप में हैं जिसका उपयोग किया गया था DecisionTreeClassifierमापांक। अंतर 'मानदंड' पैरामीटर में है। के लियेDecisionTreeRegressor मॉड्यूल ‘criterion: स्ट्रिंग, वैकल्पिक डिफ़ॉल्ट = "mse" पैरामीटर में निम्न मान हैं -
mse- यह मतलब चुकता त्रुटि के लिए खड़ा है। यह सुविधा चयन कसौटी के रूप में विचरण में कमी के बराबर है। यह प्रत्येक टर्मिनल नोड के माध्य का उपयोग करके L2 हानि को कम करता है।
freidman_mse - यह माध्य चुकता त्रुटि का भी उपयोग करता है लेकिन फ्राइडमैन के सुधार स्कोर के साथ।
mae- यह मतलब पूर्ण त्रुटि के लिए खड़ा है। यह प्रत्येक टर्मिनल नोड के माध्यिका का उपयोग करके L1 हानि को कम करता है।
एक और अंतर यह है कि यह नहीं है ‘class_weight’ पैरामीटर।
गुण
की विशेषताएँ DecisionTreeRegressor जैसे हैं वैसे ही थे DecisionTreeClassifierमापांक। अंतर यह है कि यह नहीं है‘classes_’ तथा ‘n_classes_'गुण।
तरीकों
के तरीके DecisionTreeRegressor जैसे हैं वैसे ही थे DecisionTreeClassifierमापांक। अंतर यह है कि यह नहीं है‘predict_log_proba()’ तथा ‘predict_proba()’'गुण।
कार्यान्वयन उदाहरण
निर्णय वृक्ष प्रतिगमन मॉडल में फिट () विधि y के अस्थायी बिंदु मान लेगा। चलो का उपयोग करके एक सरल कार्यान्वयन उदाहरण देखेंSklearn.tree.DecisionTreeRegressor -
from sklearn import tree
X = [[1, 1], [5, 5]]
y = [0.1, 1.5]
DTreg = tree.DecisionTreeRegressor()
DTreg = clf.fit(X, y)
एक बार फिट होने के बाद, हम इस प्रतिगमन मॉडल का उपयोग भविष्यवाणी करने के लिए कर सकते हैं -
DTreg.predict([[4, 5]])
उत्पादन
array([1.5])
यह अध्याय आपको स्केलेर के यादृच्छिक वृक्षों को समझने में मदद करेगा।
यादृच्छिक निर्णय ट्री एल्गोरिदम
जैसा कि हम जानते हैं कि एक डीटी को आमतौर पर डेटा को पुनरावर्ती रूप से विभाजित करके प्रशिक्षित किया जाता है, लेकिन ओवरफिट होने का खतरा होने पर, उन्हें डेटा के विभिन्न उप-वर्गों में कई पेड़ों को प्रशिक्षित करके यादृच्छिक जंगलों में बदल दिया गया है। sklearn.ensemble मॉड्यूल यादृच्छिक निर्णय पेड़ों के आधार पर दो एल्गोरिदम का पालन कर रहा है -
रैंडम वन एल्गोरिथ्म
विचाराधीन प्रत्येक सुविधा के लिए, यह स्थानीय रूप से इष्टतम सुविधा / विभाजन संयोजन की गणना करता है। यादृच्छिक वन में, पहनावा में प्रत्येक निर्णय वृक्ष को प्रशिक्षण सेट से प्रतिस्थापन के साथ तैयार किए गए नमूने से बनाया गया है और फिर उनमें से प्रत्येक से भविष्यवाणी प्राप्त होती है और अंत में मतदान के माध्यम से सबसे अच्छा समाधान का चयन करता है। यह दोनों वर्गीकरण के साथ ही प्रतिगमन कार्यों के लिए उपयोग किया जा सकता है।
यादृच्छिक वन के साथ वर्गीकरण
एक यादृच्छिक वन क्लासिफायर बनाने के लिए, स्किट-लर्न मॉड्यूल प्रदान करता है sklearn.ensemble.RandomForestClassifier। यादृच्छिक वन वर्गीकरण का निर्माण करते समय, इस मॉड्यूल का उपयोग करने वाले मुख्य पैरामीटर हैं‘max_features’ तथा ‘n_estimators’।
यहाँ, ‘max_features’नोड को विभाजित करते समय विचार करने के लिए सुविधाओं के यादृच्छिक सबसेट का आकार है। यदि हम इस पैरामीटर्स के मान को किसी में नहीं चुनते हैं तो यह एक यादृच्छिक सबसेट की बजाय सभी विशेषताओं पर विचार करेगा। दूसरी ओर,n_estimatorsजंगल में पेड़ों की संख्या है। पेड़ों की संख्या जितनी अधिक होगी, बेहतर परिणाम होगा। लेकिन यह भी गणना करने के लिए अधिक समय लगेगा।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम उपयोग करके एक यादृच्छिक वन वर्गीकरण का निर्माण कर रहे हैं sklearn.ensemble.RandomForestClassifier और इसकी शुद्धता की जाँच भी करके cross_val_score मापांक।
from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_blobs
from sklearn.ensemble import RandomForestClassifier
X, y = make_blobs(n_samples = 10000, n_features = 10, centers = 100,random_state = 0) RFclf = RandomForestClassifier(n_estimators = 10,max_depth = None,min_samples_split = 2, random_state = 0)
scores = cross_val_score(RFclf, X, y, cv = 5)
scores.mean()
उत्पादन
0.9997
उदाहरण
रैंडम फ़ॉरेस्ट क्लासिफ़ायर बनाने के लिए हम स्केलेरियन डेटासेट का भी उपयोग कर सकते हैं। निम्नलिखित उदाहरण के रूप में हम आईरिस डेटासेट का उपयोग कर रहे हैं। हमें इसका सटीकता स्कोर और भ्रम मैट्रिक्स भी मिलेगा।
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
path = "https://archive.ics.uci.edu/ml/machine-learning-database
s/iris/iris.data"
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv(path, names = headernames)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
RFclf = RandomForestClassifier(n_estimators = 50)
RFclf.fit(X_train, y_train)
y_pred = RFclf.predict(X_test)
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)
उत्पादन
Confusion Matrix:
[[14 0 0]
[ 0 18 1]
[ 0 0 12]]
Classification Report:
precision recall f1-score support
Iris-setosa 1.00 1.00 1.00 14
Iris-versicolor 1.00 0.95 0.97 19
Iris-virginica 0.92 1.00 0.96 12
micro avg 0.98 0.98 0.98 45
macro avg 0.97 0.98 0.98 45
weighted avg 0.98 0.98 0.98 45
Accuracy: 0.9777777777777777
यादृच्छिक वन के साथ प्रतिगमन
एक यादृच्छिक वन प्रतिगमन बनाने के लिए, स्किटिट-लर्न मॉड्यूल प्रदान करता है sklearn.ensemble.RandomForestRegressor। यादृच्छिक वन रेजिस्टर का निर्माण करते समय, यह उसी मापदंडों का उपयोग करेगा जैसा कि उपयोग किया जाता हैsklearn.ensemble.RandomForestClassifier।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम एक यादृच्छिक वन रेजिस्टर का उपयोग करके निर्माण कर रहे हैं sklearn.ensemble.RandomForestregressor और भविष्यवाणी () विधि का उपयोग करके नए मूल्यों के लिए भी भविष्यवाणी कर रहा है।
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
RFregr = RandomForestRegressor(max_depth = 10,random_state = 0,n_estimators = 100)
RFregr.fit(X, y)
उत्पादन
RandomForestRegressor(
bootstrap = True, criterion = 'mse', max_depth = 10,
max_features = 'auto', max_leaf_nodes = None,
min_impurity_decrease = 0.0, min_impurity_split = None,
min_samples_leaf = 1, min_samples_split = 2,
min_weight_fraction_leaf = 0.0, n_estimators = 100, n_jobs = None,
oob_score = False, random_state = 0, verbose = 0, warm_start = False
)
एक बार फिट होने के बाद हम प्रतिगमन मॉडल से निम्नानुसार भविष्यवाणी कर सकते हैं -
print(RFregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))
उत्पादन
[98.47729198]
अतिरिक्त पेड़ के तरीके
विचाराधीन प्रत्येक सुविधा के लिए, यह विभाजन के लिए एक यादृच्छिक मूल्य का चयन करता है। अतिरिक्त पेड़ विधियों का उपयोग करने का लाभ यह है कि यह मॉडल के विचरण को थोड़ा और कम करने की अनुमति देता है। इन तरीकों का उपयोग करने का नुकसान यह है कि यह पूर्वाग्रह को थोड़ा बढ़ाता है।
एक्स्ट्रा-ट्री विधि के साथ वर्गीकरण
एक्स्ट्रा-ट्री पद्धति का उपयोग करके एक क्लासिफायर बनाने के लिए, स्किटिट-लर्न मॉड्यूल प्रदान करता है sklearn.ensemble.ExtraTreesClassifier। यह उसी मापदंडों का उपयोग करता है जैसा कि उपयोग किया जाता हैsklearn.ensemble.RandomForestClassifier। एकमात्र अंतर उस तरीके से है, जो ऊपर चर्चा की गई है, वे पेड़ों का निर्माण करते हैं।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम उपयोग करके एक यादृच्छिक वन वर्गीकरण का निर्माण कर रहे हैं sklearn.ensemble.ExtraTreeClassifier और इसका उपयोग करके इसकी सटीकता की जांच करना cross_val_score मापांक।
from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_blobs
from sklearn.ensemble import ExtraTreesClassifier
X, y = make_blobs(n_samples = 10000, n_features = 10, centers=100,random_state = 0)
ETclf = ExtraTreesClassifier(n_estimators = 10,max_depth = None,min_samples_split = 10, random_state = 0)
scores = cross_val_score(ETclf, X, y, cv = 5)
scores.mean()
उत्पादन
1.0
उदाहरण
हम एक्स्ट्रा-ट्री विधि का उपयोग करके क्लासिफायर बनाने के लिए स्केलेरियन डेटासेट का भी उपयोग कर सकते हैं। निम्नलिखित उदाहरण के रूप में हम पीमा-भारतीय डेटासेट का उपयोग कर रहे हैं।
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 7
kfold = KFold(n_splits=10, random_state=seed)
num_trees = 150
max_features = 5
ETclf = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(ETclf, X, Y, cv=kfold)
print(results.mean())
उत्पादन
0.7551435406698566
एक्स्ट्रा-ट्री विधि के साथ प्रतिगमन
बनाने के लिए Extra-Tree प्रतिगमन, स्किट-लर्न मॉड्यूल प्रदान करता है sklearn.ensemble.ExtraTreesRegressor। यादृच्छिक वन रेजिस्टर का निर्माण करते समय, यह उसी मापदंडों का उपयोग करेगा जैसा कि उपयोग किया जाता हैsklearn.ensemble.ExtraTreesClassifier।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम आवेदन कर रहे हैं sklearn.ensemble.ExtraTreesregressorऔर उसी डेटा पर जैसा कि हमने यादृच्छिक वन रेजिस्टर का निर्माण करते समय उपयोग किया था। चलिए आउटपुट में अंतर देखते हैं
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ETregr = ExtraTreesRegressor(max_depth = 10,random_state = 0,n_estimators = 100)
ETregr.fit(X, y)
उत्पादन
ExtraTreesRegressor(bootstrap = False, criterion = 'mse', max_depth = 10,
max_features = 'auto', max_leaf_nodes = None,
min_impurity_decrease = 0.0, min_impurity_split = None,
min_samples_leaf = 1, min_samples_split = 2,
min_weight_fraction_leaf = 0.0, n_estimators = 100, n_jobs = None,
oob_score = False, random_state = 0, verbose = 0, warm_start = False)
उदाहरण
एक बार फिट होने के बाद हम प्रतिगमन मॉडल से निम्नानुसार भविष्यवाणी कर सकते हैं -
print(ETregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))
उत्पादन
[85.50955817]
इस अध्याय में, हम स्केलेर में बूस्टिंग विधियों के बारे में जानेंगे, जो एक पहनावा मॉडल बनाने में सक्षम बनाता है।
बूस्टिंग तरीके एक वृद्धि तरीके से पहनावा मॉडल का निर्माण करते हैं। मुख्य सिद्धांत प्रत्येक बेस मॉडल अनुमानक को क्रमिक रूप से प्रशिक्षित करके मॉडल का निर्माण करना है। शक्तिशाली पहनावा बनाने के लिए, ये विधियाँ मूल रूप से कई सप्ताह के शिक्षार्थियों को जोड़ती हैं जिन्हें प्रशिक्षण डेटा के कई पुनरावृत्तियों पर क्रमिक रूप से प्रशिक्षित किया जाता है। Sklearn.ensemble मॉड्यूल दो बूस्टिंग विधियों का पालन कर रहा है।
AdaBoost
यह सबसे सफल बूस्टिंग एन्सेम्बल विधि में से एक है जिसकी मुख्य कुंजी वे डेटासेट में इंस्टेंस को वेट देने के तरीके में है। यही कारण है कि एल्गोरिथ्म को बाद के मॉडल का निर्माण करते समय उदाहरणों पर कम ध्यान देने की आवश्यकता है।
AdaBoost के साथ वर्गीकरण
AdaBoost क्लासिफायर बनाने के लिए, Scikit-learn मॉड्यूल प्रदान करता है sklearn.ensemble.AdaBoostClassifier। इस क्लासिफायर का निर्माण करते समय, मुख्य मॉड्यूल इस मॉड्यूल का उपयोग करता हैbase_estimator। यहाँ, base_estimator का मान हैbase estimatorजिससे बढ़ा हुआ पहनावा बनाया जाता है। यदि हम इस पैरामीटर के मूल्य को किसी के लिए नहीं चुनते हैं, तो आधार अनुमानक होगाDecisionTreeClassifier(max_depth=1)।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम उपयोग करके AdaBoost क्लासिफायरियर बना रहे हैं sklearn.ensemble.AdaBoostClassifier और इसके स्कोर की भविष्यवाणी करना और जांचना भी।
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10,n_informative = 2, n_redundant = 0,random_state = 0, shuffle = False)
ADBclf = AdaBoostClassifier(n_estimators = 100, random_state = 0)
ADBclf.fit(X, y)
उत्पादन
AdaBoostClassifier(algorithm = 'SAMME.R', base_estimator = None,
learning_rate = 1.0, n_estimators = 100, random_state = 0)
उदाहरण
एक बार फिट होने के बाद, हम नए मूल्यों के लिए भविष्यवाणी कर सकते हैं -
print(ADBclf.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))
उत्पादन
[1]
उदाहरण
अब हम स्कोर की जाँच इस प्रकार कर सकते हैं -
ADBclf.score(X, y)
उत्पादन
0.995
उदाहरण
हम एक्स्ट्रा-ट्री विधि का उपयोग करके क्लासिफायर बनाने के लिए स्केलेरियन डेटासेट का भी उपयोग कर सकते हैं। उदाहरण के लिए, नीचे दिए गए उदाहरण में, हम Pima-Indian डेटासेट का उपयोग कर रहे हैं।
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = AdaBoostClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())
उत्पादन
0.7851435406698566
AdaBoost के साथ प्रतिगमन
एडा बूस्ट विधि के साथ एक रजिस्ट्रार बनाने के लिए, स्किटिट-लर्न लाइब्रेरी प्रदान करता है sklearn.ensemble.AdaBoostRegressor। रजिस्ट्रार का निर्माण करते समय, यह उसी मापदंडों का उपयोग करेगा जैसा कि उपयोग किया जाता हैsklearn.ensemble.AdaBoostClassifier।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम उपयोग करके AdaBoost regressor बना रहे हैं sklearn.ensemble.AdaBoostregressor और भविष्यवाणी () विधि का उपयोग करके नए मूल्यों के लिए भी भविष्यवाणी कर रहा है।
from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ADBregr = RandomForestRegressor(random_state = 0,n_estimators = 100)
ADBregr.fit(X, y)
उत्पादन
AdaBoostRegressor(base_estimator = None, learning_rate = 1.0, loss = 'linear',
n_estimators = 100, random_state = 0)
उदाहरण
एक बार फिट होने के बाद हम प्रतिगमन मॉडल से निम्नानुसार भविष्यवाणी कर सकते हैं -
print(ADBregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))
उत्पादन
[85.50955817]
ग्रेडिएंट ट्री बूस्टिंग
इसे भी कहा जाता है Gradient Boosted Regression Trees(GRBT)। यह मूल रूप से विभेदक नुकसान कार्यों को बढ़ाने के लिए सामान्यीकरण है। यह सप्ताह भविष्यवाणी मॉडल के कलाकारों की टुकड़ी के रूप में एक भविष्यवाणी मॉडल का उत्पादन करता है। इसका उपयोग प्रतिगमन और वर्गीकरण समस्याओं के लिए किया जा सकता है। उनका मुख्य लाभ इस तथ्य में निहित है कि वे स्वाभाविक रूप से मिश्रित प्रकार के डेटा को संभालते हैं।
ग्रेडिएंट ट्री बूस्ट के साथ वर्गीकरण
ग्रेडिएंट ट्री बूस्ट क्लासिफायरियर बनाने के लिए, स्किकिट-लर्न मॉड्यूल प्रदान करता है sklearn.ensemble.GradientBoostingClassifier। इस क्लासिफायर का निर्माण करते समय, इस मॉड्यूल का मुख्य पैरामीटर 'नुकसान' है। यहां, 'हानि' नुकसान फ़ंक्शन को अनुकूलित करने का मूल्य है। यदि हम नुकसान = विचलन चुनते हैं, तो यह संभाव्य आउटपुट के साथ वर्गीकरण के लिए विचलन को संदर्भित करता है।
दूसरी ओर, यदि हम घातांक के इस मान को चुनते हैं तो यह AdaBoost एल्गोरिथ्म को पुनः प्राप्त करता है। पैरामीटरn_estimatorsसप्ताह सीखने वालों की संख्या को नियंत्रित करेगा। नामक हाइपर-पैरामीटरlearning_rate (०.० की रेंज में (०.०, १.०]) सिकुड़न के माध्यम से ओवरफिटिंग को नियंत्रित करेगा।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम उपयोग करके ग्रेडिएंट बूस्टिंग क्लासिफायर का निर्माण कर रहे हैं sklearn.ensemble.GradientBoostingClassifier। हम इस क्लासिफायर को 50 सप्ताह के शिक्षार्थियों के साथ फिट कर रहे हैं।
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state = 0)
X_train, X_test = X[:5000], X[5000:]
y_train, y_test = y[:5000], y[5000:]
GDBclf = GradientBoostingClassifier(n_estimators = 50, learning_rate = 1.0,max_depth = 1, random_state = 0).fit(X_train, y_train)
GDBclf.score(X_test, y_test)
उत्पादन
0.8724285714285714
उदाहरण
हम ग्रेडिएंट बूस्टिंग क्लासिफायर का उपयोग करके क्लासिफायर बनाने के लिए स्केलेरियन डेटासेट का भी उपयोग कर सकते हैं। निम्नलिखित उदाहरण के रूप में हम पीमा-भारतीय डेटासेट का उपयोग कर रहे हैं।
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = GradientBoostingClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())
उत्पादन
0.7946582356674234
ग्रेडिएंट ट्री बूस्ट के साथ प्रतिगमन
ग्रेडिएंट ट्री बूस्ट विधि के साथ एक रजिस्ट्रार बनाने के लिए, स्किटिट-लर्न लाइब्रेरी प्रदान करता है sklearn.ensemble.GradientBoostingRegressor। यह पैरामीटर नाम हानि के माध्यम से प्रतिगमन के लिए नुकसान फ़ंक्शन को निर्दिष्ट कर सकता है। नुकसान के लिए डिफ़ॉल्ट मान 'एलएस' है।
कार्यान्वयन का उदाहरण
निम्नलिखित उदाहरण में, हम उपयोग करके ग्रेडिएंट बूस्टिंग रेजिस्टर का निर्माण कर रहे हैं sklearn.ensemble.GradientBoostingregressor और mean_squared_error () विधि का उपयोग करके माध्य चुकता त्रुटि का पता लगाना।
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples = 2000, random_state = 0, noise = 1.0)
X_train, X_test = X[:1000], X[1000:]
y_train, y_test = y[:1000], y[1000:]
GDBreg = GradientBoostingRegressor(n_estimators = 80, learning_rate=0.1,
max_depth = 1, random_state = 0, loss = 'ls').fit(X_train, y_train)
एक बार फिट होने के बाद हम निम्नानुसार चुकता त्रुटि पा सकते हैं -
mean_squared_error(y_test, GDBreg.predict(X_test))
उत्पादन
5.391246106657164
यहां, हम स्केलेर में क्लस्टरिंग विधियों के बारे में अध्ययन करेंगे जो डेटा नमूनों में किसी भी समानता की पहचान करने में मदद करेंगे।
क्लस्टरिंग विधियाँ, सबसे उपयोगी अनुपयोगी एमएल विधियों में से एक है, जिसका उपयोग डेटा नमूनों में समानता और संबंध पैटर्न खोजने के लिए किया जाता है। उसके बाद, वे उन नमूनों को समूहों में बाँटते हैं जो सुविधाओं के आधार पर समानता रखते हैं। क्लस्टरिंग मौजूदा गैर-सूचीबद्ध डेटा के बीच आंतरिक समूह को निर्धारित करता है, इसीलिए यह महत्वपूर्ण है।
Scikit-learn पुस्तकालय में है sklearn.clusterगैर-सूचीबद्ध डेटा की क्लस्टरिंग करने के लिए। इस मॉड्यूल के तहत scikit-leran में निम्नलिखित क्लस्टरिंग विधियाँ हैं -
KMeans
यह एल्गोरिथम सेंट्रोइड की गणना करता है और तब तक पुनरावृत्त करता है जब तक कि यह इष्टतम सेंट्रोइड नहीं पाता। यह निर्दिष्ट करने के लिए क्लस्टर्स की संख्या की आवश्यकता है, इसलिए यह मानता है कि वे पहले से ही ज्ञात हैं। इस एल्गोरिथ्म का मुख्य तर्क समान भिन्नताओं के समूहों की संख्या में नमूनों को अलग करने वाले डेटा को क्लस्टर करना है, जिसे जड़ता के रूप में जाना जाता है। एल्गोरिथ्म द्वारा पहचाने जाने वाले समूहों की संख्या को 'के।'
स्किकिट-सीखो sklearn.cluster.KMeansK- मीन्स क्लस्टरिंग करने के लिए मॉड्यूल। क्लस्टर केंद्रों और जड़ता के मूल्य की गणना करते समय, नामित पैरामीटरsample_weight की अनुमति देता है sklearn.cluster.KMeans कुछ नमूनों में अधिक भार असाइन करने के लिए मॉड्यूल।
आत्मीयता का प्रसार
यह एल्गोरिथ्म अभिसरण तक विभिन्न जोड़े नमूनों के बीच 'संदेश पासिंग' की अवधारणा पर आधारित है। एल्गोरिथ्म चलाने से पहले इसे निर्दिष्ट करने के लिए क्लस्टर की संख्या की आवश्यकता नहीं होती है। एल्गोरिथ्म में ऑर्डर (2) की समय जटिलता है, जो इसका सबसे बड़ा नुकसान है।
स्किकिट-सीखो sklearn.cluster.AffinityPropagation मॉड्यूल आत्मीयता प्रसार क्लस्टरिंग प्रदर्शन करने के लिए।
मीन शिफ्ट
यह एल्गोरिथ्म मुख्य रूप से पता चलता है blobsनमूनों की एक चिकनी घनत्व में। यह datapoints के उच्चतम घनत्व की ओर बिंदुओं को स्थानांतरित करके समूहों को पुनरावृत्त करने के लिए डेटा पॉइंट्स प्रदान करता है। नाम के एक पैरामीटर पर निर्भर होने के बजायbandwidth क्षेत्र के आकार के माध्यम से खोज करने के लिए, यह स्वचालित रूप से समूहों की संख्या निर्धारित करता है।
स्किकिट-सीखो sklearn.cluster.MeanShift मीन शिफ्ट क्लस्टरिंग करने के लिए मॉड्यूल।
वर्णक्रमीय क्लस्टरिंग
क्लस्टरिंग से पहले, यह एल्गोरिथ्म मूल रूप से डेटा के समानता मैट्रिक्स के आइजेन्यूल्स अर्थात स्पेक्ट्रम का उपयोग करता है, जो कम आयामों में आयामीता में कमी करता है। बड़ी संख्या में क्लस्टर होने पर इस एल्गोरिथ्म का उपयोग उचित नहीं है।
स्किकिट-सीखो sklearn.cluster.SpectralClustering मॉड्यूल स्पेक्ट्रल क्लस्टरिंग प्रदर्शन करने के लिए।
पदानुक्रमित क्लस्टरिंग
यह एल्गोरिथ्म क्लस्टर को क्रमिक रूप से विलय या विभाजित करके नेस्टेड क्लस्टर बनाता है। इस क्लस्टर पदानुक्रम को डेन्ड्रोग्राम यानी वृक्ष के रूप में दर्शाया गया है। यह दो श्रेणियों में आता है -
Agglomerative hierarchical algorithms- इस तरह के पदानुक्रमित एल्गोरिदम में, प्रत्येक डेटा बिंदु को एक एकल क्लस्टर की तरह माना जाता है। यह तब क्रमिक रूप से समूहों के जोड़े को बढ़ाता है। यह नीचे-अप दृष्टिकोण का उपयोग करता है।
Divisive hierarchical algorithms- इस पदानुक्रमित एल्गोरिथ्म में, सभी डेटा बिंदुओं को एक बड़े क्लस्टर के रूप में माना जाता है। इसमें क्लस्टरिंग की प्रक्रिया में विभाजन शामिल है, टॉप-डाउन दृष्टिकोण का उपयोग करके, एक बड़ा क्लस्टर विभिन्न छोटे समूहों में।
स्किकिट-सीखो sklearn.cluster.AgglomerativeClustering मॉड्यूल Agglomerative पदानुक्रमित क्लस्टरिंग करने के लिए।
DBSCAN
इसका अर्थ है “Density-based spatial clustering of applications with noise”। यह एल्गोरिथ्म "क्लस्टर" और "शोर" की सहज धारणा पर आधारित है, जो क्लस्टर डेटा बिंदुओं के कम घनत्व वाले क्षेत्रों द्वारा अलग किए गए डेटा स्पेस में कम घनत्व के घने क्षेत्र हैं।
स्किकिट-सीखो sklearn.cluster.DBSCANमॉड्यूल DBSCAN क्लस्टरिंग करने के लिए। घने को परिभाषित करने के लिए इस एल्गोरिथ्म द्वारा उपयोग किए जाने वाले दो महत्वपूर्ण पैरामीटर हैं- min_samples और eps।
पैरामीटर का उच्च मूल्य min_samples या पैरामीटर ईपीएस का कम मूल्य डेटा बिंदुओं के उच्च घनत्व के बारे में एक संकेत देगा जो क्लस्टर बनाने के लिए आवश्यक है।
प्रकाशिकी
इसका अर्थ है “Ordering points to identify the clustering structure”। यह एल्गोरिथ्म स्थानिक डेटा में घनत्व-आधारित क्लस्टर भी पाता है। यह बेसिक वर्किंग लॉजिक DBSCAN जैसा है।
यह डीबीएससीएन एल्गोरिथ्म की एक बड़ी कमजोरी को संबोधित करता है- अलग-अलग घनत्व के आंकड़ों में सार्थक समूहों का पता लगाने की समस्या-डेटाबेस के बिंदुओं को इस तरह से क्रमबद्ध करना कि क्रमिक रूप से निकटतम निकटतम बिंदु पड़ोसी बन जाते हैं।
स्किकिट-सीखो sklearn.cluster.OPTICS प्रकाशिकी क्लस्टरिंग करने के लिए मॉड्यूल।
बर्च
यह पदानुक्रम का उपयोग करते हुए संतुलित पुनरावृत्ति और क्लस्टरिंग के लिए खड़ा है। इसका उपयोग बड़े डेटा सेटों पर श्रेणीबद्ध क्लस्टरिंग करने के लिए किया जाता है। यह नाम के एक पेड़ का निर्माण करता हैCFT अर्थात Characteristics Feature Tree, दिए गए डेटा के लिए।
सीएफटी का लाभ यह है कि सीएफ (लक्षण विशेषता) नोड्स नामक डेटा नोड्स क्लस्टरिंग के लिए आवश्यक जानकारी रखता है जो मेमोरी में संपूर्ण इनपुट डेटा को रखने की आवश्यकता को रोकता है।
स्किकिट-सीखो sklearn.cluster.Birch BIRCH क्लस्टरिंग करने के लिए मॉड्यूल।
क्लस्टरिंग एल्गोरिदम की तुलना करना
निम्नलिखित तालिका स्कोर-लर्निंग में क्लस्टरिंग एल्गोरिदम की तुलना (मापदंडों, मापनीयता और मीट्रिक के आधार पर) देगी।
अनु क्रमांक | एल्गोरिथम नाम | मापदंडों | अनुमापकता | मीट्रिक का उपयोग किया |
---|---|---|---|---|
1 | कश्मीर साधन | समूहों की संख्या | बहुत बड़े n_samples | बिंदुओं के बीच की दूरी। |
2 | आत्मीयता का प्रसार | भिगोना | यह n_samples के साथ स्केलेबल नहीं है | ग्राफ दूरी |
3 | मीन-शिफ्ट | बैंडविड्थ | यह n_samples के साथ स्केलेबल नहीं है। | बिंदुओं के बीच की दूरी। |
4 | वर्णक्रमीय क्लस्टरिंग | नंबर क्लस्टर्स | N_samples के साथ स्केलेबिलिटी का मध्यम स्तर। N_clusters के साथ स्केलेबिलिटी का छोटा स्तर। | ग्राफ दूरी |
5 | पदानुक्रमित क्लस्टरिंग | दूरी दहलीज या No.of समूहों | बड़े n_samples बड़े n_clusters | बिंदुओं के बीच की दूरी। |
6 | DBSCAN | पड़ोस का आकार | बहुत बड़े n_samples और मध्यम n_clusters। | निकटतम बिंदु दूरी |
7 | प्रकाशिकी | न्यूनतम क्लस्टर सदस्यता | बहुत बड़े n_samples और बड़े n_clusters। | बिंदुओं के बीच की दूरी। |
8 | बर्च | थ्रेसहोल्ड, शाखा कारक | बड़े n_samples बड़े n_clusters | यूक्लिडियन बिंदुओं के बीच की दूरी। |
K-Means Clikering on Scikit- डिजिट डेटासेट सीखें
इस उदाहरण में, हम अंकों के डेटासेट पर K- साधन क्लस्टरिंग लागू करेंगे। यह एल्गोरिथ्म मूल लेबल जानकारी का उपयोग किए बिना समान अंकों की पहचान करेगा। कार्यान्वयन बृहस्पति नोटबुक पर किया जाता है।
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
उत्पादन
1797, 64)
यह आउटपुट दिखाता है कि डिजिट डेटासेट में 64 विशेषताओं के साथ 1797 नमूने हैं।
उदाहरण
अब, K- मीन्स क्लस्टरिंग निम्नानुसार करें -
kmeans = KMeans(n_clusters = 10, random_state = 0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape
उत्पादन
(10, 64)
यह आउटपुट बताता है कि K- साधन क्लस्टरिंग ने 64 सुविधाओं के साथ 10 क्लस्टर बनाए।
उदाहरण
fig, ax = plt.subplots(2, 5, figsize = (8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
axi.set(xticks = [], yticks = [])
axi.imshow(center, interpolation = 'nearest', cmap = plt.cm.binary)
उत्पादन
नीचे दिए गए आउटपुट में के-मीन्स क्लस्टरिंग द्वारा सीखे गए समूहों को दिखाने वाले चित्र हैं।
इसके बाद, नीचे दी गई पाइथन स्क्रिप्ट सीखे हुए क्लस्टर लेबल (K- मीन्स द्वारा) में पाए गए सच्चे लेबल के साथ मेल खाएगी -
from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
mask = (clusters == i)
labels[mask] = mode(digits.target[mask])[0]
हम नीचे उल्लिखित कमांड की सहायता से सटीकता की जांच भी कर सकते हैं।
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)
उत्पादन
0.7935447968836951
पूर्ण कार्यान्वयन उदाहरण
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
kmeans = KMeans(n_clusters = 10, random_state = 0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape
fig, ax = plt.subplots(2, 5, figsize = (8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
axi.set(xticks=[], yticks = [])
axi.imshow(center, interpolation = 'nearest', cmap = plt.cm.binary)
from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
mask = (clusters == i)
labels[mask] = mode(digits.target[mask])[0]
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)
विभिन्न कार्य हैं जिनकी सहायता से हम क्लस्टरिंग एल्गोरिदम के प्रदर्शन का मूल्यांकन कर सकते हैं।
निम्नलिखित कुछ महत्वपूर्ण और अधिकांशतः उपयोग किए गए कार्य हैं जो स्किटिट द्वारा दिए गए हैं- क्लस्टरिंग प्रदर्शन का मूल्यांकन करने के लिए सीखें -
समायोजित रैंड इंडेक्स
रैंड इंडेक्स एक फ़ंक्शन है जो दो क्लस्टरिंग के बीच एक समानता माप की गणना करता है। इस संगणना के लिए रैंड इंडेक्स सभी युग्मों के नमूने और गिनती के जोड़े पर विचार करता है जो कि पूर्वानुमानित और सही क्लस्टरिंग में समान या अलग-अलग समूहों में दिए गए हैं। बाद में, कच्चा रैंड इंडेक्स स्कोर निम्न सूत्र का उपयोग करके समायोजित रैंड इंडेक्स स्कोर में 'संयोग के लिए समायोजित' है -
$$Adjusted\:RI=\left(RI-Expected_{-}RI\right)/\left(max\left(RI\right)-Expected_{-}RI\right)$$इसके दो पैरामीटर हैं labels_true, जो जमीनी सच्चाई वर्ग के लेबल है, और labels_pred, जो मूल्यांकन करने के लिए क्लस्टर लेबल हैं।
उदाहरण
from sklearn.metrics.cluster import adjusted_rand_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
adjusted_rand_score(labels_true, labels_pred)
उत्पादन
0.4444444444444445
परफेक्ट लेबलिंग को 1 और खराब लेबलिंग या स्वतंत्र लेबलिंग को 0 या नकारात्मक अंक दिया जाएगा।
पारस्परिक सूचना आधारित स्कोर
आपसी जानकारी एक कार्य है जो दो असाइनमेंट के समझौते की गणना करता है। यह क्रमपरिवर्तन की अनदेखी करता है। निम्नलिखित संस्करण उपलब्ध हैं -
सामान्यीकृत पारस्परिक जानकारी (NMI)
स्किट सीखो sklearn.metrics.normalized_mutual_info_score मापांक।
उदाहरण
from sklearn.metrics.cluster import normalized_mutual_info_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
normalized_mutual_info_score (labels_true, labels_pred)
उत्पादन
0.7611702597222881
समायोजित म्युचुअल जानकारी (AMI)
स्किट सीखो sklearn.metrics.adjusted_mutual_info_score मापांक।
उदाहरण
from sklearn.metrics.cluster import adjusted_mutual_info_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
adjusted_mutual_info_score (labels_true, labels_pred)
उत्पादन
0.4444444444444448
फाल्के-मल्लो स्कोर
फॉक्सकेस-मलोव्स फ़ंक्शन सेट के दो क्लस्टर की समानता को मापता है। इसे युग्मक सटीक और याद के ज्यामितीय माध्य के रूप में परिभाषित किया जा सकता है।
गणित के अनुसार,
$$FMS=\frac{TP}{\sqrt{\left(TP+FP\right)\left(TP+FN\right)}}$$यहाँ, TP = True Positive - एक ही क्लस्टर से संबंधित बिंदुओं की जोड़ी की संख्या सही है और साथ ही साथ दोनों के पूर्वानुमानित लेबल भी।
FP = False Positive - सही लेबल में समान समूहों से संबंधित अंकों की जोड़ी की संख्या, लेकिन अनुमानित लेबल में नहीं।
FN = False Negative - पूर्वानुमानित लेबल में समान समूहों से संबंधित बिंदुओं की जोड़ी की संख्या लेकिन सही लेबल में नहीं।
स्किट सीखें sklearn.metrics.fowlkes_mallows_score मॉड्यूल -
उदाहरण
from sklearn.metrics.cluster import fowlkes_mallows_score
labels_true = [0, 0, 1, 1, 1, 1]
labels_pred = [0, 0, 2, 2, 3, 3]
fowlkes_mallows__score (labels_true, labels_pred)
उत्पादन
0.6546536707079771
सिल्हूट गुणांक
सिल्हूट फ़ंक्शन औसत इंट्रा-क्लस्टर दूरी और प्रत्येक नमूने के लिए निकटतम निकटतम-क्लस्टर दूरी का उपयोग करके सभी नमूनों के औसत सिल्हूट गुणांक की गणना करेगा।
गणित के अनुसार,
$$S=\left(b-a\right)/max\left(a,b\right)$$यहाँ, एक इंट्रा-क्लस्टर दूरी है।
और, बी का मतलब निकटतम-क्लस्टर दूरी है।
स्किट सीखो sklearn.metrics.silhouette_score मॉड्यूल -
उदाहरण
from sklearn import metrics.silhouette_score
from sklearn.metrics import pairwise_distances
from sklearn import datasets
import numpy as np
from sklearn.cluster import KMeans
dataset = datasets.load_iris()
X = dataset.data
y = dataset.target
kmeans_model = KMeans(n_clusters = 3, random_state = 1).fit(X)
labels = kmeans_model.labels_
silhouette_score(X, labels, metric = 'euclidean')
उत्पादन
0.5528190123564091
आकस्मिकता मैट्रिक्स
यह मैट्रिक्स प्रत्येक विश्वसनीय जोड़ी के लिए अंतरंग कार्डिनैलिटी (सही, अनुमानित) की रिपोर्ट करेगा। वर्गीकरण समस्याओं के लिए भ्रम मैट्रिक्स एक वर्ग आकस्मिक मैट्रिक्स है।
स्किट सीखो sklearn.metrics.contingency_matrix मापांक।
उदाहरण
from sklearn.metrics.cluster import contingency_matrix
x = ["a", "a", "a", "b", "b", "b"]
y = [1, 1, 2, 0, 1, 2]
contingency_matrix(x, y)
उत्पादन
array([
[0, 2, 1],
[1, 1, 1]
])
उपरोक्त आउटपुट की पहली पंक्ति से पता चलता है कि तीन नमूनों में से जिनका असली क्लस्टर "a" है, उनमें से कोई भी 0 में नहीं है, दो में से 1 में 1 है और 2 में है। दूसरी तरफ, दूसरी पंक्ति से पता चलता है कि तीन नमूनों में से जिसका असली क्लस्टर "b" है, 1 में 0 है, 1 में 1 है और 1 में 2 है।
आयामीता में कमी, एक अनुपयोगी मशीन सीखने की पद्धति का उपयोग मुख्य विशेषताओं के सेट का चयन करने वाले प्रत्येक डेटा नमूने के लिए सुविधा चर की संख्या को कम करने के लिए किया जाता है। प्रिंसिपल कंपोनेंट एनालिसिस (PCA) आयामीता में कमी के लिए लोकप्रिय एल्गोरिदम में से एक है।
सटीक पीसीए
Principal Component Analysis (PCA) का उपयोग रैखिक रैखिकता में कमी के लिए किया जाता है Singular Value Decomposition(SVD) डेटा को कम आयामी स्थान पर प्रोजेक्ट करने के लिए। पीसीए का उपयोग करते समय अपघटन, इनपुट डेटा केंद्रित है लेकिन एसवीडी को लागू करने से पहले प्रत्येक सुविधा के लिए स्केल नहीं किया गया है।
स्किटिट-लर्न एमएल लाइब्रेरी प्रदान करता है sklearn.decomposition.PCAमॉड्यूल जिसे एक ट्रांसफॉर्मर ऑब्जेक्ट के रूप में लागू किया जाता है जो अपने फिट () विधि में एन घटकों को सीखता है। इसे इन घटकों पर प्रोजेक्ट करने के लिए नए डेटा पर भी उपयोग किया जा सकता है।
उदाहरण
नीचे दिए गए उदाहरण पाइला इंडियन्स डायबिटीज डेटासेट से सर्वश्रेष्ठ 5 प्रिंसिपल घटकों को खोजने के लिए sklearn.decomposition.PCA मॉड्यूल का उपयोग करेंगे।
from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\Users\Leekha\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', ‘class']
dataframe = read_csv(path, names = names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
pca = PCA(n_components = 5)
fit = pca.fit(X)
print(("Explained Variance: %s") % (fit.explained_variance_ratio_))
print(fit.components_)
उत्पादन
Explained Variance: [0.88854663 0.06159078 0.02579012 0.01308614 0.00744094]
[
[-2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-029.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03]
[-2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01]
[-2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]
[-4.90459604e-02 1.19830016e-01 -2.62742788e-01 8.84369380e-01-6.55503615e-02 1.92801728e-01 2.69908637e-03 -3.01024330e-01]
[ 1.51612874e-01 -8.79407680e-02 -2.32165009e-01 2.59973487e-01-1.72312241e-04 2.14744823e-02 1.64080684e-03 9.20504903e-01]
]
वृद्धिशील पीसीए
Incremental Principal Component Analysis (IPCA) का उपयोग प्रिंसिपल कंपोनेंट एनालिसिस (PCA) की सबसे बड़ी सीमा को संबोधित करने के लिए किया जाता है और यह कि PCA केवल बैच प्रोसेसिंग का समर्थन करता है, इसका मतलब है कि संसाधित किए जाने वाले सभी इनपुट डेटा को मेमोरी में फिट होना चाहिए।
स्किटिट-लर्न एमएल लाइब्रेरी प्रदान करता है sklearn.decomposition.IPCA मॉड्यूल जो आउट-ऑफ-कोर पीसीए को लागू करना संभव बनाता है या तो इसके उपयोग से partial_fit डेटा के क्रमिक रूप से प्राप्त विखंडू पर या के उपयोग को सक्षम करके विधि np.memmap, एक मेमोरी मैप्ड फ़ाइल, पूरी फाइल को मेमोरी में लोड किए बिना।
पीसीए के रूप में भी, IPCA का उपयोग करते समय अपघटन, इनपुट डेटा केंद्रित है लेकिन एसवीडी लागू करने से पहले प्रत्येक सुविधा के लिए स्केल नहीं किया गया है।
उदाहरण
नीचे दिए गए उदाहरण का उपयोग करेंगे sklearn.decomposition.IPCA Sklearn अंक डेटासेट पर मॉड्यूल।
from sklearn.datasets import load_digits
from sklearn.decomposition import IncrementalPCA
X, _ = load_digits(return_X_y = True)
transformer = IncrementalPCA(n_components = 10, batch_size = 100)
transformer.partial_fit(X[:100, :])
X_transformed = transformer.fit_transform(X)
X_transformed.shape
उत्पादन
(1797, 10)
यहां, हम डेटा के छोटे बैचों पर आंशिक रूप से फिट हो सकते हैं (जैसा कि हमने प्रति बैच 100 पर किया था) या आप इसे दे सकते हैं fit() फ़ंक्शन डेटा को बैचों में विभाजित करने के लिए।
कर्नेल पीसीए
कर्नेल प्रिंसिपल कंपोनेंट एनालिसिस, पीसीए का एक विस्तार, कर्नेल का उपयोग करके गैर-रैखिक आयामीता में कमी को प्राप्त करता है। यह दोनों का समर्थन करता हैtransform and inverse_transform।
स्किटिट-लर्न एमएल लाइब्रेरी प्रदान करता है sklearn.decomposition.KernelPCA मापांक।
उदाहरण
नीचे दिए गए उदाहरण का उपयोग करेंगे sklearn.decomposition.KernelPCASklearn अंक डेटासेट पर मॉड्यूल। हम सिग्माइड कर्नेल का उपयोग कर रहे हैं।
from sklearn.datasets import load_digits
from sklearn.decomposition import KernelPCA
X, _ = load_digits(return_X_y = True)
transformer = KernelPCA(n_components = 10, kernel = 'sigmoid')
X_transformed = transformer.fit_transform(X)
X_transformed.shape
उत्पादन
(1797, 10)
पीसीए यादृच्छिक एसवीडी का उपयोग कर
रैंडमाइज्ड एसवीडी का उपयोग करते हुए प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) का इस्तेमाल निम्न-आयामी अंतरिक्ष के लिए जुड़े घटकों के एकवचन वेक्टर को गिराकर अधिकांश विचरण को संरक्षित करने वाले निचले-स्थान पर डेटा को प्रोजेक्ट करने के लिए किया जाता है। यहां हीsklearn.decomposition.PCA वैकल्पिक पैरामीटर के साथ मॉड्यूल svd_solver=’randomized’ बहुत उपयोगी होने जा रहा है।
उदाहरण
नीचे दिए गए उदाहरण का उपयोग करेंगे sklearn.decomposition.PCA पिमा इंडियन्स डायबिटीज डेटासेट से सर्वश्रेष्ठ 7 प्रिंसिपल घटकों को खोजने के लिए वैकल्पिक पैरामीटर svd_solver = 'randomized' के साथ मॉड्यूल।
from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\Users\Leekha\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names = names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
pca = PCA(n_components = 7,svd_solver = 'randomized')
fit = pca.fit(X)
print(("Explained Variance: %s") % (fit.explained_variance_ratio_))
print(fit.components_)
उत्पादन
Explained Variance: [8.88546635e-01 6.15907837e-02 2.57901189e-02 1.30861374e-027.44093864e-03 3.02614919e-03 5.12444875e-04]
[
[-2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-029.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03]
[-2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01]
[-2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]
[-4.90459604e-02 1.19830016e-01 -2.62742788e-01 8.84369380e-01-6.55503615e-02 1.92801728e-01 2.69908637e-03 -3.01024330e-01]
[ 1.51612874e-01 -8.79407680e-02 -2.32165009e-01 2.59973487e-01-1.72312241e-04 2.14744823e-02 1.64080684e-03 9.20504903e-01]
[-5.04730888e-03 5.07391813e-02 7.56365525e-02 2.21363068e-01-6.13326472e-03 -9.70776708e-01 -2.02903702e-03 -1.51133239e-02]
[ 9.86672995e-01 8.83426114e-04 -1.22975947e-03 -3.76444746e-041.42307394e-03 -2.73046214e-03 -6.34402965e-03 -1.62555343e-01]
]