स्किटिट लर्न - कन्वेंशन
स्किकिट-लर्न की वस्तुएं एक समान मूल एपीआई साझा करती हैं जिसमें निम्नलिखित तीन पूरक इंटरफेस होते हैं -
Estimator interface - यह मॉडल बनाने और फिट करने के लिए है।
Predictor interface - यह भविष्यवाणियां करने के लिए है।
Transformer interface - यह डेटा परिवर्तित करने के लिए है।
एपीआई सरल सम्मेलनों को अपनाते हैं और रूपरेखा के प्रसार से बचने के लिए डिज़ाइन विकल्पों को एक तरीके से निर्देशित किया गया है।
अभिसमय का उद्देश्य
सम्मेलनों का उद्देश्य यह सुनिश्चित करना है कि एपीआई निम्नलिखित व्यापक सिद्धांतों से चिपके रहे -
Consistency - सभी वस्तुएं चाहे वे बुनियादी हों, या समग्र एक सुसंगत इंटरफ़ेस को साझा करना चाहिए जो आगे विधियों के सीमित सेट से बना है।
Inspection - एल्गोरिदम सीखने द्वारा निर्धारित कंस्ट्रक्टर पैरामीटर और पैरामीटर मान सार्वजनिक विशेषताओं के रूप में संग्रहीत और उजागर किए जाने चाहिए।
Non-proliferation of classes - डेटासेट को NumPy सरणियों या Scipy विरल मैट्रिक्स के रूप में प्रस्तुत किया जाना चाहिए, जबकि हाइपर-पैरामीटर नाम और मूल्यों को फ्रेमवर्क कोड के प्रसार से बचने के लिए मानक पायथन स्ट्रिंग्स के रूप में प्रतिनिधित्व किया जाना चाहिए।
Composition - एल्गोरिदम चाहे वे डेटा के लिए परिवर्तनों के अनुक्रम या संयोजन के रूप में अभिव्यक्त हो या स्वाभाविक रूप से मेटा-एल्गोरिदम के रूप में देखे गए अन्य एल्गोरिदम पर पैरामीटर किए गए हैं, को लागू किया जाना चाहिए और मौजूदा बिल्डिंग ब्लॉकों से बनाया जाना चाहिए।
Sensible defaults- जब भी किसी ऑपरेशन में उपयोगकर्ता-परिभाषित पैरामीटर की आवश्यकता होती है, तो स्किकिट-सीखें, एक उपयुक्त डिफ़ॉल्ट मान परिभाषित किया जाता है। इस डिफ़ॉल्ट मान के कारण ऑपरेशन को समझदार तरीके से किया जाना चाहिए, उदाहरण के लिए, हाथ में कार्य के लिए बेस-लाइन समाधान देना।
विभिन्न सम्मेलन
Sklearn में उपलब्ध सम्मेलनों को नीचे समझाया गया है -
कास्टिंग टाइप करें
यह बताता है कि इनपुट को कास्ट किया जाना चाहिए float64। निम्नलिखित उदाहरण में, जिसमेंsklearn.random_projection मॉड्यूल डेटा की गतिशीलता को कम करने के लिए इस्तेमाल किया, यह समझा जाएगा -
Example
import numpy as np
from sklearn import random_projection
rannge = np.random.RandomState(0)
X = range.rand(10,2000)
X = np.array(X, dtype = 'float32')
X.dtype
Transformer_data = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.dtype
Output
dtype('float32')
dtype('float64')
उपरोक्त उदाहरण में, हम देख सकते हैं कि X है float32 जिसे डाला जाता है float64 द्वारा fit_transform(X)।
रिफ़ॉर्मिंग एंड अपडेटिंग पैरामीटर्स
एक अनुमानक के हाइपर-मापदंडों को इसके माध्यम से निर्मित किए जाने के बाद अद्यतन और परिष्कृत किया जा सकता है set_params()तरीका। आइए इसे समझने के लिए निम्न उदाहरण देखें -
Example
import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])
Output
array([0, 0, 0, 0, 0])
एक बार अनुमानक का निर्माण हो जाने के बाद, उपरोक्त कोड डिफ़ॉल्ट कर्नेल को बदल देगा rbf के माध्यम से रैखिक करने के लिए SVC.set_params()।
अब, निम्न कोड कर्नेल को rbf में बदलकर अनुमानक को वापस भेज देगा और दूसरी भविष्यवाणी कर देगा।
Example
clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])
Output
array([0, 0, 0, 0, 0])
पूरा कोड
निम्नलिखित पूरा निष्पादन योग्य कार्यक्रम है -
import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])
clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])
Multiclass और बहुपरत फिटिंग
बहुस्तरीय फिटिंग के मामले में, सीखना और भविष्यवाणी कार्य दोनों लक्ष्य डेटा के प्रारूप पर निर्भर होते हैं। उपयोग किया गया मॉड्यूल हैsklearn.multiclass। नीचे दिए गए उदाहरण की जांच करें, जहां 1d सरणी पर मल्टीस्केल्स क्लासिफायर फिट है।
Example
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = [0, 0, 1, 1, 2]
classif = OneVsRestClassifier(estimator = SVC(gamma = 'scale',random_state = 0))
classif.fit(X, y).predict(X)
Output
array([0, 0, 1, 1, 2])
उपरोक्त उदाहरण में, क्लासिफायर मल्टीलेबल लेबल के एक आयामी सरणी पर फिट है और predict()विधि इसलिए संबंधित मल्टीकलस भविष्यवाणी प्रदान करती है। लेकिन दूसरी ओर, द्विआधारी लेबल संकेतकों के द्वि-आयामी सरणी पर फिट होना भी संभव है -
Example
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = LabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)
Output
array(
[
[0, 0, 0],
[0, 0, 0],
[0, 1, 0],
[0, 1, 0],
[0, 0, 0]
]
)
इसी तरह, मल्टीलेबल फिटिंग के मामले में, एक उदाहरण को कई लेबल दिए जा सकते हैं -
Example
from sklearn.preprocessing import MultiLabelBinarizer
y = [[0, 1], [0, 2], [1, 3], [0, 2, 3], [2, 4]]
y = MultiLabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)
Output
array(
[
[1, 0, 1, 0, 0],
[1, 0, 1, 0, 0],
[1, 0, 1, 1, 0],
[1, 0, 1, 1, 0],
[1, 0, 1, 0, 0]
]
)
उपरोक्त उदाहरण में, sklearn.MultiLabelBinarizerपर फिट करने के लिए multilabels के दो आयामी सरणी binarize करने के लिए प्रयोग किया जाता है। यही कारण है कि भविष्यवाणी () फ़ंक्शन प्रत्येक उदाहरण के लिए कई लेबल के साथ आउटपुट के रूप में 2d सरणी देता है।