स्किटिट लर्न - कन्वेंशन

स्किकिट-लर्न की वस्तुएं एक समान मूल एपीआई साझा करती हैं जिसमें निम्नलिखित तीन पूरक इंटरफेस होते हैं -

  • Estimator interface - यह मॉडल बनाने और फिट करने के लिए है।

  • Predictor interface - यह भविष्यवाणियां करने के लिए है।

  • Transformer interface - यह डेटा परिवर्तित करने के लिए है।

एपीआई सरल सम्मेलनों को अपनाते हैं और रूपरेखा के प्रसार से बचने के लिए डिज़ाइन विकल्पों को एक तरीके से निर्देशित किया गया है।

अभिसमय का उद्देश्य

सम्मेलनों का उद्देश्य यह सुनिश्चित करना है कि एपीआई निम्नलिखित व्यापक सिद्धांतों से चिपके रहे -

Consistency - सभी वस्तुएं चाहे वे बुनियादी हों, या समग्र एक सुसंगत इंटरफ़ेस को साझा करना चाहिए जो आगे विधियों के सीमित सेट से बना है।

Inspection - एल्गोरिदम सीखने द्वारा निर्धारित कंस्ट्रक्टर पैरामीटर और पैरामीटर मान सार्वजनिक विशेषताओं के रूप में संग्रहीत और उजागर किए जाने चाहिए।

Non-proliferation of classes - डेटासेट को NumPy सरणियों या Scipy विरल मैट्रिक्स के रूप में प्रस्तुत किया जाना चाहिए, जबकि हाइपर-पैरामीटर नाम और मूल्यों को फ्रेमवर्क कोड के प्रसार से बचने के लिए मानक पायथन स्ट्रिंग्स के रूप में प्रतिनिधित्व किया जाना चाहिए।

Composition - एल्गोरिदम चाहे वे डेटा के लिए परिवर्तनों के अनुक्रम या संयोजन के रूप में अभिव्यक्त हो या स्वाभाविक रूप से मेटा-एल्गोरिदम के रूप में देखे गए अन्य एल्गोरिदम पर पैरामीटर किए गए हैं, को लागू किया जाना चाहिए और मौजूदा बिल्डिंग ब्लॉकों से बनाया जाना चाहिए।

Sensible defaults- जब भी किसी ऑपरेशन में उपयोगकर्ता-परिभाषित पैरामीटर की आवश्यकता होती है, तो स्किकिट-सीखें, एक उपयुक्त डिफ़ॉल्ट मान परिभाषित किया जाता है। इस डिफ़ॉल्ट मान के कारण ऑपरेशन को समझदार तरीके से किया जाना चाहिए, उदाहरण के लिए, हाथ में कार्य के लिए बेस-लाइन समाधान देना।

विभिन्न सम्मेलन

Sklearn में उपलब्ध सम्मेलनों को नीचे समझाया गया है -

कास्टिंग टाइप करें

यह बताता है कि इनपुट को कास्ट किया जाना चाहिए float64। निम्नलिखित उदाहरण में, जिसमेंsklearn.random_projection मॉड्यूल डेटा की गतिशीलता को कम करने के लिए इस्तेमाल किया, यह समझा जाएगा -

Example

import numpy as np
from sklearn import random_projection
rannge = np.random.RandomState(0)
X = range.rand(10,2000)
X = np.array(X, dtype = 'float32')
X.dtype
Transformer_data = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.dtype

Output

dtype('float32')
dtype('float64')

उपरोक्त उदाहरण में, हम देख सकते हैं कि X है float32 जिसे डाला जाता है float64 द्वारा fit_transform(X)

रिफ़ॉर्मिंग एंड अपडेटिंग पैरामीटर्स

एक अनुमानक के हाइपर-मापदंडों को इसके माध्यम से निर्मित किए जाने के बाद अद्यतन और परिष्कृत किया जा सकता है set_params()तरीका। आइए इसे समझने के लिए निम्न उदाहरण देखें -

Example

import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])

Output

array([0, 0, 0, 0, 0])

एक बार अनुमानक का निर्माण हो जाने के बाद, उपरोक्त कोड डिफ़ॉल्ट कर्नेल को बदल देगा rbf के माध्यम से रैखिक करने के लिए SVC.set_params()

अब, निम्न कोड कर्नेल को rbf में बदलकर अनुमानक को वापस भेज देगा और दूसरी भविष्यवाणी कर देगा।

Example

clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])

Output

array([0, 0, 0, 0, 0])

पूरा कोड

निम्नलिखित पूरा निष्पादन योग्य कार्यक्रम है -

import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])
clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])

Multiclass और बहुपरत फिटिंग

बहुस्तरीय फिटिंग के मामले में, सीखना और भविष्यवाणी कार्य दोनों लक्ष्य डेटा के प्रारूप पर निर्भर होते हैं। उपयोग किया गया मॉड्यूल हैsklearn.multiclass। नीचे दिए गए उदाहरण की जांच करें, जहां 1d सरणी पर मल्टीस्केल्स क्लासिफायर फिट है।

Example

from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = [0, 0, 1, 1, 2]
classif = OneVsRestClassifier(estimator = SVC(gamma = 'scale',random_state = 0))
classif.fit(X, y).predict(X)

Output

array([0, 0, 1, 1, 2])

उपरोक्त उदाहरण में, क्लासिफायर मल्टीलेबल लेबल के एक आयामी सरणी पर फिट है और predict()विधि इसलिए संबंधित मल्टीकलस भविष्यवाणी प्रदान करती है। लेकिन दूसरी ओर, द्विआधारी लेबल संकेतकों के द्वि-आयामी सरणी पर फिट होना भी संभव है -

Example

from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = LabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)

Output

array(
   [
      [0, 0, 0],
      [0, 0, 0],
      [0, 1, 0],
      [0, 1, 0],
      [0, 0, 0]
   ]
)

इसी तरह, मल्टीलेबल फिटिंग के मामले में, एक उदाहरण को कई लेबल दिए जा सकते हैं -

Example

from sklearn.preprocessing import MultiLabelBinarizer
y = [[0, 1], [0, 2], [1, 3], [0, 2, 3], [2, 4]]
y = MultiLabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)

Output

array(
   [
      [1, 0, 1, 0, 0],
      [1, 0, 1, 0, 0],
      [1, 0, 1, 1, 0],
      [1, 0, 1, 1, 0],
      [1, 0, 1, 0, 0]
   ]
)

उपरोक्त उदाहरण में, sklearn.MultiLabelBinarizerपर फिट करने के लिए multilabels के दो आयामी सरणी binarize करने के लिए प्रयोग किया जाता है। यही कारण है कि भविष्यवाणी () फ़ंक्शन प्रत्येक उदाहरण के लिए कई लेबल के साथ आउटपुट के रूप में 2d सरणी देता है।