स्किटिट लर्न - एस्टिमेटर एपीआई

इस अध्याय में, हम इस बारे में जानेंगे Estimator API(एप्लीकेशन प्रोग्रामिंग इंटरफेस)। आइए हम यह समझकर शुरू करें कि एक अनुमानक एपीआई क्या है।

एस्टिमेटर एपीआई क्या है

यह स्किकिट-लर्न द्वारा कार्यान्वित मुख्य एपीआई में से एक है। यह ML अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए एक सुसंगत इंटरफ़ेस प्रदान करता है यही कारण है कि Scikit-Learn में सभी मशीन लर्निंग एल्गोरिदम को एस्टिमेटर एपीआई के माध्यम से कार्यान्वित किया जाता है। ऑब्जेक्ट जो डेटा से सीखता है (डेटा फिटिंग) एक अनुमानक है। इसका उपयोग किसी भी एल्गोरिदम जैसे वर्गीकरण, प्रतिगमन, क्लस्टरिंग या यहां तक ​​कि एक ट्रांसफार्मर के साथ किया जा सकता है, जो कच्चे डेटा के लिए उपयोगी सुविधाओं को निकालता है।

डेटा की फिटिंग के लिए, सभी आकलनकर्ता ऑब्जेक्ट एक फिट विधि को उजागर करते हैं जो कि दिखाए गए डेटासेट को निम्नानुसार लेता है -

estimator.fit(data)

अगला, एक अनुमानक के सभी मापदंडों को निम्नानुसार सेट किया जा सकता है, जब इसे संबंधित विशेषता द्वारा तत्काल किया जाता है।

estimator = Estimator (param1=1, param2=2)
estimator.param1

उपरोक्त का उत्पादन 1 होगा।

एक बार जब डेटा को एक अनुमानक के साथ फिट किया जाता है, तो डेटा के मापदंडों का अनुमान लगाया जाता है। अब, सभी अनुमानित पैरामीटर निम्नानुसार अंडरस्कोर द्वारा समाप्त होने वाले अनुमानक ऑब्जेक्ट की विशेषताएं होंगे -

estimator.estimated_param_

अनुमानक एपीआई का उपयोग

अनुमानकों के मुख्य उपयोग इस प्रकार हैं -

एक मॉडल का अनुमान और डिकोडिंग

मॉडल के अनुमान और डिकोडिंग के लिए एस्टिमेटर ऑब्जेक्ट का उपयोग किया जाता है। इसके अलावा, मॉडल निम्नलिखित के एक नियतात्मक कार्य के रूप में अनुमानित है -

  • ऑब्जेक्ट निर्माण में प्रदान किए गए पैरामीटर।

  • वैश्विक रैंडम स्थिति (numpy.random) यदि अनुमानक के random_state पैरामीटर को किसी के लिए सेट नहीं किया गया है।

  • कोई भी डेटा सबसे हालिया कॉल को पास किया गया fit, fit_transform, or fit_predict

  • किसी भी डेटा को कॉल करने के क्रम में पास किया गया partial_fit

गैर-आयताकार डेटा प्रतिनिधित्व को आयताकार डेटा में मैप करना

यह एक गैर-आयताकार डेटा प्रतिनिधित्व को आयताकार डेटा में मैप करता है। सरल शब्दों में, यह इनपुट लेता है जहां प्रत्येक नमूने को निश्चित लंबाई की एक सरणी जैसी वस्तु के रूप में प्रतिनिधित्व नहीं किया जाता है, और प्रत्येक नमूने के लिए सुविधाओं की एक सरणी जैसी वस्तु का उत्पादन होता है।

कोर और बाहरी नमूनों के बीच का अंतर

यह निम्नलिखित विधियों का उपयोग करके कोर और बाहरी नमूनों के बीच अंतर को दर्शाता है -

  • fit

  • तबादला अगर fit_predict

  • यदि प्रेरक हो तो भविष्यवाणी करें

मार्गदर्शक सिद्धांत

स्किकिट-लर्न एपीआई को डिजाइन करते समय, मार्गदर्शक सिद्धांतों को ध्यान में रखते हुए -

संगति

यह सिद्धांत बताता है कि सभी वस्तुओं को सीमित तरीकों से तैयार किए गए सामान्य इंटरफ़ेस को साझा करना चाहिए। प्रलेखन भी सुसंगत होना चाहिए।

सीमित वस्तु पदानुक्रम

यह मार्गदर्शक सिद्धांत कहता है -

  • एल्गोरिदम को पायथन वर्गों द्वारा दर्शाया जाना चाहिए

  • डेटासेट्स को मानक प्रारूप जैसे नुमाइए सरणियों, पंडों डेटाफ्रैम, साइपी स्पार्स मैट्रिक्स में प्रतिनिधित्व किया जाना चाहिए।

  • पैरामीटर नाम मानक पायथन स्ट्रिंग्स का उपयोग करना चाहिए।

रचना

जैसा कि हम जानते हैं कि, एमएल एल्गोरिदम को कई मौलिक एल्गोरिदम के अनुक्रम के रूप में व्यक्त किया जा सकता है। जब भी जरूरत हो, स्किकिट-लर्न इन मूलभूत एल्गोरिदम का उपयोग करता है।

संवेदनशील चूक

इस सिद्धांत के अनुसार, जब भी एमएल मॉडल को उपयोगकर्ता-निर्दिष्ट मापदंडों की आवश्यकता होती है, तो स्किट-लर्न लाइब्रेरी एक उचित डिफ़ॉल्ट मान को परिभाषित करता है।

निरीक्षण

इस मार्गदर्शक सिद्धांत के अनुसार, प्रत्येक निर्दिष्ट पैरामीटर मान को यौवन विशेषताओं के रूप में उजागर किया जाता है।

अनुमानक एपीआई का उपयोग करने में कदम

फॉलोइंग Scikit-Learn आकलनकर्ता API का उपयोग करने के चरण हैं -

चरण 1: मॉडल का एक वर्ग चुनें

इस पहले चरण में, हमें मॉडल का एक वर्ग चुनने की आवश्यकता है। यह स्किकिट-लर्न से उपयुक्त एस्टीमेटर वर्ग को आयात करके किया जा सकता है।

चरण 2: मॉडल हाइपरपैरामीटर चुनें

इस चरण में, हमें क्लास मॉडल हाइपरपरमेटर्स चुनने की आवश्यकता है। यह वांछित मूल्यों के साथ वर्ग को तत्काल करके किया जा सकता है।

चरण 3: डेटा की व्यवस्था करना

अगला, हमें डेटा को फीचर मैट्रिक्स (एक्स) और लक्ष्य वेक्टर (वाई) में व्यवस्थित करने की आवश्यकता है।

चरण 4: मॉडल फिटिंग

अब, हमें मॉडल को आपके डेटा पर फिट करने की आवश्यकता है। यह मॉडल उदाहरण के फिट () विधि को कॉल करके किया जा सकता है।

चरण 5: मॉडल को लागू करना

मॉडल को फिट करने के बाद, हम इसे नए डेटा पर लागू कर सकते हैं। पर्यवेक्षित शिक्षण के लिए, का उपयोग करेंpredict()अज्ञात डेटा के लिए लेबल की भविष्यवाणी करने की विधि। अप्रमाणित शिक्षा के लिए, उपयोग करेंpredict() या transform() डेटा के गुणों का पता लगाने के लिए।

पर्यवेक्षित शिक्षण उदाहरण

यहाँ, इस प्रक्रिया के एक उदाहरण के रूप में हम एक लाइन (x, y) डेटा के लिए एक लाइन फिटिंग के सामान्य मामले ले रहे हैं simple linear regression

सबसे पहले, हमें डेटासेट लोड करने की आवश्यकता है, हम आईरिस डेटासेट का उपयोग कर रहे हैं -

उदाहरण

import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape

उत्पादन

(150, 4)

उदाहरण

y_iris = iris['species']
y_iris.shape

उत्पादन

(150,)

उदाहरण

अब, इस प्रतिगमन उदाहरण के लिए, हम निम्नलिखित नमूना डेटा का उपयोग करने जा रहे हैं -

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);

उत्पादन

तो, हमारे पास हमारे रेखीय प्रतिगमन उदाहरण के लिए उपरोक्त डेटा है।

अब, इस डेटा के साथ, हम उपर्युक्त चरणों को लागू कर सकते हैं।

मॉडल का एक वर्ग चुनें

यहाँ, एक सरल रेखीय प्रतिगमन मॉडल की गणना करने के लिए, हमें रैखिक प्रतिगमन वर्ग को निम्नानुसार आयात करना होगा -

from sklearn.linear_model import LinearRegression

मॉडल हाइपरपैरामीटर चुनें

एक बार जब हम मॉडल का एक वर्ग चुनते हैं, तो हमें कुछ महत्वपूर्ण विकल्प बनाने की आवश्यकता होती है, जिन्हें अक्सर हाइपरपरमेटर्स के रूप में दर्शाया जाता है, या उन मापदंडों को निर्धारित करना चाहिए जो मॉडल को डेटा में फिट होने से पहले सेट करना चाहिए। यहाँ, रैखिक प्रतिगमन के इस उदाहरण के लिए, हम का उपयोग करके अवरोधन को फिट करना चाहेंगेfit_intercept हाइपरपरमीटर निम्नानुसार है -

Example

model = LinearRegression(fit_intercept = True)
model

Output

LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None, normalize = False)

डेटा की व्यवस्था करना

अब, जैसा कि हम जानते हैं कि हमारा लक्ष्य चर है y सही रूप में है यानी लंबाई n_samples1-डी की सरणी। लेकिन, हमें फीचर मैट्रिक्स को फिर से आकार देना होगाX इसे आकार का एक मैट्रिक्स बनाने के लिए [n_samples, n_features]। इसे निम्नानुसार किया जा सकता है -

Example

X = x[:, np.newaxis]
X.shape

Output

(40, 1)

मॉडल फिटिंग

एक बार, हम डेटा की व्यवस्था करते हैं, यह मॉडल को फिट करने का समय है जो हमारे मॉडल को डेटा पर लागू करने के लिए है। की सहायता से यह किया जा सकता हैfit() विधि इस प्रकार है -

Example

model.fit(X, y)

Output

LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None,normalize = False)

स्किकिट-लर्न में, द fit() प्रक्रिया में कुछ अनुगामी अंडरस्कोर होते हैं।

इस उदाहरण के लिए, नीचे का पैरामीटर डेटा के सरल रैखिक फिट का ढलान दिखाता है -

Example

model.coef_

Output

array([1.99839352])

नीचे पैरामीटर डेटा के लिए सरल रैखिक फिट के अवरोधन का प्रतिनिधित्व करता है -

Example

model.intercept_

Output

-0.9895459457775022

मॉडल को नए डेटा पर लागू करना

मॉडल को प्रशिक्षित करने के बाद, हम इसे नए डेटा पर लागू कर सकते हैं। जैसा कि पर्यवेक्षित मशीन लर्निंग का मुख्य कार्य नए डेटा के आधार पर मॉडल का मूल्यांकन करना है जो प्रशिक्षण सेट का हिस्सा नहीं है। की सहायता से किया जा सकता हैpredict() विधि इस प्रकार है -

Example

xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);

Output

पूर्ण कार्य / निष्पादन योग्य उदाहरण

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape

rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)
model
X = x[:, np.newaxis]
X.shape

model.fit(X, y)
model.coef_
model.intercept_

xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);

अप्रमाणित शिक्षण उदाहरण

यहां, इस प्रक्रिया के एक उदाहरण के रूप में हम आइरिस डेटासेट की आयामीता को कम करने का सामान्य मामला ले रहे हैं ताकि हम इसे और अधिक आसानी से देख सकें। इस उदाहरण के लिए, हम प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) का इस्तेमाल करने जा रहे हैं, जो एक फास्ट-लीनियर डाइमेंशन रिडक्शन तकनीक है।

ऊपर दिए गए उदाहरण की तरह, हम आईरिस डेटासेट से यादृच्छिक डेटा को लोड और प्लॉट कर सकते हैं। उसके बाद हम नीचे दिए गए चरणों का पालन कर सकते हैं -

मॉडल का एक वर्ग चुनें

from sklearn.decomposition import PCA

मॉडल हाइपरपैरामीटर चुनें

Example

model = PCA(n_components=2)
model

Output

PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
   svd_solver = 'auto', tol = 0.0, whiten = False)

मॉडल फिटिंग

Example

model.fit(X_iris)

Output

PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
   svd_solver = 'auto', tol = 0.0, whiten = False)

डेटा को दो-आयामी में बदलना

Example

X_2D = model.transform(X_iris)

अब, हम परिणाम को निम्नानुसार प्लॉट कर सकते हैं -

Output

iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue = 'species', data = iris, fit_reg = False);

Output

पूर्ण कार्य / निष्पादन योग्य उदाहरण

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.decomposition import PCA

model = PCA(n_components=2)
model
model.fit(X_iris)
X_2D = model.transform(X_iris)
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False);