स्किटिट लर्न - एस्टिमेटर एपीआई
इस अध्याय में, हम इस बारे में जानेंगे Estimator API(एप्लीकेशन प्रोग्रामिंग इंटरफेस)। आइए हम यह समझकर शुरू करें कि एक अनुमानक एपीआई क्या है।
एस्टिमेटर एपीआई क्या है
यह स्किकिट-लर्न द्वारा कार्यान्वित मुख्य एपीआई में से एक है। यह ML अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए एक सुसंगत इंटरफ़ेस प्रदान करता है यही कारण है कि Scikit-Learn में सभी मशीन लर्निंग एल्गोरिदम को एस्टिमेटर एपीआई के माध्यम से कार्यान्वित किया जाता है। ऑब्जेक्ट जो डेटा से सीखता है (डेटा फिटिंग) एक अनुमानक है। इसका उपयोग किसी भी एल्गोरिदम जैसे वर्गीकरण, प्रतिगमन, क्लस्टरिंग या यहां तक कि एक ट्रांसफार्मर के साथ किया जा सकता है, जो कच्चे डेटा के लिए उपयोगी सुविधाओं को निकालता है।
डेटा की फिटिंग के लिए, सभी आकलनकर्ता ऑब्जेक्ट एक फिट विधि को उजागर करते हैं जो कि दिखाए गए डेटासेट को निम्नानुसार लेता है -
estimator.fit(data)
अगला, एक अनुमानक के सभी मापदंडों को निम्नानुसार सेट किया जा सकता है, जब इसे संबंधित विशेषता द्वारा तत्काल किया जाता है।
estimator = Estimator (param1=1, param2=2)
estimator.param1
उपरोक्त का उत्पादन 1 होगा।
एक बार जब डेटा को एक अनुमानक के साथ फिट किया जाता है, तो डेटा के मापदंडों का अनुमान लगाया जाता है। अब, सभी अनुमानित पैरामीटर निम्नानुसार अंडरस्कोर द्वारा समाप्त होने वाले अनुमानक ऑब्जेक्ट की विशेषताएं होंगे -
estimator.estimated_param_
अनुमानक एपीआई का उपयोग
अनुमानकों के मुख्य उपयोग इस प्रकार हैं -
एक मॉडल का अनुमान और डिकोडिंग
मॉडल के अनुमान और डिकोडिंग के लिए एस्टिमेटर ऑब्जेक्ट का उपयोग किया जाता है। इसके अलावा, मॉडल निम्नलिखित के एक नियतात्मक कार्य के रूप में अनुमानित है -
ऑब्जेक्ट निर्माण में प्रदान किए गए पैरामीटर।
वैश्विक रैंडम स्थिति (numpy.random) यदि अनुमानक के random_state पैरामीटर को किसी के लिए सेट नहीं किया गया है।
कोई भी डेटा सबसे हालिया कॉल को पास किया गया fit, fit_transform, or fit_predict।
किसी भी डेटा को कॉल करने के क्रम में पास किया गया partial_fit।
गैर-आयताकार डेटा प्रतिनिधित्व को आयताकार डेटा में मैप करना
यह एक गैर-आयताकार डेटा प्रतिनिधित्व को आयताकार डेटा में मैप करता है। सरल शब्दों में, यह इनपुट लेता है जहां प्रत्येक नमूने को निश्चित लंबाई की एक सरणी जैसी वस्तु के रूप में प्रतिनिधित्व नहीं किया जाता है, और प्रत्येक नमूने के लिए सुविधाओं की एक सरणी जैसी वस्तु का उत्पादन होता है।
कोर और बाहरी नमूनों के बीच का अंतर
यह निम्नलिखित विधियों का उपयोग करके कोर और बाहरी नमूनों के बीच अंतर को दर्शाता है -
fit
तबादला अगर fit_predict
यदि प्रेरक हो तो भविष्यवाणी करें
मार्गदर्शक सिद्धांत
स्किकिट-लर्न एपीआई को डिजाइन करते समय, मार्गदर्शक सिद्धांतों को ध्यान में रखते हुए -
संगति
यह सिद्धांत बताता है कि सभी वस्तुओं को सीमित तरीकों से तैयार किए गए सामान्य इंटरफ़ेस को साझा करना चाहिए। प्रलेखन भी सुसंगत होना चाहिए।
सीमित वस्तु पदानुक्रम
यह मार्गदर्शक सिद्धांत कहता है -
एल्गोरिदम को पायथन वर्गों द्वारा दर्शाया जाना चाहिए
डेटासेट्स को मानक प्रारूप जैसे नुमाइए सरणियों, पंडों डेटाफ्रैम, साइपी स्पार्स मैट्रिक्स में प्रतिनिधित्व किया जाना चाहिए।
पैरामीटर नाम मानक पायथन स्ट्रिंग्स का उपयोग करना चाहिए।
रचना
जैसा कि हम जानते हैं कि, एमएल एल्गोरिदम को कई मौलिक एल्गोरिदम के अनुक्रम के रूप में व्यक्त किया जा सकता है। जब भी जरूरत हो, स्किकिट-लर्न इन मूलभूत एल्गोरिदम का उपयोग करता है।
संवेदनशील चूक
इस सिद्धांत के अनुसार, जब भी एमएल मॉडल को उपयोगकर्ता-निर्दिष्ट मापदंडों की आवश्यकता होती है, तो स्किट-लर्न लाइब्रेरी एक उचित डिफ़ॉल्ट मान को परिभाषित करता है।
निरीक्षण
इस मार्गदर्शक सिद्धांत के अनुसार, प्रत्येक निर्दिष्ट पैरामीटर मान को यौवन विशेषताओं के रूप में उजागर किया जाता है।
अनुमानक एपीआई का उपयोग करने में कदम
फॉलोइंग Scikit-Learn आकलनकर्ता API का उपयोग करने के चरण हैं -
चरण 1: मॉडल का एक वर्ग चुनें
इस पहले चरण में, हमें मॉडल का एक वर्ग चुनने की आवश्यकता है। यह स्किकिट-लर्न से उपयुक्त एस्टीमेटर वर्ग को आयात करके किया जा सकता है।
चरण 2: मॉडल हाइपरपैरामीटर चुनें
इस चरण में, हमें क्लास मॉडल हाइपरपरमेटर्स चुनने की आवश्यकता है। यह वांछित मूल्यों के साथ वर्ग को तत्काल करके किया जा सकता है।
चरण 3: डेटा की व्यवस्था करना
अगला, हमें डेटा को फीचर मैट्रिक्स (एक्स) और लक्ष्य वेक्टर (वाई) में व्यवस्थित करने की आवश्यकता है।
चरण 4: मॉडल फिटिंग
अब, हमें मॉडल को आपके डेटा पर फिट करने की आवश्यकता है। यह मॉडल उदाहरण के फिट () विधि को कॉल करके किया जा सकता है।
चरण 5: मॉडल को लागू करना
मॉडल को फिट करने के बाद, हम इसे नए डेटा पर लागू कर सकते हैं। पर्यवेक्षित शिक्षण के लिए, का उपयोग करेंpredict()अज्ञात डेटा के लिए लेबल की भविष्यवाणी करने की विधि। अप्रमाणित शिक्षा के लिए, उपयोग करेंpredict() या transform() डेटा के गुणों का पता लगाने के लिए।
पर्यवेक्षित शिक्षण उदाहरण
यहाँ, इस प्रक्रिया के एक उदाहरण के रूप में हम एक लाइन (x, y) डेटा के लिए एक लाइन फिटिंग के सामान्य मामले ले रहे हैं simple linear regression।
सबसे पहले, हमें डेटासेट लोड करने की आवश्यकता है, हम आईरिस डेटासेट का उपयोग कर रहे हैं -
उदाहरण
import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
उत्पादन
(150, 4)
उदाहरण
y_iris = iris['species']
y_iris.shape
उत्पादन
(150,)
उदाहरण
अब, इस प्रतिगमन उदाहरण के लिए, हम निम्नलिखित नमूना डेटा का उपयोग करने जा रहे हैं -
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
उत्पादन
तो, हमारे पास हमारे रेखीय प्रतिगमन उदाहरण के लिए उपरोक्त डेटा है।
अब, इस डेटा के साथ, हम उपर्युक्त चरणों को लागू कर सकते हैं।
मॉडल का एक वर्ग चुनें
यहाँ, एक सरल रेखीय प्रतिगमन मॉडल की गणना करने के लिए, हमें रैखिक प्रतिगमन वर्ग को निम्नानुसार आयात करना होगा -
from sklearn.linear_model import LinearRegression
मॉडल हाइपरपैरामीटर चुनें
एक बार जब हम मॉडल का एक वर्ग चुनते हैं, तो हमें कुछ महत्वपूर्ण विकल्प बनाने की आवश्यकता होती है, जिन्हें अक्सर हाइपरपरमेटर्स के रूप में दर्शाया जाता है, या उन मापदंडों को निर्धारित करना चाहिए जो मॉडल को डेटा में फिट होने से पहले सेट करना चाहिए। यहाँ, रैखिक प्रतिगमन के इस उदाहरण के लिए, हम का उपयोग करके अवरोधन को फिट करना चाहेंगेfit_intercept हाइपरपरमीटर निम्नानुसार है -
Example
model = LinearRegression(fit_intercept = True)
model
Output
LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None, normalize = False)
डेटा की व्यवस्था करना
अब, जैसा कि हम जानते हैं कि हमारा लक्ष्य चर है y सही रूप में है यानी लंबाई n_samples1-डी की सरणी। लेकिन, हमें फीचर मैट्रिक्स को फिर से आकार देना होगाX इसे आकार का एक मैट्रिक्स बनाने के लिए [n_samples, n_features]। इसे निम्नानुसार किया जा सकता है -
Example
X = x[:, np.newaxis]
X.shape
Output
(40, 1)
मॉडल फिटिंग
एक बार, हम डेटा की व्यवस्था करते हैं, यह मॉडल को फिट करने का समय है जो हमारे मॉडल को डेटा पर लागू करने के लिए है। की सहायता से यह किया जा सकता हैfit() विधि इस प्रकार है -
Example
model.fit(X, y)
Output
LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None,normalize = False)
स्किकिट-लर्न में, द fit() प्रक्रिया में कुछ अनुगामी अंडरस्कोर होते हैं।
इस उदाहरण के लिए, नीचे का पैरामीटर डेटा के सरल रैखिक फिट का ढलान दिखाता है -
Example
model.coef_
Output
array([1.99839352])
नीचे पैरामीटर डेटा के लिए सरल रैखिक फिट के अवरोधन का प्रतिनिधित्व करता है -
Example
model.intercept_
Output
-0.9895459457775022
मॉडल को नए डेटा पर लागू करना
मॉडल को प्रशिक्षित करने के बाद, हम इसे नए डेटा पर लागू कर सकते हैं। जैसा कि पर्यवेक्षित मशीन लर्निंग का मुख्य कार्य नए डेटा के आधार पर मॉडल का मूल्यांकन करना है जो प्रशिक्षण सेट का हिस्सा नहीं है। की सहायता से किया जा सकता हैpredict() विधि इस प्रकार है -
Example
xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);
Output
पूर्ण कार्य / निष्पादन योग्य उदाहरण
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)
model
X = x[:, np.newaxis]
X.shape
model.fit(X, y)
model.coef_
model.intercept_
xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);
अप्रमाणित शिक्षण उदाहरण
यहां, इस प्रक्रिया के एक उदाहरण के रूप में हम आइरिस डेटासेट की आयामीता को कम करने का सामान्य मामला ले रहे हैं ताकि हम इसे और अधिक आसानी से देख सकें। इस उदाहरण के लिए, हम प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) का इस्तेमाल करने जा रहे हैं, जो एक फास्ट-लीनियर डाइमेंशन रिडक्शन तकनीक है।
ऊपर दिए गए उदाहरण की तरह, हम आईरिस डेटासेट से यादृच्छिक डेटा को लोड और प्लॉट कर सकते हैं। उसके बाद हम नीचे दिए गए चरणों का पालन कर सकते हैं -
मॉडल का एक वर्ग चुनें
from sklearn.decomposition import PCA
मॉडल हाइपरपैरामीटर चुनें
Example
model = PCA(n_components=2)
model
Output
PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
svd_solver = 'auto', tol = 0.0, whiten = False)
मॉडल फिटिंग
Example
model.fit(X_iris)
Output
PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
svd_solver = 'auto', tol = 0.0, whiten = False)
डेटा को दो-आयामी में बदलना
Example
X_2D = model.transform(X_iris)
अब, हम परिणाम को निम्नानुसार प्लॉट कर सकते हैं -
Output
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue = 'species', data = iris, fit_reg = False);
Output
पूर्ण कार्य / निष्पादन योग्य उदाहरण
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.decomposition import PCA
model = PCA(n_components=2)
model
model.fit(X_iris)
X_2D = model.transform(X_iris)
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False);