स्किकिट सीखें - विस्तारित रेखा मॉडलिंग
यह अध्याय स्केलेरन में बहुपद सुविधाओं और पाइपलाइनिंग उपकरणों पर ध्यान केंद्रित करता है।
बहुपद सुविधाओं का परिचय
डेटा के गैर-रेखीय कार्यों पर प्रशिक्षित रैखिक मॉडल आमतौर पर रैखिक तरीकों के तेज प्रदर्शन को बनाए रखता है। यह उन्हें डेटा की एक अधिक व्यापक श्रेणी को फिट करने की भी अनुमति देता है। यही कारण है कि मशीन ऐसे लीनियर मॉडल्स को सीखने में, जिन्हें नॉनलाइनर फ़ंक्शंस में प्रशिक्षित किया जाता है, उपयोग किया जाता है।
ऐसा ही एक उदाहरण है कि गुणांकों से बहुपद सुविधाओं का निर्माण करके एक सरल रेखीय प्रतिगमन को बढ़ाया जा सकता है।
गणितीय रूप से, मान लें कि हमारे पास मानक रैखिक प्रतिगमन मॉडल है तो 2-डी डेटा के लिए यह इस तरह दिखाई देगा -
$$ वाई = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} $$अब, हम दूसरे क्रम के बहुपद में विशेषताओं को जोड़ सकते हैं और हमारा मॉडल निम्नानुसार दिखेगा -
$$ वाई = W_ {0} + W_ {1} X_ {1} + W_ {2} X_ {2} + W_ {3} X_ {1} X_ {2} + W_ {4} x_1 ^ 2 + W_ { 5} x_2 ^ 2 $$ऊपर अभी भी एक रेखीय मॉडल है। यहां, हमने देखा कि परिणामी बहुपद प्रतिगमन रैखिक मॉडल के एक ही वर्ग में है और इसी तरह हल किया जा सकता है।
ऐसा करने के लिए, scikit-learn नाम का एक मॉड्यूल प्रदान करता है PolynomialFeatures। यह मॉड्यूल इनपुट डेटा मैट्रिक्स को दिए गए डिग्री के नए डेटा मैट्रिक्स में बदल देता है।
मापदंडों
अनुसरण तालिका में उपयोग किए गए पैरामीटर शामिल हैं PolynomialFeatures मापांक
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | degree - पूर्णांक, डिफ़ॉल्ट = 2 यह बहुपद सुविधाओं की डिग्री का प्रतिनिधित्व करता है। |
2 | interaction_only - बूलियन, डिफ़ॉल्ट = गलत डिफ़ॉल्ट रूप से, यह गलत है, लेकिन यदि इसे सच के रूप में सेट किया जाता है, तो वे विशेषताएं जो अधिकांश डिग्री अलग इनपुट सुविधाओं के उत्पाद हैं, का उत्पादन किया जाता है। ऐसे फीचर्स को इंटरैक्शन फीचर्स कहा जाता है। |
3 | include_bias - बूलियन, डिफ़ॉल्ट = सत्य इसमें एक पूर्वाग्रह स्तंभ शामिल है अर्थात वह सुविधा जिसमें सभी बहुपद शक्तियाँ शून्य हैं। |
4 | order {Str in {'C', 'F'}, डिफ़ॉल्ट = 'C' यह पैरामीटर घने मामले में आउटपुट सरणी के आदेश का प्रतिनिधित्व करता है। 'एफ' ऑर्डर का मतलब तेजी से गणना करना है लेकिन दूसरी ओर, यह बाद के अनुमानकों को धीमा कर सकता है। |
गुण
अनुसरण तालिका में उपयोग की जाने वाली विशेषताएँ शामिल हैं PolynomialFeatures मापांक
अनु क्रमांक | विशेषताएँ और विवरण |
---|---|
1 | powers_ - सरणी, आकार (n_output_features, n_input_features) यह शक्तियाँ दिखाता है_ [i, j] ith आउटपुट में jth इनपुट का प्रतिपादक है। |
2 | n_input_features _ - इंट जैसा कि नाम से पता चलता है, यह कुल इनपुट विशेषताओं को देता है। |
3 | n_output_features _ - इंट जैसा कि नाम से पता चलता है, यह बहुपद आउटपुट सुविधाओं की कुल संख्या देता है। |
कार्यान्वयन उदाहरण
पायथन लिपि का उपयोग करता है PolynomialFeatures ट्रांसफार्मर के आकार में 8 (4,2) को बदलने के लिए ट्रांसफार्मर -
from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)
उत्पादन
array(
[
[ 1., 0., 1., 0., 0., 1.],
[ 1., 2., 3., 4., 6., 9.],
[ 1., 4., 5., 16., 20., 25.],
[ 1., 6., 7., 36., 42., 49.]
]
)
पाइपलाइन टूल्स का उपयोग करके स्ट्रीमिंग करना
प्रीप्रोसेसिंग के उपरोक्त प्रकार यानी इनपुट डेटा मैट्रिक्स को किसी दिए गए डिग्री के नए डेटा मैट्रिक्स में बदलना, इस के साथ सुव्यवस्थित किया जा सकता है Pipeline उपकरण, जो मूल रूप से एक में कई अनुमानकों की श्रृंखला के लिए उपयोग किए जाते हैं।
उदाहरण
प्रीप्रोसेसिंग को सुव्यवस्थित करने के लिए स्किकिट-लर्न की पाइपलाइन टूल्स का उपयोग करते हुए पायथन स्क्रिप्ट नीचे (क्रम -3 बहुपद डेटा के लिए फिट होगी)।
#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np
#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])
#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)
#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_
उत्पादन
array([ 3., -2., 1., -1.])
उपरोक्त आउटपुट से पता चलता है कि बहुपद सुविधाओं पर प्रशिक्षित रैखिक मॉडल सटीक इनपुट बहुपद गुणांक को पुनर्प्राप्त करने में सक्षम है।