स्किकिट सीखें - बूस्टिंग मेथड्स

इस अध्याय में, हम स्केलेर में बूस्टिंग विधियों के बारे में जानेंगे, जो एक पहनावा मॉडल बनाने में सक्षम बनाता है।

बूस्टिंग तरीके एक वृद्धि तरीके से पहनावा मॉडल का निर्माण करते हैं। मुख्य सिद्धांत प्रत्येक बेस मॉडल अनुमानक को क्रमिक रूप से प्रशिक्षित करके मॉडल का निर्माण करना है। शक्तिशाली पहनावा बनाने के लिए, ये विधियाँ मूल रूप से कई सप्ताह के शिक्षार्थियों को जोड़ती हैं जिन्हें प्रशिक्षण डेटा के कई पुनरावृत्तियों पर क्रमिक रूप से प्रशिक्षित किया जाता है। Sklearn.ensemble मॉड्यूल दो बूस्टिंग विधियों का पालन कर रहा है।

AdaBoost

यह सबसे सफल बूस्टिंग एन्सेम्बल विधि में से एक है जिसकी मुख्य कुंजी वे डेटासेट में इंस्टेंस को वेट देने के तरीके में है। यही कारण है कि एल्गोरिथ्म को बाद के मॉडल का निर्माण करते समय उदाहरणों पर कम ध्यान देने की आवश्यकता है।

AdaBoost के साथ वर्गीकरण

AdaBoost क्लासिफायर बनाने के लिए, Scikit-learn मॉड्यूल प्रदान करता है sklearn.ensemble.AdaBoostClassifier। इस क्लासिफायर का निर्माण करते समय, मुख्य मॉड्यूल इस मॉड्यूल का उपयोग करता हैbase_estimator। यहाँ, base_estimator का मान हैbase estimatorजिससे बढ़ा हुआ पहनावा बनाया जाता है। यदि हम इस पैरामीटर के मूल्य को किसी के लिए नहीं चुनते हैं, तो आधार अनुमानक होगाDecisionTreeClassifier(max_depth=1)

कार्यान्वयन का उदाहरण

निम्नलिखित उदाहरण में, हम उपयोग करके AdaBoost क्लासिफायरियर बना रहे हैं sklearn.ensemble.AdaBoostClassifier और इसके स्कोर की भविष्यवाणी करना और जांचना भी।

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10,n_informative = 2, n_redundant = 0,random_state = 0, shuffle = False)
ADBclf = AdaBoostClassifier(n_estimators = 100, random_state = 0)
ADBclf.fit(X, y)

उत्पादन

AdaBoostClassifier(algorithm = 'SAMME.R', base_estimator = None,
learning_rate = 1.0, n_estimators = 100, random_state = 0)

उदाहरण

एक बार फिट होने के बाद, हम नए मूल्यों के लिए भविष्यवाणी कर सकते हैं -

print(ADBclf.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

उत्पादन

[1]

उदाहरण

अब हम स्कोर की जाँच इस प्रकार कर सकते हैं -

ADBclf.score(X, y)

उत्पादन

0.995

उदाहरण

हम एक्स्ट्रा-ट्री विधि का उपयोग करके क्लासिफायर बनाने के लिए स्केलेरियन डेटासेट का भी उपयोग कर सकते हैं। उदाहरण के लिए, नीचे दिए गए उदाहरण में, हम Pima-Indian डेटासेट का उपयोग कर रहे हैं।

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = AdaBoostClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

उत्पादन

0.7851435406698566

AdaBoost के साथ प्रतिगमन

एडा बूस्ट विधि के साथ एक रजिस्ट्रार बनाने के लिए, स्किटिट-लर्न लाइब्रेरी प्रदान करता है sklearn.ensemble.AdaBoostRegressor। रजिस्ट्रार का निर्माण करते समय, यह उसी मापदंडों का उपयोग करेगा जैसा कि उपयोग किया जाता हैsklearn.ensemble.AdaBoostClassifier

कार्यान्वयन का उदाहरण

निम्नलिखित उदाहरण में, हम उपयोग करके AdaBoost regressor बना रहे हैं sklearn.ensemble.AdaBoostregressor और भविष्यवाणी () विधि का उपयोग करके नए मूल्यों के लिए भी भविष्यवाणी कर रहा है।

from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ADBregr = RandomForestRegressor(random_state = 0,n_estimators = 100)
ADBregr.fit(X, y)

उत्पादन

AdaBoostRegressor(base_estimator = None, learning_rate = 1.0, loss = 'linear',
n_estimators = 100, random_state = 0)

उदाहरण

एक बार फिट होने के बाद हम प्रतिगमन मॉडल से निम्नानुसार भविष्यवाणी कर सकते हैं -

print(ADBregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

उत्पादन

[85.50955817]

ग्रेडिएंट ट्री बूस्टिंग

इसे भी कहा जाता है Gradient Boosted Regression Trees(GRBT)। यह मूल रूप से विभेदक नुकसान कार्यों को बढ़ाने के लिए सामान्यीकरण है। यह सप्ताह भविष्यवाणी मॉडल के कलाकारों की टुकड़ी के रूप में एक भविष्यवाणी मॉडल का उत्पादन करता है। इसका उपयोग प्रतिगमन और वर्गीकरण समस्याओं के लिए किया जा सकता है। उनका मुख्य लाभ इस तथ्य में निहित है कि वे स्वाभाविक रूप से मिश्रित प्रकार के डेटा को संभालते हैं।

ग्रेडिएंट ट्री बूस्ट के साथ वर्गीकरण

ग्रेडिएंट ट्री बूस्ट क्लासिफायरियर बनाने के लिए, स्किकिट-लर्न मॉड्यूल प्रदान करता है sklearn.ensemble.GradientBoostingClassifier। इस क्लासिफायर का निर्माण करते समय, इस मॉड्यूल का मुख्य पैरामीटर 'नुकसान' है। यहां, 'हानि' नुकसान फ़ंक्शन को अनुकूलित करने का मूल्य है। यदि हम नुकसान = विचलन चुनते हैं, तो यह संभाव्य आउटपुट के साथ वर्गीकरण के लिए विचलन को संदर्भित करता है।

दूसरी ओर, यदि हम घातांक के इस मान को चुनते हैं तो यह AdaBoost एल्गोरिथ्म को पुनः प्राप्त करता है। पैरामीटरn_estimatorsसप्ताह सीखने वालों की संख्या को नियंत्रित करेगा। नामक हाइपर-पैरामीटरlearning_rate (०.० की रेंज में (०.०, १.०]) सिकुड़न के माध्यम से ओवरफिटिंग को नियंत्रित करेगा।

कार्यान्वयन का उदाहरण

निम्नलिखित उदाहरण में, हम उपयोग करके ग्रेडिएंट बूस्टिंग क्लासिफायर का निर्माण कर रहे हैं sklearn.ensemble.GradientBoostingClassifier। हम इस क्लासिफायर को 50 सप्ताह के शिक्षार्थियों के साथ फिट कर रहे हैं।

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state = 0)
X_train, X_test = X[:5000], X[5000:]
y_train, y_test = y[:5000], y[5000:]

GDBclf = GradientBoostingClassifier(n_estimators = 50, learning_rate = 1.0,max_depth = 1, random_state = 0).fit(X_train, y_train)
GDBclf.score(X_test, y_test)

उत्पादन

0.8724285714285714

उदाहरण

हम ग्रेडिएंट बूस्टिंग क्लासिफायर का उपयोग करके क्लासिफायर बनाने के लिए स्केलेरियन डेटासेट का भी उपयोग कर सकते हैं। निम्नलिखित उदाहरण के रूप में हम पीमा-भारतीय डेटासेट का उपयोग कर रहे हैं।

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = GradientBoostingClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

उत्पादन

0.7946582356674234

ग्रेडिएंट ट्री बूस्ट के साथ प्रतिगमन

ग्रेडिएंट ट्री बूस्ट विधि के साथ एक रजिस्ट्रार बनाने के लिए, स्किटिट-लर्न लाइब्रेरी प्रदान करता है sklearn.ensemble.GradientBoostingRegressor। यह पैरामीटर नाम हानि के माध्यम से प्रतिगमन के लिए नुकसान फ़ंक्शन को निर्दिष्ट कर सकता है। नुकसान के लिए डिफ़ॉल्ट मान 'एलएस' है।

कार्यान्वयन का उदाहरण

निम्नलिखित उदाहरण में, हम उपयोग करके ग्रेडिएंट बूस्टिंग रेजिस्टर का निर्माण कर रहे हैं sklearn.ensemble.GradientBoostingregressor और mean_squared_error () विधि का उपयोग करके माध्य चुकता त्रुटि का पता लगाना।

import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples = 2000, random_state = 0, noise = 1.0)
X_train, X_test = X[:1000], X[1000:]
y_train, y_test = y[:1000], y[1000:]
GDBreg = GradientBoostingRegressor(n_estimators = 80, learning_rate=0.1,
max_depth = 1, random_state = 0, loss = 'ls').fit(X_train, y_train)

एक बार फिट होने के बाद हम निम्नानुसार चुकता त्रुटि पा सकते हैं -

mean_squared_error(y_test, GDBreg.predict(X_test))

उत्पादन

5.391246106657164