Scikit Learn - Güçlendirme Yöntemleri
Bu bölümde, bir topluluk modeli oluşturmayı sağlayan Sklearn'daki güçlendirme yöntemlerini öğreneceğiz.
Güçlendirme yöntemleri, artımlı bir şekilde topluluk modeli oluşturur. Ana ilke, her bir temel model tahmin edicisini sırayla eğiterek modeli aşamalı olarak oluşturmaktır. Güçlü bir topluluk oluşturmak için, bu yöntemler temel olarak birden fazla eğitim verisi yinelemesi üzerinden sırayla eğitilen birkaç haftalık öğrenciyi birleştirir. Sklearn.ensemble modülü aşağıdaki iki yükseltme yöntemine sahip.
AdaBoost
Veri kümesindeki örneklere ağırlık vermelerinin ana anahtarı olan en başarılı boosting ensemble yöntemlerinden biridir. Bu nedenle, algoritmanın sonraki modelleri oluştururken örneklere daha az dikkat etmesi gerekiyor.
AdaBoost ile Sınıflandırma
AdaBoost sınıflandırıcı oluşturmak için Scikit-learn modülü şunları sağlar: sklearn.ensemble.AdaBoostClassifier. Bu sınıflandırıcıyı oluştururken, bu modülün kullandığı ana parametrebase_estimator. Burada, base_estimator,base estimatorgüçlendirilmiş topluluğun yapıldığı yer. Bu parametrenin değerini hiçbiri olarak seçmezsek, temel tahminciDecisionTreeClassifier(max_depth=1).
Uygulama örneği
Aşağıdaki örnekte, kullanarak bir AdaBoost sınıflandırıcısı oluşturuyoruz. sklearn.ensemble.AdaBoostClassifier ve ayrıca puanını tahmin etme ve kontrol etme.
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10,n_informative = 2, n_redundant = 0,random_state = 0, shuffle = False)
ADBclf = AdaBoostClassifier(n_estimators = 100, random_state = 0)
ADBclf.fit(X, y)
Çıktı
AdaBoostClassifier(algorithm = 'SAMME.R', base_estimator = None,
learning_rate = 1.0, n_estimators = 100, random_state = 0)
Misal
Takıldıktan sonra, yeni değerleri şu şekilde tahmin edebiliriz:
print(ADBclf.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))
Çıktı
[1]
Misal
Şimdi skoru şu şekilde kontrol edebiliriz -
ADBclf.score(X, y)
Çıktı
0.995
Misal
Extra-Tree yöntemini kullanarak sınıflandırıcı oluşturmak için sklearn veri kümesini de kullanabiliriz. Örneğin, aşağıda verilen bir örnekte, Pima-Indian veri setini kullanıyoruz.
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = AdaBoostClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())
Çıktı
0.7851435406698566
AdaBoost ile Regresyon
Ada Boost yöntemiyle bir regresör oluşturmak için Scikit-learn kitaplığı, sklearn.ensemble.AdaBoostRegressor. Regresör oluştururken, aynı parametreleri kullanacaktır.sklearn.ensemble.AdaBoostClassifier.
Uygulama örneği
Aşağıdaki örnekte, kullanarak bir AdaBoost regresörü oluşturuyoruz. sklearn.ensemble.AdaBoostregressor ve ayrıca predikt () yöntemini kullanarak yeni değerleri tahmin etme.
from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ADBregr = RandomForestRegressor(random_state = 0,n_estimators = 100)
ADBregr.fit(X, y)
Çıktı
AdaBoostRegressor(base_estimator = None, learning_rate = 1.0, loss = 'linear',
n_estimators = 100, random_state = 0)
Misal
Takıldıktan sonra aşağıdaki gibi regresyon modelinden tahmin edebiliriz -
print(ADBregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))
Çıktı
[85.50955817]
Gradyan Ağacı Güçlendirme
Aynı zamanda Gradient Boosted Regression Trees(GRBT). Temelde, keyfi türevlenebilir kayıp fonksiyonlarına desteklemenin bir genellemesidir. Hafta tahmin modelleri topluluğu şeklinde bir tahmin modeli üretir. Regresyon ve sınıflandırma problemleri için kullanılabilir. Ana avantajları, karışık tipteki verileri doğal olarak ele almalarıdır.
Gradient Tree Boost ile Sınıflandırma
Bir Gradient Tree Boost sınıflandırıcısı oluşturmak için Scikit-learn modülü şunları sağlar: sklearn.ensemble.GradientBoostingClassifier. Bu sınıflandırıcıyı oluştururken, bu modülün kullandığı ana parametre 'kayıp'tır. Burada 'kayıp', optimize edilecek kayıp fonksiyonunun değeridir. Kayıp = sapma seçersek, olasılıklı çıktılarla sınıflandırma için sapmayı ifade eder.
Öte yandan, bu parametrenin değerini üstel olarak seçersek, AdaBoost algoritmasını kurtarır. Parametren_estimatorshaftalık öğrenci sayısını kontrol edecek. Adlı bir hiper parametrelearning_rate ((0.0, 1.0] aralığında) büzülme yoluyla aşırı uydurmayı kontrol edecektir.
Uygulama örneği
Aşağıdaki örnekte, kullanarak bir Gradient Boosting sınıflandırıcısı oluşturuyoruz. sklearn.ensemble.GradientBoostingClassifier. Bu sınıflandırıcıyı 50 haftalık öğrenciler için uygun hale getiriyoruz.
from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state = 0)
X_train, X_test = X[:5000], X[5000:]
y_train, y_test = y[:5000], y[5000:]
GDBclf = GradientBoostingClassifier(n_estimators = 50, learning_rate = 1.0,max_depth = 1, random_state = 0).fit(X_train, y_train)
GDBclf.score(X_test, y_test)
Çıktı
0.8724285714285714
Misal
Gradient Boosting Classifier kullanarak sınıflandırıcı oluşturmak için sklearn veri kümesini de kullanabiliriz. Aşağıdaki örnekte olduğu gibi Pima-Indian veri kümesini kullanıyoruz.
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = GradientBoostingClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())
Çıktı
0.7946582356674234
Gradient Tree Boost ile Regresyon
Gradient Tree Boost yöntemiyle bir regresör oluşturmak için Scikit-learn kitaplığı, sklearn.ensemble.GradientBoostingRegressor. Parametre adı kaybı yoluyla regresyon için kayıp fonksiyonunu belirleyebilir. Kayıp için varsayılan değer 'ls'dir.
Uygulama örneği
Aşağıdaki örnekte, kullanarak bir Gradyan Artırma regresörü oluşturuyoruz sklearn.ensemble.GradientBoostingregressor ve ayrıca mean_squared_error () yöntemini kullanarak ortalama kare hatayı bulma.
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples = 2000, random_state = 0, noise = 1.0)
X_train, X_test = X[:1000], X[1000:]
y_train, y_test = y[:1000], y[1000:]
GDBreg = GradientBoostingRegressor(n_estimators = 80, learning_rate=0.1,
max_depth = 1, random_state = 0, loss = 'ls').fit(X_train, y_train)
Bir kez yerleştirildikten sonra, ortalama kare hatayı aşağıdaki gibi bulabiliriz -
mean_squared_error(y_test, GDBreg.predict(X_test))
Çıktı
5.391246106657164