Scikit Learn - Güçlendirme Yöntemleri

Bu bölümde, bir topluluk modeli oluşturmayı sağlayan Sklearn'daki güçlendirme yöntemlerini öğreneceğiz.

Güçlendirme yöntemleri, artımlı bir şekilde topluluk modeli oluşturur. Ana ilke, her bir temel model tahmin edicisini sırayla eğiterek modeli aşamalı olarak oluşturmaktır. Güçlü bir topluluk oluşturmak için, bu yöntemler temel olarak birden fazla eğitim verisi yinelemesi üzerinden sırayla eğitilen birkaç haftalık öğrenciyi birleştirir. Sklearn.ensemble modülü aşağıdaki iki yükseltme yöntemine sahip.

AdaBoost

Veri kümesindeki örneklere ağırlık vermelerinin ana anahtarı olan en başarılı boosting ensemble yöntemlerinden biridir. Bu nedenle, algoritmanın sonraki modelleri oluştururken örneklere daha az dikkat etmesi gerekiyor.

AdaBoost ile Sınıflandırma

AdaBoost sınıflandırıcı oluşturmak için Scikit-learn modülü şunları sağlar: sklearn.ensemble.AdaBoostClassifier. Bu sınıflandırıcıyı oluştururken, bu modülün kullandığı ana parametrebase_estimator. Burada, base_estimator,base estimatorgüçlendirilmiş topluluğun yapıldığı yer. Bu parametrenin değerini hiçbiri olarak seçmezsek, temel tahminciDecisionTreeClassifier(max_depth=1).

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir AdaBoost sınıflandırıcısı oluşturuyoruz. sklearn.ensemble.AdaBoostClassifier ve ayrıca puanını tahmin etme ve kontrol etme.

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10,n_informative = 2, n_redundant = 0,random_state = 0, shuffle = False)
ADBclf = AdaBoostClassifier(n_estimators = 100, random_state = 0)
ADBclf.fit(X, y)

Çıktı

AdaBoostClassifier(algorithm = 'SAMME.R', base_estimator = None,
learning_rate = 1.0, n_estimators = 100, random_state = 0)

Misal

Takıldıktan sonra, yeni değerleri şu şekilde tahmin edebiliriz:

print(ADBclf.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

Çıktı

[1]

Misal

Şimdi skoru şu şekilde kontrol edebiliriz -

ADBclf.score(X, y)

Çıktı

0.995

Misal

Extra-Tree yöntemini kullanarak sınıflandırıcı oluşturmak için sklearn veri kümesini de kullanabiliriz. Örneğin, aşağıda verilen bir örnekte, Pima-Indian veri setini kullanıyoruz.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = AdaBoostClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

Çıktı

0.7851435406698566

AdaBoost ile Regresyon

Ada Boost yöntemiyle bir regresör oluşturmak için Scikit-learn kitaplığı, sklearn.ensemble.AdaBoostRegressor. Regresör oluştururken, aynı parametreleri kullanacaktır.sklearn.ensemble.AdaBoostClassifier.

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir AdaBoost regresörü oluşturuyoruz. sklearn.ensemble.AdaBoostregressor ve ayrıca predikt () yöntemini kullanarak yeni değerleri tahmin etme.

from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ADBregr = RandomForestRegressor(random_state = 0,n_estimators = 100)
ADBregr.fit(X, y)

Çıktı

AdaBoostRegressor(base_estimator = None, learning_rate = 1.0, loss = 'linear',
n_estimators = 100, random_state = 0)

Misal

Takıldıktan sonra aşağıdaki gibi regresyon modelinden tahmin edebiliriz -

print(ADBregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

Çıktı

[85.50955817]

Gradyan Ağacı Güçlendirme

Aynı zamanda Gradient Boosted Regression Trees(GRBT). Temelde, keyfi türevlenebilir kayıp fonksiyonlarına desteklemenin bir genellemesidir. Hafta tahmin modelleri topluluğu şeklinde bir tahmin modeli üretir. Regresyon ve sınıflandırma problemleri için kullanılabilir. Ana avantajları, karışık tipteki verileri doğal olarak ele almalarıdır.

Gradient Tree Boost ile Sınıflandırma

Bir Gradient Tree Boost sınıflandırıcısı oluşturmak için Scikit-learn modülü şunları sağlar: sklearn.ensemble.GradientBoostingClassifier. Bu sınıflandırıcıyı oluştururken, bu modülün kullandığı ana parametre 'kayıp'tır. Burada 'kayıp', optimize edilecek kayıp fonksiyonunun değeridir. Kayıp = sapma seçersek, olasılıklı çıktılarla sınıflandırma için sapmayı ifade eder.

Öte yandan, bu parametrenin değerini üstel olarak seçersek, AdaBoost algoritmasını kurtarır. Parametren_estimatorshaftalık öğrenci sayısını kontrol edecek. Adlı bir hiper parametrelearning_rate ((0.0, 1.0] aralığında) büzülme yoluyla aşırı uydurmayı kontrol edecektir.

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir Gradient Boosting sınıflandırıcısı oluşturuyoruz. sklearn.ensemble.GradientBoostingClassifier. Bu sınıflandırıcıyı 50 haftalık öğrenciler için uygun hale getiriyoruz.

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state = 0)
X_train, X_test = X[:5000], X[5000:]
y_train, y_test = y[:5000], y[5000:]

GDBclf = GradientBoostingClassifier(n_estimators = 50, learning_rate = 1.0,max_depth = 1, random_state = 0).fit(X_train, y_train)
GDBclf.score(X_test, y_test)

Çıktı

0.8724285714285714

Misal

Gradient Boosting Classifier kullanarak sınıflandırıcı oluşturmak için sklearn veri kümesini de kullanabiliriz. Aşağıdaki örnekte olduğu gibi Pima-Indian veri kümesini kullanıyoruz.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = GradientBoostingClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

Çıktı

0.7946582356674234

Gradient Tree Boost ile Regresyon

Gradient Tree Boost yöntemiyle bir regresör oluşturmak için Scikit-learn kitaplığı, sklearn.ensemble.GradientBoostingRegressor. Parametre adı kaybı yoluyla regresyon için kayıp fonksiyonunu belirleyebilir. Kayıp için varsayılan değer 'ls'dir.

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir Gradyan Artırma regresörü oluşturuyoruz sklearn.ensemble.GradientBoostingregressor ve ayrıca mean_squared_error () yöntemini kullanarak ortalama kare hatayı bulma.

import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples = 2000, random_state = 0, noise = 1.0)
X_train, X_test = X[:1000], X[1000:]
y_train, y_test = y[:1000], y[1000:]
GDBreg = GradientBoostingRegressor(n_estimators = 80, learning_rate=0.1,
max_depth = 1, random_state = 0, loss = 'ls').fit(X_train, y_train)

Bir kez yerleştirildikten sonra, ortalama kare hatayı aşağıdaki gibi bulabiliriz -

mean_squared_error(y_test, GDBreg.predict(X_test))

Çıktı

5.391246106657164