Scikit Learn - Hızlı Kılavuz

Bu bölümde, Scikit-Learn veya Sklearn'ın ne olduğunu, Scikit-Learn'ün kökenini ve Scikit-Learn'ün geliştirilmesi ve bakımından sorumlu topluluklar ve katkıda bulunanlar, ön koşulları, kurulumu ve özellikleri gibi diğer ilgili konuları anlayacağız.

Scikit-Learn (Sklearn) Nedir

Scikit-learn (Sklearn), Python'da makine öğrenimi için en kullanışlı ve sağlam kitaplıktır. Python'daki bir tutarlılık arabirimi aracılığıyla sınıflandırma, regresyon, kümeleme ve boyutsallık azaltma dahil olmak üzere makine öğrenimi ve istatistiksel modelleme için verimli araçlar sunar. Büyük ölçüde Python'da yazılan bu kütüphane,NumPy, SciPy ve Matplotlib.

Scikit-Learn'ün Kökeni

Başlangıçta çağrıldı scikits.learn ve başlangıçta David Cournapeau tarafından 2007'de bir Google yaz kod projesi olarak geliştirildi. Daha sonra, 2010'da FIRCA'dan (Fransız Bilgisayar Bilimi ve Otomasyon Araştırma Enstitüsü) Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort ve Vincent Michel aldı bu proje başka bir seviyede ve ilk genel yayınını (v0.1 beta) 1 Şubat 2010'da yaptı.

Sürüm geçmişine bir göz atalım -

  • Mayıs 2019: scikit-learn 0.21.0

  • Mart 2019: scikit-learn 0.20.3

  • Aralık 2018: scikit-learn 0.20.2

  • Kasım 2018: scikit-learn 0.20.1

  • Eylül 2018: scikit-learn 0.20.0

  • Temmuz 2018: scikit-learn 0.19.2

  • Temmuz 2017: scikit-learn 0.19.0

  • Eylül 2016. scikit-learn 0.18.0

  • Kasım 2015. scikit-learn 0.17.0

  • Mart 2015. scikit-learn 0.16.0

  • Temmuz 2014. scikit-learn 0.15.0

  • Ağustos 2013. scikit-learn 0.14

Topluluk ve katkıda bulunanlar

Scikit-learn bir topluluk çabasıdır ve herkes katkıda bulunabilir. Bu proje şu tarihte barındırılıyor:https://github.com/scikit-learn/scikit-learn. Aşağıdaki kişiler şu anda Sklearn'ın geliştirme ve bakımına temel katkıda bulunanlardır -

  • Joris Van den Bossche (Veri Bilimcisi)

  • Thomas J Fan (Yazılım Geliştirici)

  • Alexandre Gramfort (Makine Öğrenimi Araştırmacısı)

  • Olivier Grisel (Makine Öğrenimi Uzmanı)

  • Nicolas Hug (Yardımcı Araştırma Bilimcisi)

  • Andreas Mueller (Makine Öğrenimi Bilimcisi)

  • Hanmin Qin (Yazılım Mühendisi)

  • Adrin Jalali (Açık Kaynak Geliştirici)

  • Nelle Varoquaux (Veri Bilimi Araştırmacısı)

  • Roman Yurchak (Veri Bilimcisi)

Booking.com, JP Morgan, Evernote, Inria, AWeber, Spotify ve çok daha fazlası gibi çeşitli kuruluşlar Sklearn kullanıyor.

Önkoşullar

Scikit-learn en son sürümünü kullanmaya başlamadan önce aşağıdakilere ihtiyacımız var -

  • Python (> = 3.5)

  • NumPy (> = 1.11.0)

  • Scipy (> = 0.17.0) li

  • Joblib (> = 0.11)

  • Sklearn çizim yetenekleri için Matplotlib (> = 1.5.1) gereklidir.

  • Veri yapısı ve analizi kullanan scikit-learn örneklerinden bazıları için pandalar (> = 0.18.0) gereklidir.

Kurulum

Zaten NumPy ve Scipy'yi yüklediyseniz, scikit-learn'ü kurmanın en kolay iki yolu aşağıdadır -

Pip kullanma

Scikit-learn'ü pip aracılığıyla yüklemek için aşağıdaki komut kullanılabilir -

pip install -U scikit-learn

Conda kullanma

Scikit-learn'ü conda aracılığıyla yüklemek için aşağıdaki komut kullanılabilir -

conda install scikit-learn

Öte yandan, NumPy ve Scipy Python iş istasyonunuza henüz kurulmadıysa, bunları aşağıdakilerden birini kullanarak kurabilirsiniz: pip veya conda.

Scikit-learn'ü kullanmanın bir başka seçeneği de Python dağıtımlarını kullanmaktır. Canopy ve Anaconda çünkü ikisi de scikit-learn'ün en son sürümünü gönderiyor.

Özellikleri

Scikit-learn kütüphanesi, verileri yüklemeye, işlemeye ve özetlemeye odaklanmak yerine, verileri modellemeye odaklanmıştır. Sklearn tarafından sağlanan en popüler model gruplarından bazıları aşağıdaki gibidir -

Supervised Learning algorithms - Doğrusal Regresyon, Destek Vektör Makinesi (SVM), Karar Ağacı vb. Gibi hemen hemen tüm popüler denetimli öğrenme algoritmaları scikit-learn'ün bir parçasıdır.

Unsupervised Learning algorithms - Öte yandan, kümeleme, faktör analizi, PCA'dan (Ana Bileşen Analizi) denetimsiz sinir ağlarına kadar tüm popüler denetimsiz öğrenme algoritmalarına da sahiptir.

Clustering - Bu model, etiketlenmemiş verileri gruplamak için kullanılır.

Cross Validation - Denetlenen modellerin görünmeyen veriler üzerindeki doğruluğunu kontrol etmek için kullanılır.

Dimensionality Reduction - Daha sonra özetleme, görselleştirme ve özellik seçimi için kullanılabilecek verilerdeki özniteliklerin sayısını azaltmak için kullanılır.

Ensemble methods - Adından da anlaşılacağı gibi, birden fazla denetlenen modelin tahminlerini birleştirmek için kullanılır.

Feature extraction - Görüntü ve metin verilerindeki öznitelikleri tanımlamak için verilerden öznitelikleri çıkarmak için kullanılır.

Feature selection - Denetimli modeller oluşturmak için yararlı öznitelikleri belirlemek için kullanılır.

Open Source - Açık kaynak kitaplığıdır ve ayrıca BSD lisansı altında ticari olarak kullanılabilir.

Bu bölüm, Sklearn ile ilgili modelleme sürecini ele almaktadır. Aynı şeyi ayrıntılı olarak anlayalım ve veri kümesi yüklemesi ile başlayalım.

Veri Kümesi Yükleniyor

Bir veri koleksiyonuna veri kümesi adı verilir. Aşağıdaki iki bileşene sahiptir -

Features- Verilerin değişkenlerine özellikleri denir. Tahmin ediciler, girdiler veya öznitelikler olarak da bilinirler.

  • Feature matrix - Birden fazla olması durumunda özelliklerin toplamıdır.

  • Feature Names - Özelliklerin tüm adlarının listesidir.

Response- Temelde özellik değişkenlerine bağlı olan çıktı değişkenidir. Aynı zamanda hedef, etiket veya çıktı olarak da bilinirler.

  • Response Vector- Yanıt sütununu temsil etmek için kullanılır. Genellikle tek bir yanıt sütunumuz vardır.

  • Target Names - Bir yanıt vektörü tarafından alınan olası değerleri temsil eder.

Scikit-learn aşağıdaki gibi birkaç örnek veri kümesine sahiptir: iris ve digits sınıflandırma için ve Boston house prices regresyon için.

Misal

Aşağıdaki yüklemek için bir örnek iris veri kümesi -

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names
print("Feature names:", feature_names)
print("Target names:", target_names)
print("\nFirst 10 rows of X:\n", X[:10])

Çıktı

Feature names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Target names: ['setosa' 'versicolor' 'virginica']
First 10 rows of X:
[
   [5.1 3.5 1.4 0.2]
   [4.9 3. 1.4 0.2]
   [4.7 3.2 1.3 0.2]
   [4.6 3.1 1.5 0.2]
   [5. 3.6 1.4 0.2]
   [5.4 3.9 1.7 0.4]
   [4.6 3.4 1.4 0.3]
   [5. 3.4 1.5 0.2]
   [4.4 2.9 1.4 0.2]
   [4.9 3.1 1.5 0.1]
]

Veri kümesini bölme

Modelimizin doğruluğunu kontrol etmek için veri setini iki parçaya ayırabiliriz.a training set ve a testing set. Modeli test etmek için modeli ve test setini eğitmek için eğitim setini kullanın. Bundan sonra modelimizin ne kadar iyi yaptığını değerlendirebiliriz.

Misal

Aşağıdaki örnek, verileri 70:30 oranına bölecektir, yani% 70 veri eğitim verisi olarak ve% 30'u test verisi olarak kullanılacaktır. Veri kümesi, yukarıdaki örnekte olduğu gibi iris veri kümesidir.

from sklearn.datasets import load_iris
iris = load_iris()

X = iris.data
y = iris.target

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
   X, y, test_size = 0.3, random_state = 1
)

print(X_train.shape)
print(X_test.shape)

print(y_train.shape)
print(y_test.shape)

Çıktı

(105, 4)
(45, 4)
(105,)
(45,)

Yukarıdaki örnekte görüldüğü gibi, train_test_split()scikit-learn işlevi veri kümesini bölmek için kullanılır. Bu işlev aşağıdaki bağımsız değişkenlere sahiptir -

  • X, y - Burada, X ... feature matrix ve y response vectorbölünmesi gereken.

  • test_size- Bu, test verilerinin verilen toplam verilere oranını temsil eder. Yukarıdaki örnekte olduğu gibi,test_data = 0.3 150 satır X için. 150 * 0.3 = 45 satırlık test verisi üretecektir.

  • random_size- Bölmenin her zaman aynı olacağını garanti etmek için kullanılır. Bu, tekrarlanabilir sonuçlar istediğiniz durumlarda kullanışlıdır.

Modeli Eğit

Daha sonra, bazı tahmin modellerini eğitmek için veri setimizi kullanabiliriz. Tartışıldığı gibi, scikit-learn'ün geniş birMachine Learning (ML) algorithms uydurma, doğruluğu tahmin etme, geri çağırma vb. için tutarlı bir arayüze sahip olan

Misal

Aşağıdaki örnekte, KNN (K en yakın komşu) sınıflandırıcısını kullanacağız. Bunun için ayrı bir bölüm olacağından KNN algoritmalarının ayrıntılarına girmeyin. Bu örnek, yalnızca uygulama kısmını anlamanızı sağlamak için kullanılır.

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
   X, y, test_size = 0.4, random_state=1
)
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors = 3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Finding accuracy by comparing actual response values(y_test)with predicted response value(y_pred)
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
# Providing sample data and the model will make prediction out of that data

sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] print("Predictions:", pred_species)

Çıktı

Accuracy: 0.9833333333333333
Predictions: ['versicolor', 'virginica']

Model Kalıcılığı

Modeli eğittikten sonra, modeli tekrar tekrar eğitmemize gerek kalmaması için modelin ileride kullanılmak üzere ısrarcı olması arzu edilir. Yardımı ile yapılabilirdump ve load özellikleri joblib paketi.

İleride kullanmak üzere yukarıdaki eğitilmiş modeli (classifier_knn) kaydedeceğimiz aşağıdaki örneği düşünün -

from sklearn.externals import joblib
joblib.dump(classifier_knn, 'iris_classifier_knn.joblib')

Yukarıdaki kod, modeli iris_classifier_knn.joblib adlı dosyaya kaydedecektir. Şimdi, nesne aşağıdaki kod yardımıyla dosyadan yeniden yüklenebilir -

joblib.load('iris_classifier_knn.joblib')

Verileri Ön İşleme

Çok fazla veriyle uğraştığımız için ve bu veriler ham biçimde olduğundan, bu verileri makine öğrenimi algoritmalarına girmeden önce, bunları anlamlı verilere dönüştürmemiz gerekiyor. Bu işleme, verilerin ön işleme adı verilir. Scikit-learn adlı paket varpreprocessingbu amaç için. preprocessing paket aşağıdaki tekniklere sahiptir -

İkiye ayırma

Bu ön işleme tekniği, sayısal değerlerimizi Boole değerlerine dönüştürmemiz gerektiğinde kullanılır.

Misal

import numpy as np
from sklearn import preprocessing
Input_data = np.array(
   [2.1, -1.9, 5.5],
   [-1.5, 2.4, 3.5],
   [0.5, -7.9, 5.6],
   [5.9, 2.3, -5.8]]
)
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\nBinarized data:\n", data_binarized)

Yukarıdaki örnekte kullandık threshold value = 0.5 ve bu nedenle, 0.5'in üzerindeki tüm değerler 1'e ve 0.5'in altındaki tüm değerler 0'a dönüştürülür.

Çıktı

Binarized data:
[
   [ 1. 0. 1.]
   [ 0. 1. 1.]
   [ 0. 0. 1.]
   [ 1. 1. 0.]
]

Ortalama Kaldırma

Bu teknik, özellik vektöründeki ortalamayı ortadan kaldırmak için kullanılır, böylece her özellik sıfıra ortalanır.

Misal

import numpy as np
from sklearn import preprocessing
Input_data = np.array(
   [2.1, -1.9, 5.5],
   [-1.5, 2.4, 3.5],
   [0.5, -7.9, 5.6],
   [5.9, 2.3, -5.8]]
)

#displaying the mean and the standard deviation of the input data
print("Mean =", input_data.mean(axis=0))
print("Stddeviation = ", input_data.std(axis=0))
#Removing the mean and the standard deviation of the input data

data_scaled = preprocessing.scale(input_data)
print("Mean_removed =", data_scaled.mean(axis=0))
print("Stddeviation_removed =", data_scaled.std(axis=0))

Çıktı

Mean = [ 1.75 -1.275 2.2 ]
Stddeviation = [ 2.71431391 4.20022321 4.69414529]
Mean_removed = [ 1.11022302e-16 0.00000000e+00 0.00000000e+00]
Stddeviation_removed = [ 1. 1. 1.]

Ölçeklendirme

Özellik vektörlerini ölçeklendirmek için bu ön işleme tekniğini kullanıyoruz. Özellik vektörlerinin ölçeklendirilmesi önemlidir çünkü özellikler sentetik olarak büyük veya küçük olmamalıdır.

Misal

import numpy as np
from sklearn import preprocessing
Input_data = np.array(
   [
      [2.1, -1.9, 5.5],
      [-1.5, 2.4, 3.5],
      [0.5, -7.9, 5.6],
      [5.9, 2.3, -5.8]
   ]
)
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nMin max scaled data:\n", data_scaled_minmax)

Çıktı

Min max scaled data:
[
   [ 0.48648649 0.58252427 0.99122807]
   [ 0. 1. 0.81578947]
   [ 0.27027027 0. 1. ]
   [ 1. 0.99029126 0. ]
]

Normalleştirme

Özellik vektörlerini değiştirmek için bu ön işleme tekniğini kullanıyoruz. Özellik vektörlerinin normalleştirilmesi, özellik vektörlerinin ortak ölçekte ölçülebilmesi için gereklidir. Aşağıdaki gibi iki tür normalleştirme vardır -

L1 Normalleştirme

Buna En Az Mutlak Sapmalar da denir. Değeri, mutlak değerlerin toplamı her satırda her zaman 1'e kadar kalacak şekilde değiştirir. Aşağıdaki örnek, giriş verilerinde L1 normalizasyonunun uygulanmasını göstermektedir.

Misal

import numpy as np
from sklearn import preprocessing
Input_data = np.array(
   [
      [2.1, -1.9, 5.5],
      [-1.5, 2.4, 3.5],
      [0.5, -7.9, 5.6],
      [5.9, 2.3, -5.8]
   ]
)
data_normalized_l1 = preprocessing.normalize(input_data, norm='l1')
print("\nL1 normalized data:\n", data_normalized_l1)

Çıktı

L1 normalized data:
[
   [ 0.22105263 -0.2 0.57894737]
   [-0.2027027 0.32432432 0.47297297]
   [ 0.03571429 -0.56428571 0.4 ]
   [ 0.42142857 0.16428571 -0.41428571]
]

L2 Normalleştirme

En Küçük Kareler olarak da adlandırılır. Değeri, karelerin toplamı her satırda her zaman 1'e kadar kalacak şekilde değiştirir. Aşağıdaki örnek, giriş verilerinde L2 normalizasyonunun uygulanmasını göstermektedir.

Misal

import numpy as np
from sklearn import preprocessing
Input_data = np.array(
   [
      [2.1, -1.9, 5.5],
      [-1.5, 2.4, 3.5],
      [0.5, -7.9, 5.6],
      [5.9, 2.3, -5.8]
   ]
)
data_normalized_l2 = preprocessing.normalize(input_data, norm='l2')
print("\nL1 normalized data:\n", data_normalized_l2)

Çıktı

L2 normalized data:
[
   [ 0.33946114 -0.30713151 0.88906489]
   [-0.33325106 0.53320169 0.7775858 ]
   [ 0.05156558 -0.81473612 0.57753446]
   [ 0.68706914 0.26784051 -0.6754239 ]
]

Makine öğreniminin verilerden model oluşturmak üzere olduğunu bildiğimiz gibi. Bunun için bilgisayarın önce verileri anlaması gerekir. Daha sonra, bilgisayar tarafından anlaşılması için verileri temsil etmenin çeşitli yollarını tartışacağız -

Tablo olarak veriler

Scikit-learn'de verileri temsil etmenin en iyi yolu tablolar biçimindedir. Bir tablo, satırların veri kümesinin tek tek öğelerini ve sütunların bu ayrı öğelerle ilgili miktarları temsil ettiği 2 boyutlu bir veri ızgarasını temsil eder.

Misal

Aşağıda verilen örnek ile indirebiliriz iris dataset python yardımıyla bir Pandas DataFrame şeklinde seaborn kütüphane.

import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()

Çıktı

sepal_length sepal_width petal_length petal_width  species
0        5.1      3.5         1.4             0.2   setosa
1        4.9      3.0         1.4             0.2   setosa
2        4.7      3.2         1.3             0.2   setosa
3        4.6      3.1         1.5             0.2   setosa
4        5.0      3.6         1.4             0.2   setosa

Yukarıdaki çıktıdan, verilerin her bir satırının tek bir gözlemlenen çiçeği temsil ettiğini ve satır sayısının veri kümesindeki toplam çiçek sayısını temsil ettiğini görebiliriz. Genel olarak, matrisin satırlarını örnek olarak adlandırırız.

Öte yandan, verilerin her bir sütunu, her bir numuneyi tanımlayan nicel bir bilgiyi temsil eder. Genel olarak, matrisin sütunlarını özellikler olarak adlandırırız.

Özellik Matrisi Olarak Veriler

Özellikler matrisi, bilgilerin 2 boyutlu bir matris olarak düşünülebileceği tablo düzeni olarak tanımlanabilir. Adlı bir değişkende saklanırXve [n_samples, n_features] şeklinde iki boyutlu olduğu varsayılmıştır. Çoğunlukla, bir NumPy dizisinde veya Pandas DataFrame'de bulunur. Daha önce de belirtildiği gibi, numuneler her zaman veri kümesi tarafından tanımlanan ayrı nesneleri temsil eder ve özellikler, her bir numuneyi nicel bir şekilde tanımlayan farklı gözlemleri temsil eder.

Hedef dizi olarak veriler

X ile gösterilen Özellikler matrisinin yanı sıra, hedef dizimiz de var. Aynı zamanda etiket olarak da adlandırılır. Y ile gösterilir. Etiket veya hedef dizi genellikle n_samples uzunluğuna sahip tek boyutludur. Genellikle NumPy'de bulunurarray veya Pandalar Series. Hedef dizi hem değerlere, sürekli sayısal değerlere hem de ayrık değerlere sahip olabilir.

Hedef dizinin özellik sütunlarından farkı nedir?

Hedef dizinin genellikle verilerden tahmin etmek istediğimiz miktar, yani istatistiksel olarak bağımlı değişken olduğu ikisini de bir noktayla ayırt edebiliriz.

Misal

Aşağıdaki örnekte, iris veri setinden çiçek türlerini diğer ölçümlere dayanarak tahmin ediyoruz. Bu durumda, Türler sütunu özellik olarak kabul edilecektir.

import seaborn as sns
iris = sns.load_dataset('iris')
%matplotlib inline
import seaborn as sns; sns.set()
sns.pairplot(iris, hue='species', height=3);

Çıktı

X_iris = iris.drop('species', axis=1)
X_iris.shape
y_iris = iris['species']
y_iris.shape

Çıktı

(150,4)
(150,)

Bu bölümde, aşağıdakileri öğreneceğiz Estimator API(uygulama programlama Arayüzü). Estimator API'nin ne olduğunu anlayarak başlayalım.

Estimator API nedir

Scikit-learn tarafından uygulanan ana API'lerden biridir. Çok çeşitli makine öğrenimi uygulamaları için tutarlı bir arayüz sağlar, bu nedenle Scikit-Learn'deki tüm makine öğrenimi algoritmaları Estimator API aracılığıyla uygulanır. Verilerden öğrenen nesne (veriyi uyduran) bir tahmincidir. Ham verilerden yararlı özellikleri çıkaran sınıflandırma, regresyon, kümeleme gibi algoritmalardan herhangi biriyle veya hatta bir transformatörle birlikte kullanılabilir.

Verileri uydurmak için, tüm tahminci nesneleri, aşağıdaki gibi gösterilen bir veri kümesini alan uygun bir yöntemi ortaya çıkarır -

estimator.fit(data)

Daha sonra, bir tahmin edicinin tüm parametreleri, karşılık gelen öznitelik tarafından somutlaştırıldığında aşağıdaki gibi ayarlanabilir.

estimator = Estimator (param1=1, param2=2)
estimator.param1

Yukarıdakinin çıktısı 1 olacaktır.

Veriler bir kestirimci ile uydurulduktan sonra, parametreler eldeki verilerden tahmin edilir. Şimdi, tüm tahmin edilen parametreler, aşağıdaki gibi bir alt çizgi ile biten tahmin edici nesnenin nitelikleri olacaktır -

estimator.estimated_param_

Estimator API Kullanımı

Tahmin edicilerin ana kullanımları aşağıdaki gibidir -

Bir modelin tahmini ve kod çözme

Tahmin edici nesnesi, bir modelin tahmin edilmesi ve kodunun çözülmesi için kullanılır. Ayrıca, model aşağıdakilerin deterministik bir işlevi olarak tahmin edilir -

  • Nesne yapımında sağlanan parametreler.

  • Tahmincinin random_state parametresi yok olarak ayarlanmışsa, genel rasgele durum (numpy.random).

  • En son çağrıya aktarılan veriler fit, fit_transform, or fit_predict.

  • Bir dizi çağrı ile iletilen herhangi bir veri partial_fit.

Dikdörtgen olmayan veri temsilini dikdörtgen veriye eşleme

Dikdörtgen olmayan bir veri gösterimini dikdörtgen veriye eşler. Basit bir deyişle, her örneğin sabit uzunlukta dizi benzeri bir nesne olarak temsil edilmediği ve her örnek için bir dizi benzeri özellik nesnesi üreten bir girdi alır.

Çekirdek ve dış örnekler arasındaki ayrım

Aşağıdaki yöntemleri kullanarak çekirdek ve dış örnekler arasındaki ayrımı modeller:

  • fit

  • transdüktif ise fit_predict

  • endüktif olup olmadığını tahmin et

Rehber ilkeler

Scikit-Learn API'yi tasarlarken aşağıdaki kılavuz ilkeleri göz önünde bulundurun:

Tutarlılık

Bu ilke, tüm nesnelerin sınırlı bir yöntem kümesinden çizilmiş ortak bir arabirimi paylaşması gerektiğini belirtir. Belgeler de tutarlı olmalıdır.

Sınırlı nesne hiyerarşisi

Bu yol gösterici ilke diyor ki -

  • Algoritmalar Python sınıfları tarafından temsil edilmelidir

  • Veri kümeleri NumPy dizileri, Pandas DataFrames, SciPy seyrek matrisi gibi standart formatta temsil edilmelidir.

  • Parametre adları standart Python dizelerini kullanmalıdır.

Kompozisyon

Bildiğimiz gibi, makine öğrenimi algoritmaları birçok temel algoritmanın dizisi olarak ifade edilebilir. Scikit-learn, gerektiğinde bu temel algoritmaları kullanır.

Mantıklı varsayılanlar

Bu prensibe göre, Scikit-learn kitaplığı, ML modelleri kullanıcı tanımlı parametreler gerektirdiğinde uygun bir varsayılan değer tanımlar.

Muayene

Bu yol gösterici ilkeye göre, belirtilen her parametre değeri, genel nitelikler olarak ortaya çıkar.

Estimator API'yi kullanma adımları

Scikit-Learn tahmin aracı API'sini kullanmanın adımları aşağıda verilmiştir -

1. Adım: Bir model sınıfı seçin

Bu ilk adımda, bir model sınıfı seçmemiz gerekiyor. Scikit-learn'den uygun Estimator sınıfını içe aktararak yapılabilir.

Adım 2: Model hiperparametrelerini seçin

Bu adımda, sınıf modeli hiperparametrelerini seçmemiz gerekiyor. Sınıfı istenen değerlerle somutlaştırarak yapılabilir.

Adım 3: Verileri düzenleme

Daha sonra, verileri özellik matrisi (X) ve hedef vektör (y) şeklinde düzenlemeliyiz.

Adım 4: Model Uydurma

Şimdi modeli verilerinize uydurmamız gerekiyor. Model örneğinin fit () yöntemini çağırarak yapılabilir.

Adım 5: Modeli uygulama

Modeli uydurduktan sonra yeni verilere uygulayabiliriz. Denetimli öğrenim için kullanınpredict()bilinmeyen veriler için etiketleri tahmin etme yöntemi. Gözetimsiz öğrenim için kullanınpredict() veya transform() verilerin özelliklerini çıkarmak için.

Denetimli Öğrenim Örneği

Burada, bu sürecin bir örneği olarak, bir doğrunun (x, y) verilerine uydurulmasıyla ilgili yaygın durumu ele alıyoruz; simple linear regression.

Öncelikle veri setini yüklememiz gerekiyor, iris veri setini kullanıyoruz -

Misal

import seaborn as sns
iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape

Çıktı

(150, 4)

Misal

y_iris = iris['species']
y_iris.shape

Çıktı

(150,)

Misal

Şimdi, bu regresyon örneği için aşağıdaki örnek verileri kullanacağız -

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);

Çıktı

Dolayısıyla, doğrusal regresyon örneğimiz için yukarıdaki verilere sahibiz.

Şimdi bu verilerle yukarıda belirtilen adımları uygulayabiliriz.

Bir model sınıfı seçin

Burada, basit bir doğrusal regresyon modelini hesaplamak için, doğrusal regresyon sınıfını aşağıdaki gibi içe aktarmamız gerekir -

from sklearn.linear_model import LinearRegression

Model hiperparametrelerini seçin

Bir model sınıfı seçtikten sonra, genellikle hiperparametreler olarak temsil edilen bazı önemli seçimler veya model verilere uydurulmadan önce ayarlanması gereken parametreler yapmamız gerekir. Burada, bu doğrusal regresyon örneği için, kesişme noktasını kullanarakfit_intercept aşağıdaki gibi hiperparametre -

Example

model = LinearRegression(fit_intercept = True)
model

Output

LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None, normalize = False)

Verilerin düzenlenmesi

Şimdi, bildiğimiz gibi hedef değişkenimizin y doğru biçimde, yani uzunlukta n_samples1-D dizisi. Ancak, özellik matrisini yeniden şekillendirmemiz gerekiyorX bir boyut matrisi yapmak için [n_samples, n_features]. Aşağıdaki gibi yapılabilir -

Example

X = x[:, np.newaxis]
X.shape

Output

(40, 1)

Model uydurma

Verileri düzenledikten sonra, modele uyma, yani modelimizi verilere uygulama zamanıdır. Bu, yardımı ile yapılabilirfit() yöntem aşağıdaki gibidir -

Example

model.fit(X, y)

Output

LinearRegression(copy_X = True, fit_intercept = True, n_jobs = None,normalize = False)

Scikit-learn'de fit() işlemin sonunda bazı alt çizgiler var.

Bu örnek için, aşağıdaki parametre, verilerin basit doğrusal uyumunun eğimini gösterir -

Example

model.coef_

Output

array([1.99839352])

Aşağıdaki parametre, verilere basit doğrusal uyumun kesişmesini temsil eder -

Example

model.intercept_

Output

-0.9895459457775022

Modeli yeni verilere uygulama

Modeli eğittikten sonra yeni verilere uygulayabiliriz. Denetimli makine öğreniminin ana görevi, modeli eğitim setinin parçası olmayan yeni verilere dayalı olarak değerlendirmektir. Yardımı ile yapılabilirpredict() yöntem aşağıdaki gibidir -

Example

xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);

Output

Tam çalışma / çalıştırılabilir örnek

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape

rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)
model
X = x[:, np.newaxis]
X.shape

model.fit(X, y)
model.coef_
model.intercept_

xfit = np.linspace(-1, 11)
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)
plt.scatter(x, y)
plt.plot(xfit, yfit);

Denetimsiz Öğrenim Örneği

Burada, bu sürecin bir örneği olarak, Iris veri setinin boyutsallığını azaltma şeklindeki yaygın durumu ele alıyoruz, böylece onu daha kolay görselleştirebiliriz. Bu örnek için, hızlı doğrusal bir boyut azaltma tekniği olan temel bileşen analizini (PCA) kullanacağız.

Yukarıda verilen örnekte olduğu gibi, iris veri setinden rastgele verileri yükleyebilir ve grafiğini çizebiliriz. Bundan sonra aşağıdaki adımları takip edebiliriz -

Bir model sınıfı seçin

from sklearn.decomposition import PCA

Model hiperparametrelerini seçin

Example

model = PCA(n_components=2)
model

Output

PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
   svd_solver = 'auto', tol = 0.0, whiten = False)

Model uydurma

Example

model.fit(X_iris)

Output

PCA(copy = True, iterated_power = 'auto', n_components = 2, random_state = None,
   svd_solver = 'auto', tol = 0.0, whiten = False)

Verileri iki boyutlu hale getirin

Example

X_2D = model.transform(X_iris)

Şimdi, sonucu şu şekilde çizebiliriz -

Output

iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue = 'species', data = iris, fit_reg = False);

Output

Tam çalışma / çalıştırılabilir örnek

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

iris = sns.load_dataset('iris')
X_iris = iris.drop('species', axis = 1)
X_iris.shape
y_iris = iris['species']
y_iris.shape
rng = np.random.RandomState(35)
x = 10*rng.rand(40)
y = 2*x-1+rng.randn(40)
plt.scatter(x,y);
from sklearn.decomposition import PCA

model = PCA(n_components=2)
model
model.fit(X_iris)
X_2D = model.transform(X_iris)
iris['PCA1'] = X_2D[:, 0]
iris['PCA2'] = X_2D[:, 1]
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False);

Scikit-learn'ün nesneleri, aşağıdaki üç tamamlayıcı arayüzden oluşan tek tip bir temel API'yi paylaşır:

  • Estimator interface - Modellerin yapımı ve montajı içindir.

  • Predictor interface - Tahmin yapmak için.

  • Transformer interface - Verileri dönüştürmek içindir.

API'ler basit kuralları benimser ve tasarım seçenekleri, çerçeve kodunun çoğalmasını önleyecek şekilde yönlendirilir.

Sözleşmelerin Amacı

Kuralların amacı, API'nin aşağıdaki geniş ilkelere bağlı kalmasını sağlamaktır -

Consistency - İster basit ister bileşik olsun, tüm nesneler, ayrıca sınırlı bir yöntem kümesinden oluşan tutarlı bir arayüzü paylaşmalıdır.

Inspection - Öğrenme algoritması tarafından belirlenen kurucu parametreleri ve parametre değerleri, genel nitelikler olarak saklanmalı ve ifşa edilmelidir.

Non-proliferation of classes - Veri kümeleri NumPy dizileri veya Scipy seyrek matrisi olarak temsil edilmeli, hiper parametre adları ve değerleri ise çerçeve kodunun çoğalmasını önlemek için standart Python dizeleri olarak temsil edilmelidir.

Composition - Algoritmalar, verilere dönüşüm dizileri veya kombinasyonları olarak ifade edilebilir veya doğal olarak diğer algoritmalar üzerinde parametreleştirilmiş meta-algoritmalar olarak görülürler, uygulanmalı ve mevcut yapı bloklarından oluşturulmalıdır.

Sensible defaults- scikit-learn'de, bir işlem kullanıcı tanımlı bir parametre gerektirdiğinde, uygun bir varsayılan değer tanımlanır. Bu varsayılan değer, işlemin mantıklı bir şekilde gerçekleştirilmesine neden olmalıdır, örneğin, eldeki görev için temel bir çözüm sunmalıdır.

Çeşitli Sözleşmeler

Sklearn'da mevcut olan sözleşmeler aşağıda açıklanmıştır -

Tip döküm

Girdinin dönüştürülmesi gerektiğini belirtir float64. Aşağıdaki örnekte,sklearn.random_projection verinin boyutsallığını azaltmak için kullanılan modül, bunu açıklayacaktır -

Example

import numpy as np
from sklearn import random_projection
rannge = np.random.RandomState(0)
X = range.rand(10,2000)
X = np.array(X, dtype = 'float32')
X.dtype
Transformer_data = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.dtype

Output

dtype('float32')
dtype('float64')

Yukarıdaki örnekte, X'in float32 hangisine atılır float64 tarafından fit_transform(X).

Parametreleri Yenileme ve Güncelleme

Bir tahmincinin hiper parametreleri, bir tahmin ediciyle oluşturulduktan sonra güncellenebilir ve yeniden takılabilir. set_params()yöntem. Bunu anlamak için aşağıdaki örneğe bakalım -

Example

import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])

Output

array([0, 0, 0, 0, 0])

Tahminciyi oluşturduktan sonra, yukarıdaki kod varsayılan çekirdeği değiştirecektir. rbf ile doğrusal SVC.set_params().

Şimdi, aşağıdaki kod, tahminciyi yeniden yerleştirmek ve ikinci bir tahmin yapmak için çekirdeği rbf'ye değiştirecektir.

Example

clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])

Output

array([0, 0, 0, 0, 0])

Kodu tamamla

Aşağıdaki tam çalıştırılabilir programdır -

import numpy as np
from sklearn.datasets import load_iris
from sklearn.svm import SVC
X, y = load_iris(return_X_y = True)
clf = SVC()
clf.set_params(kernel = 'linear').fit(X, y)
clf.predict(X[:5])
clf.set_params(kernel = 'rbf', gamma = 'scale').fit(X, y)
clf.predict(X[:5])

Multiclass ve Multilabel uydurma

Çoklu sınıf uydurma durumunda, hem öğrenme hem de tahmin görevleri, uygun olan hedef verilerin formatına bağlıdır. Kullanılan modülsklearn.multiclass. Aşağıdaki örneği kontrol edin, burada çoklu sınıf sınıflandırıcı 1d dizisine sığdırılır.

Example

from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = [0, 0, 1, 1, 2]
classif = OneVsRestClassifier(estimator = SVC(gamma = 'scale',random_state = 0))
classif.fit(X, y).predict(X)

Output

array([0, 0, 1, 1, 2])

Yukarıdaki örnekte, sınıflandırıcı tek boyutlu çok sınıflı etiket dizisine sığdırılır ve predict()yöntem bu nedenle karşılık gelen çok sınıflı tahmin sağlar. Ancak öte yandan, aşağıdaki gibi iki boyutlu bir ikili etiket göstergeleri dizisine sığdırmak da mümkündür -

Example

from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer
X = [[1, 2], [3, 4], [4, 5], [5, 2], [1, 1]]
y = LabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)

Output

array(
   [
      [0, 0, 0],
      [0, 0, 0],
      [0, 1, 0],
      [0, 1, 0],
      [0, 0, 0]
   ]
)

Benzer şekilde, çok etiketli yerleştirme durumunda, bir örneğe aşağıdaki gibi birden çok etiket atanabilir -

Example

from sklearn.preprocessing import MultiLabelBinarizer
y = [[0, 1], [0, 2], [1, 3], [0, 2, 3], [2, 4]]
y = MultiLabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)

Output

array(
   [
      [1, 0, 1, 0, 0],
      [1, 0, 1, 0, 0],
      [1, 0, 1, 1, 0],
      [1, 0, 1, 1, 0],
      [1, 0, 1, 0, 0]
   ]
)

Yukarıdaki örnekte, sklearn.MultiLabelBinarizeriki boyutlu çok etiket dizisini sığdırmak için ikilileştirmek için kullanılır. Bu nedenle predikt () işlevi, her örnek için birden çok etikete sahip çıktı olarak 2d bir dizi verir.

Bu bölüm, Scikit-Learn'deki doğrusal modelleme hakkında bilgi edinmenize yardımcı olacaktır. Sklearn'da doğrusal regresyonun ne olduğunu anlayarak başlayalım.

Aşağıdaki tablo Scikit-Learn tarafından sağlanan çeşitli doğrusal modelleri listelemektedir -

Sr.No Model Açıklaması
1

Doğrusal Regresyon

Bir bağımlı değişken (Y) ile belirli bir bağımsız değişkenler (X) arasındaki ilişkiyi inceleyen en iyi istatistiksel modellerden biridir.

2

Lojistik regresyon

Lojistik regresyon, ismine rağmen, regresyon algoritmasından ziyade bir sınıflandırma algoritmasıdır. Belirli bir bağımsız değişkenler kümesine bağlı olarak, ayrık değeri tahmin etmek için kullanılır (0 veya 1, evet / hayır, doğru / yanlış).

3

Ridge Regresyon

Ridge regresyonu veya Tikhonov regresyonu, L2 regresyonunu gerçekleştiren regresyon tekniğidir. Katsayıların büyüklüğünün karesine eşdeğer ceza (çekme miktarı) ekleyerek kayıp fonksiyonunu değiştirir.

4

Bayesian Ridge Regresyon

Bayes regresyonu, doğal bir mekanizmanın, nokta tahminleri yerine olasılık dağıtıcıları kullanarak doğrusal regresyonu formüle ederek yetersiz veri veya zayıf dağıtılmış verilerde hayatta kalmasını sağlar.

5

KEMENT

LASSO, L1 düzenlileştirmesini gerçekleştiren düzenlileştirme tekniğidir. Katsayıların mutlak değerinin toplamına eşdeğer ceza (çekme miktarı) ekleyerek kayıp fonksiyonunu değiştirir.

6

Çok görevli LASSO

Görevler olarak da adlandırılan tüm regresyon problemleri için seçilen özellikleri aynı olmaya zorlayarak birden fazla regresyon problemine uymaya izin verir. Sklearn, çoklu regresyon problemleri için seyrek katsayıları birlikte tahmin eden, düzenlileştirme için karma bir L1, L2 normu ile eğitilmiş MultiTaskLasso adlı doğrusal bir model sağlar.

7

Elastik-Net

Elastic-Net, her iki cezayı, yani Lasso ve Ridge regresyon yöntemlerinin L1 ve L2'sini doğrusal olarak birleştiren düzenli bir regresyon yöntemidir. Birden fazla ilişkili özellik olduğunda kullanışlıdır.

8

Çok Amaçlı Elastik Ağ

Görevler olarak da adlandırılan tüm regresyon problemleri için seçilen özellikleri aynı olmaya zorlayan birden fazla regresyon problemine uyulmasına izin veren bir Elastic-Net modelidir.

Bu bölüm, Sklearn'daki polinom özelliklerine ve boru hattı araçlarına odaklanmaktadır.

Polinom Özelliklerine Giriş

Verilerin doğrusal olmayan işlevleri üzerine eğitilen doğrusal modeller, genellikle doğrusal yöntemlerin hızlı performansını korur. Ayrıca çok daha geniş bir veri aralığına sığmalarına da olanak tanır. Makine öğreniminde doğrusal olmayan fonksiyonlar üzerine eğitilmiş bu tür doğrusal modellerin kullanılmasının nedeni budur.

Böyle bir örnek, basit bir doğrusal regresyonun, katsayılardan polinom özellikleri oluşturarak genişletilebilmesidir.

Matematiksel olarak, standart doğrusal regresyon modelimiz olduğunu varsayalım, o zaman 2 boyutlu veriler için böyle görünecektir -

$$Y=W_{0}+W_{1}X_{1}+W_{2}X_{2}$$

Şimdi, özellikleri ikinci dereceden polinomlarda birleştirebiliriz ve modelimiz aşağıdaki gibi görünecektir -

$$Y=W_{0}+W_{1}X_{1}+W_{2}X_{2}+W_{3}X_{1}X_{2}+W_{4}X_1^2+W_{5}X_2^2$$

Yukarıdakiler hala doğrusal bir modeldir. Burada, ortaya çıkan polinom regresyonunun aynı lineer modeller sınıfında olduğunu ve benzer şekilde çözülebileceğini gördük.

Bunu yapmak için scikit-learn, PolynomialFeatures. Bu modül, bir girdi veri matrisini belirli bir dereceye sahip yeni bir veri matrisine dönüştürür.

Parametreler

Aşağıdaki tablo, tarafından kullanılan parametreleri içerir. PolynomialFeatures modül

Sr.No Parametre ve Açıklama
1

degree - tamsayı, varsayılan = 2

Polinom özelliklerinin derecesini temsil eder.

2

interaction_only - Boolean, varsayılan = yanlış

Varsayılan olarak yanlıştır, ancak doğru olarak ayarlanırsa, çoğu derece farklı girdi özelliklerinin ürünü olan özellikler üretilir. Bu tür özelliklere etkileşim özellikleri denir.

3

include_bias - Boolean, varsayılan = doğru

Bir önyargı sütunu, yani tüm polinomların güçlerinin sıfır olduğu özelliği içerir.

4

order - {'C', 'F'} içinde str, varsayılan = 'C'

Bu parametre, yoğun durumda çıktı dizisinin sırasını temsil eder. 'F' sırası daha hızlı hesaplama anlamına gelir, ancak diğer yandan sonraki tahmin edicileri yavaşlatabilir.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içerir PolynomialFeatures modül

Sr.No Öznitelikler ve Açıklama
1

powers_ - dizi, şekil (n_output_features, n_input_features)

Powers_ [i, j] 'nin i. Çıktıdaki j. Girişin üssü olduğunu gösterir.

2

n_input_features _ - int

Adından da anlaşılacağı gibi, toplam giriş özelliği sayısını verir.

3

n_output_features _ - int

Adından da anlaşılacağı gibi, polinom çıktı özelliklerinin toplam sayısını verir.

Uygulama Örneği

Python komut dosyası kullanımlarının ardından PolynomialFeatures 8 dizisini şekle dönüştürmek için transformatör (4, 2) -

from sklearn.preprocessing import PolynomialFeatures
import numpy as np
Y = np.arange(8).reshape(4, 2)
poly = PolynomialFeatures(degree=2)
poly.fit_transform(Y)

Çıktı

array(
   [
      [ 1., 0., 1., 0., 0., 1.],
      [ 1., 2., 3., 4., 6., 9.],
      [ 1., 4., 5., 16., 20., 25.],
      [ 1., 6., 7., 36., 42., 49.]
   ]
)

Pipeline araçlarını kullanarak modernizasyon

Yukarıdaki ön işleme türü, yani bir girdi veri matrisini belirli bir derecedeki yeni bir veri matrisine dönüştürmek, Pipeline temelde birden çok tahmin ediciyi tek bir cihaza bağlamak için kullanılan araçlar.

Misal

Önişlemeyi kolaylaştırmak için Scikit-learn'ün Pipeline araçlarını kullanan aşağıdaki python komut dosyaları (bir sıra-3 polinom verilerine uyacaktır).

#First, import the necessary packages.
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
import numpy as np

#Next, create an object of Pipeline tool
Stream_model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))])

#Provide the size of array and order of polynomial data to fit the model.
x = np.arange(5)
y = 3 - 2 * x + x ** 2 - x ** 3
Stream_model = model.fit(x[:, np.newaxis], y)

#Calculate the input polynomial coefficients.
Stream_model.named_steps['linear'].coef_

Çıktı

array([ 3., -2., 1., -1.])

Yukarıdaki çıktı, polinom özellikler üzerine eğitilmiş doğrusal modelin, girdi polinom katsayılarını tam olarak geri kazanabildiğini göstermektedir.

Burada, Stokastik Gradyan İniş (SGD) olarak adlandırılan Sklearn'da bir optimizasyon algoritması hakkında bilgi edineceğiz.

Stokastik Gradient Descent (SGD), bir maliyet fonksiyonunu en aza indiren fonksiyonların parametrelerinin / katsayılarının değerlerini bulmak için kullanılan basit ama etkili bir optimizasyon algoritmasıdır. Diğer bir deyişle, doğrusal sınıflandırıcıların SVM ve Lojistik regresyon gibi dışbükey kayıp fonksiyonları altında ayırt edici öğrenimi için kullanılır. Büyük ölçekli veri kümelerine başarıyla uygulandı çünkü katsayılarda güncelleme, örneklerin sonundan ziyade her eğitim örneği için gerçekleştirildi.

SGD Sınıflandırıcı

Stokastik Gradyan İniş (SGD) sınıflandırıcısı, temel olarak, sınıflandırma için çeşitli kayıp işlevlerini ve cezaları destekleyen düz bir SGD öğrenme rutini uygular. Scikit-learn sağlarSGDClassifier modül SGD sınıflandırmasını uygulamak için.

Parametreler

Aşağıdaki tablo, tarafından kullanılan parametreleri içerir. SGDClassifier modül -

Sr.No Parametre ve Açıklama
1

loss - str, varsayılan = 'menteşe'

Gerçekleştirilirken kullanılacak kayıp fonksiyonunu temsil eder. Varsayılan değer, bize doğrusal bir SVM verecek olan 'menteşe'dir. Kullanılabilecek diğer seçenekler şunlardır:

  • log - Bu kayıp bize lojistik regresyon, yani bir olasılık sınıflandırıcı verecektir.

  • modified_huber - Olasılık tahminleriyle birlikte aykırı değerlere tolerans getiren yumuşak bir kayıp.

  • squared_hinge - 'menteşe' kaybına benzer, ancak ikinci dereceden cezalandırılır.

  • perceptron - Adından da anlaşılacağı gibi, algıtron algoritması tarafından kullanılan doğrusal bir kayıptır.

2

penalty - str, "yok", "l2", "l1", "elastik ağ"

Modelde kullanılan regülasyon terimidir. Varsayılan olarak L2'dir. L1 veya 'Elasticnet; aynı zamanda ancak her ikisi de modele seyreklik getirebilir, bu nedenle L2 ile elde edilemez.

3

alpha - float, varsayılan = 0.0001

Düzenlileştirme terimini çarpan sabit olan Alpha, modeli ne kadar cezalandırmak istediğimize karar veren ayarlama parametresidir. Varsayılan değer 0.0001'dir.

4

l1_ratio - float, varsayılan = 0.15

Buna ElasticNet karıştırma parametresi denir. Aralığı 0 <= l1_ratio <= 1'dir. L1_ratio = 1 ise, ceza L1 cezası olacaktır. L1_ratio = 0 ise, ceza L2 cezası olacaktır.

5

fit_intercept - Boolean, Varsayılan = Doğru

Bu parametre, karar fonksiyonuna bir sabitin (önyargı veya engelleme) eklenmesi gerektiğini belirtir. Hesaplamada hiçbir kesinti kullanılmayacak ve yanlış olarak ayarlanacaksa verilerin zaten ortalanmış olduğu varsayılacaktır.

6

tol - float veya none, isteğe bağlı, varsayılan = 1.e-3

Bu parametre, yinelemeler için durdurma kriterini temsil eder. Varsayılan değeri False'dır ancak Yok olarak ayarlanırsa, yinelemeler dururloss > best_loss - tol for n_iter_no_changeardışık dönemler.

7

shuffle - Boolean, isteğe bağlı, varsayılan = Doğru

Bu parametre, eğitim verilerimizin her dönemden sonra karıştırılmasını isteyip istemediğimizi gösterir.

8

verbose - tamsayı, varsayılan = 0

Ayrıntı düzeyini temsil eder. Varsayılan değeri 0'dır.

9

epsilon - float, varsayılan = 0.1

Bu parametre, hassas olmayan bölgenin genişliğini belirtir. Kayıp = 'epsilon-duyarsız' ise, mevcut tahmin ile doğru etiket arasındaki herhangi bir fark, eşikten daha düşük olduğu göz ardı edilecektir.

10

max_iter - int, isteğe bağlı, varsayılan = 1000

Adından da anlaşılacağı gibi, dönemler üzerinden maksimum geçiş sayısını, yani eğitim verilerini temsil eder.

11

warm_start - bool, isteğe bağlı, varsayılan = yanlış

Bu parametre True olarak ayarlandığında, önceki çağrının çözümünü başlangıç ​​olarak sığdırmak için yeniden kullanabiliriz. Varsayılan yani yanlış seçersek, önceki çözümü silecektir.

12

random_state - int, RandomState örneği veya Yok, isteğe bağlı, varsayılan = yok

Bu parametre, verileri karıştırırken kullanılan sözde rastgele sayının tohumunu temsil eder. Seçenekler şunlardır.

  • int - Bu durumda, random_state rastgele sayı üreteci tarafından kullanılan tohumdur.

  • RandomState instance - Bu durumda, random_state rastgele sayı üreticisidir.

  • None - Bu durumda, rastgele sayı oluşturucu, np.random tarafından kullanılan RandonState örneğidir.

13

n_jobs - int veya none, isteğe bağlı, Varsayılan = Yok

Çok sınıflı problemler için OVA (One Versus All) hesaplamasında kullanılacak CPU sayısını temsil eder. Varsayılan değer hiçbiri, yani 1'dir.

14

learning_rate - dize, isteğe bağlı, varsayılan = 'optimum'

  • Öğrenme hızı 'sabit' ise, eta = eta0;

  • Öğrenme oranı 'optimal' ise, eta = 1.0 / (alpha * (t + t0)), burada t0 Leon Bottou tarafından seçilir;

  • Öğrenme hızı = 'invscalling' ise, eta = eta0 / pow (t, power_t).

  • Öğrenme hızı = 'uyarlanabilir' ise, eta = eta0.

15

eta0 - çift, varsayılan = 0.0

Yukarıda belirtilen öğrenme oranı seçenekleri için ilk öğrenme oranını temsil eder, yani 'sabit', 'ölçeklenebilir' veya 'uyarlanabilir'.

16

power_t - boş, varsayılan = 0,5

Öğrenme oranını 'büyütme' için üs.

17

early_stopping - bool, varsayılan = Yanlış

Bu parametre, doğrulama puanı iyileşmediğinde eğitimi sonlandırmak için erken durdurmanın kullanımını temsil eder. Varsayılan değeri yanlıştır ancak doğru olarak ayarlandığında, eğitim verilerinin katmanlara ayrılmış bir kısmını doğrulama olarak otomatik olarak ayırır ve doğrulama puanı iyileşmediğinde eğitimi durdurur.

18

validation_fraction - float, varsayılan = 0.1

Yalnızca erken_ durdurma doğru olduğunda kullanılır. Eğitim verilerinin erken sonlandırılması için doğrulama seti olarak ayrılacak eğitim verilerinin oranını temsil eder.

19

n_iter_no_change - int, varsayılan = 5

Erken durdurmadan önce algoritmanın çalışması gereken iyileştirme olmadan yineleme sayısını temsil eder.

20

classs_weight - dikte, {class_label: ağırlık} veya "dengeli" veya Yok, isteğe bağlı

Bu parametre, sınıflarla ilişkili ağırlıkları temsil eder. Sağlanmazsa, sınıfların ağırlığı 1 olmalıdır.

20

warm_start - bool, isteğe bağlı, varsayılan = yanlış

Bu parametre True olarak ayarlandığında, önceki çağrının çözümünü başlangıç ​​olarak sığdırmak için yeniden kullanabiliriz. Varsayılan yani yanlış seçersek, önceki çözümü silecektir.

21

average - iBoolean veya int, isteğe bağlı, varsayılan = yanlış

Çok sınıflı problemler için OVA (One Versus All) hesaplamasında kullanılacak CPU sayısını temsil eder. Varsayılan değer hiçbiri, yani 1'dir.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içermektedir. SGDClassifier modül -

Sr.No Öznitelikler ve Açıklama
1

coef_ - dizi, şekil (1, n_features) eğer n_class == 2, else (n_classes, n_features)

Bu özellik, özelliklere atanan ağırlığı sağlar.

2

intercept_ - dizi, şekil (1,) eğer n_class == 2, değilse (n_class,)

Karar fonksiyonunda bağımsız terimi temsil eder.

3

n_iter_ - int

Durdurma kriterine ulaşmak için yineleme sayısını verir.

Implementation Example

Diğer sınıflandırıcılar gibi, Stokastik Gradyan İniş (SGD) aşağıdaki iki dizi ile donatılmalıdır -

  • Eğitim örneklerini tutan bir dizi X. [N_samples, n_features] boyutundadır.

  • Hedef değerleri, yani eğitim örnekleri için sınıf etiketlerini tutan bir Y dizisi. [N_samples] boyutunda.

Example

Aşağıdaki Python betiği SGDClassifier doğrusal modelini kullanır -

import numpy as np
from sklearn import linear_model
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
Y = np.array([1, 1, 2, 2])
SGDClf = linear_model.SGDClassifier(max_iter = 1000, tol=1e-3,penalty = "elasticnet")
SGDClf.fit(X, Y)

Output

SGDClassifier(
   alpha = 0.0001, average = False, class_weight = None,
   early_stopping = False, epsilon = 0.1, eta0 = 0.0, fit_intercept = True,
   l1_ratio = 0.15, learning_rate = 'optimal', loss = 'hinge', max_iter = 1000,
   n_iter = None, n_iter_no_change = 5, n_jobs = None, penalty = 'elasticnet',
   power_t = 0.5, random_state = None, shuffle = True, tol = 0.001,
   validation_fraction = 0.1, verbose = 0, warm_start = False
)

Example

Şimdi, bir kez takıldığında model yeni değerleri şu şekilde tahmin edebilir -

SGDClf.predict([[2.,2.]])

Output

array([2])

Example

Yukarıdaki örnek için, aşağıdaki python betiğinin yardımıyla ağırlık vektörünü elde edebiliriz -

SGDClf.coef_

Output

array([[19.54811198, 9.77200712]])

Example

Benzer şekilde, aşağıdaki python betiğinin yardımıyla kesmenin değerini alabiliriz -

SGDClf.intercept_

Output

array([10.])

Example

Alt düzleme olan işaretli mesafeyi kullanarak alabiliriz SGDClassifier.decision_function aşağıdaki python komut dosyasında kullanıldığı gibi -

SGDClf.decision_function([[2., 2.]])

Output

array([68.6402382])

SGD Regresörü

Stokastik Gradyan İniş (SGD) regresör temelde, doğrusal regresyon modellerine uyacak çeşitli kayıp fonksiyonlarını ve cezaları destekleyen basit bir SGD öğrenme rutini uygular. Scikit-learn sağlarSGDRegressor SGD regresyonunu uygulamak için modül.

Parametreler

Tarafından kullanılan parametreler SGDRegressorSGDC sınıflandırıcı modülünde kullanılanla hemen hemen aynıdır. Fark, 'kayıp' parametresindedir. İçinSGDRegressor modüllerin kayıp parametresi pozitif değerler aşağıdaki gibidir -

  • squared_loss - Sıradan en küçük kareleri ifade eder.

  • huber: SGDRegressor- epsilon mesafesini aşan kareden doğrusal kayba geçerek aykırı değerleri düzeltin. "Huber" ın işi, algoritmanın aykırı değerleri düzeltmeye daha az odaklanması için "kare_ kayıp" ı değiştirmektir.

  • epsilon_insensitive - Aslında epsilon'dan daha az hataları görmezden geliyor.

  • squared_epsilon_insensitive- epsilon_insensitive ile aynıdır. Tek fark, epsilon toleransını aşan kayıpların karesi haline gelmesidir.

Diğer bir fark, 'power_t' adlı parametrenin varsayılan değer olarak 0,5 yerine 0,25 değerine sahip olmasıdır. SGDClassifier. Ayrıca, 'class_weight' ve 'n_jobs' parametrelerine sahip değildir.

Öznitellikler

SGDRegressor özellikleri de SGDC sınıflandırıcı modülünün özellikleriyle aynıdır. Aksine, aşağıdaki gibi üç ekstra niteliğe sahiptir -

  • average_coef_ - dizi, şekil (n_features,)

Adından da anlaşılacağı gibi, özelliklere atanan ortalama ağırlıkları sağlar.

  • average_intercept_ - dizi, şekil (1,)

Adından da anlaşılacağı gibi, ortalama kesişme terimini sağlar.

  • t_ - int

Eğitim aşamasında gerçekleştirilen ağırlık güncellemelerinin sayısını sağlar.

Note - average_coef_ ve average_intercept_ öznitelikleri, "ortalama" parametresi True olarak etkinleştirildikten sonra çalışacaktır.

Implementation Example

Python komut dosyası kullanımlarının ardından SGDRegressor doğrusal model -

import numpy as np
from sklearn import linear_model
n_samples, n_features = 10, 5
rng = np.random.RandomState(0)
y = rng.randn(n_samples)
X = rng.randn(n_samples, n_features)
SGDReg =linear_model.SGDRegressor(
   max_iter = 1000,penalty = "elasticnet",loss = 'huber',tol = 1e-3, average = True
)
SGDReg.fit(X, y)

Output

SGDRegressor(
   alpha = 0.0001, average = True, early_stopping = False, epsilon = 0.1,
   eta0 = 0.01, fit_intercept = True, l1_ratio = 0.15,
   learning_rate = 'invscaling', loss = 'huber', max_iter = 1000,
   n_iter = None, n_iter_no_change = 5, penalty = 'elasticnet', power_t = 0.25,
   random_state = None, shuffle = True, tol = 0.001, validation_fraction = 0.1,
   verbose = 0, warm_start = False
)

Example

Şimdi, bir kez takıldıktan sonra, ağırlık vektörünü aşağıdaki python betiğinin yardımıyla elde edebiliriz -

SGDReg.coef_

Output

array([-0.00423314, 0.00362922, -0.00380136, 0.00585455, 0.00396787])

Example

Benzer şekilde, aşağıdaki python betiğinin yardımıyla kesmenin değerini alabiliriz -

SGReg.intercept_

Output

SGReg.intercept_

Example

Aşağıdaki python betiğinin yardımıyla eğitim aşamasında ağırlık güncellemelerinin sayısını alabiliriz -

SGDReg.t_

Output

61.0

SGD'nin Artıları ve Eksileri

SGD'nin artılarını takiben -

  • Stokastik Gradient Descent (SGD) çok etkilidir.

  • Kod ayarlama için birçok fırsat olduğu için uygulanması çok kolaydır.

SGD'nin eksilerini takiben -

  • Stokastik Gradyan Düşüşü (SGD), düzenlileştirme parametreleri gibi birkaç hiperparametre gerektirir.

  • Özellik ölçeklendirmeye duyarlıdır.

Bu bölüm, Destek Vektör Makineleri (SVM'ler) olarak adlandırılan bir makine öğrenimi yöntemiyle ilgilidir.

Giriş

Destek vektör makineleri (SVM'ler), sınıflandırma, regresyon ve aykırı değerlerin tespiti için kullanılan güçlü ancak esnek denetlenen makine öğrenimi yöntemleridir. SVM'ler yüksek boyutlu uzaylarda çok etkilidir ve genellikle sınıflandırma problemlerinde kullanılır. SVM'ler popülerdir ve hafıza açısından verimlidir çünkü karar işlevinde bir dizi eğitim noktası kullanırlar.

SVM'lerin temel amacı, bir veri setini bulmak için veri setlerini sınıfa bölmektir. maximum marginal hyperplane (MMH) bu, aşağıdaki iki adımda yapılabilir -

  • Destek Vektör Makineleri, önce sınıfları en iyi şekilde ayıran yinelemeli olarak hiper düzlemler üretecektir.

  • Bundan sonra, sınıfları doğru şekilde ayıran hiper düzlemi seçecektir.

SVM'deki bazı önemli kavramlar aşağıdaki gibidir -

  • Support Vectors- Hiper düzleme en yakın olan veri noktaları olarak tanımlanabilirler. Destek vektörleri, ayırma çizgisine karar vermede yardımcı olur.

  • Hyperplane - Farklı sınıflara sahip nesneler kümesini bölen karar düzlemi veya uzay.

  • Margin - Farklı sınıfların gizli veri noktaları üzerindeki iki çizgi arasındaki boşluğa marj denir.

Aşağıdaki diyagramlar size bu SVM kavramları hakkında fikir verecektir -

Scikit-learn'deki SVM, girdi olarak hem seyrek hem de yoğun örnek vektörlerini destekler.

SVM'nin sınıflandırılması

Scikit-learn üç sınıf sağlar: SVC, NuSVC ve LinearSVC çok sınıflı sınıflandırma gerçekleştirebilen.

SVC

Uygulanması temel alınan C-destek vektör sınıflandırmasıdır. libsvm. Scikit-learn tarafından kullanılan modülsklearn.svm.SVC. Bu sınıf, çoklu sınıf desteğini bire bir şemaya göre ele alır.

Parametreler

Aşağıdaki tablo, tarafından kullanılan parametreleri içerir. sklearn.svm.SVC sınıf -

Sr.No Parametre ve Açıklama
1

C - float, isteğe bağlı, varsayılan = 1.0

Hata teriminin ceza parametresidir.

2

kernel - dize, isteğe bağlı, varsayılan = 'rbf'

Bu parametre, algoritmada kullanılacak çekirdek türünü belirtir. aralarından herhangi birini seçebiliriz‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’. Çekirdeğin varsayılan değeri şöyle olacaktır:‘rbf’.

3

degree - int, isteğe bağlı, varsayılan = 3

"Poli" çekirdek işlevinin derecesini temsil eder ve diğer tüm çekirdekler tarafından göz ardı edilir.

4

gamma - {'ölçek', 'otomatik'} veya kayan,

'Rbf', 'poli' ve 'sigmoid' çekirdeklerinin çekirdek katsayısıdır.

5

optinal default - = 'ölçek'

Varsayılanı, yani gama = 'ölçek' seçerseniz, SVC tarafından kullanılacak gama değeri 1 / (_ ∗. ()) Olur.

Öte yandan, gamma = 'auto' ise, 1 / _ kullanır.

6

coef0 - float, isteğe bağlı, Varsayılan = 0.0

Çekirdek işlevinde, yalnızca 'poli' ve 'sigmoid'de anlamlı olan bağımsız bir terim.

7

tol - float, isteğe bağlı, varsayılan = 1.e-3

Bu parametre, yinelemeler için durdurma kriterini temsil eder.

8

shrinking - Boolean, isteğe bağlı, varsayılan = Doğru

Bu parametre, küçültme buluşsal yöntemini kullanmak isteyip istemediğimizi gösterir.

9

verbose - Boolean, varsayılan: yanlış

Ayrıntılı çıktıyı etkinleştirir veya devre dışı bırakır. Varsayılan değeri yanlıştır.

10

probability - boole, isteğe bağlı, varsayılan = doğru

Bu parametre, olasılık tahminlerini etkinleştirir veya devre dışı bırakır. Varsayılan değer yanlıştır, ancak uyum çağrılmadan önce etkinleştirilmesi gerekir.

11

max_iter - int, isteğe bağlı, varsayılan = -1

Adından da anlaşılacağı gibi, çözücü içindeki maksimum yineleme sayısını temsil eder. -1 Değeri, yineleme sayısında sınır olmadığı anlamına gelir.

12

cache_size - şamandıra, isteğe bağlı

Bu parametre, çekirdek önbelleğinin boyutunu belirleyecektir. Değer MB (MegaByte) cinsinden olacaktır.

13

random_state - int, RandomState örneği veya Yok, isteğe bağlı, varsayılan = yok

Bu parametre, verileri karıştırırken kullanılan sözde rastgele sayının tohumunu temsil eder. Seçenekler şunlardır -

  • int- Bu durumda, random_state , rastgele sayı üreteci tarafından kullanılan tohumdur.

  • RandomState instance - Bu durumda, random_state, rastgele sayı üretecidir.

  • None - Bu durumda, rastgele sayı oluşturucu, np.random tarafından kullanılan RandonState örneğidir.

14

class_weight - {dict, 'dengeli'}, isteğe bağlı

Bu parametre, j sınıfının C parametresini SVC için _ℎ [] ∗ olarak ayarlayacaktır. Varsayılan seçeneği kullanırsak, bu tüm sınıfların bir ağırlığa sahip olması gerektiği anlamına gelir. Öte yandan, seçersenizclass_weight:balanced, ağırlıkları otomatik olarak ayarlamak için y'nin değerlerini kullanacaktır.

15

decision_function_shape - ovo ',' ovr ', varsayılan =' ovr '

Bu parametre, algoritmanın geri dönüp dönmeyeceğine karar verecektir ‘ovr’ Diğer tüm sınıflandırıcılar gibi şeklin (bire karşı-dinlenme) karar fonksiyonu veya orijinal ovolibsvm'nin (bire bir) karar fonksiyonu.

16

break_ties - boole, isteğe bağlı, varsayılan = yanlış

True - Tahmin, karar_fonksiyonunun güven değerlerine göre bağları koparacaktır.

False - Tahmin, berabere kalan sınıflar arasında birinci sınıfı döndürecektir.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içerir sklearn.svm.SVC sınıf -

Sr.No Öznitelikler ve Açıklama
1

support_ - dizi benzeri, şekil = [n_SV]

Destek vektörlerinin endekslerini döndürür.

2

support_vectors_ - dizi benzeri, şekil = [n_SV, n_features]

Destek vektörlerini döndürür.

3

n_support_ - dizi benzeri, dtype = int32, şekil = [n_sınıf]

Her sınıf için destek vektörlerinin sayısını temsil eder.

4

dual_coef_ - dizi, şekil = [n_sınıf-1, n_SV]

Bunlar, karar fonksiyonundaki destek vektörlerinin katsayısıdır.

5

coef_ - dizi, şekil = [n_sınıf * (n_sınıf-1) / 2, n_features]

Yalnızca doğrusal çekirdek durumunda mevcut olan bu özellik, özelliklere atanan ağırlığı sağlar.

6

intercept_ - dizi, şekil = [n_sınıf * (n_sınıf-1) / 2]

Karar fonksiyonundaki bağımsız terimi (sabit) temsil eder.

7

fit_status_ - int

Doğru şekilde takılırsa çıkış 0 olur. Yanlış takılırsa çıkış 1 olur.

8

classes_ - şekil dizisi = [n_class]

Sınıfların etiketlerini verir.

Implementation Example

Diğer sınıflandırıcılar gibi, SVC de aşağıdaki iki diziyle donatılmalıdır -

  • Bir dizi Xeğitim örneklerini tutmak. [N_samples, n_features] boyutundadır.

  • Bir dizi Yhedef değerleri tutmak, yani eğitim örnekleri için sınıf etiketleri. [N_samples] boyutunda.

Python komut dosyası kullanımlarının ardından sklearn.svm.SVC sınıf -

import numpy as np
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
from sklearn.svm import SVC
SVCClf = SVC(kernel = 'linear',gamma = 'scale', shrinking = False,)
SVCClf.fit(X, y)

Output

SVC(C = 1.0, cache_size = 200, class_weight = None, coef0 = 0.0,
   decision_function_shape = 'ovr', degree = 3, gamma = 'scale', kernel = 'linear',
   max_iter = -1, probability = False, random_state = None, shrinking = False,
   tol = 0.001, verbose = False)

Example

Şimdi, bir kez takıldıktan sonra, ağırlık vektörünü aşağıdaki python betiğinin yardımıyla elde edebiliriz -

SVCClf.coef_

Output

array([[0.5, 0.5]])

Example

Benzer şekilde, diğer özniteliklerin değerini de şu şekilde alabiliriz -

SVCClf.predict([[-0.5,-0.8]])

Output

array([1])

Example

SVCClf.n_support_

Output

array([1, 1])

Example

SVCClf.support_vectors_

Output

array(
   [
      [-1., -1.],
      [ 1., 1.]
   ]
)

Example

SVCClf.support_

Output

array([0, 2])

Example

SVCClf.intercept_

Output

array([-0.])

Example

SVCClf.fit_status_

Output

0

NuSVC

NuSVC, Nu Destek Vektörü Sınıflandırmasıdır. Scikit-learn tarafından sağlanan, çok sınıflı sınıflandırma yapabilen başka bir sınıftır. SVC'ye benzer, ancak NuSVC biraz farklı parametre kümelerini kabul eder. SVC'den farklı olan parametre aşağıdaki gibidir -

  • nu - float, isteğe bağlı, varsayılan = 0,5

Eğitim hatalarının fraksiyonunda bir üst sınırı ve destek vektörlerinin fraksiyonunun alt sınırını temsil eder. Değeri (o, 1] aralığında olmalıdır.

Parametrelerin ve niteliklerin geri kalanı SVC ile aynıdır.

Uygulama Örneği

Aynı örneği kullanarak uygulayabiliriz sklearn.svm.NuSVC sınıf da.

import numpy as np
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
from sklearn.svm import NuSVC
NuSVCClf = NuSVC(kernel = 'linear',gamma = 'scale', shrinking = False,)
NuSVCClf.fit(X, y)

Çıktı

NuSVC(cache_size = 200, class_weight = None, coef0 = 0.0,
   decision_function_shape = 'ovr', degree = 3, gamma = 'scale', kernel = 'linear',
   max_iter = -1, nu = 0.5, probability = False, random_state = None,
   shrinking = False, tol = 0.001, verbose = False)

SVC durumunda olduğu gibi, özniteliklerin geri kalanının çıktılarını alabiliriz.

DoğrusalSVC

Doğrusal Destek Vektörü Sınıflandırmasıdır. Çekirdek = 'doğrusal' olan SVC'ye benzer. Aralarındaki fark şudur:LinearSVC SVC, liblinear açısından uygulanırken libsvm. Nedeni buLinearSVCceza ve zarar fonksiyonlarının seçiminde daha fazla esnekliğe sahiptir. Aynı zamanda çok sayıda numuneye göre daha iyi ölçeklenir.

Parametreleri ve nitelikleri hakkında konuşursak, o zaman desteklemiyor ‘kernel’ çünkü doğrusal olduğu varsayılır ve aynı zamanda bazı özniteliklerden yoksundur. support_, support_vectors_, n_support_, fit_status_ ve, dual_coef_.

Ancak destekler penalty ve loss aşağıdaki gibi parametreler -

  • penalty − string, L1 or L2(default = ‘L2’)

    Bu parametre, cezalandırmada (kurallara uygun hale getirme) kullanılan normu (L1 veya L2) belirtmek için kullanılır.

  • loss − string, hinge, squared_hinge (default = squared_hinge)

    "Menteşe" nin standart SVM kaybı ve "kare menteşe" nin menteşe kaybının karesi olduğu kayıp fonksiyonunu temsil eder.

Uygulama Örneği

Python komut dosyası kullanımlarının ardından sklearn.svm.LinearSVC sınıf -

from sklearn.svm import LinearSVC
from sklearn.datasets import make_classification
X, y = make_classification(n_features = 4, random_state = 0)
LSVCClf = LinearSVC(dual = False, random_state = 0, penalty = 'l1',tol = 1e-5)
LSVCClf.fit(X, y)

Çıktı

LinearSVC(C = 1.0, class_weight = None, dual = False, fit_intercept = True,
   intercept_scaling = 1, loss = 'squared_hinge', max_iter = 1000,
   multi_class = 'ovr', penalty = 'l1', random_state = 0, tol = 1e-05, verbose = 0)

Misal

Şimdi, bir kez takıldığında model yeni değerleri şu şekilde tahmin edebilir -

LSVCClf.predict([[0,0,0,0]])

Çıktı

[1]

Misal

Yukarıdaki örnek için, aşağıdaki python betiğinin yardımıyla ağırlık vektörünü elde edebiliriz -

LSVCClf.coef_

Çıktı

[[0. 0. 0.91214955 0.22630686]]

Misal

Benzer şekilde, aşağıdaki python betiğinin yardımıyla kesmenin değerini alabiliriz -

LSVCClf.intercept_

Çıktı

[0.26860518]

SVM ile Regresyon

Daha önce tartışıldığı gibi, SVM hem sınıflandırma hem de regresyon problemleri için kullanılır. Scikit-learn'ün Destek Vektör Sınıflandırması (SVC) yöntemi, regresyon problemlerini çözmek için genişletilebilir. Bu genişletilmiş yönteme Destek Vektör Regresyonu (SVR) denir.

SVM ve SVR arasındaki temel benzerlik

SVC tarafından oluşturulan model, yalnızca eğitim verilerinin bir alt kümesine bağlıdır. Neden? Çünkü modeli oluşturmak için maliyet fonksiyonu, marjın dışında kalan eğitim veri noktalarını umursamıyor.

Oysa SVR (Support Vector Regression) tarafından üretilen model de eğitim verilerinin yalnızca bir alt kümesine bağlıdır. Neden? Çünkü modeli oluşturmak için maliyet fonksiyonu, model tahminine yakın her türlü eğitim veri noktasını göz ardı eder.

Scikit-learn üç sınıf sağlar: SVR, NuSVR and LinearSVR SVR'nin üç farklı uygulaması olarak.

SVR

Uygulanması temel alınan Epsilon destekli vektör regresyonudur. libsvm. Tersi olarakSVC Modelde iki serbest parametre vardır: ‘C’ ve ‘epsilon’.

  • epsilon - float, isteğe bağlı, varsayılan = 0.1

Epsilon-SVR modelindeki epsilonu temsil eder ve gerçek değerden epsilon mesafesi içinde tahmin edilen noktalarla eğitim kaybı fonksiyonunda hiçbir cezanın ilişkilendirilmediği epsilon tüpünü belirtir.

Parametrelerin ve özniteliklerin geri kalanı, kullandığımız gibi benzer SVC.

Uygulama Örneği

Python komut dosyası kullanımlarının ardından sklearn.svm.SVR sınıf -

from sklearn import svm
X = [[1, 1], [2, 2]]
y = [1, 2]
SVRReg = svm.SVR(kernel = ’linear’, gamma = ’auto’)
SVRReg.fit(X, y)

Çıktı

SVR(C = 1.0, cache_size = 200, coef0 = 0.0, degree = 3, epsilon = 0.1, gamma = 'auto',
   kernel = 'linear', max_iter = -1, shrinking = True, tol = 0.001, verbose = False)

Misal

Şimdi, bir kez takıldıktan sonra, ağırlık vektörünü aşağıdaki python betiğinin yardımıyla elde edebiliriz -

SVRReg.coef_

Çıktı

array([[0.4, 0.4]])

Misal

Benzer şekilde, diğer özniteliklerin değerini de şu şekilde alabiliriz -

SVRReg.predict([[1,1]])

Çıktı

array([1.1])

Benzer şekilde, diğer özniteliklerin değerlerini de alabiliriz.

NuSVR

NuSVR, Nu Destek Vektörü Regresyonudur. NuSVC gibidir, ancak NuSVR bir parametre kullanırnudestek vektörlerinin sayısını kontrol etmek için. Ve dahası, NuSVC'nin aksinenu C parametresini değiştirdi, burada değiştirilir epsilon.

Uygulama Örneği

Python komut dosyası kullanımlarının ardından sklearn.svm.SVR sınıf -

from sklearn.svm import NuSVR
import numpy as np
n_samples, n_features = 20, 15
np.random.seed(0)
y = np.random.randn(n_samples)
X = np.random.randn(n_samples, n_features)
NuSVRReg = NuSVR(kernel = 'linear', gamma = 'auto',C = 1.0, nu = 0.1)^M
NuSVRReg.fit(X, y)

Çıktı

NuSVR(C = 1.0, cache_size = 200, coef0 = 0.0, degree = 3, gamma = 'auto',
   kernel = 'linear', max_iter = -1, nu = 0.1, shrinking = True, tol = 0.001,
   verbose = False)

Misal

Şimdi, bir kez takıldıktan sonra, ağırlık vektörünü aşağıdaki python betiğinin yardımıyla elde edebiliriz -

NuSVRReg.coef_

Çıktı

array(
   [
      [-0.14904483, 0.04596145, 0.22605216, -0.08125403, 0.06564533,
      0.01104285, 0.04068767, 0.2918337 , -0.13473211, 0.36006765,
      -0.2185713 , -0.31836476, -0.03048429, 0.16102126, -0.29317051]
   ]
)

Benzer şekilde, diğer özelliklerin değerini de alabiliriz.

DoğrusalSVR

Doğrusal Destek Vektör Regresyonudur. Kernel = 'lineer' olan SVR'ye benzer. Aralarındaki fark şudur:LinearSVR açısından uygulandı liblinearSVC, libsvm. Nedeni buLinearSVRceza ve zarar fonksiyonlarının seçiminde daha fazla esnekliğe sahiptir. Aynı zamanda çok sayıda numuneye göre daha iyi ölçeklenir.

Parametreleri ve nitelikleri hakkında konuşursak, o zaman desteklemiyor ‘kernel’ çünkü doğrusal olduğu varsayılır ve aynı zamanda bazı özniteliklerden yoksundur. support_, support_vectors_, n_support_, fit_status_ ve, dual_coef_.

Ancak, aşağıdaki gibi 'kayıp' parametrelerini destekler -

  • loss - string, isteğe bağlı, varsayılan = 'epsilon_insensitive'

Epsilon_insensitive kaybın L1 kaybı ve epsilon-duyarsız kaybın karesinin L2 kaybı olduğu kayıp fonksiyonunu temsil eder.

Uygulama Örneği

Python komut dosyası kullanımlarının ardından sklearn.svm.LinearSVR sınıf -

from sklearn.svm import LinearSVR
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 4, random_state = 0)
LSVRReg = LinearSVR(dual = False, random_state = 0,
loss = 'squared_epsilon_insensitive',tol = 1e-5)
LSVRReg.fit(X, y)

Çıktı

LinearSVR(
   C=1.0, dual=False, epsilon=0.0, fit_intercept=True,
   intercept_scaling=1.0, loss='squared_epsilon_insensitive',
   max_iter=1000, random_state=0, tol=1e-05, verbose=0
)

Misal

Şimdi, bir kez takıldığında model yeni değerleri şu şekilde tahmin edebilir -

LSRReg.predict([[0,0,0,0]])

Çıktı

array([-0.01041416])

Misal

Yukarıdaki örnek için, aşağıdaki python betiğinin yardımıyla ağırlık vektörünü elde edebiliriz -

LSRReg.coef_

Çıktı

array([20.47354746, 34.08619401, 67.23189022, 87.47017787])

Misal

Benzer şekilde, aşağıdaki python betiğinin yardımıyla kesmenin değerini alabiliriz -

LSRReg.intercept_

Çıktı

array([-0.01041416])

Burada Sklearn'da anormallik tespitinin ne olduğunu ve veri noktalarının belirlenmesinde nasıl kullanıldığını öğreneceğiz.

Anormallik algılama, veri kümesindeki verilerin geri kalanıyla iyi uyuşmayan veri noktalarını tanımlamak için kullanılan bir tekniktir. Dolandırıcılık tespiti, izinsiz giriş tespiti, sistem sağlığını izleme, gözetim ve kestirimci bakım gibi iş dünyasında birçok uygulamaya sahiptir. Aykırı olarak da adlandırılan anormallikler aşağıdaki üç kategoriye ayrılabilir:

  • Point anomalies - Tek bir veri örneğinin, verilerin geri kalanı için anormal olduğu düşünüldüğünde ortaya çıkar.

  • Contextual anomalies- Bu tür bir anormallik bağlama özeldir. Bir veri örneğinin belirli bir bağlamda anormal olması durumunda oluşur.

  • Collective anomalies - İlgili veri örneklerinden oluşan bir koleksiyon, tek tek değerler yerine tüm veri kümesinde anormal olduğunda ortaya çıkar.

Yöntemler

Yani iki yöntem outlier detection ve novelty detectionanormallik tespiti için kullanılabilir. Aralarındaki farkı görmek gerekiyor.

Aykırı değer tespiti

Eğitim verileri, verilerin geri kalanından uzak olan aykırı değerleri içerir. Bu tür aykırı değerler gözlem olarak tanımlanır. Bu nedenle, aykırı değer tespit tahmin edicileri, sapkın gözlemleri göz ardı ederek her zaman en yoğun eğitim verilerine sahip bölgeye uymaya çalışır. Ayrıca denetimsiz anormallik algılama olarak da bilinir.

Yenilik algılama

Eğitim verilerine dahil edilmeyen yeni gözlemlerde gözlemlenmemiş bir örüntüyü tespit etmekle ilgilenir. Burada eğitim verileri aykırı değerler tarafından kirletilmez. Ayrıca yarı denetimli anormallik tespiti olarak da bilinir.

Scikit-learn tarafından sağlanan, hem aykırı değer tespiti hem de yenilik tespiti için kullanılabilen bir dizi makine öğrenimi aracı vardır. Bu araçlar ilk olarak, aşağıdaki gibi fit () yöntemini kullanarak denetimsiz bir ortamda verilerden nesne öğrenmeyi uygular -

estimator.fit(X_train)

Şimdi, yeni gözlemler şu şekilde sıralanacaktı: inliers (labeled 1) veya outliers (labeled -1) predikt () yöntemini aşağıdaki gibi kullanarak -

estimator.fit(X_test)

Tahminci, ilk olarak ham puanlama fonksiyonunu hesaplayacak ve daha sonra metot, bu ham puanlama fonksiyonu üzerindeki eşiği kullanacağını tahmin edecektir. Bu ham puanlama fonksiyonuna şu yardımıyla erişebiliriz:score_sample yöntem ve eşiği kontrol edebilir contamination parametre.

Ayrıca tanımlayabiliriz decision_function aykırı değerleri negatif değer ve iç değerleri negatif olmayan değer olarak tanımlayan yöntem.

estimator.decision_function(X_test)

Aykırı Değer Algılama için Sklearn algoritmaları

Eliptik bir zarfın ne olduğunu anlayarak başlayalım.

Eliptik bir zarfın takılması

Bu algoritma, normal verilerin Gauss dağılımı gibi bilinen bir dağıtımdan geldiğini varsayar. Aykırı değer tespiti için Scikit-learn,covariance.EllipticEnvelop.

Bu nesne, verilere sağlam bir kovaryans tahminine uyar ve böylece, merkezi veri noktalarına bir elips sığdırır. Merkezi modun dışındaki noktaları göz ardı eder.

Parametreler

Aşağıdaki tablo, sklearn. covariance.EllipticEnvelop yöntem -

Sr.No Parametre ve Açıklama
1

store_precision - Boolean, isteğe bağlı, varsayılan = Doğru

Tahmini hassasiyetin saklanıp saklanmadığını belirtebiliriz.

2

assume_centered - Boolean, isteğe bağlı, varsayılan = False

False olarak ayarlarsak, sağlam konumu ve kovaryansı doğrudan FastMCD algoritmasının yardımıyla hesaplayacaktır. Öte yandan, True ayarlanırsa, sağlam konum ve kovaryanın desteğini hesaplayacaktır.

3

support_fraction - (0., 1.) içinde float, isteğe bağlı, varsayılan = Yok

Bu parametre yönteme, ham MCD tahminlerinin desteğine ne kadar puan dahil edileceğini söyler.

4

contamination - float in (0., 1.), isteğe bağlı, varsayılan = 0.1

Veri setindeki aykırı değerlerin oranını sağlar.

5

random_state - int, RandomState örneği veya Yok, isteğe bağlı, varsayılan = yok

Bu parametre, verileri karıştırırken kullanılan sözde rastgele sayının tohumunu temsil eder. Seçenekler şunlardır -

  • int - Bu durumda, random_state rastgele sayı üreteci tarafından kullanılan tohumdur.

  • RandomState instance- Bu durumda, random_state , rastgele sayı üretecidir.

  • None - Bu durumda, rastgele sayı oluşturucu, np.random tarafından kullanılan RandonState örneğidir.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içermektedir. sklearn. covariance.EllipticEnvelop yöntem -

Sr.No Öznitelikler ve Açıklama
1

support_ - dizi benzeri, şekil (n_samples,)

Güçlü konum ve şekil tahminlerini hesaplamak için kullanılan gözlemlerin maskesini temsil eder.

2

location_ - dizi benzeri, şekil (n_features)

Tahmini sağlam konumu döndürür.

3

covariance_ - dizi benzeri, şekil (n_features, n_features)

Tahmini sağlam kovaryans matrisini döndürür.

4

precision_ - dizi benzeri, şekil (n_features, n_features)

Tahmini sözde ters matrisi döndürür.

5

offset_ - şamandıra

Ham puanlardan karar fonksiyonunu tanımlamak için kullanılır. decision_function = score_samples -offset_

Implementation Example

import numpy as np^M
from sklearn.covariance import EllipticEnvelope^M
true_cov = np.array([[.5, .6],[.6, .4]])
X = np.random.RandomState(0).multivariate_normal(mean = [0, 0], cov=true_cov,size=500)
cov = EllipticEnvelope(random_state = 0).fit(X)^M
# Now we can use predict method. It will return 1 for an inlier and -1 for an outlier.
cov.predict([[0, 0],[2, 2]])

Output

array([ 1, -1])

İzolasyon Ormanı

Yüksek boyutlu veri kümesi olması durumunda, aykırı değer tespiti için etkili bir yol, rastgele ormanlar kullanmaktır. Scikit-learn,ensemble.IsolationForestbir özelliği rastgele seçerek gözlemleri izole eden yöntem. Daha sonra, seçilen özelliklerin maksimum ve minimum değerleri arasında rastgele bir değer seçer.

Burada, bir numuneyi izole etmek için gereken bölme sayısı, kök düğümden sonlandırma düğümüne giden yol uzunluğuna eşittir.

Parametreler

Aşağıdaki tablo, tarafından kullanılan parametreleri içerir. sklearn. ensemble.IsolationForest yöntem -

Sr.No Parametre ve Açıklama
1

n_estimators - int, isteğe bağlı, varsayılan = 100

Topluluktaki temel tahmincilerin sayısını temsil eder.

2

max_samples - int veya float, isteğe bağlı, varsayılan = "otomatik"

Her bir temel tahmin ediciyi eğitmek için X'ten çekilecek örnek sayısını temsil eder. Değer olarak int'i seçersek, max_samples örnek çizecektir. Değeri olarak float seçersek, max_samples ∗ .shape [0] örnek çizecektir. Ve değeri olarak auto'yu seçersek, max_samples = min (256, n_samples) çizecektir.

3

support_fraction - (0., 1.) içinde float, isteğe bağlı, varsayılan = Yok

Bu parametre yönteme, ham MCD tahminlerinin desteğine ne kadar puan dahil edileceğini söyler.

4

contamination - otomatik veya kayan, isteğe bağlı, varsayılan = otomatik

Veri setindeki aykırı değerlerin oranını sağlar. Varsayılan, yani otomatik olarak ayarlarsak, eşiği orijinal kağıttaki gibi belirleyecektir. Yüzer olarak ayarlanırsa, kontaminasyon aralığı [0,0.5] aralığında olacaktır.

5

random_state - int, RandomState örneği veya Yok, isteğe bağlı, varsayılan = yok

Bu parametre, verileri karıştırırken kullanılan sözde rastgele sayının tohumunu temsil eder. Seçenekler şunlardır -

  • int - Bu durumda, random_state rastgele sayı üreteci tarafından kullanılan tohumdur.

  • RandomState instance- Bu durumda, random_state , rastgele sayı üretecidir.

  • None - Bu durumda, rastgele sayı oluşturucu, np.random tarafından kullanılan RandonState örneğidir.

6

max_features - int veya float, isteğe bağlı (varsayılan = 1.0)

Her bir temel tahmin ediciyi eğitmek için X'ten çizilecek özelliklerin sayısını temsil eder. Değer olarak int'i seçersek, max_features özelliğini çizecektir. Değeri olarak float seçersek, max_features * X.shape [] örneklerini çizecektir.

7

bootstrap - Boolean, isteğe bağlı (varsayılan = False)

Varsayılan seçeneği False'dir, bu da örneklemenin değiştirilmeden gerçekleştirileceği anlamına gelir. Öte yandan, True olarak ayarlanırsa, tek tek ağaçların değiştirme ile örneklenen eğitim verilerinin rastgele bir alt kümesine sığması anlamına gelir.

8

n_jobs - int veya Yok, isteğe bağlı (varsayılan = Yok)

Paralel olarak çalıştırılacak işlerin sayısını temsil eder. fit() ve predict() hem yöntemler.

9

verbose - int, isteğe bağlı (varsayılan = 0)

Bu parametre, ağaç oluşturma sürecinin ayrıntı düzeyini kontrol eder.

10

warm_start - Bool, isteğe bağlı (varsayılan = Yanlış)

Warm_start = true ise, önceki çağrı çözümünü uyacak şekilde yeniden kullanabilir ve topluluğa daha fazla tahminci ekleyebiliriz. Ancak yanlış olarak ayarlanırsa, yepyeni bir ormana sığmamız gerekir.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içermektedir. sklearn. ensemble.IsolationForest yöntem -

Sr.No Öznitelikler ve Açıklama
1

estimators_ - DecisionTreeClassifier listesi

Takılan tüm alt tahmin edicilerin toplanmasının sağlanması.

2

max_samples_ - tamsayı

Kullanılan gerçek örnek sayısını sağlar.

3

offset_ - şamandıra

Ham puanlardan karar fonksiyonunu tanımlamak için kullanılır. decision_function = score_samples -offset_

Implementation Example

Aşağıdaki Python betiği kullanacak sklearn. ensemble.IsolationForest Verilen verilere 10 ağaç sığdırmak için yöntem

from sklearn.ensemble import IsolationForest
import numpy as np
X = np.array([[-1, -2], [-3, -3], [-3, -4], [0, 0], [-50, 60]])
OUTDClf = IsolationForest(n_estimators = 10)
OUTDclf.fit(X)

Output

IsolationForest(
   behaviour = 'old', bootstrap = False, contamination='legacy',
   max_features = 1.0, max_samples = 'auto', n_estimators = 10, n_jobs=None,
   random_state = None, verbose = 0
)

Yerel Aykırı Değer Faktörü

Yerel Aykırı Değer Faktörü (LOF) algoritması, yüksek boyutlu veriler üzerinde aykırı değer tespiti yapmak için başka bir etkili algoritmadır. Scikit-learn,neighbors.LocalOutlierFactorgözlemlerin anormallik derecesini yansıtan yerel aykırı değer faktörü olarak adlandırılan bir puanı hesaplayan yöntem. Bu algoritmanın ana mantığı, komşularından önemli ölçüde daha düşük yoğunluğa sahip örnekleri tespit etmektir. Komşularına göre verilen veri noktalarının yerel yoğunluk sapmasını ölçmesinin nedeni budur.

Parametreler

Aşağıdaki tablo, tarafından kullanılan parametreleri içerir. sklearn. neighbors.LocalOutlierFactor yöntem

Sr.No Parametre ve Açıklama
1

n_neighbors - int, isteğe bağlı, varsayılan = 20

Kneighbors sorgusu için varsayılan olarak kullanılan komşu sayısını temsil eder. Tüm örnekler kullanılırsa.

2

algorithm - isteğe bağlı

En yakın komşuları hesaplamak için hangi algoritmanın kullanılacağı.

  • Ball_tree'yi seçerseniz, BallTree algoritmasını kullanacaktır.

  • Kd_tree'yi seçerseniz, KDTree algoritmasını kullanacaktır.

  • Eğer kaba seçerseniz, kaba kuvvet arama algoritması kullanacaktır.

  • Otomatik'i seçerseniz, fit () yöntemine aktardığımız değere göre en uygun algoritmaya karar verecektir.

3

leaf_size - int, isteğe bağlı, varsayılan = 30

Bu parametrenin değeri, yapım ve sorgulamanın hızını etkileyebilir. Ayrıca ağacı depolamak için gereken belleği de etkiler. Bu parametre BallTree veya KdTree algoritmalarına aktarılır.

4

contamination - otomatik veya kayan, isteğe bağlı, varsayılan = otomatik

Veri setindeki aykırı değerlerin oranını sağlar. Varsayılan, yani otomatik olarak ayarlarsak, eşiği orijinal kağıttaki gibi belirleyecektir. Yüzer olarak ayarlanırsa, kontaminasyon aralığı [0,0.5] aralığında olacaktır.

5

metric - dize veya çağrılabilir, varsayılan

Mesafe hesaplaması için kullanılan ölçüyü temsil eder.

6

P - int, isteğe bağlı (varsayılan = 2)

Minkowski metriğinin parametresidir. P = 1, manhattan_distance, yani L1 kullanmaya eşdeğerdir, oysa P = 2, öklid uzaklığı yani L2 kullanımına eşdeğerdir.

7

novelty - Boolean, (varsayılan = Yanlış)

Varsayılan olarak, LOF algoritması aykırı değer tespiti için kullanılır, ancak yenilik = true olarak ayarlarsak yenilik tespiti için kullanılabilir.

8

n_jobs - int veya Yok, isteğe bağlı (varsayılan = Yok)

Hem fit () hem de tahmin () yöntemleri için paralel olarak çalıştırılacak işlerin sayısını temsil eder.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içermektedir. sklearn.neighbors.LocalOutlierFactor yöntem -

Sr.No Öznitelikler ve Açıklama
1

negative_outlier_factor_ - uyuşuk dizi, şekil (n_samples,)

Eğitim örneklerinin ters LOF'sinin sağlanması.

2

n_neighbors_ - tamsayı

Komşuların sorguları için kullanılan gerçek komşu sayısını sağlar.

3

offset_ - şamandıra

Ham puanlardan ikili etiketleri tanımlamak için kullanılır.

Implementation Example

Aşağıda verilen Python betiği kullanacak sklearn.neighbors.LocalOutlierFactor Veri kümemize karşılık gelen herhangi bir diziden NeighborsClassifier sınıfı oluşturma yöntemi

from sklearn.neighbors import NearestNeighbors
samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]
LOFneigh = NearestNeighbors(n_neighbors = 1, algorithm = "ball_tree",p=1)
LOFneigh.fit(samples)

Output

NearestNeighbors(
   algorithm = 'ball_tree', leaf_size = 30, metric='minkowski',
   metric_params = None, n_jobs = None, n_neighbors = 1, p = 1, radius = 1.0
)

Example

Şimdi, aşağıdaki python betiğini kullanarak bu yapılandırılmış sınıflandırıcıdan [0.5, 1., 1.5] 'e en yakın noktayı sorabiliriz -

print(neigh.kneighbors([[.5, 1., 1.5]])

Output

(array([[1.7]]), array([[1]], dtype = int64))

Tek Sınıf SVM

Schölkopf ve diğerleri tarafından sunulan Tek Sınıflı SVM, denetimsiz Aykırı Değer Tespiti'dir. Aynı zamanda yüksek boyutlu verilerde çok etkilidir ve yüksek boyutlu bir dağılımın desteğini tahmin eder. UygulanırSupport Vector Machines modüldeki Sklearn.svm.OneClassSVMnesne. Bir sınırı tanımlamak için bir çekirdek (çoğunlukla RBF kullanılır) ve bir skaler parametre gerektirir.

Daha iyi anlamak için verilerimizi şununla birleştirelim: svm.OneClassSVM nesne -

Misal

from sklearn.svm import OneClassSVM
X = [[0], [0.89], [0.90], [0.91], [1]]
OSVMclf = OneClassSVM(gamma = 'scale').fit(X)

Şimdi, girdi verileri için score_samples'ı aşağıdaki gibi alabiliriz -

OSVMclf.score_samples(X)

Çıktı

array([1.12218594, 1.58645126, 1.58673086, 1.58645127, 1.55713767])

Bu bölüm, Sklearn'daki en yakın komşu yöntemlerini anlamanıza yardımcı olacaktır.

Komşu tabanlı öğrenme yöntemi her iki türdendir: supervised ve unsupervised. Denetimli komşular temelli öğrenme hem sınıflandırma hem de regresyon tahmin problemleri için kullanılabilir, ancak esas olarak endüstrideki sınıflandırma tahmini problemleri için kullanılır.

Komşulara dayalı öğrenme yöntemlerinin özel bir eğitim aşaması yoktur ve tüm verileri sınıflandırma sırasında eğitim için kullanır. Ayrıca, temeldeki veriler hakkında hiçbir şey varsaymaz. Doğada tembel ve parametrik olmamalarının nedeni budur.

En yakın komşu yöntemlerinin arkasındaki ana ilke -

  • Yeni veri noktasına yakın mesafede önceden tanımlanmış sayıda eğitim örneği bulmak için

  • Etiketi bu sayıdaki eğitim örneklerinden tahmin edin.

Burada, örnek sayısı, K-en yakın komşu öğrenmede olduğu gibi kullanıcı tanımlı bir sabit olabilir veya yarıçap tabanlı komşu öğrenmede olduğu gibi noktanın yerel yoğunluğuna göre değişebilir.

sklearn.neighbors Modülü

Scikit-learn var sklearn.neighborshem denetimsiz hem de denetimli komşular tabanlı öğrenme yöntemleri için işlevsellik sağlayan modül. Girdi olarak, bu modüldeki sınıflar NumPy dizilerini veyascipy.sparse matrisler.

Algoritma türleri

Komşu tabanlı yöntemlerin uygulanmasında kullanılabilecek farklı algoritma türleri aşağıdaki gibidir -

Kaba kuvvet

Veri kümesindeki tüm nokta çiftleri arasındaki mesafelerin kaba kuvvet hesaplaması, en naif komşu arama uygulamasını sağlar. Matematiksel olarak, D boyutlarındaki N örnek için kaba kuvvet yaklaşımı şu şekilde ölçeklenir:0[DN2]

Küçük veri örnekleri için bu algoritma çok yararlı olabilir, ancak örnek sayısı arttıkça ve arttıkça bu algoritma uygulanamaz hale gelir. Kaba kuvvet komşu araması anahtar kelime yazılarak etkinleştirilebiliralgorithm=’brute’.

KD Ağacı

Kaba kuvvet yaklaşımının hesaplama verimsizliklerini ele almak için icat edilen ağaç tabanlı veri yapılarından biri, KD ağaç veri yapısıdır. Temel olarak KD ağacı, K-boyutlu ağaç olarak adlandırılan ikili bir ağaç yapısıdır. Veri eksenleri boyunca parametre alanını, veri noktalarının doldurulduğu iç içe yerleştirilmiş ortografik bölgelere bölerek yinelemeli olarak bölümler.

Avantajlar

Aşağıda, KD ağaç algoritmasının bazı avantajları verilmiştir -

Construction is fast - Bölümleme sadece veri eksenleri boyunca yapıldığından KD ağacının yapımı çok hızlıdır.

Less distance computations- Bu algoritma, bir sorgu noktasının en yakın komşusunu belirlemek için çok daha az mesafe hesaplaması gerektirir. Sadece alır[ ()] mesafe hesaplamaları.

Dezavantajları

Fast for only low-dimensional neighbor searches- Düşük boyutlu (D <20) komşu aramalar için çok hızlıdır, ancak D büyüdükçe ve büyüdüğünde verimsiz hale gelir. Bölümleme yalnızca veri eksenleri boyunca gerçekleştirildiğinden,

KD ağaç komşu aramaları anahtar kelime yazılarak etkinleştirilebilir algorithm=’kd_tree’.

Top Ağacı

KD Tree'nin daha yüksek boyutlarda verimsiz olduğunu bildiğimiz için KD Tree'nin bu verimsizliğini gidermek için Ball tree veri yapısı geliştirilmiştir. Matematiksel olarak, verileri yinelemeli olarak bir merkez C ve yarıçap r ile tanımlanan düğümlere böler, öyle ki düğümdeki her nokta ağırlık merkezi tarafından tanımlanan hiper-küre içinde yer alır.C ve yarıçap r. Aşağıda verilen üçgen eşitsizliğini kullanır ve bu, bir komşu araması için aday nokta sayısını azaltır.

$$\arrowvert X+Y\arrowvert\leq \arrowvert X\arrowvert+\arrowvert Y\arrowvert$$

Avantajlar

Aşağıda, Ball Tree algoritmasının bazı avantajları verilmiştir -

Efficient on highly structured data - Top ağacı verileri bir dizi iç içe geçmiş hiper-kürede böldüğünden, yüksek düzeyde yapılandırılmış veriler üzerinde etkilidir.

Out-performs KD-tree - Top ağacı, top ağaç düğümlerinin küresel geometrisine sahip olduğu için yüksek boyutlarda KD ağacından daha iyi performans gösterir.

Dezavantajları

Costly - Verileri bir dizi iç içe geçmiş hiper-küreye bölmek, yapısını çok maliyetli hale getirir.

Ball tree komşu aramaları anahtar kelime yazılarak etkinleştirilebilir algorithm=’ball_tree’.

En Yakın Komşu Algoritmasını Seçme

Belirli bir veri kümesi için en uygun algoritmanın seçimi aşağıdaki faktörlere bağlıdır:

Örnek sayısı (N) ve Boyut (D)

En Yakın Komşu algoritmasını seçerken dikkat edilmesi gereken en önemli faktörler bunlardır. Aşağıda verilen nedenlerden dolayı -

  • Brute Force algoritmasının sorgu süresi O [DN] olarak büyür.

  • Top ağaç algoritmasının sorgu süresi O [D log (N)] olarak büyür.

  • KD ağaç algoritmasının sorgu zamanı D ile karakterize edilmesi çok zor olan garip bir şekilde değişir. D <20 olduğunda, maliyet O [D log (N)] olur ve bu algoritma çok verimlidir. Öte yandan, D> 20 olması durumunda verimsizdir çünkü maliyet neredeyse O [DN] 'ye yükselir.

Veri yapısı

Bu algoritmaların performansını etkileyen diğer bir faktör, verinin içsel boyutluluğu veya verinin seyrekliğidir. Bunun nedeni, Ball tree ve KD ağaç algoritmalarının sorgu sürelerinin bundan büyük ölçüde etkilenebilmesidir. Oysa Brute Force algoritmasının sorgu zamanı veri yapısına göre değişmez. Genel olarak, Top ağacı ve KD ağacı algoritmaları, daha küçük iç boyutluluğa sahip daha seyrek verilere implante edildiğinde daha hızlı sorgu süresi üretir.

Komşu Sayısı (k)

Bir sorgu noktası için talep edilen komşu sayısı (k), Top ağaç ve KD ağaç algoritmalarının sorgu süresini etkiler. Komşu sayısı (k) arttıkça sorgu süreleri yavaşlar. Oysa Brute Force'un sorgu süresi k değerinden etkilenmeyecektir.

Sorgu noktalarının sayısı

İnşaat aşamasına ihtiyaç duydukları için, hem KD ağacı hem de Top ağacı algoritmaları çok sayıda sorgu noktası varsa etkili olacaktır. Öte yandan, daha az sayıda sorgu noktası varsa, Brute Force algoritması, KD ağacı ve Top ağacı algoritmalarından daha iyi performans gösterir.

En basit makine öğrenme algoritmalarından biri olan k-NN (k-En Yakın Komşu) parametrik değildir ve doğası gereği tembeldir. Parametrik olmayan, temel veri dağıtımı için herhangi bir varsayımın olmadığı anlamına gelir, yani model yapısı veri kümesinden belirlenir. Tembel veya örnek tabanlı öğrenme, model oluşturma amacıyla herhangi bir eğitim veri noktası gerektirmediği ve tüm eğitim verilerinin test aşamasında kullanıldığı anlamına gelir.

K-NN algoritması aşağıdaki iki adımdan oluşur -

Aşama 1

Bu adımda, eğitim setindeki her numune için en yakın komşuyu hesaplar ve depolar.

Adım 2

Bu adımda, etiketlenmemiş bir örnek için, veri kümesinden k en yakın komşuyu alır. Sonra bu k-en yakın komşular arasında, oylama yoluyla sınıfı tahmin eder (çoğunluk oyu alan sınıf kazanır).

Modül, sklearn.neighbors k-en yakın komşu algoritmasını uygulayan, unsupervised Hem de supervised komşulara dayalı öğrenme yöntemleri.

Denetimsiz en yakın komşular, her örnek için en yakın komşuyu / komşuları bulmak için farklı algoritmalar (BallTree, KDTree veya Brute Force) uygular. Bu denetimsiz sürüm, temelde sadece yukarıda tartışılan adım 1'dir ve komşu aramasını gerektiren birçok algoritmanın (KNN ve K-anlamı ünlü olanıdır) temelidir. Basit bir deyişle, komşu aramaları uygulamak için Denetimsiz öğrenicidir.

Öte yandan, denetimli komşular temelli öğrenme, sınıflandırma ve regresyon için kullanılır.

Denetimsiz KNN Öğrenimi

Tartışıldığı gibi, en yakın komşu aramalarını gerektiren KNN ve K-Means gibi birçok algoritma vardır. Bu nedenle Scikit-learn, komşu arama bölümünü kendi "öğrenicisi" olarak uygulamaya karar verdi. Komşu aramasını ayrı bir öğrenci olarak yapmanın arkasındaki sebep, en yakın komşuyu bulmak için tüm ikili mesafeleri hesaplamanın açıkça çok verimli olmamasıdır. Sklearn tarafından denetimsiz en yakın komşu öğrenmeyi uygulamak için kullanılan modülü örnekle birlikte görelim.

Scikit-learn modülü

sklearn.neighbors.NearestNeighborsdenetimsiz en yakın komşu öğrenmeyi uygulamak için kullanılan modüldür. BallTree, KDTree veya Brute Force adlı belirli en yakın komşu algoritmalarını kullanır. Başka bir deyişle, bu üç algoritmaya tek tip bir arayüz görevi görür.

Parametreler

Aşağıdaki tablo, tarafından kullanılan parametreleri içerir. NearestNeighbors modül -

Sr.No Parametre ve Açıklama
1

n_neighbors - int, isteğe bağlı

Alınacak komşu sayısı. Varsayılan değer 5'tir.

2

radius - şamandıra, isteğe bağlı

Komşuların geri dönüşlere olan mesafesini sınırlar. Varsayılan değer 1.0'dır.

3

algorithm - {'auto', 'ball_tree', 'kd_tree', 'brute'}, isteğe bağlı

Bu parametre, en yakın komşuları hesaplamak için kullanmak istediğiniz algoritmayı (BallTree, KDTree veya Brute-force) alacaktır. Eğer 'otomatik' sağlarsanız, fit yöntemine geçirilen değerlere göre en uygun algoritmaya karar vermeye çalışacaktır.

4

leaf_size - int, isteğe bağlı

Ağacın depolanması için gerekli hafızanın yanı sıra yapım ve sorgulama hızını etkileyebilir. BallTree veya KDTree'ye aktarılır. En uygun değer sorunun niteliğine bağlı olsa da varsayılan değeri 30'dur.

5

metric - dize veya çağrılabilir

Noktalar arasındaki mesafeyi hesaplamak için kullanılacak metriktir. Bunu bir dizge veya çağrılabilir işlev olarak geçirebiliriz. Çağrılabilir işlev durumunda, metrik her satır çiftinde çağrılır ve elde edilen değer kaydedilir. Metrik adını bir dize olarak iletmekten daha az etkilidir.

Scikit-learn veya scipy.spatial.distance'dan metrik arasından seçim yapabiliriz. geçerli değerler aşağıdaki gibidir -

Scikit-learn - ['kosinüs', 'manhattan', 'Öklid', 'l1', 'l2', 'şehir bloğu']

Scipy.spatial.distance -

['braycurtis', 'canberra', 'chebyshev', 'dice', 'hamming', 'jaccard', 'korelasyon', 'kulsinski', 'mahalanobis', 'minkowski', 'rogerstanimoto', 'russellrao', ' sokalmicheme ',' sokalsneath ',' seuclidean ',' sqeuclidean ',' yule '].

Varsayılan metrik "Minkowski" dir.

6

P - tam sayı, isteğe bağlı

Minkowski metriğinin parametresidir. Varsayılan değer, Öklid mesafesi (l2) kullanmaya eşdeğer olan 2'dir.

7

metric_params - dikte, isteğe bağlı

Bu, metrik işlevi için ek anahtar kelime bağımsız değişkenleridir. Varsayılan değer yok.

8

N_jobs - int veya Yok, isteğe bağlı

Komşu aramada çalıştırmak için paralel işlerin sayısını yeniden ayarlar. Varsayılan değer yok.

Implementation Example

Aşağıdaki örnek, iki veri kümesi arasındaki en yakın komşuları, sklearn.neighbors.NearestNeighbors modül.

Öncelikle, gerekli modülü ve paketleri içe aktarmamız gerekiyor -

from sklearn.neighbors import NearestNeighbors
import numpy as np

Şimdi, paketleri içe aktardıktan sonra, aradaki veri kümelerini tanımlayın, en yakın komşuları bulmak istiyoruz -

Input_data = np.array([[-1, 1], [-2, 2], [-3, 3], [1, 2], [2, 3], [3, 4],[4, 5]])

Ardından, denetimsiz öğrenme algoritmasını aşağıdaki gibi uygulayın -

nrst_neigh = NearestNeighbors(n_neighbors = 3, algorithm = 'ball_tree')

Ardından, modeli giriş veri setiyle uydurun.

nrst_neigh.fit(Input_data)

Şimdi, veri kümesinin K-komşularını bulun. Her noktanın komşularının indislerini ve mesafelerini döndürecektir.

distances, indices = nbrs.kneighbors(Input_data)
indices

Output

array(
   [
      [0, 1, 3],
      [1, 2, 0],
      [2, 1, 0],
      [3, 4, 0],
      [4, 5, 3],
      [5, 6, 4],
      [6, 5, 4]
   ], dtype = int64
)
distances

Output

array(
   [
      [0. , 1.41421356, 2.23606798],
      [0. , 1.41421356, 1.41421356],
      [0. , 1.41421356, 2.82842712],
      [0. , 1.41421356, 2.23606798],
      [0. , 1.41421356, 1.41421356],
      [0. , 1.41421356, 1.41421356],
      [0. , 1.41421356, 2.82842712]
   ]
)

Yukarıdaki çıktı, her noktanın en yakın komşusunun noktanın kendisi olduğunu yani sıfırda olduğunu gösterir. Bunun nedeni, sorgu kümesinin eğitim kümesiyle eşleşmesidir.

Example

Aşağıdaki gibi seyrek bir grafik oluşturarak komşu noktalar arasında bir bağlantı da gösterebiliriz -

nrst_neigh.kneighbors_graph(Input_data).toarray()

Output

array(
   [
      [1., 1., 0., 1., 0., 0., 0.],
      [1., 1., 1., 0., 0., 0., 0.],
      [1., 1., 1., 0., 0., 0., 0.],
      [1., 0., 0., 1., 1., 0., 0.],
      [0., 0., 0., 1., 1., 1., 0.],
      [0., 0., 0., 0., 1., 1., 1.],
      [0., 0., 0., 0., 1., 1., 1.]
   ]
)

Gözetimsiz olanı sığdırdığımızda NearestNeighbors model, veriler, bağımsız değişken için ayarlanan değere dayalı bir veri yapısında depolanacaktır. ‘algorithm’. Bundan sonra, bu denetimsiz öğrencininkneighbors komşu aramaları gerektiren bir modelde.

Complete working/executable program

from sklearn.neighbors import NearestNeighbors
import numpy as np
Input_data = np.array([[-1, 1], [-2, 2], [-3, 3], [1, 2], [2, 3], [3, 4],[4, 5]])
nrst_neigh = NearestNeighbors(n_neighbors = 3, algorithm='ball_tree')
nrst_neigh.fit(Input_data)
distances, indices = nbrs.kneighbors(Input_data)
indices
distances
nrst_neigh.kneighbors_graph(Input_data).toarray()

Denetimli KNN Öğrenimi

Denetlenen komşular temelli öğrenme aşağıdakiler için kullanılır -

  • Ayrık etiketli veriler için sınıflandırma
  • Sürekli etiketli veriler için regresyon.

En Yakın Komşu Sınıflandırıcı

Komşular temelli sınıflandırmayı aşağıdaki iki özelliğin yardımıyla anlayabiliriz:

  • Her noktanın en yakın komşularının basit çoğunluğuyla hesaplanır.
  • Basitçe eğitim verilerinin örneklerini depolar, bu yüzden genelleştirmeyen bir öğrenme türüdür.

Scikit-learn modülleri

Scikit-learn tarafından kullanılan iki farklı en yakın komşu sınıflandırıcı türü aşağıda verilmiştir -

S.No. Sınıflandırıcılar ve Açıklama
1. KNeighborsClassifier

Bu sınıflandırıcının adındaki K, en yakın komşuyu temsil eder, burada k, kullanıcı tarafından belirtilen bir tamsayı değeridir. Bu nedenle, adından da anlaşılacağı gibi, bu sınıflandırıcı, en yakın komşuya göre öğrenmeyi uygular. K değerinin seçimi verilere bağlıdır.

2. Yarıçap Komşular Sınıflandırıcı

Bu sınıflandırıcının adındaki Yarıçap, belirli bir yarıçap r içindeki en yakın komşuları temsil eder, burada r, kullanıcı tarafından belirtilen bir kayan nokta değeridir. Bu nedenle, adından da anlaşılacağı gibi, bu sınıflandırıcı, her eğitim noktasının sabit bir yarıçapı r içindeki komşuların sayısına göre öğrenmeyi uygular.

En Yakın Komşu Regresör

Veri etiketlerinin doğası gereği süreklilik arz ettiği durumlarda kullanılır. Atanan veri etiketleri, en yakın komşularının etiketlerinin ortalamasına göre hesaplanır.

Scikit-learn tarafından kullanılan iki farklı en yakın komşu regresör türü aşağıda verilmiştir -

KNeighborsRegressor

Bu regresörün adındaki K en yakın komşuyu temsil eder, burada k bir integer valuekullanıcı tarafından belirtilir. Dolayısıyla, adından da anlaşılacağı gibi, bu gerileyici, en yakın komşuya dayalı öğrenmeyi uygular. K değerinin seçimi verilere bağlıdır. Bir uygulama örneği yardımıyla daha iyi anlayalım.

Scikit-learn tarafından kullanılan iki farklı en yakın komşu regresör türü aşağıda verilmiştir -

Uygulama Örneği

Bu örnekte, scikit-learn kullanarak Iris Flower veri kümesi adlı veri kümesine KNN uygulayacağız. KNeighborsRegressor.

İlk olarak, iris veri kümesini aşağıdaki gibi içe aktarın -

from sklearn.datasets import load_iris
iris = load_iris()

Şimdi, verileri eğitim ve test verilerine bölmemiz gerekiyor. Sklearn kullanacağıztrain_test_split veriyi 70 (eğitim verisi) ve 20 (test verisi) oranına bölme işlevi -

X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)

Ardından, Sklearn ön işleme modülü yardımıyla aşağıdaki gibi veri ölçeklendirmesi yapacağız -

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

Ardından, KNeighborsRegressor Sklearn'dan sınıf ve komşuların değerini aşağıdaki gibi sağlayın.

Misal

import numpy as np
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors = 8)
knnr.fit(X_train, y_train)

Çıktı

KNeighborsRegressor(
   algorithm = 'auto', leaf_size = 30, metric = 'minkowski',
   metric_params = None, n_jobs = None, n_neighbors = 8, p = 2,
   weights = 'uniform'
)

Misal

Şimdi, MSE'yi (Ortalama Kare Hata) aşağıdaki gibi bulabiliriz -

print ("The MSE is:",format(np.power(y-knnr.predict(X),4).mean()))

Çıktı

The MSE is: 4.4333349609375

Misal

Şimdi, değeri aşağıdaki gibi tahmin etmek için kullanın -

X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors = 3)
knnr.fit(X, y)
print(knnr.predict([[2.5]]))

Çıktı

[0.66666667]

Eksiksiz çalışan / çalıştırılabilir program

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

import numpy as np
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=8)
knnr.fit(X_train, y_train)

print ("The MSE is:",format(np.power(y-knnr.predict(X),4).mean()))

X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import KNeighborsRegressor
knnr = KNeighborsRegressor(n_neighbors=3)
knnr.fit(X, y)
print(knnr.predict([[2.5]]))

Yarıçap Komşular Regresör

Bu regresörün adındaki Yarıçap, belirli bir yarıçap içindeki en yakın komşuları temsil eder r, burada r, kullanıcı tarafından belirtilen bir kayan nokta değeridir. Bu nedenle, adından da anlaşılacağı gibi, bu gerileyici, her eğitim noktasının sabit bir yarıçapı r içindeki komşuların sayısına dayalı olarak öğrenmeyi uygular. Bir uygulama örneği ise yardımla daha iyi anlayalım -

Uygulama Örneği

Bu örnekte, scikit-learn kullanarak Iris Flower veri kümesi adlı veri kümesine KNN uygulayacağız. RadiusNeighborsRegressor -

İlk olarak, iris veri kümesini aşağıdaki gibi içe aktarın -

from sklearn.datasets import load_iris
iris = load_iris()

Şimdi, verileri eğitim ve test verilerine bölmemiz gerekiyor. Verileri 70 (eğitim verisi) ve 20 (test verisi) oranına bölmek için Sklearn train_test_split işlevini kullanacağız -

X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

Ardından, Sklearn ön işleme modülü yardımıyla aşağıdaki gibi veri ölçeklendirmesi yapacağız -

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

Ardından, RadiusneighborsRegressor Sklearn sınıfını seçin ve aşağıdaki gibi yarıçap değerini sağlayın -

import numpy as np
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius=1)
knnr_r.fit(X_train, y_train)

Misal

Şimdi, MSE'yi (Ortalama Kare Hata) aşağıdaki gibi bulabiliriz -

print ("The MSE is:",format(np.power(y-knnr_r.predict(X),4).mean()))

Çıktı

The MSE is: The MSE is: 5.666666666666667

Misal

Şimdi, değeri aşağıdaki gibi tahmin etmek için kullanın -

X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius=1)
knnr_r.fit(X, y)
print(knnr_r.predict([[2.5]]))

Çıktı

[1.]

Eksiksiz çalışan / çalıştırılabilir program

from sklearn.datasets import load_iris

iris = load_iris()

X = iris.data[:, :4]
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
import numpy as np
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius = 1)
knnr_r.fit(X_train, y_train)
print ("The MSE is:",format(np.power(y-knnr_r.predict(X),4).mean()))
X = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
from sklearn.neighbors import RadiusNeighborsRegressor
knnr_r = RadiusNeighborsRegressor(radius = 1)
knnr_r.fit(X, y)
print(knnr_r.predict([[2.5]]))

Naïve Bayes yöntemleri, Bayes teoremini, tüm yordayıcıların birbirinden bağımsız olduğu güçlü bir varsayımla uygulamaya dayanan bir dizi denetimli öğrenme algoritmasıdır. sınıf. Bu naif bir varsayımdır, bu yüzden bu yöntemlere Naif Bayes yöntemleri denir.

Bayes teoremi, sınıfın posterior olasılığını, yani bir etiketin olasılığını ve bazı gözlenen özellikleri bulmak için aşağıdaki ilişkiyi belirtir: $P\left(\begin{array}{c} Y\arrowvert features\end{array}\right)$.

$$P\left(\begin{array}{c} Y\arrowvert features\end{array}\right)=\left(\frac{P\lgroup Y\rgroup P\left(\begin{array}{c} features\arrowvert Y\end{array}\right)}{P\left(\begin{array}{c} features\end{array}\right)}\right)$$

Buraya, $P\left(\begin{array}{c} Y\arrowvert features\end{array}\right)$ sınıfın posterior olasılığıdır.

$P\left(\begin{array}{c} Y\end{array}\right)$ sınıfın öncelikli olasılığıdır.

$P\left(\begin{array}{c} features\arrowvert Y\end{array}\right)$ sınıf verilen tahmin edicinin olasılığı olan olasılıktır.

$P\left(\begin{array}{c} features\end{array}\right)$ tahmin edicinin önceki olasılığıdır.

Scikit-learn, Gaussian, Multinomial, Complement ve Bernoulli olmak üzere farklı naif Bayes sınıflandırıcı modelleri sağlar. Hepsi, esas olarak dağıtımına ilişkin yaptıkları varsayımla farklılık gösterir.$P\left(\begin{array}{c} features\arrowvert Y\end{array}\right)$ yani, verilen sınıf öngörücünün olasılığı.

Sr.No Model Açıklaması
1 Gauss Naif Körfezi

Gaussian Naïve Bayes sınıflandırıcısı, her bir etiketten gelen verilerin basit bir Gauss dağılımından alındığını varsayar.

2 Multinomial Naif Bayes

Özelliklerin basit bir Multinom dağılımından alındığını varsayar.

3 Bernoulli Naïve Bayes

Bu modeldeki varsayım, doğada ikili (0'lar ve 1'ler) özelliklerinin olmasıdır. Bernoulli Naïve Bayes sınıflandırmasının bir uygulaması, 'kelime çantası' modeliyle Metin sınıflandırmasıdır.

4 Naif Bayes'i tamamlayın

Multinomial Bayes sınıflandırıcı tarafından yapılan ciddi varsayımları düzeltmek için tasarlanmıştır. Bu tür bir NB sınıflandırıcı, dengesiz veri kümeleri için uygundur

Naïve Bayes Sınıflandırıcı Oluşturma

Naïve Bayes sınıflandırıcısını Scikit-learn veri setine de uygulayabiliriz. Aşağıdaki örnekte, GaussianNB uyguluyoruz ve Scikit-leran'ın breast_cancer veri setini uyduruyoruz.

Misal

Import Sklearn
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
data = load_breast_cancer()
label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']
   print(label_names)
   print(labels[0])
   print(feature_names[0])
   print(features[0])
train, test, train_labels, test_labels = train_test_split(
   features,labels,test_size = 0.40, random_state = 42
)
from sklearn.naive_bayes import GaussianNB
GNBclf = GaussianNB()
model = GNBclf.fit(train, train_labels)
preds = GNBclf.predict(test)
print(preds)

Çıktı

[
   1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1
   1 1 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 
   1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 1 0 
   1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 
   1 1 0 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 
   0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 
   1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 
   1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 
   1 1 1 1 0 1 0 0 1 1 0 1
]

Yukarıdaki çıktı, temel olarak tümör sınıflarından, yani kötü huylu ve iyi huylu olmak üzere tahmin edilen değerler olan bir dizi 0 ve 1'den oluşur.

Bu bölümde, karar ağaçları olarak adlandırılan Sklearn'daki öğrenme yöntemini öğreneceğiz.

Kararlar dizisi (DT'ler) en güçlü parametrik olmayan denetimli öğrenme yöntemidir. Sınıflandırma ve regresyon görevleri için kullanılabilirler. DT'lerin temel amacı, veri özelliklerinden çıkarılan basit karar kurallarını öğrenerek hedef değişken değerini tahmin eden bir model oluşturmaktır. Karar ağaçlarının iki ana varlığı vardır; biri verinin bölündüğü kök düğüm, diğeri ise nihai çıktıyı aldığımız karar düğümleri veya yaprakları.

Karar Ağacı Algoritmaları

Farklı Karar Ağacı algoritmaları aşağıda açıklanmıştır -

ID3

1986 yılında Ross Quinlan tarafından geliştirilmiştir. Yinelemeli Dikotomizör 3 olarak da adlandırılır. Bu algoritmanın temel amacı, her düğüm için kategorik hedefler için en büyük bilgi kazanımını sağlayacak kategorik özellikleri bulmaktır.

Ağacın maksimum boyutuna gelmesini sağlar ve ardından ağacın görünmeyen veriler üzerindeki yeteneğini iyileştirmek için bir budama adımı uygular. Bu algoritmanın çıktısı çok yollu bir ağaç olacaktır.

C4.5

ID3'ün halefidir ve sürekli öznitelik değerini ayrı bir aralıklar kümesine bölen ayrı bir özniteliği dinamik olarak tanımlar. Kategorik özelliklerin kısıtlamasını kaldırmasının nedeni budur. ID3 eğitimli ağacı 'IF-THEN' kurallarına dönüştürür.

Bu kuralların uygulanması gereken sırayı belirlemek için öncelikle her bir kuralın doğruluğu değerlendirilecektir.

C5.0

C4.5'e benzer şekilde çalışır, ancak daha az bellek kullanır ve daha küçük kural kümeleri oluşturur. C4.5'ten daha doğrudur.

ARABA

Sınıflandırma ve Regresyon Ağaçları alsgorithm olarak adlandırılır. Temel olarak, her bir düğümde (Gini indeksi olarak adlandırılır) en büyük bilgi kazancını sağlayan özellikleri ve eşiği kullanarak ikili bölünmeler oluşturur.

Homojenlik Gini indeksine bağlıdır, Gini indeksinin değeri ne kadar yüksek olursa, homojenlik o kadar yüksek olur. C4.5 algoritmasına benzer, ancak fark, kural setlerini hesaplamaması ve sayısal hedef değişkenleri (regresyon) desteklememesidir.

Karar ağaçları ile sınıflandırma

Bu durumda, karar değişkenleri kategoriktir.

Sklearn Module - Scikit-learn kitaplığı modül adını sağlar DecisionTreeClassifier veri kümesinde çok sınıflı sınıflandırma yapmak için.

Parametreler

Aşağıdaki tablo, sklearn.tree.DecisionTreeClassifier modül -

Sr.No Parametre ve Açıklama
1

criterion - dize, isteğe bağlı varsayılan = "gini"

Bir bölünmenin kalitesini ölçme işlevini temsil eder. Desteklenen kriterler "gini" ve "entropi" dir. Varsayılan, Gini safsızlığı için olan gini iken, entropi bilgi kazancı içindir.

2

splitter - dize, isteğe bağlı varsayılan = "en iyi"

Modele, her bir düğümde bölünmeyi seçmek için "en iyi" veya "rastgele" stratejiyi söyler.

3

max_depth - int veya Yok, isteğe bağlı varsayılan = Yok

Bu parametre, ağacın maksimum derinliğine karar verir. Varsayılan değer Yok şeklindedir; bu, düğümlerin tüm yapraklar saf olana kadar veya tüm yapraklar min_smaples_split örneklerden daha azını içerene kadar genişleyeceği anlamına gelir.

4

min_samples_split - int, float, isteğe bağlı varsayılan = 2

Bu parametre, bir dahili düğümü bölmek için gereken minimum örnek sayısını sağlar.

5

min_samples_leaf - int, float, isteğe bağlı varsayılan = 1

Bu parametre, bir yaprak düğümde olması gereken minimum örnek sayısını sağlar.

6

min_weight_fraction_leaf - float, isteğe bağlı varsayılan = 0.

Bu parametre ile model, bir yaprak düğümde olması gereken ağırlıkların toplamının minimum ağırlıklı fraksiyonunu alacaktır.

7

max_features - int, float, string veya None, isteğe bağlı varsayılan = Yok

En iyi bölünmeyi ararken modele dikkate alınması gereken özelliklerin sayısını verir.

8

random_state - int, RandomState örneği veya Yok, isteğe bağlı, varsayılan = yok

Bu parametre, verileri karıştırırken kullanılan sözde rastgele sayının tohumunu temsil eder. Seçenekler şunlardır -

  • int- Bu durumda, random_state , rastgele sayı üreteci tarafından kullanılan tohumdur.

  • RandomState instance - Bu durumda, random_state, rastgele sayı üretecidir.

  • None - Bu durumda, rastgele sayı oluşturucu, np.random tarafından kullanılan RandonState örneğidir.

9

max_leaf_nodes - int veya Yok, isteğe bağlı varsayılan = Yok

Bu parametre, en iyi şekilde en iyi şekilde max_leaf_nodes içeren bir ağacın büyümesine izin verecektir. Varsayılan hiçbiri'dir, bu da sınırsız sayıda yaprak düğüm olacağı anlamına gelir.

10

min_impurity_decrease - float, isteğe bağlı varsayılan = 0.

Bu değer, bir düğümün bölünmesi için bir kriter olarak çalışır, çünkü bu bölünme safsızlıkta daha büyük veya buna eşit bir azalmaya neden olursa model bir düğümü böler. min_impurity_decrease value.

11

min_impurity_split - float, varsayılan = 1e-7

Ağaç büyümesinde erken durma eşiğini temsil eder.

12

class_weight - dikte, dikteler listesi, "dengeli" veya Yok, varsayılan = Yok

Sınıflarla ilişkili ağırlıkları temsil eder. Form, {class_label: weight} şeklindedir. Varsayılan seçeneği kullanırsak, bu tüm sınıfların bir ağırlığa sahip olması gerektiği anlamına gelir. Öte yandan, seçersenizclass_weight: balanced, ağırlıkları otomatik olarak ayarlamak için y'nin değerlerini kullanacaktır.

13

presort - bool, isteğe bağlı varsayılan = Yanlış

Modele, uydurmadaki en iyi bölünmeleri bulmayı hızlandırmak için verilerin önceden sıralanıp sınıflandırılmayacağını söyler. Varsayılan değer yanlıştır ancak doğru olarak ayarlandığında eğitim sürecini yavaşlatabilir.

Öznitellikler

Aşağıdaki tablo, tarafından kullanılan öznitelikleri içermektedir. sklearn.tree.DecisionTreeClassifier modül -

Sr.No Parametre ve Açıklama
1

feature_importances_ - şekil dizisi = [n_features]

Bu özellik, özelliğin önemini döndürecektir.

2

classes_: - şekil dizisi = [n_sınıflar] veya bu tür dizilerin listesi

Sınıf etiketlerini, yani tek çıkış problemini veya sınıf etiketleri dizilerinin bir listesini, yani çoklu çıkış problemini temsil eder.

3

max_features_ - int

Max_features parametresinin çıkarılan değerini temsil eder.

4

n_classes_ - int veya list

Sınıfların sayısını, yani tek çıkış problemini veya her çıkış için sınıfların bir listesini, yani çoklu çıkış problemini temsil eder.

5

n_features_ - int

Sayısını verir features fit () yöntemi uygulandığında.

6

n_outputs_ - int

Sayısını verir outputs fit () yöntemi uygulandığında.

Yöntemler

Aşağıdaki tablo, sklearn.tree.DecisionTreeClassifier modül -

Sr.No Parametre ve Açıklama
1

apply(self, X [, check_input])

Bu yöntem yaprağın indeksini döndürecektir.

2

decision_path(self, X [, check_input])

Adından da anlaşılacağı gibi, bu yöntem ağaçtaki karar yolunu döndürecektir.

3

fit(öz, X, y [, örnek_ağırlık,…])

fit () yöntemi, verilen eğitim setinden (X, y) bir karar ağacı sınıflandırıcı oluşturacaktır.

4

get_depth(öz)

Adından da anlaşılacağı gibi, bu yöntem karar ağacının derinliğini döndürecektir.

5

get_n_leaves(öz)

Adından da anlaşılacağı gibi, bu yöntem karar ağacının yaprak sayısını döndürecektir.

6

get_params(öz [, derin])

Tahmin edicinin parametrelerini elde etmek için bu yöntemi kullanabiliriz.

7

predict(self, X [, check_input])

X için sınıf değerini tahmin edecektir.

8

predict_log_proba(öz, X)

Bizim tarafımızdan sağlanan girdi örneklerinin sınıf log-olasılıklarını tahmin edecek, X.

9

predict_proba(self, X [, check_input])

Bizim tarafımızdan sağlanan girdi örneklerinin sınıf olasılıklarını tahmin edecek, X.

10

score(öz, X, y [, örnek_ağırlığı])

Adından da anlaşılacağı gibi, score () yöntemi verilen test verileri ve etiketlerdeki ortalama doğruluğu döndürecektir.

11

set_params(öz, \ * \ * parametreler)

Tahmin edicinin parametrelerini bu yöntemle ayarlayabiliriz.

Uygulama Örneği

Aşağıdaki Python betiği kullanacak sklearn.tree.DecisionTreeClassifier 25 örnek ve iki özellik, yani 'yükseklik' ve 'saç uzunluğu' olan veri setimizden erkek veya dişi tahmin etmek için bir sınıflandırıcı oluşturmak için modül -

from sklearn import tree
from sklearn.model_selection import train_test_split
X=[[165,19],[175,32],[136,35],[174,65],[141,28],[176,15]
,[131,32],[166,6],[128,32],[179,10],[136,34],[186,2],[12
6,25],[176,28],[112,38],[169,9],[171,36],[116,25],[196,2
5], [196,38], [126,40], [197,20], [150,25], [140,32],[136,35]]
Y=['Man','Woman','Woman','Man','Woman','Man','Woman','Ma
n','Woman','Man','Woman','Man','Woman','Woman','Woman','
Man','Woman','Woman','Man', 'Woman', 'Woman', 'Man', 'Man', 'Woman', 'Woman']
data_feature_names = ['height','length of hair']
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, random_state = 1)
DTclf = tree.DecisionTreeClassifier()
DTclf = clf.fit(X,Y)
prediction = DTclf.predict([[135,29]])
print(prediction)

Çıktı

['Woman']

Aşağıdaki python tahmin_proba () yöntemini kullanarak her sınıfın olasılığını da tahmin edebiliriz -

Misal

prediction = DTclf.predict_proba([[135,29]])
print(prediction)

Çıktı

[[0. 1.]]

Karar ağaçları ile regresyon

Bu durumda karar değişkenleri süreklidir.

Sklearn Module - Scikit-learn kitaplığı modül adını sağlar DecisionTreeRegressor regresyon problemlerine karar ağaçları uygulamak için.

Parametreler

Tarafından kullanılan parametreler DecisionTreeRegressor neredeyse aynı DecisionTreeClassifiermodül. Fark, 'ölçüt' parametresindedir. İçinDecisionTreeRegressor modüller ‘criterion: string, isteğe bağlı default = "mse" 'parametresi aşağıdaki değerlere sahiptir -

  • mse- Ortalama karesel hata anlamına gelir. Özellik seçme kriteri olarak varyans azaltmaya eşittir. Her bir terminal düğümünün ortalamasını kullanarak L2 kaybını en aza indirir.

  • freidman_mse - Aynı zamanda ortalama kare hatası kullanır, ancak Friedman'ın iyileştirme puanıyla.

  • mae- Ortalama mutlak hata anlamına gelir. Her bir terminal düğümünün medyanını kullanarak L1 kaybını en aza indirir.

Diğer bir fark, sahip olmamasıdır. ‘class_weight’ parametre.

Öznitellikler

Öznitelikleri DecisionTreeRegressor aynı zamanda olduğu gibi DecisionTreeClassifiermodül. Aradaki fark, sahip olmamasıdır‘classes_’ ve ‘n_classes_' Öznitellikler.

Yöntemler

Yöntemleri DecisionTreeRegressor aynı zamanda olduğu gibi DecisionTreeClassifiermodül. Aradaki fark, sahip olmamasıdır‘predict_log_proba()’ ve ‘predict_proba()’' Öznitellikler.

Uygulama Örneği

Karar ağacı regresyon modelindeki fit () yöntemi y'nin kayan nokta değerlerini alacaktır. kullanarak basit bir uygulama örneği görelimSklearn.tree.DecisionTreeRegressor -

from sklearn import tree
X = [[1, 1], [5, 5]]
y = [0.1, 1.5]
DTreg = tree.DecisionTreeRegressor()
DTreg = clf.fit(X, y)

Takıldıktan sonra, aşağıdaki gibi tahmin yapmak için bu regresyon modelini kullanabiliriz -

DTreg.predict([[4, 5]])

Çıktı

array([1.5])

Bu bölüm, Sklearn'daki rastgele karar ağaçlarını anlamanıza yardımcı olacaktır.

Randomize Karar Ağacı algoritmaları

Bir DT'nin genellikle verileri yinelemeli olarak bölerek eğitildiğini bildiğimizden, ancak aşırı uyuma eğilimli olduğundan, verilerin çeşitli alt örnekleri üzerinde birçok ağaç eğitilerek rastgele ormanlara dönüştürüldü. sklearn.ensemble modül, rastgele karar ağaçlarına dayanan aşağıdaki iki algoritmaya sahip -

Rastgele Orman algoritması

İncelenen her bir özellik için, yerel olarak optimum özellik / ayırma kombinasyonunu hesaplar. Rastgele ormanda, topluluktaki her karar ağacı, eğitim setinden değiştirilerek alınan bir örnekten oluşturulur ve ardından her birinden tahmini alır ve son olarak oylama yoluyla en iyi çözümü seçer. Hem sınıflandırma hem de regresyon görevleri için kullanılabilir.

Rastgele Orman ile Sınıflandırma

Rastgele bir orman sınıflandırıcısı oluşturmak için Scikit-learn modülü, sklearn.ensemble.RandomForestClassifier. Rastgele orman sınıflandırıcısı oluştururken, bu modülün kullandığı ana parametreler şunlardır:‘max_features’ ve ‘n_estimators’.

Buraya, ‘max_features’bir düğümü bölerken dikkate alınacak rastgele özellik alt kümelerinin boyutudur. Bu parametrenin değerini hiçbiri olarak seçmezsek, rastgele bir alt küme yerine tüm özellikleri dikkate alacaktır. Diğer yandan,n_estimatorsormandaki ağaçların sayısıdır. Ağaç sayısı ne kadar yüksekse sonuç o kadar iyi olacaktır. Ancak hesaplanması daha uzun sürecektir.

Uygulama örneği

Aşağıdaki örnekte, kullanarak rastgele bir orman sınıflandırıcısı oluşturuyoruz sklearn.ensemble.RandomForestClassifier ve ayrıca doğruluğunu kontrol ederek cross_val_score modül.

from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_blobs
from sklearn.ensemble import RandomForestClassifier
X, y = make_blobs(n_samples = 10000, n_features = 10, centers = 100,random_state = 0) RFclf = RandomForestClassifier(n_estimators = 10,max_depth = None,min_samples_split = 2, random_state = 0)
scores = cross_val_score(RFclf, X, y, cv = 5)
scores.mean()

Çıktı

0.9997

Misal

Rasgele Orman sınıflandırıcısını oluşturmak için sklearn veri setini de kullanabiliriz. Aşağıdaki örnekte olduğu gibi iris veri setini kullanıyoruz. Ayrıca doğruluk puanını ve kafa karışıklığı matrisini de bulacağız.

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

path = "https://archive.ics.uci.edu/ml/machine-learning-database
s/iris/iris.data"
headernames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv(path, names = headernames)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
RFclf = RandomForestClassifier(n_estimators = 50)
RFclf.fit(X_train, y_train)
y_pred = RFclf.predict(X_test)
result = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(result)
result1 = classification_report(y_test, y_pred)
print("Classification Report:",)
print (result1)
result2 = accuracy_score(y_test,y_pred)
print("Accuracy:",result2)

Çıktı

Confusion Matrix:
[[14 0 0]
[ 0 18 1]
[ 0 0 12]]
Classification Report:
                  precision recall f1-score support
Iris-setosa       1.00        1.00  1.00     14
Iris-versicolor   1.00        0.95  0.97     19
Iris-virginica    0.92        1.00  0.96     12

micro avg         0.98        0.98  0.98     45
macro avg         0.97        0.98  0.98     45
weighted avg      0.98        0.98  0.98     45

Accuracy: 0.9777777777777777

Rastgele Orman ile Regresyon

Rastgele bir orman regresyonu oluşturmak için Scikit-learn modülü, sklearn.ensemble.RandomForestRegressor. Rastgele orman regresörü oluştururken, tarafından kullanılan parametrelerin aynısını kullanacaktır.sklearn.ensemble.RandomForestClassifier.

Uygulama örneği

Aşağıdaki örnekte, kullanarak rastgele bir orman regresörü oluşturuyoruz sklearn.ensemble.RandomForestregressor ve ayrıca öngörme () yöntemini kullanarak yeni değerleri tahmin etme.

from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
RFregr = RandomForestRegressor(max_depth = 10,random_state = 0,n_estimators = 100)
RFregr.fit(X, y)

Çıktı

RandomForestRegressor(
   bootstrap = True, criterion = 'mse', max_depth = 10,
   max_features = 'auto', max_leaf_nodes = None,
   min_impurity_decrease = 0.0, min_impurity_split = None,
   min_samples_leaf = 1, min_samples_split = 2,
   min_weight_fraction_leaf = 0.0, n_estimators = 100, n_jobs = None,
   oob_score = False, random_state = 0, verbose = 0, warm_start = False
)

Takıldıktan sonra aşağıdaki gibi regresyon modelinden tahmin edebiliriz -

print(RFregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

Çıktı

[98.47729198]

Ağaç Dışı Yöntemler

İncelenen her özellik için, bölme için rastgele bir değer seçer. Ekstra ağaç yöntemleri kullanmanın yararı, modelin varyansını biraz daha azaltmaya izin vermesidir. Bu yöntemleri kullanmanın dezavantajı, önyargıyı biraz artırmasıdır.

Ekstra Ağaç Yöntemi ile Sınıflandırma

Extra-tree yöntemini kullanarak bir sınıflandırıcı oluşturmak için Scikit-learn modülü, sklearn.ensemble.ExtraTreesClassifier. Tarafından kullanılan aynı parametreleri kullanırsklearn.ensemble.RandomForestClassifier. Tek fark, yukarıda tartışılan, ağaç inşa etmeleridir.

Uygulama örneği

Aşağıdaki örnekte, kullanarak rastgele bir orman sınıflandırıcısı oluşturuyoruz sklearn.ensemble.ExtraTreeClassifier ve ayrıca kullanarak doğruluğunu kontrol etmek cross_val_score modül.

from sklearn.model_selection import cross_val_score
from sklearn.datasets import make_blobs
from sklearn.ensemble import ExtraTreesClassifier
X, y = make_blobs(n_samples = 10000, n_features = 10, centers=100,random_state = 0)
ETclf = ExtraTreesClassifier(n_estimators = 10,max_depth = None,min_samples_split = 10, random_state = 0)
scores = cross_val_score(ETclf, X, y, cv = 5)
scores.mean()

Çıktı

1.0

Misal

Ekstra-Ağaç yöntemini kullanarak sınıflandırıcı oluşturmak için sklearn veri setini de kullanabiliriz. Aşağıdaki örnekte olduğu gibi Pima-Indian veri kümesini kullanıyoruz.

from pandas import read_csv

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 7
kfold = KFold(n_splits=10, random_state=seed)
num_trees = 150
max_features = 5
ETclf = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(ETclf, X, Y, cv=kfold)
print(results.mean())

Çıktı

0.7551435406698566

Ekstra Ağaç Yöntemi ile Regresyon

Oluşturmak için Extra-Tree regresyon, Scikit-learn modülü, sklearn.ensemble.ExtraTreesRegressor. Rastgele orman regresörü oluştururken, tarafından kullanılan parametrelerin aynısını kullanacaktır.sklearn.ensemble.ExtraTreesClassifier.

Uygulama örneği

Aşağıdaki örnekte uyguluyoruz sklearn.ensemble.ExtraTreesregressorve rasgele orman regresörü oluştururken kullandığımız veriler üzerinde. Çıktıdaki farkı görelim

from sklearn.ensemble import ExtraTreesRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ETregr = ExtraTreesRegressor(max_depth = 10,random_state = 0,n_estimators = 100)
ETregr.fit(X, y)

Çıktı

ExtraTreesRegressor(bootstrap = False, criterion = 'mse', max_depth = 10,
   max_features = 'auto', max_leaf_nodes = None,
   min_impurity_decrease = 0.0, min_impurity_split = None,
   min_samples_leaf = 1, min_samples_split = 2,
   min_weight_fraction_leaf = 0.0, n_estimators = 100, n_jobs = None,
   oob_score = False, random_state = 0, verbose = 0, warm_start = False)

Misal

Takıldıktan sonra aşağıdaki gibi regresyon modelinden tahmin edebiliriz -

print(ETregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

Çıktı

[85.50955817]

Bu bölümde, bir topluluk modeli oluşturmayı sağlayan Sklearn'daki güçlendirme yöntemlerini öğreneceğiz.

Güçlendirme yöntemleri, artımlı bir şekilde topluluk modeli oluşturur. Ana prensip, her bir temel model tahmin edicisini sırayla eğiterek modeli aşamalı olarak oluşturmaktır. Güçlü bir topluluk oluşturmak için, bu yöntemler temel olarak, eğitim verilerinin birden çok yinelemesi üzerinden sıralı olarak eğitilen birkaç haftalık öğrenciyi birleştirir. Sklearn.ensemble modülü aşağıdaki iki yükseltme yöntemine sahip.

AdaBoost

Veri kümesindeki örneklere ağırlık vermelerinde ana anahtarı olan en başarılı boosting ensemble yöntemlerinden biridir. Bu nedenle, algoritmanın sonraki modelleri oluştururken örneklere daha az dikkat etmesi gerekiyor.

AdaBoost ile Sınıflandırma

AdaBoost sınıflandırıcı oluşturmak için Scikit-learn modülü şunları sağlar: sklearn.ensemble.AdaBoostClassifier. Bu sınıflandırıcıyı oluştururken, bu modülün kullandığı ana parametrebase_estimator. Burada, base_estimator,base estimatorgüçlendirilmiş topluluğun yapıldığı yer. Bu parametrenin değerini hiçbiri olarak seçmezsek, temel tahminciDecisionTreeClassifier(max_depth=1).

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir AdaBoost sınıflandırıcısı oluşturuyoruz. sklearn.ensemble.AdaBoostClassifier ve ayrıca puanını tahmin etme ve kontrol etme.

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10,n_informative = 2, n_redundant = 0,random_state = 0, shuffle = False)
ADBclf = AdaBoostClassifier(n_estimators = 100, random_state = 0)
ADBclf.fit(X, y)

Çıktı

AdaBoostClassifier(algorithm = 'SAMME.R', base_estimator = None,
learning_rate = 1.0, n_estimators = 100, random_state = 0)

Misal

Takıldıktan sonra, yeni değerleri şu şekilde tahmin edebiliriz:

print(ADBclf.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

Çıktı

[1]

Misal

Şimdi skoru şu şekilde kontrol edebiliriz -

ADBclf.score(X, y)

Çıktı

0.995

Misal

Ekstra-Ağaç yöntemini kullanarak sınıflandırıcı oluşturmak için sklearn veri setini de kullanabiliriz. Örneğin, aşağıda verilen bir örnekte, Pima-Indian veri setini kullanıyoruz.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = AdaBoostClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

Çıktı

0.7851435406698566

AdaBoost ile Regresyon

Ada Boost yöntemiyle bir regresör oluşturmak için Scikit-learn kitaplığı, sklearn.ensemble.AdaBoostRegressor. Regresör oluştururken, tarafından kullanılan parametrelerin aynısını kullanacaktır.sklearn.ensemble.AdaBoostClassifier.

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir AdaBoost regresörü oluşturuyoruz. sklearn.ensemble.AdaBoostregressor ve ayrıca öngörme () yöntemini kullanarak yeni değerleri tahmin etme.

from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ADBregr = RandomForestRegressor(random_state = 0,n_estimators = 100)
ADBregr.fit(X, y)

Çıktı

AdaBoostRegressor(base_estimator = None, learning_rate = 1.0, loss = 'linear',
n_estimators = 100, random_state = 0)

Misal

Takıldıktan sonra aşağıdaki gibi regresyon modelinden tahmin edebiliriz -

print(ADBregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

Çıktı

[85.50955817]

Gradyan Ağacı Güçlendirme

Aynı zamanda Gradient Boosted Regression Trees(GRBT). Temelde, keyfi türevlenebilir kayıp fonksiyonlarına desteklemenin bir genellemesidir. Hafta tahmin modelleri topluluğu şeklinde bir tahmin modeli üretir. Regresyon ve sınıflandırma problemleri için kullanılabilir. Ana avantajları, karışık tipteki verileri doğal olarak ele almalarıdır.

Gradient Tree Boost ile Sınıflandırma

Bir Gradient Tree Boost sınıflandırıcısı oluşturmak için Scikit-learn modülü şunları sağlar: sklearn.ensemble.GradientBoostingClassifier. Bu sınıflandırıcıyı oluştururken, bu modülün kullandığı ana parametre 'kayıp'tır. Burada 'kayıp', optimize edilecek kayıp fonksiyonunun değeridir. Kayıp = sapma seçersek, olasılıklı çıktılarla sınıflandırma için sapmayı ifade eder.

Öte yandan, bu parametrenin değerini üstel olarak seçersek, AdaBoost algoritmasını kurtarır. Parametren_estimatorshaftalık öğrenci sayısını kontrol edecek. Adlı bir hiper parametrelearning_rate ((0.0, 1.0] aralığında) büzülme yoluyla aşırı uydurmayı kontrol edecektir.

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir Gradient Boosting sınıflandırıcısı oluşturuyoruz. sklearn.ensemble.GradientBoostingClassifier. Bu sınıflandırıcıyı 50 haftalık öğrenciler için uygun hale getiriyoruz.

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state = 0)
X_train, X_test = X[:5000], X[5000:]
y_train, y_test = y[:5000], y[5000:]

GDBclf = GradientBoostingClassifier(n_estimators = 50, learning_rate = 1.0,max_depth = 1, random_state = 0).fit(X_train, y_train)
GDBclf.score(X_test, y_test)

Çıktı

0.8724285714285714

Misal

Gradient Boosting Classifier kullanarak sınıflandırıcı oluşturmak için sklearn veri kümesini de kullanabiliriz. Aşağıdaki örnekte olduğu gibi Pima-Indian veri kümesini kullanıyoruz.

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = GradientBoostingClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

Çıktı

0.7946582356674234

Gradient Tree Boost ile Regresyon

Gradient Tree Boost yöntemiyle bir regresör oluşturmak için Scikit-learn kitaplığı, sklearn.ensemble.GradientBoostingRegressor. Parametre adı kaybı yoluyla regresyon için kayıp fonksiyonunu belirleyebilir. Kayıp için varsayılan değer 'ls'dir.

Uygulama örneği

Aşağıdaki örnekte, kullanarak bir Gradyan Artırma regresörü oluşturuyoruz sklearn.ensemble.GradientBoostingregressor ve ayrıca mean_squared_error () yöntemini kullanarak ortalama karesel hatayı bulma.

import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples = 2000, random_state = 0, noise = 1.0)
X_train, X_test = X[:1000], X[1000:]
y_train, y_test = y[:1000], y[1000:]
GDBreg = GradientBoostingRegressor(n_estimators = 80, learning_rate=0.1,
max_depth = 1, random_state = 0, loss = 'ls').fit(X_train, y_train)

Bir kez yerleştirildikten sonra, ortalama kare hatayı aşağıdaki gibi bulabiliriz -

mean_squared_error(y_test, GDBreg.predict(X_test))

Çıktı

5.391246106657164

Burada, veri örneklerindeki herhangi bir benzerliğin belirlenmesine yardımcı olacak Sklearn'daki kümeleme yöntemleri hakkında çalışacağız.

Veri örnekleri arasında benzerlik ve ilişki modellerini bulmak için kullanılan, denetimsiz makine öğrenimi yöntemlerinin en kullanışlılarından biri olan kümeleme yöntemleri. Bundan sonra, bu örnekleri özelliklere göre benzerlik gösteren gruplar halinde kümelerler. Kümeleme, mevcut etiketlenmemiş veriler arasındaki içsel gruplamayı belirler, bu yüzden önemlidir.

Scikit-learn kitaplığı, sklearn.clusteretiketlenmemiş verilerin kümelenmesini gerçekleştirmek için. Bu modül altında scikit-leran aşağıdaki kümeleme yöntemlerine sahiptir -

KMeanler

Bu algoritma, ağırlık merkezlerini hesaplar ve optimum ağırlık merkezini bulana kadar yineler. Küme sayısının belirtilmesini gerektirir, bu yüzden zaten bilindiklerini varsayar. Bu algoritmanın ana mantığı, atalet olarak bilinen kriterleri en aza indirerek, numuneleri n sayıda eşit varyanslı gruplara ayıran verileri kümelemektir. Algoritma tarafından tanımlanan küme sayısı 'K ile temsil edilir.

Scikit-learn var sklearn.cluster.KMeansK-Means kümeleme gerçekleştirmek için modül. Küme merkezlerini ve atalet değerini hesaplarken, adı verilen parametresample_weight izin verir sklearn.cluster.KMeans bazı örneklere daha fazla ağırlık atamak için modül.

Yakın İlgi Yayılımı

Bu algoritma, yakınsamaya kadar farklı örnek çiftleri arasında 'mesaj geçişi' kavramına dayanmaktadır. Algoritmayı çalıştırmadan önce küme sayısının belirtilmesini gerektirmez. Algoritmanın en büyük dezavantajı olan düzen (2) 'nin bir zaman karmaşıklığı vardır.

Scikit-learn var sklearn.cluster.AffinityPropagation Affinity Propagation kümeleme gerçekleştirmek için modül.

Ortalama Vardiya

Bu algoritma esas olarak keşfeder blobspürüzsüz bir numune yoğunluğunda. Noktaları en yüksek veri noktası yoğunluğuna kaydırarak, veri noktalarını yinelemeli olarak kümelere atar. Adlı bir parametreye güvenmek yerinebandwidth Aranacak bölgenin boyutunu belirleyerek, küme sayısını otomatik olarak ayarlar.

Scikit-learn var sklearn.cluster.MeanShift Mean Shift kümeleme gerçekleştirmek için modül.

Spektral Kümeleme

Kümelemeden önce, bu algoritma temelde özdeğerleri, yani daha az boyutta boyutsallık indirgemesi gerçekleştirmek için verilerin benzerlik matrisinin spektrumunu kullanır. Çok sayıda küme olduğunda bu algoritmanın kullanılması tavsiye edilmez.

Scikit-learn var sklearn.cluster.SpectralClustering Spectral kümeleme gerçekleştirmek için modül.

Hiyerarşik kümeleme

Bu algoritma, kümeleri art arda birleştirerek veya bölerek iç içe geçmiş kümeler oluşturur. Bu küme hiyerarşisi dendrogram yani ağaç olarak temsil edilir. Aşağıdaki iki kategoriye ayrılır -

Agglomerative hierarchical algorithms- Bu tür hiyerarşik algoritmada, her veri noktası tek bir küme gibi ele alınır. Daha sonra küme çiftlerini art arda toplar. Bu aşağıdan yukarıya yaklaşımını kullanır.

Divisive hierarchical algorithms- Bu hiyerarşik algoritmada, tüm veri noktaları tek bir büyük küme olarak ele alınır. Bunda, kümeleme süreci, bir büyük kümeyi yukarıdan aşağıya yaklaşımı kullanarak çeşitli küçük kümelere bölmeyi içerir.

Scikit-learn var sklearn.cluster.AgglomerativeClustering Aglomeratif Hiyerarşik kümeleme gerçekleştirmek için modül.

DBSCAN

Anlamına gelir “Density-based spatial clustering of applications with noise”. Bu algoritma, sezgisel "kümeler" ve "gürültü" kavramına dayanmaktadır; kümeler, veri noktalarının daha düşük yoğunluklu bölgeleri ile ayrılmış, veri uzayında daha düşük yoğunluğa sahip yoğun bölgelerdir.

Scikit-learn var sklearn.cluster.DBSCANDBSCAN kümelemesini gerçekleştirmek için modül. Bu algoritma tarafından yoğunluğu tanımlamak için kullanılan min_samples ve eps olmak üzere iki önemli parametre vardır.

Daha yüksek parametre değeri min_samples veya daha düşük parametre eps değeri, bir küme oluşturmak için gerekli olan veri noktalarının daha yüksek yoğunluğu hakkında bir gösterge verecektir.

OPTİK

Anlamına gelir “Ordering points to identify the clustering structure”. Bu algoritma aynı zamanda uzamsal verilerde yoğunluk temelli kümeler bulur. Temel çalışma mantığı DBSCAN gibidir.

Veritabanının noktalarını uzamsal olarak en yakın noktalar sırayla komşu olacak şekilde sıralayarak, DBSCAN algoritmasının önemli bir zayıflığını - değişen yoğunluktaki verilerdeki anlamlı kümeleri tespit etme problemini - ele alır.

Scikit-learn var sklearn.cluster.OPTICS OPTICS kümeleme gerçekleştirmek için modül.

Huş

Dengeli yinelemeli azaltma ve hiyerarşileri kullanarak kümeleme anlamına gelir. Büyük veri kümeleri üzerinde hiyerarşik kümeleme yapmak için kullanılır. Adlı bir ağaç inşa ederCFT yani Characteristics Feature Tree, verilen veriler için.

CFT'nin avantajı, CF (Characteristics Feature) düğümleri olarak adlandırılan veri düğümlerinin, tüm giriş verilerini bellekte tutma ihtiyacını daha da önleyen kümeleme için gerekli bilgileri tutmasıdır.

Scikit-learn var sklearn.cluster.Birch BIRCH kümeleme gerçekleştirmek için modül.

Kümeleme Algoritmalarını Karşılaştırma

Aşağıdaki tablo, scikit-learn'deki kümeleme algoritmalarının bir karşılaştırmasını (parametrelere, ölçeklenebilirliğe ve ölçüye dayalı olarak) verecektir.

Sr.No Algoritma Adı Parametreler Ölçeklenebilirlik Kullanılan Metrik
1 K-anlamına gelir Küme sayısı Çok büyük n_samples Noktalar arasındaki mesafe.
2 Yakın İlgi Yayılımı Sönümleme N_samples ile ölçeklenemez Grafik Mesafesi
3 Ortalama Kaydırma Bant genişliği N_samples ile ölçeklenemez. Noktalar arasındaki mesafe.
4 Spektral Kümeleme Küme sayısı N_samples ile orta düzeyde ölçeklenebilirlik. N_clusters ile küçük ölçeklenebilirlik düzeyi. Grafik Mesafesi
5 Hiyerarşik kümeleme Mesafe eşiği veya küme sayısı Büyük n_samples Büyük n_kümeler Noktalar arasındaki mesafe.
6 DBSCAN Mahalle boyutu Çok büyük n_örnekler ve orta n_kümeler. En yakın nokta mesafesi
7 OPTİK Minimum küme üyeliği Çok büyük n_örnekleri ve büyük n_kümeleri. Noktalar arasındaki mesafe.
8 Huş Eşik, Dallanma faktörü Büyük n_samples Büyük n_kümeler Noktalar arasındaki Öklid mesafesi.

Scikit-learn Digit veri kümesinde K-Means Kümeleme

Bu örnekte, basamak veri kümesine K-ortalama kümelemesini uygulayacağız. Bu algoritma, orijinal etiket bilgilerini kullanmadan benzer basamakları tanımlayacaktır. Uygulama Jupyter defterinde yapılır.

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape

Çıktı

1797, 64)

Bu çıktı, rakam veri setinin 64 özelliğe sahip 1797 örneğe sahip olduğunu göstermektedir.

Misal

Şimdi, K-Means kümelemesini aşağıdaki gibi gerçekleştirin -

kmeans = KMeans(n_clusters = 10, random_state = 0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape

Çıktı

(10, 64)

Bu çıktı, K-araç kümelemesinin 64 özelliğe sahip 10 küme oluşturduğunu göstermektedir.

Misal

fig, ax = plt.subplots(2, 5, figsize = (8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
axi.set(xticks = [], yticks = [])
axi.imshow(center, interpolation = 'nearest', cmap = plt.cm.binary)

Çıktı

Aşağıdaki çıktı, K-Means Kümeleme tarafından öğrenilen küme merkezlerini gösteren görüntülere sahiptir.

Ardından, aşağıdaki Python betiği, öğrenilen küme etiketlerini (K-Means ile) içlerinde bulunan gerçek etiketlerle eşleştirecektir -

from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
mask = (clusters == i)
labels[mask] = mode(digits.target[mask])[0]

Doğruluğu aşağıda belirtilen komut yardımıyla da kontrol edebiliriz.

from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)

Çıktı

0.7935447968836951

Eksiksiz Uygulama Örneği

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

from sklearn.cluster import KMeans
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
kmeans = KMeans(n_clusters = 10, random_state = 0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape
fig, ax = plt.subplots(2, 5, figsize = (8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
   axi.set(xticks=[], yticks = [])
   axi.imshow(center, interpolation = 'nearest', cmap = plt.cm.binary)
from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
   mask = (clusters == i)
   labels[mask] = mode(digits.target[mask])[0]
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)

Kümeleme algoritmalarının performansını değerlendirebileceğimiz çeşitli fonksiyonlar vardır.

Aşağıda, kümeleme performansını değerlendirmek için Scikit-learn tarafından verilen bazı önemli ve en çok kullanılan işlevler verilmiştir -

Düzeltilmiş Rand Endeksi

Rand Dizini, iki kümeleme arasındaki benzerlik ölçüsünü hesaplayan bir işlevdir. Bu hesaplama için rand indeksi, tahmin edilen ve gerçek kümelemede benzer veya farklı kümelerde atanan tüm örnek çiftlerini ve sayma çiftlerini dikkate alır. Daha sonra, ham Rand Endeksi puanı aşağıdaki formül kullanılarak Düzeltilmiş Rand Endeksi puanına 'şansa göre ayarlanır':

$$Adjusted\:RI=\left(RI-Expected_{-}RI\right)/\left(max\left(RI\right)-Expected_{-}RI\right)$$

Yani iki parametresi vardır labels_true, kesin referans sınıf etiketleri olan ve labels_pred, değerlendirilecek küme etiketidir.

Misal

from sklearn.metrics.cluster import adjusted_rand_score
   
   labels_true = [0, 0, 1, 1, 1, 1]
   labels_pred = [0, 0, 2, 2, 3, 3]

adjusted_rand_score(labels_true, labels_pred)

Çıktı

0.4444444444444445

Mükemmel etiketleme 1 olarak puanlanır ve kötü etiketleme veya bağımsız etiketleme 0 veya negatif olarak puanlanır.

Karşılıklı Bilgiye Dayalı Puan

Karşılıklı Bilgi, iki görevin anlaşmasını hesaplayan bir işlevdir. Permütasyonları görmezden gelir. Aşağıdaki versiyonlar mevcuttur -

Normalleştirilmiş Karşılıklı Bilgi (NMI)

Scikit öğrenmek var sklearn.metrics.normalized_mutual_info_score modül.

Misal

from sklearn.metrics.cluster import normalized_mutual_info_score
   
   labels_true = [0, 0, 1, 1, 1, 1]
   labels_pred = [0, 0, 2, 2, 3, 3]

normalized_mutual_info_score (labels_true, labels_pred)

Çıktı

0.7611702597222881

Düzeltilmiş Karşılıklı Bilgi (AMI)

Scikit öğrenmek var sklearn.metrics.adjusted_mutual_info_score modül.

Misal

from sklearn.metrics.cluster import adjusted_mutual_info_score

   labels_true = [0, 0, 1, 1, 1, 1]
   labels_pred = [0, 0, 2, 2, 3, 3]

adjusted_mutual_info_score (labels_true, labels_pred)

Çıktı

0.4444444444444448

Fowlkes-Mallows Skoru

Fowlkes-Mallows işlevi, bir dizi noktanın iki kümelenmesinin benzerliğini ölçer. İkili kesinlik ve geri çağırmanın geometrik ortalaması olarak tanımlanabilir.

Matematiksel olarak,

$$FMS=\frac{TP}{\sqrt{\left(TP+FP\right)\left(TP+FN\right)}}$$

Buraya, TP = True Positive - aynı kümelere ait olan nokta çifti sayısı ve her ikisi de tahmin edilen etiketler.

FP = False Positive - Gerçek etiketlerde aynı kümelere ait olan ancak tahmin edilen etiketlerde bulunmayan nokta çifti sayısı.

FN = False Negative - tahmin edilen etiketlerde aynı kümelere ait olan ancak gerçek etiketlerde bulunmayan nokta çifti sayısı.

Scikit öğrenmesi sklearn.metrics.fowlkes_mallows_score modülüne sahiptir -

Misal

from sklearn.metrics.cluster import fowlkes_mallows_score

   labels_true = [0, 0, 1, 1, 1, 1]
   labels_pred = [0, 0, 2, 2, 3, 3]

fowlkes_mallows__score (labels_true, labels_pred)

Çıktı

0.6546536707079771

Siluet Katsayısı

Silhouette işlevi, her örnek için ortalama küme içi mesafeyi ve ortalama en yakın küme mesafesini kullanarak tüm numunelerin ortalama Silhouette Katsayısını hesaplayacaktır.

Matematiksel olarak,

$$S=\left(b-a\right)/max\left(a,b\right)$$

Burada a küme içi mesafedir.

ve b, en yakın küme mesafesidir.

Scikit öğrenir sklearn.metrics.silhouette_score modül -

Misal

from sklearn import metrics.silhouette_score
from sklearn.metrics import pairwise_distances
from sklearn import datasets
import numpy as np
from sklearn.cluster import KMeans
dataset = datasets.load_iris()
X = dataset.data
y = dataset.target

kmeans_model = KMeans(n_clusters = 3, random_state = 1).fit(X)
labels = kmeans_model.labels_
silhouette_score(X, labels, metric = 'euclidean')

Çıktı

0.5528190123564091

Olasılık Matrisi

Bu matris, her güvenilir çift (doğru, tahmin edilen) için kesişim önemini bildirecektir. Sınıflandırma problemleri için kafa karışıklığı matrisi, bir kare olasılık matrisidir.

Scikit öğrenir sklearn.metrics.contingency_matrix modül.

Misal

from sklearn.metrics.cluster import contingency_matrix
x = ["a", "a", "a", "b", "b", "b"]
y = [1, 1, 2, 0, 1, 2]
contingency_matrix(x, y)

Çıktı

array([
   [0, 2, 1],
   [1, 1, 1]
])

Yukarıdaki çıktının ilk satırı, gerçek kümesi "a" olan üç örnek arasında hiçbirinin 0'da olmadığını, ikisinin 1'de ve 1'in 2'de olduğunu gösterir. Öte yandan, ikinci satır, üç örnek arasında olduğunu gösterir. gerçek kümesi "b", 1 0'da, 1 1'de ve 1 2'de.

Boyut azaltma, denetimsiz bir makine öğrenimi yöntemi, temel özellikler kümesini seçerek her bir veri örneği için özellik değişkenlerinin sayısını azaltmak için kullanılır. Temel Bileşen Analizi (PCA), boyut azaltma için popüler algoritmalardan biridir.

Tam PCA

Principal Component Analysis (PCA) kullanılarak doğrusal boyut azaltma için kullanılır Singular Value DecompositionDaha düşük boyutlu bir alana yansıtmak için verilerin (SVD). PCA kullanılarak ayrıştırma sırasında, giriş verileri ortalanır ancak SVD uygulanmadan önce her özellik için ölçeklenmez.

Scikit-learn ML kitaplığı şunları sağlar: sklearn.decomposition.PCAfit () yönteminde n bileşeni öğrenen bir transformatör nesnesi olarak uygulanan modül. Ayrıca, bu bileşenlere yansıtmak için yeni veriler üzerinde de kullanılabilir.

Misal

Aşağıdaki örnek, Pima Indians Diabetes veri setinden en iyi 5 Temel bileşeni bulmak için sklearn.decomposition.PCA modülünü kullanacaktır.

from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\Users\Leekha\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', ‘class']
dataframe = read_csv(path, names = names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
pca = PCA(n_components = 5)
fit = pca.fit(X)
print(("Explained Variance: %s") % (fit.explained_variance_ratio_))
print(fit.components_)

Çıktı

Explained Variance: [0.88854663 0.06159078 0.02579012 0.01308614 0.00744094]
[
   [-2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-029.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03]
   [-2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01]
   [-2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]
   [-4.90459604e-02 1.19830016e-01 -2.62742788e-01 8.84369380e-01-6.55503615e-02 1.92801728e-01 2.69908637e-03 -3.01024330e-01]
   [ 1.51612874e-01 -8.79407680e-02 -2.32165009e-01 2.59973487e-01-1.72312241e-04 2.14744823e-02 1.64080684e-03 9.20504903e-01]
]

Artımlı PCA

Incremental Principal Component Analysis (IPCA), Temel Bileşen Analizinin (PCA) en büyük sınırlamasını ele almak için kullanılır ve bu, PCA'nın yalnızca toplu işlemeyi desteklemesi, işlenecek tüm giriş verilerinin belleğe sığması gerektiği anlamına gelir.

Scikit-learn ML kitaplığı şunları sağlar: sklearn.decomposition.IPCA Çekirdek Dışı PCA'yı kullanarak da uygulamayı mümkün kılan modül partial_fit sırayla getirilen veri yığınları üzerinde veya kullanımını etkinleştirerek yöntem np.memmap, tüm dosyayı belleğe yüklemeden bellek eşlemeli bir dosya.

PCA ile aynı, IPCA kullanılarak ayrıştırma yapılırken, SVD uygulanmadan önce giriş verileri ortalanır ancak her özellik için ölçeklenmez.

Misal

Aşağıdaki örnek kullanacak sklearn.decomposition.IPCA modülü Sklearn basamak veri kümesinde.

from sklearn.datasets import load_digits
from sklearn.decomposition import IncrementalPCA
X, _ = load_digits(return_X_y = True)
transformer = IncrementalPCA(n_components = 10, batch_size = 100)
transformer.partial_fit(X[:100, :])
X_transformed = transformer.fit_transform(X)
X_transformed.shape

Çıktı

(1797, 10)

Burada, daha küçük veri yığınlarına kısmen sığabiliriz (toplu iş başına 100'de yaptığımız gibi) veya fit() verileri toplu işlere bölme işlevi.

Çekirdek PCA

PCA'nın bir uzantısı olan Kernel Principal Component Analysis, çekirdekler kullanarak doğrusal olmayan boyut indirimi sağlar. İkisini de desteklertransform and inverse_transform.

Scikit-learn ML kitaplığı şunları sağlar: sklearn.decomposition.KernelPCA modül.

Misal

Aşağıdaki örnek kullanacak sklearn.decomposition.KernelPCAmodülü Sklearn basamak veri kümesinde. Sigmoid çekirdek kullanıyoruz.

from sklearn.datasets import load_digits
from sklearn.decomposition import KernelPCA
X, _ = load_digits(return_X_y = True)
transformer = KernelPCA(n_components = 10, kernel = 'sigmoid')
X_transformed = transformer.fit_transform(X)
X_transformed.shape

Çıktı

(1797, 10)

Randomize SVD kullanan PCA

Rastgele SVD kullanan Temel Bileşen Analizi (PCA), daha düşük tekil değerlerle ilişkili bileşenlerin tekil vektörünü düşürerek varyansın çoğunu koruyarak verileri daha düşük boyutlu bir alana yansıtmak için kullanılır. Buradasklearn.decomposition.PCA isteğe bağlı parametre ile modül svd_solver=’randomized’ çok faydalı olacak.

Misal

Aşağıdaki örnek kullanacak sklearn.decomposition.PCA Pima Indians Diabetes veri setinden en iyi 7 Ana bileşeni bulmak için isteğe bağlı svd_solver = 'randomize' parametresine sahip modül.

from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\Users\Leekha\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names = names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
pca = PCA(n_components = 7,svd_solver = 'randomized')
fit = pca.fit(X)
print(("Explained Variance: %s") % (fit.explained_variance_ratio_))
print(fit.components_)

Çıktı

Explained Variance: [8.88546635e-01 6.15907837e-02 2.57901189e-02 1.30861374e-027.44093864e-03 3.02614919e-03 5.12444875e-04]
[
   [-2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-029.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03]
   [-2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01]
   [-2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]
   [-4.90459604e-02 1.19830016e-01 -2.62742788e-01 8.84369380e-01-6.55503615e-02 1.92801728e-01 2.69908637e-03 -3.01024330e-01]
   [ 1.51612874e-01 -8.79407680e-02 -2.32165009e-01 2.59973487e-01-1.72312241e-04 2.14744823e-02 1.64080684e-03 9.20504903e-01]
   [-5.04730888e-03 5.07391813e-02 7.56365525e-02 2.21363068e-01-6.13326472e-03 -9.70776708e-01 -2.02903702e-03 -1.51133239e-02]
   [ 9.86672995e-01 8.83426114e-04 -1.22975947e-03 -3.76444746e-041.42307394e-03 -2.73046214e-03 -6.34402965e-03 -1.62555343e-01]
]