CNTK - Performans Ölçümü
Bu bölüm CNKT'de model performansının nasıl ölçüleceğini açıklayacaktır.
Model performansını doğrulama stratejisi
Bir ML modeli oluşturduktan sonra, onu bir dizi veri örneği kullanarak eğitiyorduk. Bu eğitim sayesinde makine öğrenimi modelimiz bazı genel kuralları öğrenir ve türetir. Makine öğrenimi modelinin performansı, yeni örnekleri, yani eğitim sırasında sağlanandan farklı örnekleri modele beslediğimizde önemlidir. Bu durumda model farklı davranır. Bu yeni örnekler üzerinde iyi bir tahmin yapmak daha kötü olabilir.
Ancak model yeni örnekler için de iyi çalışmalıdır çünkü üretim ortamında eğitim amaçlı örnek veriler kullandığımızdan farklı girdiler alacağız. Bu nedenle, eğitim amaçlı kullandığımız örneklerden farklı bir dizi örnek kullanarak ML modelini doğrulamalıyız. Burada, bir NN'yi doğrulamak için bir veri kümesi oluşturmak için iki farklı tekniği tartışacağız.
Uzatma veri kümesi
Bir NN'yi doğrulamak için bir veri kümesi oluşturmanın en kolay yöntemlerinden biridir. Adından da anlaşılacağı gibi, bu yöntemde eğitimden bir örnek setini (örneğin% 20) geri alacağız ve bunu makine öğrenimi modelimizin performansını test etmek için kullanacağız. Aşağıdaki diyagram, eğitim ve doğrulama örnekleri arasındaki oranı göstermektedir -
Hold-out veri seti modeli, ML modelimizi eğitmek için yeterli veriye sahip olmamızı sağlar ve aynı zamanda, modelin performansının iyi bir ölçümünü elde etmek için makul sayıda örneğe sahip oluruz.
Eğitim setine ve test setine dahil etmek için, ana veri setinden rastgele örnekler seçmek iyi bir uygulamadır. Eğitim ve test seti arasında eşit bir dağılım sağlar.
Aşağıda, kendi veri setini ürettiğimiz bir örnek yer almaktadır. train_test_split işlevinden scikit-learn kütüphane.
Misal
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
# Here above test_size = 0.2 represents that we provided 20% of the data as test data.
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors=3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Providing sample data and the model will make prediction out of that data
sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] print("Predictions:", pred_species)
Çıktı
Predictions: ['versicolor', 'virginica']
CNTK'yı kullanırken, modelimizi her eğittiğimizde veri kümemizin sırasını rastgele hale getirmemiz gerekir çünkü -
Derin öğrenme algoritmaları, rastgele sayı üreticilerinden oldukça etkilenir.
Eğitim sırasında numuneleri NN'ye verdiğimiz sıra, performansını büyük ölçüde etkiler.
Uzatma veri kümesi tekniğini kullanmanın en büyük dezavantajı, güvenilmez olmasıdır çünkü bazen çok iyi sonuçlar alıyoruz, ancak bazen kötü sonuçlar alıyoruz.
K katlamalı çapraz doğrulama
Makine öğrenimi modelimizi daha güvenilir hale getirmek için, K-katlamalı çapraz doğrulama adı verilen bir teknik vardır. Doğası gereği, K-kat çapraz doğrulama tekniği önceki teknikle aynıdır, ancak bunu birkaç kez, genellikle yaklaşık 5 ila 10 kez tekrarlar. Aşağıdaki şema konseptini temsil etmektedir -
K-katlama çapraz doğrulama çalışması
K-katlama çapraz doğrulamasının çalışması, aşağıdaki adımların yardımıyla anlaşılabilir -
Step 1- Hand-out veri seti tekniğinde olduğu gibi, K-kat çapraz doğrulama tekniğinde, önce veri setini bir eğitim ve test setine bölmemiz gerekir. İdeal olarak, oran 80-20'dir, yani eğitim setinin% 80'i ve test setinin% 20'si.
Step 2 - Daha sonra, modelimizi eğitim setini kullanarak eğitmemiz gerekiyor.
Step 3Son olarak, modelimizin performansını ölçmek için test setini kullanacağız. Hold-out veri seti tekniği ile k-cross doğrulama tekniği arasındaki tek fark, yukarıdaki işlemin genellikle 5 ila 10 kez tekrarlanması ve sonunda ortalamanın tüm performans ölçütleri üzerinden hesaplanmasıdır. Bu ortalama, nihai performans ölçütleri olacaktır.
Küçük bir veri kümesine sahip bir örnek görelim -
Misal
from numpy import array
from sklearn.model_selection import KFold
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0])
kfold = KFold(5, True, 1)
for train, test in kfold.split(data):
print('train: %s, test: %s' % (data[train],(data[test]))
Çıktı
train: [0.1 0.2 0.4 0.5 0.6 0.7 0.8 0.9], test: [0.3 1. ]
train: [0.1 0.2 0.3 0.4 0.6 0.8 0.9 1. ], test: [0.5 0.7]
train: [0.2 0.3 0.5 0.6 0.7 0.8 0.9 1. ], test: [0.1 0.4]
train: [0.1 0.3 0.4 0.5 0.6 0.7 0.9 1. ], test: [0.2 0.8]
train: [0.1 0.2 0.3 0.4 0.5 0.7 0.8 1. ], test: [0.6 0.9]
Gördüğümüz gibi, daha gerçekçi bir eğitim ve test senaryosu kullanılması nedeniyle, k-kat çapraz doğrulama tekniği bize çok daha istikrarlı bir performans ölçümü sağlar, ancak olumsuz yanı, derin öğrenme modellerini doğrulamak çok zaman alır.
CNTK, k-cross doğrulamayı desteklemiyor, bu yüzden bunu yapmak için kendi betiğimizi yazmamız gerekiyor.
Yetersiz ve fazla uydurmayı algılama
Hand-out veri kümesini veya k-kat çapraz doğrulama tekniğini kullansak da, eğitim için kullanılan veri kümesi ve doğrulama için kullanılan veri kümesi için ölçümlerin çıktısının farklı olacağını keşfedeceğiz.
Aşırı uyumu algılama
Aşırı uyum denen olgu, ML modelimizin eğitim verilerini son derece iyi modellediği, ancak test verilerinde iyi performans gösteremediği, yani test verilerini tahmin edemediği bir durumdur.
Bir makine öğrenimi modeli eğitim verilerinden belirli bir örüntü ve gürültüyü öğrendiğinde, modelin eğitim verilerinden yeniye, yani görünmeyen verilere genelleme yeteneğini olumsuz yönde etkilediğinde gerçekleşir. Burada gürültü, bir veri kümesindeki alakasız bilgi veya rastgeleliktir.
Aşağıda, modelimizin aşırı uygun olup olmadığını tespit edebilmemizin iki yolu vardır -
Overfit modeli, eğitim için kullandığımız aynı örneklerde iyi performans gösterecek, ancak yeni örneklerde, yani eğitimden farklı örneklerde çok kötü performans gösterecek.
Test setindeki metrik, eğitim setimizde kullandığımız aynı metrikten daha düşükse, model doğrulama sırasında aşırı uyumludur.
Yetersiz uyumu algılama
Makine öğrenimimizde ortaya çıkabilecek başka bir durum yetersiz uyumdur. Bu, makine öğrenimi modelimizin eğitim verilerini iyi modellemediği ve yararlı çıktıyı tahmin edemediği bir durumdur. İlk dönemi eğitmeye başladığımızda, modelimiz yetersiz kalacak, ancak eğitim ilerledikçe daha az uygun hale gelecektir.
Modelimizin yetersiz olup olmadığını tespit etmenin yollarından biri, eğitim seti ve test seti için ölçütlere bakmaktır. Test setindeki metrik, eğitim setindeki metrikten yüksekse modelimiz yetersiz olacaktır.