CNTK - Mengukur Kinerja
Bab ini akan menjelaskan cara mengukur kinerja model di CNKT.
Strategi untuk memvalidasi kinerja model
Setelah membuat model ML, kami biasa melatihnya menggunakan sekumpulan sampel data. Karena pelatihan ini, model ML kami mempelajari dan memperoleh beberapa aturan umum. Performa model ML penting saat kami memasukkan sampel baru, yaitu sampel yang berbeda dari yang diberikan pada saat pelatihan, ke model. Model berperilaku berbeda dalam kasus tersebut. Mungkin lebih buruk dalam membuat prediksi yang baik pada sampel baru tersebut.
Tetapi model harus bekerja dengan baik untuk sampel baru juga karena dalam lingkungan produksi kita akan mendapatkan masukan yang berbeda dari pada kita menggunakan data sampel untuk tujuan pelatihan. Itulah alasannya, kita harus memvalidasi model ML dengan menggunakan sekumpulan sampel yang berbeda dari sampel yang kita gunakan untuk tujuan pelatihan. Di sini, kita akan membahas dua teknik berbeda untuk membuat dataset untuk memvalidasi NN.
Dataset hold-out
Ini adalah salah satu metode termudah untuk membuat set data untuk memvalidasi NN. Seperti namanya, dalam metode ini kami akan menahan satu set sampel dari pelatihan (katakanlah 20%) dan menggunakannya untuk menguji performa model ML kami. Diagram berikut menunjukkan rasio antara sampel pelatihan dan validasi -
Model set data hold-out memastikan bahwa kami memiliki cukup data untuk melatih model ML kami dan pada saat yang sama kami akan memiliki jumlah sampel yang wajar untuk mendapatkan pengukuran performa model yang baik.
Untuk menyertakan set pelatihan dan set pengujian, praktik yang baik adalah memilih sampel acak dari set data utama. Ini memastikan distribusi yang merata antara pelatihan dan set pengujian.
Berikut ini adalah contoh di mana kami memproduksi dataset hold-out sendiri dengan menggunakan train_test_split fungsi dari scikit-learn Perpustakaan.
Contoh
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
# Here above test_size = 0.2 represents that we provided 20% of the data as test data.
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
classifier_knn = KNeighborsClassifier(n_neighbors=3)
classifier_knn.fit(X_train, y_train)
y_pred = classifier_knn.predict(X_test)
# Providing sample data and the model will make prediction out of that data
sample = [[5, 5, 3, 2], [2, 4, 3, 5]]
preds = classifier_knn.predict(sample)
pred_species = [iris.target_names[p] for p in preds] print("Predictions:", pred_species)
Keluaran
Predictions: ['versicolor', 'virginica']
Saat menggunakan CNTK, kita perlu mengacak urutan dataset kita setiap kali kita melatih model kita karena -
Algoritme pembelajaran mendalam sangat dipengaruhi oleh generator angka acak.
Urutan kami memberikan sampel ke NN selama pelatihan sangat memengaruhi kinerjanya.
Kelemahan utama dari penggunaan teknik dataset hold-out adalah teknik ini tidak dapat diandalkan karena terkadang kami mendapatkan hasil yang sangat baik tetapi terkadang, kami mendapatkan hasil yang buruk.
Validasi K-fold cross
Untuk membuat model ML kita lebih andal, ada teknik yang disebut validasi K-fold cross. Pada dasarnya teknik validasi K-fold cross sama dengan teknik sebelumnya, namun diulangi beberapa kali-biasanya sekitar 5 hingga 10 kali. Diagram berikut mewakili konsepnya -
Cara kerja validasi K-fold cross
Cara kerja validasi K-fold cross dapat dipahami dengan bantuan langkah-langkah berikut -
Step 1- Seperti pada teknik dataset Hand-out, pada teknik validasi K-fold cross, pertama-tama kita perlu membagi dataset menjadi set pelatihan dan pengujian. Idealnya, rasionya adalah 80-20, yaitu 80% set pelatihan dan 20% set tes.
Step 2 - Selanjutnya, kita perlu melatih model kita menggunakan set pelatihan.
Step 3−Akhirnya, kami akan menggunakan set pengujian untuk mengukur kinerja model kami. Satu-satunya perbedaan antara teknik dataset Hold-out dan teknik validasi k-cross adalah bahwa proses di atas biasanya diulangi selama 5 hingga 10 kali dan pada akhirnya rata-rata dihitung untuk semua metrik kinerja. Rata-rata itu akan menjadi metrik kinerja akhir.
Mari kita lihat contoh dengan kumpulan data kecil -
Contoh
from numpy import array
from sklearn.model_selection import KFold
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0])
kfold = KFold(5, True, 1)
for train, test in kfold.split(data):
print('train: %s, test: %s' % (data[train],(data[test]))
Keluaran
train: [0.1 0.2 0.4 0.5 0.6 0.7 0.8 0.9], test: [0.3 1. ]
train: [0.1 0.2 0.3 0.4 0.6 0.8 0.9 1. ], test: [0.5 0.7]
train: [0.2 0.3 0.5 0.6 0.7 0.8 0.9 1. ], test: [0.1 0.4]
train: [0.1 0.3 0.4 0.5 0.6 0.7 0.9 1. ], test: [0.2 0.8]
train: [0.1 0.2 0.3 0.4 0.5 0.7 0.8 1. ], test: [0.6 0.9]
Seperti yang kita lihat, karena menggunakan pelatihan yang lebih realistis dan skenario pengujian, teknik validasi silang k-fold memberi kita pengukuran kinerja yang jauh lebih stabil tetapi, pada sisi negatifnya, dibutuhkan banyak waktu saat memvalidasi model pembelajaran yang mendalam.
CNTK tidak mendukung validasi k-cross, oleh karena itu kita perlu menulis skrip kita sendiri untuk melakukannya.
Mendeteksi underfitting dan overfitting
Baik kita menggunakan dataset Hand-out atau teknik k-fold cross-validation, kita akan menemukan bahwa output untuk metrik akan berbeda untuk dataset yang digunakan untuk pelatihan dan dataset yang digunakan untuk validasi.
Mendeteksi overfitting
Fenomena yang disebut overfitting adalah situasi di mana model ML kita memodelkan data pelatihan dengan sangat baik, tetapi gagal berfungsi dengan baik pada data pengujian, yaitu tidak dapat memprediksi data pengujian.
Hal ini terjadi jika model ML mempelajari pola dan gangguan tertentu dari data pelatihan sedemikian rupa, sehingga berdampak negatif pada kemampuan model untuk menggeneralisasi dari data pelatihan ke data baru, yaitu data yang tidak terlihat. Di sini, noise adalah informasi yang tidak relevan atau keacakan dalam kumpulan data.
Berikut adalah dua cara dengan bantuan yang kami dapat mendeteksi cuaca model kami overfit atau tidak -
Model overfit akan bekerja dengan baik pada sampel yang sama yang kita gunakan untuk pelatihan, tetapi akan sangat buruk pada sampel baru, yaitu sampel yang berbeda dari pelatihan.
Model overfit selama validasi jika metrik pada set pengujian lebih rendah dari metrik yang sama, yang kami gunakan pada set pelatihan kami.
Mendeteksi underfitting
Situasi lain yang dapat muncul dalam ML kami adalah underfitting. Ini adalah situasi di mana, model ML kami tidak membuat model data pelatihan dengan baik dan gagal memprediksi keluaran yang berguna. Saat kita mulai melatih epoch pertama, model kita akan underfitting, tetapi underfitnya akan berkurang seiring kemajuan pelatihan.
Salah satu cara untuk mendeteksi, apakah model kita underfit atau tidak adalah dengan melihat metrik set pelatihan dan set pengujian. Model kita akan kurang fit jika metrik pada set pengujian lebih tinggi dari metrik pada set pelatihan.