Klasifikasi - Pendahuluan

Pengantar Klasifikasi

Klasifikasi dapat didefinisikan sebagai proses memprediksi kelas atau kategori dari nilai yang diamati atau titik data yang diberikan. Keluaran yang dikategorikan dapat berupa "Hitam" atau "Putih" atau "spam" atau "tidak ada spam".

Secara matematis, klasifikasi adalah tugas mendekati fungsi pemetaan (f) dari variabel masukan (X) ke variabel keluaran (Y). Ini pada dasarnya milik pembelajaran mesin yang diawasi di mana target juga disediakan bersama dengan kumpulan data masukan.

Contoh masalah klasifikasi adalah deteksi spam di email. Hanya ada dua kategori keluaran, "spam" dan "tidak ada spam"; maka ini adalah klasifikasi tipe biner.

Untuk mengimplementasikan klasifikasi ini, pertama-tama kita perlu melatih pengklasifikasi. Untuk contoh ini, email "spam" dan "tanpa spam" akan digunakan sebagai data pelatihan. Setelah berhasil melatih pengklasifikasi, ini dapat digunakan untuk mendeteksi email yang tidak dikenal.

Jenis Peserta Didik dalam Klasifikasi

Kami memiliki dua jenis pelajar di masing-masing untuk masalah klasifikasi -

Pelajar Malas

Seperti namanya, pembelajar seperti itu menunggu data pengujian muncul setelah menyimpan data pelatihan. Klasifikasi dilakukan hanya setelah mendapatkan data pengujian. Mereka menghabiskan lebih sedikit waktu untuk pelatihan tetapi lebih banyak waktu untuk memprediksi. Contoh pelajar yang malas adalah tetangga terdekat K dan penalaran berbasis kasus.

Pembelajar yang bersemangat

Berbeda dengan pelajar yang malas, pelajar yang bersemangat membuat model klasifikasi tanpa menunggu data pengujian muncul setelah menyimpan data pelatihan. Mereka menghabiskan lebih banyak waktu untuk pelatihan tetapi lebih sedikit waktu untuk memprediksi. Contoh pelajar yang bersemangat adalah Decision Trees, Naïve Bayes, dan Artificial Neural Networks (ANN).

Membangun Pengklasifikasi dengan Python

Scikit-learn, pustaka Python untuk pembelajaran mesin dapat digunakan untuk membangun pengklasifikasi dengan Python. Langkah-langkah untuk membuat pengklasifikasi dengan Python adalah sebagai berikut -

Langkah 1: Mengimpor paket python yang diperlukan

Untuk membangun pengklasifikasi menggunakan scikit-learn, kita perlu mengimpornya. Kita dapat mengimpornya dengan menggunakan skrip berikut -

import sklearn

Langkah2: Mengimpor kumpulan data

Setelah mengimpor paket yang diperlukan, kita membutuhkan dataset untuk membangun model prediksi klasifikasi. Kami dapat mengimpornya dari dataset sklearn atau dapat menggunakan yang lain sesuai kebutuhan kami. Kami akan menggunakan database Sklearn's Breast Cancer Wisconsin Diagnostic. Kami dapat mengimpornya dengan bantuan skrip berikut -

from sklearn.datasets import load_breast_cancer

Script berikut akan memuat dataset;

data = load_breast_cancer()

Kami juga perlu mengatur data dan itu dapat dilakukan dengan bantuan skrip berikut -

label_names = data['target_names']
   labels = data['target']
   feature_names = data['feature_names']
   features = data['data']

Perintah berikut akan mencetak nama label, 'malignant'dan'benign'dalam kasus database kami.

print(label_names)

Output dari perintah di atas adalah nama-nama label -

['malignant' 'benign']

Label ini dipetakan ke nilai biner 0 dan 1. Malignant kanker diwakili oleh 0 dan Benign kanker diwakili oleh 1.

Nama fitur dan nilai fitur dari label ini dapat dilihat dengan bantuan perintah berikut -

print(feature_names[0])

Output dari perintah di atas adalah nama-nama fitur untuk label 0 ie Malignant kanker -

mean radius

Demikian pula, nama fitur untuk label dapat dihasilkan sebagai berikut -

print(feature_names[1])

Output dari perintah di atas adalah nama fitur untuk label 1 ie Benign kanker -

mean texture

Kami dapat mencetak fitur untuk label ini dengan bantuan perintah berikut -

print(features[0])

Ini akan memberikan hasil sebagai berikut -

[
   1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
   1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
   6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
   1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
   4.601e-01 1.189e-01
]

Kami dapat mencetak fitur untuk label ini dengan bantuan perintah berikut -

print(features[1])

Ini akan memberikan hasil sebagai berikut -

[
   2.057e+01 1.777e+01 1.329e+02 1.326e+03 8.474e-02 7.864e-02 8.690e-02
   7.017e-02 1.812e-01 5.667e-02 5.435e-01 7.339e-01 3.398e+00 7.408e+01
   5.225e-03 1.308e-02 1.860e-02 1.340e-02 1.389e-02 3.532e-03 2.499e+01
   2.341e+01 1.588e+02 1.956e+03 1.238e-01 1.866e-01 2.416e-01 1.860e-01
   2.750e-01 8.902e-02
]

Langkah3: Mengatur data ke dalam set pelatihan & pengujian

Karena kami perlu menguji model kami pada data yang tidak terlihat, kami akan membagi dataset kami menjadi dua bagian: satu set pelatihan dan satu set pengujian. Kita bisa menggunakan fungsi train_test_split () dari paket sklearn python untuk membagi data menjadi beberapa set. Perintah berikut akan mengimpor fungsi -

from sklearn.model_selection import train_test_split

Sekarang, perintah selanjutnya akan membagi data menjadi data pelatihan & pengujian. Dalam contoh ini, kami menggunakan pengambilan 40 persen data untuk tujuan pengujian dan 60 persen data untuk tujuan pelatihan -

train, test, train_labels, test_labels = train_test_split(
   features,labels,test_size = 0.40, random_state = 42
)

Step4: Evaluasi model

Setelah membagi data menjadi pelatihan dan pengujian kita perlu membangun model. Kami akan menggunakan algoritma Naïve Bayes untuk tujuan ini. Perintah berikut akan mengimpor modul GaussianNB -

from sklearn.naive_bayes import GaussianNB

Sekarang, inisialisasi model sebagai berikut -

gnb = GaussianNB()

Selanjutnya, dengan bantuan perintah berikut kita dapat melatih model -

model = gnb.fit(train, train_labels)

Nah, untuk tujuan evaluasi kita perlu membuat prediksi. Itu bisa dilakukan dengan menggunakan fungsi predict () sebagai berikut -

preds = gnb.predict(test)
print(preds)

Ini akan memberikan hasil sebagai berikut -

[
   1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1
   0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 1
   1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0 1 1 0
   0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 1 1
   1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 
   1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 
   1

]

Rangkaian 0s dan 1s dalam output di atas adalah nilai prediksi untuk Malignant dan Benign kelas tumor.

Step5: Menemukan akurasi

Akurasi dari build model dapat kita temukan pada langkah sebelumnya dengan membandingkan dua array yaitu test_labels dan preds. Kami akan menggunakan fungsi akurasi_score () untuk menentukan akurasi.

from sklearn.metrics import accuracy_score
   print(accuracy_score(test_labels,preds))
   0.951754385965

Keluaran di atas menunjukkan bahwa pengklasifikasi NaïveBayes akurat 95.17%.

Metrik Evaluasi Klasifikasi

Pekerjaan tidak selesai bahkan jika Anda telah menyelesaikan implementasi model atau aplikasi Machine Learning Anda. Kita harus mencari tahu seberapa efektif model kita? Mungkin ada metrik evaluasi yang berbeda, tetapi kita harus memilihnya dengan hati-hati karena pilihan metrik memengaruhi bagaimana performa algoritme pembelajaran mesin diukur dan dibandingkan.

Berikut ini adalah beberapa metrik evaluasi klasifikasi yang penting di antaranya yang dapat Anda pilih berdasarkan kumpulan data dan jenis masalahnya -

Confusion Matrix

Ini adalah cara termudah untuk mengukur kinerja masalah klasifikasi di mana keluarannya bisa dari dua atau lebih jenis kelas. Matriks konfusi hanyalah tabel dengan dua dimensi yaitu. "Aktual" dan "Prediksi" dan selanjutnya, kedua dimensi tersebut memiliki "Positif Benar (PB)", "Negatif Benar (TN)", "Positif Palsu (PP)", "Negatif Palsu (FN)" seperti yang ditunjukkan di bawah ini -

Penjelasan istilah-istilah yang terkait dengan matriks kebingungan adalah sebagai berikut -

  • True Positives (TP) - Ini adalah kasus ketika kelas aktual & kelas prediksi titik data adalah 1.

  • True Negatives (TN) - Ini adalah kasus ketika kelas aktual & kelas prediksi titik data adalah 0.

  • False Positives (FP) - Ini adalah kasus ketika kelas titik data aktual adalah 0 & kelas titik data yang diprediksi adalah 1.

  • False Negatives (FN) - Ini adalah kasus ketika kelas titik data aktual adalah 1 & kelas titik data yang diprediksi adalah 0.

Kita bisa menemukan matriks konfusi dengan bantuan fungsi confusion_matrix () dari sklearn. Dengan bantuan skrip berikut, kita dapat menemukan matriks kebingungan dari pengklasifikasi biner yang dibangun di atas -

from sklearn.metrics import confusion_matrix

Keluaran

[
   [ 73   7]
   [  4 144]
]

Ketepatan

Ini dapat didefinisikan sebagai jumlah prediksi yang benar yang dibuat oleh model ML kami. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -

$$ = \ frac {+} {+++} $$

Untuk pengklasifikasi biner yang dibangun di atas, TP + TN = 73 + 144 = 217 dan TP + FP + FN + TN = 73 + 7 + 4 + 144 = 228.

Karenanya, Accuracy = 217/228 = 0.951754385965 yang sama seperti yang telah kita hitung setelah membuat pengklasifikasi biner kita.

Presisi

Presisi, yang digunakan dalam pengambilan dokumen, dapat didefinisikan sebagai jumlah dokumen benar yang dikembalikan oleh model ML kita. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -

$$ = \ frac {} {+ FP} $$

Untuk pengklasifikasi biner yang dibangun di atas, TP = 73 dan TP + FP = 73 + 7 = 80.

Karenanya, Presisi = 73/80 = 0,915

Ingat atau Sensitivitas

Perolehan dapat didefinisikan sebagai jumlah positif yang dikembalikan oleh model ML kami. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -

$$ = \ frac {} {+ FN} $$

Untuk pengklasifikasi biner yang dibangun di atas, TP = 73 dan TP + FN = 73 + 4 = 77.

Karenanya, Presisi = 73/77 = 0,94805

Kekhususan

Kekhususan, berbeda dengan perolehan, dapat didefinisikan sebagai jumlah negatif yang dikembalikan oleh model ML kita. Kita dapat dengan mudah menghitungnya dengan matriks kebingungan dengan bantuan rumus berikut -

$$ = \ frac {N} {N + FP} $$

Untuk pengklasifikasi biner yang dibangun di atas, TN = 144 dan TN + FP = 144 + 7 = 151.

Oleh karena itu, Presisi = 144/151 = 0,95364

Berbagai Algoritma Klasifikasi ML

Berikut ini adalah beberapa algoritme klasifikasi ML yang penting -

  • Regresi logistik

  • Mendukung Mesin Vektor (SVM)

  • Pohon Keputusan

  • Naïve Bayes

  • Random Forest

Kita akan membahas semua algoritma klasifikasi ini secara mendetail di bab selanjutnya.

Aplikasi

Beberapa aplikasi terpenting dari algoritma klasifikasi adalah sebagai berikut -

  • Pengenalan suara

  • Pengenalan tulisan tangan

  • Identifikasi Biometrik

  • Klasifikasi Dokumen