Pembelajaran Mesin - Diawasi

Pembelajaran yang diawasi adalah salah satu model pembelajaran penting yang terlibat dalam mesin pelatihan. Bab ini berbicara secara rinci tentang hal yang sama.

Algoritma untuk Supervised Learning

Ada beberapa algoritme yang tersedia untuk pembelajaran yang diawasi. Beberapa algoritme supervised learning yang banyak digunakan adalah seperti yang ditunjukkan di bawah ini -

  • k-Tetangga Terdekat
  • Pohon Keputusan
  • Naive Bayes
  • Regresi logistik
  • Mendukung Mesin Vektor

Saat kita melangkah maju dalam bab ini, mari kita bahas secara rinci tentang masing-masing algoritma.

k-Tetangga Terdekat

K-Nearest Neighbours, yang disebut kNN adalah teknik statistik yang dapat digunakan untuk memecahkan masalah klasifikasi dan regresi. Mari kita bahas kasus pengklasifikasian objek yang tidak diketahui menggunakan kNN. Pertimbangkan distribusi objek seperti yang ditunjukkan pada gambar di bawah ini -

Sumber:

https://en.wikipedia.org/wiki/K-nearest_neighbours_algorithm

Diagram menunjukkan tiga jenis objek, ditandai dengan warna merah, biru, dan hijau. Saat Anda menjalankan classifier kNN pada dataset di atas, batasan untuk setiap jenis objek akan ditandai seperti yang ditunjukkan di bawah ini -

Sumber:

https://en.wikipedia.org/wiki/K-nearest_neighbours_algorithm

Sekarang, pertimbangkan objek baru yang tidak diketahui yang ingin Anda klasifikasikan sebagai merah, hijau atau biru. Ini digambarkan pada gambar di bawah ini.

Seperti yang Anda lihat secara visual, titik data yang tidak diketahui milik kelas objek biru. Secara matematis, ini dapat disimpulkan dengan mengukur jarak titik yang tidak diketahui ini dengan setiap titik lain dalam kumpulan data. Ketika Anda melakukannya, Anda akan tahu bahwa sebagian besar tetangganya berwarna biru. Jarak rata-rata ke objek merah dan hijau pasti lebih dari jarak rata-rata ke objek biru. Dengan demikian, objek tak dikenal ini dapat diklasifikasikan sebagai milik kelas biru.

Algoritma kNN juga dapat digunakan untuk masalah regresi. Algoritme kNN tersedia sebagai siap digunakan di sebagian besar library ML.

Pohon Keputusan

Pohon keputusan sederhana dalam format diagram alur ditunjukkan di bawah ini -

Anda akan menulis kode untuk mengklasifikasikan data masukan Anda berdasarkan diagram alur ini. Diagram alir cukup jelas dan sepele. Dalam skenario ini, Anda mencoba untuk mengklasifikasikan email masuk untuk memutuskan kapan harus membacanya.

Pada kenyataannya, pohon keputusan bisa jadi besar dan kompleks. Ada beberapa algoritma yang tersedia untuk membuat dan melintasi pohon-pohon ini. Sebagai penggemar Pembelajaran Mesin, Anda perlu memahami dan menguasai teknik membuat dan melintasi pohon keputusan ini.

Naive Bayes

Naive Bayes digunakan untuk membuat pengklasifikasi. Misalkan Anda ingin memilah (mengelompokkan) buah-buahan dari berbagai jenis dari sekeranjang buah. Anda dapat menggunakan fitur-fitur seperti warna, ukuran dan bentuk buah. Misalnya, buah apa pun yang berwarna merah, berbentuk bulat dan berdiameter sekitar 10 cm dapat dianggap sebagai apel. Jadi untuk melatih model, Anda akan menggunakan fitur-fitur ini dan menguji kemungkinan bahwa fitur tertentu cocok dengan batasan yang diinginkan. Probabilitas fitur yang berbeda kemudian digabungkan untuk sampai pada probabilitas bahwa buah tertentu adalah Apple. Naive Bayes umumnya membutuhkan sejumlah kecil data pelatihan untuk klasifikasi.

Regresi logistik

Lihat diagram berikut. Ini menunjukkan distribusi titik data di bidang XY.

Dari diagram, kita dapat memeriksa secara visual pemisahan titik merah dari titik hijau. Anda dapat menggambar garis batas untuk memisahkan titik-titik ini. Sekarang, untuk mengklasifikasikan titik data baru, Anda hanya perlu menentukan di sisi mana titik tersebut berada.

Mendukung Mesin Vektor

Perhatikan sebaran data berikut ini. Di sini ketiga kelas data tidak dapat dipisahkan secara linier. Kurva batas tidak linier. Dalam kasus seperti itu, mencari persamaan kurva menjadi pekerjaan yang kompleks.

Sumber: http://uc-r.github.io/svm

Support Vector Machines (SVM) berguna dalam menentukan batas pemisahan dalam situasi seperti itu.