Pembelajaran Mesin dengan Python - Metode
Ada berbagai algoritma, teknik, dan metode ML yang dapat digunakan untuk membangun model untuk memecahkan masalah kehidupan nyata dengan menggunakan data. Dalam bab ini, kita akan membahas berbagai jenis metode.
Berbagai Jenis Metode
Berikut ini adalah berbagai metode ML berdasarkan beberapa kategori luas -
Berdasarkan pengawasan manusia
Dalam proses pembelajaran, beberapa metode yang didasarkan pada supervisi manusia adalah sebagai berikut -
Supervised Learning
Algoritme atau metode pembelajaran yang diawasi adalah algoritme ML yang paling umum digunakan. Metode atau algoritma pembelajaran ini mengambil sampel data yaitu data latih dan keluaran terkait yaitu label atau tanggapan dengan masing-masing sampel data selama proses pelatihan.
Tujuan utama dari algoritma pembelajaran yang diawasi adalah untuk mempelajari hubungan antara sampel data masukan dan keluaran yang sesuai setelah melakukan beberapa contoh data pelatihan.
Misalnya, kami punya
x: Variabel masukan dan
Y: Variabel keluaran
Sekarang, terapkan algoritma untuk mempelajari fungsi pemetaan dari masukan ke keluaran sebagai berikut -
Y = f (x)
Sekarang, tujuan utamanya adalah untuk memperkirakan fungsi pemetaan dengan sangat baik sehingga meskipun kita memiliki data masukan baru (x), kita dapat dengan mudah memprediksi variabel keluaran (Y) untuk data masukan baru tersebut.
Disebut diawasi karena seluruh proses pembelajaran dapat dianggap sebagai diawasi oleh guru atau pengawas. Contoh algoritme pembelajaran mesin yang diawasi termasukDecision tree, Random Forest, KNN, Logistic Regression dll.
Berdasarkan tugas ML, algoritme pembelajaran yang diawasi dapat dibagi menjadi dua kelas besar berikut -
- Classification
- Regression
Classification
Tujuan utama dari tugas berbasis klasifikasi adalah untuk memprediksi label keluaran kategorial atau tanggapan untuk data masukan yang diberikan. Outputnya akan didasarkan pada apa yang telah dipelajari model dalam fase pelatihan. Seperti yang kita ketahui bahwa respon keluaran kategorial berarti nilai tidak berurutan dan diskrit, maka setiap respon keluaran akan termasuk dalam kelas atau kategori tertentu. Kami juga akan membahas Klasifikasi dan algoritme terkait secara detail di bab-bab selanjutnya.
Regression
Tujuan utama dari tugas berbasis regresi adalah untuk memprediksi label keluaran atau tanggapan yang merupakan nilai numerik berkelanjutan, untuk data masukan yang diberikan. Keluaran akan didasarkan pada apa yang telah dipelajari model dalam fase pelatihannya. Pada dasarnya, model regresi menggunakan fitur data input (variabel independen) dan nilai output numerik kontinu yang sesuai (variabel dependen atau hasil) untuk mempelajari hubungan khusus antara input dan output yang sesuai. Kami akan membahas regresi dan algoritma terkait secara rinci di bab selanjutnya juga.
Pembelajaran Tanpa Pengawasan
Seperti namanya, ini berlawanan dengan metode atau algoritme ML yang diawasi yang berarti dalam algoritme pembelajaran mesin tanpa pengawasan, kami tidak memiliki supervisor untuk memberikan panduan apa pun. Algoritme pembelajaran yang tidak diawasi berguna dalam skenario di mana kami tidak memiliki kebebasan, seperti dalam algoritme pembelajaran yang diawasi, memiliki data pelatihan yang telah diberi label sebelumnya dan kami ingin mengekstrak pola yang berguna dari data masukan.
Misalnya, dapat dipahami sebagai berikut -
Misalkan kita memiliki -
x: Input variables, maka tidak akan ada variabel output yang sesuai dan algoritme perlu menemukan pola yang menarik dalam data untuk pembelajaran.
Contoh algoritme pembelajaran mesin tanpa pengawasan termasuk pengelompokan K-means, K-nearest neighbors dll.
Berdasarkan tugas ML, algoritme pembelajaran tanpa pengawasan dapat dibagi menjadi beberapa kelas luas berikut -
- Clustering
- Association
- Pengurangan Dimensi
Clustering
Metode pengelompokan adalah salah satu metode ML tanpa pengawasan yang paling berguna. Algoritma ini digunakan untuk mencari kesamaan serta pola hubungan antar sampel data dan kemudian mengelompokkan sampel tersebut ke dalam kelompok yang memiliki kesamaan berdasarkan fiturnya. Contoh pengelompokan dunia nyata adalah mengelompokkan pelanggan menurut perilaku pembelian mereka.
Association
Metode ML tanpa pengawasan lain yang berguna adalah Associationyang digunakan untuk menganalisis kumpulan data besar untuk menemukan pola yang selanjutnya mewakili hubungan menarik antara berbagai item. Itu juga disebut sebagaiAssociation Rule Mining atau Market basket analysis yang terutama digunakan untuk menganalisis pola belanja pelanggan.
Dimensionality Reduction
Metode ML tanpa pengawasan ini digunakan untuk mengurangi jumlah variabel fitur untuk setiap sampel data dengan memilih kumpulan fitur utama atau perwakilan. Pertanyaan yang muncul di sini adalah mengapa kita perlu mengurangi dimensi? Alasan di baliknya adalah masalah kompleksitas ruang fitur yang muncul saat kami mulai menganalisis dan mengekstrak jutaan fitur dari sampel data. Masalah ini umumnya mengacu pada "kutukan dimensi". PCA (Principal Component Analysis), K-terdekat, dan analisis diskriminan adalah beberapa algoritma populer untuk tujuan ini.
Anomaly Detection
Metode ML tanpa pengawasan ini digunakan untuk mengetahui kemunculan kejadian langka atau observasi yang umumnya tidak terjadi. Dengan menggunakan pengetahuan yang dipelajari, metode deteksi anomali akan dapat membedakan antara titik data anomali atau normal. Beberapa algoritma unsupervised seperti clustering, KNN dapat mendeteksi anomali berdasarkan data dan fiturnya.
Pembelajaran Semi-supervisi
Algoritme atau metode semacam itu tidak sepenuhnya diawasi atau tidak diawasi sepenuhnya. Mereka pada dasarnya berada di antara dua metode pembelajaran yang diawasi dan tidak diawasi. Jenis algoritma ini umumnya menggunakan komponen pembelajaran yang diawasi kecil yaitu sejumlah kecil data yang diberi label sebelumnya dan komponen pembelajaran tanpa pengawasan yang besar, yaitu banyak data yang tidak berlabel untuk pelatihan. Kami dapat mengikuti salah satu pendekatan berikut untuk menerapkan metode pembelajaran semi-supervisi -
Pendekatan pertama dan sederhana adalah membangun model yang diawasi berdasarkan sejumlah kecil data berlabel dan beranotasi, lalu membangun model tanpa pengawasan dengan menerapkan yang sama ke sejumlah besar data tak berlabel untuk mendapatkan lebih banyak sampel berlabel. Sekarang, latih modelnya dan ulangi prosesnya.
Pendekatan kedua membutuhkan upaya ekstra. Dalam pendekatan ini, pertama-tama kita dapat menggunakan metode tanpa pengawasan untuk mengelompokkan sampel data yang serupa, memberi anotasi pada kelompok ini, dan kemudian menggunakan kombinasi informasi ini untuk melatih model.
Pembelajaran Penguatan
Metode ini berbeda dengan metode yang telah dipelajari sebelumnya dan sangat jarang digunakan juga. Dalam algoritma pembelajaran semacam ini, akan ada agen yang ingin kita latih selama periode waktu tertentu sehingga dapat berinteraksi dengan lingkungan tertentu. Agen akan mengikuti serangkaian strategi untuk berinteraksi dengan lingkungan dan kemudian setelah mengamati lingkungan, ia akan mengambil tindakan terkait keadaan lingkungan saat ini. Berikut ini adalah langkah-langkah utama metode pembelajaran penguatan -
Step 1 - Pertama, kita perlu menyiapkan agen dengan beberapa rangkaian strategi awal.
Step 2 - Kemudian amati lingkungan dan keadaannya saat ini.
Step 3 - Selanjutnya, pilih kebijakan yang optimal sesuai dengan keadaan lingkungan saat ini dan lakukan tindakan penting.
Step 4 - Sekarang, agen bisa mendapatkan reward atau penalti yang sesuai dengan tindakan yang diambil di langkah sebelumnya.
Step 5 - Sekarang, kami dapat memperbarui strategi jika diperlukan.
Step 6 - Terakhir, ulangi langkah 2-5 hingga agen mempelajari dan mengadopsi kebijakan yang optimal.
Tugas yang Cocok untuk Pembelajaran Mesin
Diagram berikut menunjukkan jenis tugas yang sesuai untuk berbagai masalah ML -
Berdasarkan kemampuan belajar
Dalam proses pembelajaran berikut ini adalah beberapa metode yang didasarkan pada kemampuan belajar -
Batch Learning
Dalam banyak kasus, kami memiliki sistem Machine Learning end-to-end di mana kami perlu melatih model sekaligus menggunakan seluruh data pelatihan yang tersedia. Metode atau algoritma pembelajaran semacam itu disebutBatch or Offline learning. Ini disebut pembelajaran Batch atau Offline karena merupakan prosedur satu kali dan model akan dilatih dengan data dalam satu batch tunggal. Berikut ini adalah langkah-langkah utama metode pembelajaran batch -
Step 1 - Pertama, kita perlu mengumpulkan semua data pelatihan untuk mulai melatih model.
Step 2 - Sekarang, mulai pelatihan model dengan menyediakan seluruh data pelatihan sekaligus.
Step 3 - Selanjutnya, hentikan proses belajar / pelatihan setelah Anda mendapatkan hasil / kinerja yang memuaskan.
Step 4- Terakhir, terapkan model terlatih ini ke dalam produksi. Di sini, ini akan memprediksi keluaran untuk sampel data baru.
Pembelajaran online
Ini sepenuhnya berlawanan dengan metode pembelajaran batch atau offline. Dalam metode pembelajaran ini, data pelatihan disediakan dalam beberapa batch tambahan, yang disebut batch mini, ke algoritme. Berikut adalah langkah-langkah utama metode pembelajaran Online -
Step 1 - Pertama, kita perlu mengumpulkan semua data pelatihan untuk memulai pelatihan model.
Step 2 - Sekarang, mulai pelatihan model dengan menyediakan kumpulan kecil data pelatihan ke algoritme.
Step 3 - Selanjutnya, kita perlu menyediakan kumpulan mini data pelatihan dalam beberapa peningkatan pada algoritme.
Step 4 - Karena tidak akan berhenti seperti pembelajaran batch maka setelah menyediakan seluruh data pelatihan dalam batch mini, berikan sampel data baru juga ke dalamnya.
Step 5 - Terakhir, ini akan terus belajar selama periode waktu tertentu berdasarkan sampel data baru.
Berdasarkan Pendekatan Generalisasi
Dalam proses pembelajaran, berikut adalah beberapa metode yang didasarkan pada pendekatan generalisasi -
Pembelajaran berbasis Instance
Metode pembelajaran berbasis instance adalah salah satu metode yang berguna untuk membangun model ML dengan melakukan generalisasi berdasarkan data masukan. Hal ini berlawanan dengan metode pembelajaran yang telah dipelajari sebelumnya karena jenis pembelajaran ini melibatkan sistem ML serta metode yang menggunakan titik data mentah itu sendiri untuk menarik hasil dari sampel data yang lebih baru tanpa membangun model eksplisit pada data pelatihan.
Dengan kata sederhana, pembelajaran berbasis contoh pada dasarnya mulai bekerja dengan melihat titik data masukan dan kemudian menggunakan metrik kesamaan, itu akan menggeneralisasi dan memprediksi titik data baru.
Pembelajaran berbasis model
Dalam metode pembelajaran berbasis model, proses iteratif terjadi pada model ML yang dibangun berdasarkan berbagai parameter model, yang disebut hyperparameter dan di mana data masukan digunakan untuk mengekstrak fitur. Dalam pembelajaran ini, hyperparameter dioptimalkan berdasarkan berbagai teknik validasi model. Itulah sebabnya kami dapat mengatakan bahwa metode pembelajaran berbasis model menggunakan pendekatan ML yang lebih tradisional ke arah generalisasi.