AI dengan Python - Pembelajaran Mesin
Belajar berarti perolehan pengetahuan atau keterampilan melalui studi atau pengalaman. Berdasarkan ini, kita dapat mendefinisikan pembelajaran mesin (ML) sebagai berikut -
Ini dapat didefinisikan sebagai bidang ilmu komputer, lebih khusus lagi aplikasi kecerdasan buatan, yang memberikan sistem komputer kemampuan untuk belajar dengan data dan meningkatkan dari pengalaman tanpa diprogram secara eksplisit.
Pada dasarnya, fokus utama pembelajaran mesin adalah memungkinkan komputer belajar secara otomatis tanpa campur tangan manusia. Sekarang pertanyaan yang muncul adalah bagaimana pembelajaran seperti itu dapat dimulai dan dilakukan? Itu bisa dimulai dengan observasi data. Data dapat berupa beberapa contoh, instruksi atau beberapa pengalaman langsung juga. Kemudian atas dasar masukan ini, mesin membuat keputusan yang lebih baik dengan mencari beberapa pola dalam data.
Jenis Machine Learning (ML)
Algoritma Pembelajaran Mesin membantu sistem komputer belajar tanpa diprogram secara eksplisit. Algoritme ini dikategorikan menjadi diawasi atau tidak diawasi. Mari kita lihat beberapa algoritma -
Algoritme pembelajaran mesin yang diawasi
Ini adalah algoritme pembelajaran mesin yang paling umum digunakan. Disebut terbimbing karena proses pembelajaran algoritma dari dataset pelatihan dapat dianggap sebagai seorang guru yang mengawasi proses pembelajaran. Dalam algoritme ML semacam ini, kemungkinan hasil sudah diketahui dan data pelatihan juga diberi label dengan jawaban yang benar. Dapat dipahami sebagai berikut -
Misalkan kita memiliki variabel input x dan variabel keluaran y dan kami menerapkan algoritme untuk mempelajari fungsi pemetaan dari input ke output seperti -
Y = f(x)
Sekarang, tujuan utamanya adalah untuk memperkirakan fungsi pemetaan dengan baik sehingga ketika kita memiliki data masukan baru (x), kita dapat memprediksi variabel keluaran (Y) untuk data tersebut.
Masalah leaning yang diawasi secara utama dapat dibagi menjadi dua jenis masalah berikut -
Classification - Masalah disebut masalah klasifikasi jika kita memiliki keluaran yang dikategorikan seperti "hitam", "mengajar", "tidak mengajar", dll.
Regression - Masalah disebut masalah regresi ketika kita memiliki keluaran nilai riil seperti “jarak”, “kilogram”, dll.
Pohon keputusan, hutan acak, knn, regresi logistik adalah contoh algoritme pembelajaran mesin yang diawasi.
Algoritme pembelajaran mesin tanpa pengawasan
Seperti namanya, jenis algoritme pembelajaran mesin ini tidak memiliki pengawas untuk memberikan panduan apa pun. Itulah mengapa algoritme pembelajaran mesin tanpa pengawasan sangat selaras dengan apa yang oleh beberapa orang disebut kecerdasan buatan sejati. Dapat dipahami sebagai berikut -
Misalkan kita memiliki variabel input x, maka tidak akan ada variabel output yang sesuai seperti yang ada pada algoritma supervised learning.
Dengan kata sederhana, kita dapat mengatakan bahwa dalam pembelajaran tanpa pengawasan tidak akan ada jawaban yang benar dan tidak ada guru yang membimbing. Algoritme membantu menemukan pola menarik dalam data.
Masalah pembelajaran tanpa pengawasan dapat dibagi menjadi dua jenis masalah berikut -
Clustering- Dalam masalah clustering, kita perlu menemukan pengelompokan inheren dalam data. Misalnya, mengelompokkan pelanggan berdasarkan perilaku pembelian mereka.
Association- Masalah disebut masalah asosiasi karena jenis masalah seperti itu memerlukan penemuan aturan yang menjelaskan sebagian besar data kita. Misalnya, menemukan pelanggan yang membeli keduanyax dan y.
K-means untuk pengelompokan, algoritma Apriori untuk asosiasi adalah contoh dari algoritma pembelajaran mesin tanpa pengawasan.
Algoritme pembelajaran mesin penguatan
Algoritme pembelajaran mesin seperti ini jarang digunakan. Algoritme ini melatih sistem untuk membuat keputusan tertentu. Pada dasarnya, mesin dihadapkan pada lingkungan tempat ia melatih dirinya sendiri secara terus-menerus menggunakan metode coba-coba. Algoritme ini belajar dari pengalaman masa lalu dan mencoba menangkap pengetahuan terbaik untuk membuat keputusan yang akurat. Proses Keputusan Markov adalah contoh algoritma pembelajaran mesin penguatan.
Algoritma Pembelajaran Mesin Paling Umum
Di bagian ini, kita akan mempelajari tentang algoritme pembelajaran mesin yang paling umum. Algoritme dijelaskan di bawah -
Regresi linier
Ini adalah salah satu algoritme paling terkenal dalam statistik dan pembelajaran mesin.
Konsep dasar - Regresi linier terutama adalah model linier yang mengasumsikan hubungan linier antara variabel input katakanlah x dan variabel output tunggal katakanlah y. Dengan kata lain, kita dapat mengatakan bahwa y dapat dihitung dari kombinasi linier variabel masukan x. Hubungan antar variabel dapat dibuat dengan memasang garis terbaik.
Jenis-jenis Regresi Linier
Regresi linier adalah dari dua jenis berikut -
Simple linear regression - Algoritma regresi linier disebut regresi linier sederhana jika hanya mempunyai satu variabel bebas.
Multiple linear regression - Algoritma regresi linier disebut regresi linier berganda jika memiliki lebih dari satu variabel bebas.
Regresi linier terutama digunakan untuk memperkirakan nilai nyata berdasarkan variabel kontinu. Misalnya, total penjualan toko dalam sehari, berdasarkan nilai nyata, dapat diperkirakan dengan regresi linier.
Regresi logistik
Ini adalah algoritma klasifikasi dan juga dikenal sebagai logit regresi.
Terutama regresi logistik adalah algoritma klasifikasi yang digunakan untuk memperkirakan nilai diskrit seperti 0 atau 1, benar atau salah, ya atau tidak berdasarkan kumpulan variabel independen tertentu. Pada dasarnya, ia memprediksi probabilitas sehingga outputnya berada di antara 0 dan 1.
Pohon Keputusan
Pohon keputusan adalah algoritma pembelajaran tersupervisi yang banyak digunakan untuk masalah klasifikasi.
Pada dasarnya ini adalah pengklasifikasi yang dinyatakan sebagai partisi rekursif berdasarkan variabel independen. Pohon keputusan memiliki simpul yang membentuk pohon berakar. Pohon berakar adalah pohon berarah dengan simpul yang disebut “akar”. Root tidak memiliki edge yang masuk dan semua node lainnya memiliki satu edge yang masuk. Node ini disebut daun atau simpul keputusan. Misalnya, perhatikan pohon keputusan berikut untuk melihat apakah seseorang bugar atau tidak.
Mendukung Mesin Vektor (SVM)
Ini digunakan untuk masalah klasifikasi dan regresi. Tetapi terutama digunakan untuk masalah klasifikasi. Konsep utama SVM adalah memplot setiap item data sebagai titik dalam ruang berdimensi n dengan nilai setiap fitur menjadi nilai koordinat tertentu. Di sini akan menjadi fitur yang akan kami miliki. Berikut adalah representasi grafis sederhana untuk memahami konsep SVM -
Pada diagram di atas, kita memiliki dua fitur sehingga pertama-tama kita perlu memplot kedua variabel ini dalam ruang dua dimensi di mana setiap titik memiliki dua koordinat, yang disebut vektor pendukung. Garis membagi data menjadi dua kelompok rahasia yang berbeda. Baris ini akan menjadi pengklasifikasi.
Naïve Bayes
Ini juga merupakan teknik klasifikasi. Logika di balik teknik klasifikasi ini adalah dengan menggunakan teorema Bayes untuk membangun pengklasifikasi. Asumsinya adalah bahwa prediktor bersifat independen. Dengan kata sederhana, ini mengasumsikan bahwa keberadaan fitur tertentu di kelas tidak terkait dengan keberadaan fitur lainnya. Di bawah ini adalah persamaan untuk teorema Bayes -
$$ P \ kiri (\ frac {A} {B} \ kanan) = \ frac {P \ kiri (\ frac {B} {A} \ kanan) P \ kiri (A \ kanan)} {P \ kiri ( B \ kanan)} $$
Model Naïve Bayes mudah dibuat dan sangat berguna untuk kumpulan data yang besar.
K-Nearest Neighbours (KNN)
Ini digunakan untuk klasifikasi dan regresi masalah. Ini banyak digunakan untuk memecahkan masalah klasifikasi. Konsep utama dari algoritma ini adalah ia digunakan untuk menyimpan semua case yang tersedia dan mengklasifikasikan case baru berdasarkan suara mayoritas dari k tetangganya. Kasus tersebut kemudian ditugaskan ke kelas yang paling umum di antara K-tetangga terdekatnya, diukur dengan fungsi jarak. Fungsi jarak dapat berupa jarak Euclidean, Minkowski dan Hamming. Pertimbangkan hal berikut untuk menggunakan KNN -
Secara komputasi KNN lebih mahal daripada algoritma lain yang digunakan untuk masalah klasifikasi.
Normalisasi variabel diperlukan, jika tidak, variabel rentang yang lebih tinggi dapat membuatnya bias.
Di KNN, kita perlu mengerjakan tahap pra-pemrosesan seperti penghilangan noise.
Pengelompokan K-Means
Seperti namanya, ini digunakan untuk menyelesaikan masalah clustering. Ini pada dasarnya adalah jenis pembelajaran tanpa pengawasan. Logika utama algoritma clustering K-Means adalah untuk mengklasifikasikan kumpulan data melalui sejumlah cluster. Ikuti langkah-langkah ini untuk membentuk cluster dengan K-means -
K-means mengambil k sejumlah titik untuk setiap cluster yang dikenal sebagai sentroid.
Sekarang setiap titik data membentuk cluster dengan centroid terdekat, yaitu k cluster.
Sekarang, ia akan menemukan centroid dari setiap cluster berdasarkan anggota cluster yang ada.
Kita perlu mengulangi langkah-langkah ini sampai konvergensi terjadi.
Random Forest
Ini adalah algoritma klasifikasi yang diawasi. Keuntungan dari algoritma random forest adalah dapat digunakan untuk masalah klasifikasi dan regresi. Pada dasarnya ini adalah kumpulan pohon keputusan (yaitu, hutan) atau Anda dapat mengatakan kumpulan pohon keputusan. Konsep dasar dari random forest adalah setiap pohon memberikan klasifikasi dan hutan memilih klasifikasi terbaik darinya. Berikut adalah keuntungan dari algoritma Random Forest -
Pengklasifikasi hutan acak dapat digunakan untuk tugas klasifikasi dan regresi.
Mereka dapat menangani nilai yang hilang.
Ini tidak akan terlalu cocok dengan model bahkan jika kita memiliki lebih banyak pohon di hutan.