Pembelajaran Mesin - Panduan Cepat
Artificial Intelligence (AI) saat ini telah jauh melampaui hype blockchain dan komputasi kuantum. Hal ini disebabkan oleh fakta bahwa sumber daya komputasi yang besar tersedia dengan mudah bagi orang biasa. Pengembang kini memanfaatkan hal ini dalam membuat model Machine Learning baru dan melatih kembali model yang ada untuk performa dan hasil yang lebih baik. Ketersediaan High Performance Computing (HPC) yang mudah telah mengakibatkan peningkatan permintaan mendadak bagi profesional TI yang memiliki keterampilan Machine Learning.
Dalam tutorial ini, Anda akan belajar secara detail tentang -
Apa inti dari pembelajaran mesin?
Apa saja jenis yang berbeda dalam pembelajaran mesin?
Apa saja algoritme berbeda yang tersedia untuk mengembangkan model pembelajaran mesin?
Alat apa yang tersedia untuk mengembangkan model ini?
Apa saja pilihan bahasa pemrogramannya?
Platform apa yang mendukung pengembangan dan penerapan aplikasi Machine Learning?
IDE (Integrated Development Environment) apa yang tersedia?
Bagaimana cara meningkatkan keterampilan Anda dengan cepat di bidang penting ini?
Saat Anda menandai wajah di foto Facebook, itu adalah AI yang berjalan di belakang layar dan mengidentifikasi wajah dalam gambar. Penandaan wajah kini ada di mana-mana di beberapa aplikasi yang menampilkan gambar dengan wajah manusia. Mengapa hanya wajah manusia? Ada beberapa aplikasi yang mendeteksi objek seperti kucing, anjing, botol, mobil, dll. Kami memiliki mobil otonom yang berjalan di jalan kami yang mendeteksi objek secara real time untuk mengarahkan mobil. Saat Anda bepergian, Anda menggunakan GoogleDirectionsuntuk mempelajari situasi lalu lintas waktu nyata dan mengikuti jalur terbaik yang disarankan oleh Google pada titik waktu tersebut. Ini adalah implementasi lain dari teknik deteksi objek secara real time.
Mari kita perhatikan contoh Google Translateaplikasi yang biasanya kami gunakan saat mengunjungi luar negeri. Aplikasi penerjemah online Google di ponsel Anda membantu Anda berkomunikasi dengan penduduk lokal yang berbicara dalam bahasa yang asing bagi Anda.
Ada beberapa aplikasi AI yang kita gunakan secara praktis saat ini. Faktanya, kita masing-masing menggunakan AI di banyak bagian hidup kita, bahkan tanpa sepengetahuan kita. AI saat ini dapat melakukan pekerjaan yang sangat kompleks dengan akurasi dan kecepatan tinggi. Mari kita bahas contoh tugas kompleks untuk memahami kapabilitas apa yang diharapkan dalam aplikasi AI yang akan Anda kembangkan hari ini untuk klien Anda.
Contoh
Kita semua menggunakan Google Directionsselama perjalanan kami ke mana saja di kota untuk perjalanan harian atau bahkan untuk perjalanan antar kota. Aplikasi Google Directions menyarankan jalur tercepat ke tujuan kita pada saat itu. Saat kami mengikuti jalur ini, kami telah mengamati bahwa Google hampir 100% benar dalam sarannya dan kami menghemat waktu berharga kami dalam perjalanan.
Anda dapat membayangkan kerumitan yang terlibat dalam mengembangkan aplikasi semacam ini mengingat ada beberapa jalur ke tujuan Anda dan aplikasi harus menilai situasi lalu lintas di setiap jalur yang memungkinkan untuk memberi Anda perkiraan waktu tempuh untuk setiap jalur tersebut. Selain itu, pertimbangkan fakta bahwa Google Directions mencakup seluruh dunia. Tidak diragukan lagi, banyak teknik AI dan Machine Learning yang digunakan di balik aplikasi semacam itu.
Mempertimbangkan permintaan berkelanjutan untuk pengembangan aplikasi semacam itu, Anda sekarang akan menghargai mengapa ada permintaan mendadak untuk profesional TI dengan keterampilan AI.
Di bab selanjutnya, kita akan mempelajari apa yang diperlukan untuk mengembangkan program AI.
Perjalanan AI dimulai pada tahun 1950-an ketika daya komputasi hanya sebagian kecil dari yang ada saat ini. AI dimulai dengan prediksi yang dibuat oleh mesin dengan cara seorang ahli statistik melakukan prediksi menggunakan kalkulatornya. Dengan demikian, seluruh pengembangan awal AI didasarkan terutama pada teknik statistik.
Dalam bab ini, mari kita bahas secara rinci apa itu teknik statistik.
Teknik Statistik
Perkembangan aplikasi AI saat ini dimulai dengan menggunakan teknik statistik tradisional kuno. Anda pasti pernah menggunakan interpolasi garis lurus di sekolah untuk memprediksi nilai masa depan. Ada beberapa teknik statistik lain yang berhasil diterapkan dalam mengembangkan apa yang disebut program AI. Kami menyebutnya "disebut" karena program AI yang kita miliki saat ini jauh lebih kompleks dan menggunakan teknik yang jauh melampaui teknik statistik yang digunakan oleh program AI awal.
Beberapa contoh teknik statistik yang digunakan untuk mengembangkan aplikasi AI pada masa itu dan masih dalam praktik tercantum di sini -
- Regression
- Classification
- Clustering
- Teori Probabilitas
- Pohon Keputusan
Di sini kami hanya mencantumkan beberapa teknik utama yang cukup untuk membantu Anda memulai AI tanpa membuat Anda takut akan luasnya tuntutan AI. Jika Anda mengembangkan aplikasi AI berdasarkan data terbatas, Anda akan menggunakan teknik statistik ini.
Namun, saat ini datanya melimpah. Untuk menganalisis jenis data besar yang kami miliki, teknik statistik tidak banyak membantu karena mereka memiliki beberapa keterbatasan sendiri. Oleh karena itu, metode yang lebih maju seperti pembelajaran mendalam dikembangkan untuk memecahkan banyak masalah yang kompleks.
Saat kita melanjutkan tutorial ini, kita akan memahami apa itu Machine Learning dan bagaimana itu digunakan untuk mengembangkan aplikasi AI yang begitu kompleks.
Perhatikan gambar berikut yang menunjukkan sebidang harga rumah versus ukurannya dalam kaki persegi.
Setelah memplot berbagai titik data pada plot XY, kami menggambar garis yang paling sesuai untuk melakukan prediksi kami untuk rumah lain berdasarkan ukurannya. Anda akan memasukkan data yang diketahui ke mesin dan memintanya untuk menemukan saluran yang paling cocok. Setelah garis yang paling cocok ditemukan oleh mesin, Anda akan menguji kesesuaiannya dengan memberi makan dalam ukuran kandang yang diketahui, yaitu nilai Y pada kurva di atas. Mesin sekarang akan mengembalikan nilai X yang diperkirakan, yaitu harga rumah yang diharapkan. Diagram ini dapat diekstrapolasi untuk mengetahui harga rumah seluas 3000 kaki persegi atau bahkan lebih besar. Ini disebut regresi dalam statistik. Secara khusus, jenis regresi ini disebut regresi linier karena hubungan antara titik data X & Y adalah linier.
Dalam banyak kasus, hubungan antara titik data X & Y mungkin bukan garis lurus, dan bisa jadi berupa kurva dengan persamaan yang kompleks. Tugas Anda sekarang adalah menemukan kurva yang paling pas yang dapat diekstrapolasi untuk memprediksi nilai masa depan. Salah satu plot aplikasi tersebut ditunjukkan pada gambar di bawah ini.
Sumber:
https://upload.wikimedia.org/wikipedia/commons/c/c9/
Anda akan menggunakan teknik pengoptimalan statistik untuk menemukan persamaan untuk kurva yang paling sesuai di sini. Dan inilah tepatnya tentang Machine Learning. Anda menggunakan teknik pengoptimalan yang diketahui untuk menemukan solusi terbaik untuk masalah Anda.
Selanjutnya, mari kita lihat berbagai kategori Machine Learning.
Pembelajaran Mesin secara luas dikategorikan dalam tajuk berikut -
Pembelajaran mesin berkembang dari kiri ke kanan seperti yang ditunjukkan pada diagram di atas.
Awalnya, peneliti memulai dengan Supervised Learning. Ini adalah kasus prediksi harga rumah yang dibahas sebelumnya.
Ini diikuti dengan pembelajaran tanpa pengawasan, dimana mesin dibuat untuk belajar sendiri tanpa pengawasan apapun.
Para ilmuwan menemukan lebih lanjut bahwa mungkin ide yang baik untuk memberi penghargaan pada mesin saat mesin melakukan pekerjaan dengan cara yang diharapkan dan tibalah saatnya Reinforcement Learning.
Dalam waktu singkat, data yang tersedia saat ini menjadi begitu banyak sehingga teknik konvensional yang dikembangkan sejauh ini gagal menganalisis data besar dan memberikan prediksi kepada kami.
Maka, muncullah pembelajaran mendalam di mana otak manusia disimulasikan dalam Jaringan Saraf Tiruan (JST) yang dibuat di komputer biner kita.
Mesin tersebut sekarang belajar sendiri menggunakan daya komputasi tinggi dan sumber daya memori besar yang tersedia saat ini.
Sekarang diamati bahwa Pembelajaran Mendalam telah memecahkan banyak masalah yang sebelumnya tidak terpecahkan.
Teknik ini sekarang lebih maju dengan memberikan insentif kepada jaringan Deep Learning sebagai penghargaan dan akhirnya datang Deep Reinforcement Learning.
Mari kita sekarang mempelajari masing-masing kategori ini secara lebih rinci.
Pembelajaran yang Diawasi
Pembelajaran yang diawasi dapat dianalogikan dengan melatih anak untuk berjalan. Anda akan memegang tangan anak, menunjukkan padanya bagaimana caranya untuk melangkah ke depan, berjalan sendiri untuk peragaan dan seterusnya, sampai anak tersebut belajar berjalan sendiri.
Regresi
Demikian pula, dalam kasus supervised learning, Anda memberikan contoh konkret yang diketahui ke komputer. Anda mengatakan bahwa untuk nilai fitur yang diberikan x1 outputnya adalah y1, untuk x2 adalah y2, untuk x3 adalah y3, dan seterusnya. Berdasarkan data ini, Anda membiarkan komputer mencari hubungan empiris antara x dan y.
Setelah mesin dilatih dengan cara ini dengan jumlah titik data yang memadai, sekarang Anda akan meminta mesin untuk memprediksi Y untuk X tertentu. Dengan asumsi bahwa Anda mengetahui nilai sebenarnya dari Y untuk X yang diberikan ini, Anda akan dapat menyimpulkan apakah prediksi mesin benar.
Jadi, Anda akan menguji apakah mesin telah belajar dengan menggunakan data pengujian yang diketahui. Setelah Anda yakin bahwa mesin dapat melakukan prediksi dengan tingkat akurasi yang diinginkan (misalnya 80 hingga 90%), Anda dapat berhenti melatih mesin lebih lanjut.
Sekarang, Anda dapat dengan aman menggunakan mesin untuk melakukan prediksi pada titik data yang tidak diketahui, atau meminta mesin untuk memprediksi Y untuk X tertentu yang Anda tidak tahu nilai sebenarnya dari Y. Pelatihan ini berada di bawah regresi yang kita bicarakan. sebelumnya.
Klasifikasi
Anda juga dapat menggunakan teknik pembelajaran mesin untuk masalah klasifikasi. Dalam masalah klasifikasi, Anda mengklasifikasikan objek yang serupa ke dalam satu grup. Misalnya, dalam satu kelompok yang terdiri dari 100 siswa berkata, Anda mungkin ingin mengelompokkan mereka menjadi tiga kelompok berdasarkan tinggi badan mereka - pendek, sedang dan panjang. Mengukur tinggi badan setiap siswa, Anda akan menempatkan mereka dalam kelompok yang tepat.
Sekarang, ketika seorang siswa baru masuk, Anda akan memasukkannya ke dalam kelompok yang sesuai dengan mengukur tingginya. Dengan mengikuti prinsip dalam pelatihan regresi, Anda akan melatih mesin untuk mengklasifikasikan siswa berdasarkan fiturnya - tingginya. Saat mesin mempelajari bagaimana grup dibentuk, itu akan dapat mengklasifikasikan siswa baru yang tidak dikenal dengan benar. Sekali lagi, Anda akan menggunakan data pengujian untuk memverifikasi bahwa mesin telah mempelajari teknik klasifikasi Anda sebelum menempatkan model yang dikembangkan dalam produksi.
Pembelajaran yang Diawasi adalah tempat AI benar-benar memulai perjalanannya. Teknik ini berhasil diterapkan dalam beberapa kasus. Anda telah menggunakan model ini saat melakukan pengenalan tulisan tangan di mesin Anda. Beberapa algoritma telah dikembangkan untuk pembelajaran yang diawasi. Anda akan mempelajarinya di bab-bab berikut.
Pembelajaran Tanpa Pengawasan
Dalam pembelajaran tanpa pengawasan, kami tidak menentukan variabel target ke mesin, melainkan kami bertanya mesin "Apa yang dapat Anda ceritakan tentang X?". Lebih khusus lagi, kita mungkin mengajukan pertanyaan seperti mengingat kumpulan data X yang sangat besar, "Sebutkan lima kelompok terbaik yang dapat kita buat dari X?" atau "Fitur apa yang paling sering muncul bersama di X?". Untuk sampai pada jawaban atas pertanyaan semacam itu, Anda dapat memahami bahwa jumlah poin data yang dibutuhkan mesin untuk menyimpulkan strategi akan sangat besar. Dalam kasus pembelajaran yang diawasi, mesin dapat dilatih bahkan dengan beberapa ribu titik data. Namun, dalam kasus pembelajaran tanpa pengawasan, jumlah poin data yang diterima secara wajar untuk pembelajaran dimulai dari beberapa juta. Dewasa ini, data umumnya tersedia berlimpah. Data idealnya membutuhkan kurasi. Namun, jumlah data yang terus mengalir di jaringan area sosial, dalam banyak kasus kurasi data adalah tugas yang mustahil.
Gambar berikut menunjukkan batas antara titik kuning dan merah seperti yang ditentukan oleh pembelajaran mesin tanpa pengawasan. Anda dapat melihat dengan jelas bahwa mesin akan dapat menentukan kelas dari setiap titik hitam dengan akurasi yang cukup baik.
Sumber:
https://chrisjmccormick.files.wordpress.com/2013/08/approx_decision_boun dary.png
Pembelajaran tanpa pengawasan telah menunjukkan kesuksesan besar dalam banyak aplikasi AI modern, seperti deteksi wajah, deteksi objek, dan sebagainya.
Pembelajaran Penguatan
Pertimbangkan untuk melatih anjing peliharaan, kami melatih hewan peliharaan kami untuk membawa bola kepada kami. Kami melempar bola pada jarak tertentu dan meminta anjing untuk mengambilnya kembali kepada kami. Setiap kali anjing melakukan ini dengan benar, kami memberi hadiah kepada anjing tersebut. Perlahan-lahan, anjing belajar bahwa melakukan pekerjaan dengan benar akan memberinya hadiah dan kemudian anjing mulai melakukan pekerjaan dengan cara yang benar setiap saat. Tepatnya, konsep ini diterapkan dalam pembelajaran jenis “Reinforcement”. Teknik ini awalnya dikembangkan untuk mesin untuk bermain game. Mesin diberi algoritme untuk menganalisis semua kemungkinan gerakan di setiap tahap permainan. Mesin dapat memilih salah satu gerakan secara acak. Jika langkahnya benar, mesin diberi hadiah, jika tidak maka dapat dihukum. Perlahan, mesin akan mulai membedakan antara gerakan benar dan salah dan setelah beberapa iterasi akan belajar memecahkan teka-teki permainan dengan akurasi yang lebih baik. Akurasi memenangkan permainan akan meningkat karena mesin memainkan lebih banyak permainan.
Seluruh proses dapat digambarkan dalam diagram berikut -
Teknik pembelajaran mesin ini berbeda dari pembelajaran yang diawasi karena Anda tidak perlu menyediakan pasangan input / output berlabel. Fokusnya adalah menemukan keseimbangan antara mengeksplorasi solusi baru versus mengeksploitasi solusi yang dipelajari.
Pembelajaran Mendalam
Pembelajaran mendalam adalah model yang didasarkan pada Jaringan Saraf Tiruan (JST), lebih khusus Jaringan Saraf Konvolusional (CNN). Ada beberapa arsitektur yang digunakan dalam pembelajaran mendalam seperti jaringan saraf dalam, jaringan keyakinan dalam, jaringan saraf berulang, dan jaringan saraf konvolusional.
Jaringan ini telah berhasil diterapkan dalam memecahkan masalah visi komputer, pengenalan suara, pemrosesan bahasa alami, bioinformatika, desain obat, analisis citra medis, dan permainan. Ada beberapa bidang lain di mana pembelajaran mendalam diterapkan secara proaktif. Pembelajaran mendalam membutuhkan kekuatan pemrosesan yang besar dan data yang sangat besar, yang umumnya tersedia dengan mudah saat ini.
Kami akan berbicara tentang pembelajaran mendalam lebih detail di bab-bab selanjutnya.
Pembelajaran Penguatan Mendalam
The Deep Reinforcement Learning (DRL) menggabungkan teknik pembelajaran mendalam dan penguatan. Algoritme pembelajaran penguatan seperti Q-learning sekarang digabungkan dengan pembelajaran yang mendalam untuk membuat model DRL yang hebat. Teknik ini sukses besar di bidang robotika, video game, keuangan dan perawatan kesehatan. Banyak masalah yang sebelumnya tidak dapat dipecahkan sekarang diselesaikan dengan membuat model DRL. Ada banyak penelitian yang dilakukan di bidang ini dan ini sangat aktif dilakukan oleh industri.
Sejauh ini, Anda telah mendapatkan pengantar singkat tentang berbagai model pembelajaran mesin, sekarang mari kita jelajahi sedikit lebih dalam berbagai algoritme yang tersedia pada model-model ini.
Pembelajaran yang diawasi adalah salah satu model pembelajaran penting yang terlibat dalam mesin pelatihan. Bab ini berbicara secara rinci tentang hal yang sama.
Algoritma untuk Supervised Learning
Ada beberapa algoritme yang tersedia untuk pembelajaran yang diawasi. Beberapa algoritme supervised learning yang banyak digunakan adalah seperti yang ditunjukkan di bawah ini -
- k-Tetangga Terdekat
- Pohon Keputusan
- Naive Bayes
- Regresi logistik
- Mendukung Mesin Vektor
Saat kita melangkah maju dalam bab ini, mari kita bahas secara rinci tentang masing-masing algoritma.
k-Tetangga Terdekat
K-Nearest Neighbours, yang disebut kNN adalah teknik statistik yang dapat digunakan untuk memecahkan masalah klasifikasi dan regresi. Mari kita bahas kasus pengklasifikasian objek yang tidak diketahui menggunakan kNN. Pertimbangkan distribusi objek seperti yang ditunjukkan pada gambar di bawah ini -
Sumber:
https://en.wikipedia.org/wiki/K-nearest_neighbours_algorithm
Diagram menunjukkan tiga jenis objek, ditandai dengan warna merah, biru, dan hijau. Saat Anda menjalankan classifier kNN pada dataset di atas, batasan untuk setiap jenis objek akan ditandai seperti yang ditunjukkan di bawah ini -
Sumber:
https://en.wikipedia.org/wiki/K-nearest_neighbours_algorithm
Sekarang, pertimbangkan objek baru yang tidak diketahui yang ingin Anda klasifikasikan sebagai merah, hijau atau biru. Ini digambarkan pada gambar di bawah ini.
Seperti yang Anda lihat secara visual, titik data yang tidak diketahui milik kelas objek biru. Secara matematis, ini dapat disimpulkan dengan mengukur jarak titik yang tidak diketahui ini dengan setiap titik lain dalam kumpulan data. Ketika Anda melakukannya, Anda akan tahu bahwa sebagian besar tetangganya berwarna biru. Jarak rata-rata ke objek merah dan hijau pasti lebih dari jarak rata-rata ke objek biru. Dengan demikian, objek tak dikenal ini dapat diklasifikasikan sebagai milik kelas biru.
Algoritma kNN juga dapat digunakan untuk masalah regresi. Algoritme kNN tersedia sebagai siap digunakan di sebagian besar library ML.
Pohon Keputusan
Pohon keputusan sederhana dalam format diagram alur ditunjukkan di bawah ini -
Anda akan menulis kode untuk mengklasifikasikan data masukan Anda berdasarkan diagram alur ini. Diagram alir cukup jelas dan sepele. Dalam skenario ini, Anda mencoba untuk mengklasifikasikan email masuk untuk memutuskan kapan harus membacanya.
Pada kenyataannya, pohon keputusan bisa jadi besar dan kompleks. Ada beberapa algoritma yang tersedia untuk membuat dan melintasi pohon-pohon ini. Sebagai penggemar Pembelajaran Mesin, Anda perlu memahami dan menguasai teknik membuat dan melintasi pohon keputusan ini.
Naive Bayes
Naive Bayes digunakan untuk membuat pengklasifikasi. Misalkan Anda ingin memilah (mengelompokkan) buah-buahan dari berbagai jenis dari sekeranjang buah. Anda dapat menggunakan fitur-fitur seperti warna, ukuran dan bentuk buah. Misalnya, buah apa pun yang berwarna merah, berbentuk bulat dan berdiameter sekitar 10 cm dapat dianggap sebagai apel. Jadi untuk melatih model, Anda akan menggunakan fitur-fitur ini dan menguji kemungkinan bahwa fitur tertentu cocok dengan batasan yang diinginkan. Probabilitas fitur yang berbeda kemudian digabungkan untuk sampai pada probabilitas bahwa buah tertentu adalah Apple. Naive Bayes umumnya membutuhkan sejumlah kecil data pelatihan untuk klasifikasi.
Regresi logistik
Lihat diagram berikut. Ini menunjukkan distribusi titik data di bidang XY.
Dari diagram, kita dapat memeriksa secara visual pemisahan titik merah dari titik hijau. Anda dapat menggambar garis batas untuk memisahkan titik-titik ini. Sekarang, untuk mengklasifikasikan titik data baru, Anda hanya perlu menentukan di sisi mana titik tersebut berada.
Mendukung Mesin Vektor
Perhatikan sebaran data berikut ini. Di sini ketiga kelas data tidak dapat dipisahkan secara linier. Kurva batas tidak linier. Dalam kasus seperti itu, mencari persamaan kurva menjadi pekerjaan yang kompleks.
Sumber: http://uc-r.github.io/svm
Support Vector Machines (SVM) berguna dalam menentukan batas pemisahan dalam situasi seperti itu.
Untungnya, sebagian besar waktu Anda tidak perlu membuat kode algoritme yang disebutkan di pelajaran sebelumnya. Ada banyak pustaka standar yang menyediakan implementasi siap pakai dari algoritme ini. Salah satu toolkit yang populer digunakan adalah scikit-learn. Gambar di bawah mengilustrasikan jenis algoritme yang tersedia untuk Anda gunakan di perpustakaan ini.
Sumber: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Penggunaan algoritme ini sepele dan karena ini telah diuji dengan baik dan di lapangan, Anda dapat menggunakannya dengan aman dalam aplikasi AI Anda. Sebagian besar perpustakaan ini bebas digunakan bahkan untuk tujuan komersial.
Sejauh ini apa yang Anda lihat adalah membuat mesin belajar untuk menemukan solusi untuk target kami. Dalam regresi, kami melatih mesin untuk memprediksi nilai masa depan. Dalam klasifikasi, kami melatih mesin untuk mengklasifikasikan objek yang tidak diketahui dalam salah satu kategori yang kami definisikan. Singkatnya, kami telah melatih mesin sehingga dapat memprediksi Y untuk data kami X. Mengingat kumpulan data yang sangat besar dan tidak memperkirakan kategorinya, akan sulit bagi kami untuk melatih mesin menggunakan supervised learning. Bagaimana jika mesin dapat mencari dan menganalisis data besar yang menjalankan beberapa Gigabyte dan Terabyte dan memberi tahu kami bahwa data ini berisi begitu banyak kategori berbeda?
Sebagai contoh, perhatikan data pemilih. Dengan mempertimbangkan beberapa masukan dari setiap pemilih (ini disebut fitur dalam terminologi AI), biarkan mesin memprediksi bahwa ada begitu banyak pemilih yang akan memilih partai politik X dan banyak yang akan memilih Y, dan seterusnya. Jadi, secara umum, kami meminta mesin diberi sekumpulan besar titik data X, "Apa yang dapat Anda ceritakan tentang X?". Atau mungkin pertanyaan seperti "Apa lima kelompok terbaik yang bisa kita buat dari X?". Atau bahkan bisa seperti "Tiga fitur apa yang paling sering muncul bersama di X?".
Inilah sebenarnya Unsupervised Learning.
Algoritma untuk Pembelajaran Tanpa Pengawasan
Sekarang mari kita bahas salah satu algoritme yang banyak digunakan untuk klasifikasi dalam pembelajaran mesin tanpa pengawasan.
pengelompokan k-means
Pemilihan Presiden tahun 2000 dan 2004 di Amerika Serikat sudah dekat - sangat dekat. Persentase terbesar dari suara populer yang diterima kandidat mana pun adalah 50,7% dan terendah adalah 47,9%. Jika persentase pemilih beralih pihak, hasil pemilu akan berbeda. Ada sekelompok kecil pemilih yang, jika diminta dengan benar, akan berpindah pihak. Kelompok-kelompok ini mungkin tidak besar, tetapi dengan persaingan ketat seperti itu, mereka mungkin cukup besar untuk mengubah hasil pemilu. Bagaimana Anda menemukan kelompok orang ini? Bagaimana Anda menarik mereka dengan anggaran terbatas? Jawabannya adalah clustering.
Mari kita pahami bagaimana itu dilakukan.
Pertama, Anda mengumpulkan informasi tentang orang-orang baik dengan atau tanpa persetujuan mereka: segala jenis informasi yang mungkin memberi petunjuk tentang apa yang penting bagi mereka dan apa yang akan memengaruhi cara mereka memilih.
Kemudian Anda memasukkan informasi ini ke dalam semacam algoritme pengelompokan.
Selanjutnya, untuk setiap cluster (sebaiknya pilih yang terbesar terlebih dahulu) Anda membuat pesan yang akan menarik bagi para pemilih ini.
Terakhir, Anda mengirimkan kampanye dan mengukur untuk melihat apakah berhasil.
Pengelompokan adalah jenis pembelajaran tanpa pengawasan yang secara otomatis membentuk kelompok hal yang serupa. Ini seperti klasifikasi otomatis. Anda dapat mengelompokkan hampir semua hal, dan semakin mirip item dalam cluster, semakin baik cluster tersebut. Pada bab ini, kita akan mempelajari satu jenis algoritma clustering yang disebut k-means. Disebut k-means karena ia menemukan kluster unik 'k', dan pusat setiap kluster adalah mean dari nilai-nilai dalam kluster itu.
Identifikasi Cluster
Identifikasi cluster memberi tahu algoritme, “Ini beberapa data. Sekarang kelompokkan hal-hal yang serupa menjadi satu dan ceritakan tentang kelompok itu. ” Perbedaan utama dari klasifikasi adalah bahwa dalam klasifikasi Anda tahu apa yang Anda cari. Sementara itu tidak terjadi pada clustering.
Pengelompokan terkadang disebut klasifikasi tidak terbimbing karena menghasilkan hasil yang sama seperti klasifikasi tetapi tanpa kelas yang telah ditentukan sebelumnya.
Sekarang, kami merasa nyaman dengan pembelajaran yang diawasi dan tanpa pengawasan. Untuk memahami kategori pembelajaran mesin lainnya, pertama-tama kita harus memahami Jaringan Neural Buatan (JST), yang akan kita pelajari di bab berikutnya.
Ide jaringan saraf tiruan berasal dari jaringan saraf di otak manusia. Otak manusia sangat kompleks. Mempelajari otak dengan cermat, para ilmuwan dan insinyur menghasilkan arsitektur yang sesuai dengan dunia digital komputer biner kita. Salah satu arsitektur khas tersebut ditunjukkan pada diagram di bawah ini -
Ada lapisan masukan yang memiliki banyak sensor untuk mengumpulkan data dari dunia luar. Di sisi kanan, kami memiliki lapisan keluaran yang memberi kami hasil yang diprediksi oleh jaringan. Di antara keduanya, beberapa lapisan tersembunyi. Setiap lapisan tambahan menambah kompleksitas lebih lanjut dalam melatih jaringan, tetapi akan memberikan hasil yang lebih baik di sebagian besar situasi. Ada beberapa jenis desain arsitektur yang akan kita bahas sekarang.
Arsitektur ANN
Diagram di bawah menunjukkan beberapa arsitektur JST yang dikembangkan selama periode waktu tertentu dan dipraktikkan saat ini.
Sumber:
https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464
Setiap arsitektur dikembangkan untuk jenis aplikasi tertentu. Jadi, saat menggunakan jaringan neural untuk aplikasi pembelajaran mesin, Anda harus menggunakan salah satu arsitektur yang ada atau mendesain sendiri. Jenis aplikasi yang akhirnya Anda putuskan bergantung pada kebutuhan aplikasi Anda. Tidak ada pedoman tunggal yang memberitahu Anda untuk menggunakan arsitektur jaringan tertentu.
Deep Learning menggunakan ANN. Pertama kita akan melihat beberapa aplikasi pembelajaran mendalam yang akan memberi Anda gambaran tentang kekuatannya.
Aplikasi
Pembelajaran Mendalam telah menunjukkan banyak keberhasilan di beberapa area aplikasi pembelajaran mesin.
Self-driving Cars- Mobil swakemudi otonom menggunakan teknik pembelajaran mendalam. Mereka umumnya beradaptasi dengan situasi lalu lintas yang terus berubah dan menjadi lebih baik dan lebih baik dalam mengemudi selama periode waktu tertentu.
Speech Recognition- Aplikasi lain yang menarik dari Deep Learning adalah pengenalan suara. Kita semua saat ini menggunakan beberapa aplikasi seluler yang mampu mengenali ucapan kita. Siri dari Apple, Alexa Amazon, Cortena dari Microsoft, dan Asisten Google - semua ini menggunakan teknik pembelajaran yang mendalam.
Mobile Apps- Kami menggunakan beberapa aplikasi berbasis web dan seluler untuk mengatur foto-foto kami. Deteksi wajah, ID wajah, penandaan wajah, mengidentifikasi objek dalam gambar - semua ini menggunakan pembelajaran mendalam.
Peluang Pembelajaran Mendalam yang Belum Tersentuh
Setelah melihat kesuksesan besar yang dicapai aplikasi pembelajaran dalam di banyak domain, orang-orang mulai menjelajahi domain lain di mana pembelajaran mesin belum diterapkan sejauh ini. Ada beberapa domain di mana teknik pembelajaran yang dalam berhasil diterapkan dan ada banyak domain lain yang dapat dieksploitasi. Beberapa di antaranya dibahas di sini.
Pertanian adalah salah satu industri di mana orang dapat menerapkan teknik pembelajaran mendalam untuk meningkatkan hasil panen.
Pembiayaan konsumen adalah area lain tempat pembelajaran mesin dapat sangat membantu dalam memberikan deteksi dini penipuan dan menganalisis kemampuan pembayaran pelanggan.
Teknik pembelajaran mendalam juga diterapkan pada bidang kedokteran untuk membuat obat baru dan memberikan resep yang dipersonalisasi kepada pasien.
Kemungkinannya tidak terbatas dan kita harus terus mengawasi karena ide dan perkembangan baru sering muncul.
Apa yang Diperlukan untuk Mencapai Lebih Banyak Dengan Pembelajaran Mendalam
Untuk menggunakan pembelajaran yang dalam, daya superkomputer merupakan persyaratan wajib. Anda membutuhkan memori serta CPU untuk mengembangkan model pembelajaran yang mendalam. Untungnya, hari ini kami memiliki ketersediaan HPC yang mudah - Komputasi Kinerja Tinggi. Oleh karena itu, pengembangan aplikasi deep learning yang kami sebutkan di atas menjadi kenyataan saat ini dan di masa mendatang juga kita dapat melihat aplikasi tersebut di area yang belum tersentuh yang telah kita bahas sebelumnya.
Sekarang, kita akan melihat beberapa batasan deep learning yang harus kita pertimbangkan sebelum menggunakannya di aplikasi machine learning kita.
Kekurangan Pembelajaran Mendalam
Beberapa poin penting yang perlu Anda pertimbangkan sebelum menggunakan pembelajaran mendalam tercantum di bawah ini -
- Pendekatan Kotak Hitam
- Durasi Pembangunan
- Jumlah Data
- Mahal Secara Komputasi
Kami sekarang akan mempelajari setiap batasan ini secara mendetail.
Pendekatan Kotak Hitam
ANN seperti kotak hitam. Anda memberinya masukan tertentu dan itu akan memberi Anda keluaran tertentu. Diagram berikut menunjukkan satu aplikasi di mana Anda memberi makan gambar hewan ke jaringan saraf dan memberi tahu Anda bahwa gambar itu adalah gambar anjing.
Mengapa ini disebut pendekatan kotak hitam adalah Anda tidak tahu mengapa jaringan muncul dengan hasil tertentu. Anda tidak tahu bagaimana jaringan menyimpulkan bahwa itu adalah seekor anjing? Sekarang pertimbangkan aplikasi perbankan di mana bank ingin memutuskan kelayakan kredit klien. Jaringan pasti akan memberi Anda jawaban untuk pertanyaan ini. Namun, apakah Anda dapat membenarkannya untuk klien? Bank perlu menjelaskan kepada nasabah mengapa pinjaman tersebut tidak dikenai sanksi?
Durasi Pembangunan
Proses pelatihan jaringan saraf digambarkan dalam diagram di bawah ini -
Anda terlebih dahulu menentukan masalah yang ingin Anda selesaikan, membuat spesifikasinya, memutuskan fitur masukan, mendesain jaringan, menerapkannya, dan menguji keluaran. Jika hasilnya tidak seperti yang diharapkan, anggap ini sebagai umpan balik untuk merestrukturisasi jaringan Anda. Ini adalah proses berulang dan mungkin memerlukan beberapa iterasi hingga jaringan waktu sepenuhnya terlatih untuk menghasilkan keluaran yang diinginkan.
Jumlah Data
Jaringan pembelajaran mendalam biasanya membutuhkan sejumlah besar data untuk pelatihan, sedangkan algoritme pembelajaran mesin tradisional dapat digunakan dengan sukses besar bahkan dengan hanya beberapa ribu titik data. Untungnya, kelimpahan data tumbuh sebesar 40% per tahun dan daya pemrosesan CPU tumbuh sebesar 20% per tahun seperti yang terlihat pada diagram di bawah ini -
Mahal Secara Komputasi
Melatih jaringan saraf memerlukan daya komputasi beberapa kali lebih banyak daripada yang diperlukan dalam menjalankan algoritme tradisional. Pelatihan Jaringan Neural dalam yang berhasil mungkin memerlukan waktu pelatihan selama beberapa minggu.
Berbeda dengan ini, algoritme pembelajaran mesin tradisional hanya membutuhkan beberapa menit / jam untuk dilatih. Selain itu, jumlah daya komputasi yang dibutuhkan untuk melatih jaringan neural dalam sangat bergantung pada ukuran data Anda dan seberapa dalam dan kompleksnya jaringan tersebut?
Setelah memiliki ikhtisar tentang apa itu Machine Learning, kapabilitas, batasan, dan aplikasinya, sekarang mari kita selami pembelajaran "Machine Learning".
Machine Learning memiliki lebar yang sangat besar dan membutuhkan keterampilan di beberapa domain. Keterampilan yang perlu Anda peroleh untuk menjadi ahli dalam Pembelajaran Mesin tercantum di bawah -
- Statistics
- Teori Probabilitas
- Calculus
- Teknik pengoptimalan
- Visualization
Perlunya Berbagai Keterampilan Pembelajaran Mesin
Untuk memberi Anda gambaran singkat tentang keterampilan apa yang perlu Anda peroleh, mari kita bahas beberapa contoh -
Notasi Matematika
Sebagian besar algoritme pembelajaran mesin sangat didasarkan pada matematika. Level matematika yang perlu Anda ketahui mungkin hanya level pemula. Yang penting adalah Anda harus bisa membaca notasi yang digunakan ahli matematika dalam persamaan mereka. Misalnya - jika Anda dapat membaca notasi dan memahami artinya, Anda siap untuk mempelajari pembelajaran mesin. Jika tidak, Anda mungkin perlu memoles pengetahuan matematika Anda.
$$ f_ {AN} (net- \ theta) = \ begin {cases} \ gamma & if \: net- \ theta \ geq \ epsilon \\ net- \ theta & if - \ epsilon <net- \ theta <\ epsilon \\ - \ gamma & if \: net- \ theta \ leq- \ epsilon \ end {kasus} $$
$$ \ displaystyle \\\ max \ limit _ {\ alpha} \ begin {bmatrix} \ displaystyle \ sum \ limit_ {i = 1} ^ m \ alpha- \ frac {1} {2} \ displaystyle \ sum \ limit_ { i, j = 1} ^ m label ^ \ left (\ begin {array} {c} i \\ \ end {array} \ right) \ cdot \: label ^ \ left (\ begin {array} {c} j \\ \ end {larik} \ kanan) \ cdot \: a_ {i} \ cdot \: a_ {j} \ langle x ^ \ left (\ begin {larik} {c} i \\ \ end {larik} \ kanan), x ^ \ kiri (\ begin {array} {c} j \\ \ end {array} \ right) \ rangle \ end {bmatrix} $$
$$ f_ {AN} (net- \ theta) = \ left (\ frac {e ^ {\ lambda (net- \ theta)} - e ^ {- \ lambda (net- \ theta)}} {e ^ { \ lambda (net- \ theta)} + e ^ {- \ lambda (net- \ theta)}} \ kanan) \; $$
Teori probabilitas
Berikut adalah contoh untuk menguji pengetahuan Anda saat ini tentang teori probabilitas: Mengklasifikasikan dengan probabilitas bersyarat.
$$ p (c_ {i} | x, y) \; = \ frac {p (x, y | c_ {i}) \; p (c_ {i}) \;} {p (x, y) \ ;} $$
Dengan definisi ini, kita dapat mendefinisikan aturan klasifikasi Bayesian -
- Jika P (c1 | x, y)> P (c2 | x, y), kelasnya adalah c1.
- Jika P (c1 | x, y) <P (c2 | x, y), kelasnya adalah c2.
Masalah pengoptimalan
Berikut adalah fungsi optimasi
$$ \ displaystyle \\\ max \ limit _ {\ alpha} \ begin {bmatrix} \ displaystyle \ sum \ limit_ {i = 1} ^ m \ alpha- \ frac {1} {2} \ displaystyle \ sum \ limit_ { i, j = 1} ^ m label ^ \ left (\ begin {array} {c} i \\ \ end {array} \ right) \ cdot \: label ^ \ left (\ begin {array} {c} j \\ \ end {larik} \ kanan) \ cdot \: a_ {i} \ cdot \: a_ {j} \ langle x ^ \ left (\ begin {larik} {c} i \\ \ end {larik} \ kanan), x ^ \ kiri (\ begin {array} {c} j \\ \ end {array} \ right) \ rangle \ end {bmatrix} $$
Tunduk pada kendala berikut -
$$ \ alpha \ geq0, dan \: \ displaystyle \ sum \ limit_ {i-1} ^ m \ alpha_ {i} \ cdot \: label ^ \ left (\ begin {array} {c} i \\ \ end {larik} \ kanan) = 0 $$
Jika Anda dapat membaca dan memahami hal di atas, Anda sudah siap.
Visualisasi
Dalam banyak kasus, Anda perlu memahami berbagai jenis plot visualisasi untuk memahami distribusi data Anda dan menafsirkan hasil keluaran algoritme.
Selain aspek teoritis pembelajaran mesin di atas, Anda memerlukan keterampilan pemrograman yang baik untuk membuat kode algoritme tersebut.
Jadi, apa yang diperlukan untuk menerapkan ML? Mari kita bahas ini di bab berikutnya.
Untuk mengembangkan aplikasi ML, Anda harus memutuskan platform, IDE, dan bahasa untuk pengembangan. Ada beberapa pilihan yang tersedia. Sebagian besar akan memenuhi kebutuhan Anda dengan mudah karena semuanya menyediakan implementasi algoritme AI yang dibahas sejauh ini.
Jika Anda mengembangkan algoritme ML sendiri, aspek berikut perlu dipahami dengan cermat -
Bahasa pilihan Anda - pada dasarnya ini adalah kemampuan Anda dalam salah satu bahasa yang didukung dalam pengembangan ML.
IDE yang Anda gunakan - Ini akan tergantung pada keakraban Anda dengan IDE yang ada dan tingkat kenyamanan Anda.
Development platform- Ada beberapa platform yang tersedia untuk pengembangan dan penyebaran. Sebagian besar dari ini gratis untuk digunakan. Dalam beberapa kasus, Anda mungkin harus mengeluarkan biaya lisensi melebihi jumlah penggunaan tertentu. Berikut adalah daftar singkat pilihan bahasa, IDE dan platform untuk referensi Anda.
Pilihan Bahasa
Berikut daftar bahasa yang mendukung pengembangan ML -
- Python
- R
- Matlab
- Octave
- Julia
- C++
- C
Daftar ini pada dasarnya tidak lengkap; namun, ini mencakup banyak bahasa populer yang digunakan dalam pengembangan pembelajaran mesin. Bergantung pada tingkat kenyamanan Anda, pilih bahasa untuk pengembangan, kembangkan model dan uji Anda.
IDE
Berikut adalah daftar IDE yang mendukung pengembangan ML -
- R Studio
- Pycharm
- Notebook iPython / Jupyter
- Julia
- Spyder
- Anaconda
- Rodeo
- Google –Colab
Daftar di atas pada dasarnya tidak lengkap. Masing-masing memiliki kelebihan dan kekurangannya sendiri. Pembaca didorong untuk mencoba IDE yang berbeda ini sebelum mempersempit menjadi satu.
Platform
Berikut adalah daftar platform tempat aplikasi ML dapat diterapkan -
- IBM
- Microsoft Azure
- Google Cloud
- Amazon
- Mlflow
Sekali lagi daftar ini tidak lengkap. Pembaca didorong untuk mendaftar ke layanan yang disebutkan di atas dan mencobanya sendiri.
Tutorial ini telah memperkenalkan Anda ke Machine Learning. Sekarang, Anda tahu bahwa Machine Learning adalah teknik melatih mesin untuk melakukan aktivitas yang dapat dilakukan otak manusia, meskipun sedikit lebih cepat dan lebih baik daripada manusia pada umumnya. Hari ini kita telah melihat bahwa mesin dapat mengalahkan juara manusia dalam permainan seperti Catur, AlphaGO, yang dianggap sangat kompleks. Anda telah melihat bahwa mesin dapat dilatih untuk melakukan aktivitas manusia di beberapa area dan dapat membantu manusia untuk menjalani kehidupan yang lebih baik.
Pembelajaran Mesin dapat diawasi atau Tidak Diawasi. Jika Anda memiliki jumlah data yang lebih sedikit dan data yang diberi label dengan jelas untuk pelatihan, pilihlah Pembelajaran yang Diawasi. Pembelajaran Tanpa Supervisi umumnya akan memberikan kinerja dan hasil yang lebih baik untuk kumpulan data yang besar. Jika Anda memiliki kumpulan data besar yang tersedia dengan mudah, gunakan teknik pembelajaran mendalam. Anda juga telah mempelajari Reinforcement Learning dan Deep Reinforcement Learning. Sekarang Anda tahu apa itu Jaringan Neural, aplikasi, dan batasannya.
Terakhir, ketika membahas pengembangan model pembelajaran mesin Anda sendiri, Anda melihat pilihan berbagai bahasa pengembangan, IDE, dan Platform. Hal berikutnya yang perlu Anda lakukan adalah mulai mempelajari dan mempraktikkan setiap teknik pembelajaran mesin. Subjeknya luas, artinya ada lebar, tetapi jika mempertimbangkan kedalamannya, setiap topik bisa dipelajari dalam beberapa jam. Setiap topik tidak bergantung satu sama lain. Anda perlu mempertimbangkan satu topik pada satu waktu, mempelajarinya, mempraktikkannya, dan menerapkan algoritme di dalamnya menggunakan pilihan bahasa Anda. Ini adalah cara terbaik untuk mulai mempelajari Machine Learning. Mempraktikkan satu topik pada satu waktu, Anda akan segera mendapatkan pemahaman yang dibutuhkan oleh pakar Machine Learning.
Semoga berhasil!