Seleksi Fitur dalam Pembelajaran Mesin: Motivasi

Nov 24 2022

Artikel singkat ini adalah yang pertama dari seri yang menjelaskan teknik pemilihan fitur. Saya telah memulai dengan pengantar yang ramah dan menyajikan alasan kuat di balik proses pemilihan fitur.

Artikel singkat ini adalah yang pertama dari seri yang menjelaskan teknik pemilihan fitur. Saya telah memulai dengan pengantar yang ramah dan menyajikan alasan kuat di balik proses pemilihan fitur. Dalam artikel mendatang, saya akan menyebutkan setiap metode pemilihan fitur secara mendetail.

Pemilihan fitur adalah proses pemilihan subset fitur yang relevan (variabel, prediktor) dari total fitur level dalam kumpulan data untuk membangun algoritma pembelajaran mesin. Mengingat kumpulan data awal yang biasanya berisi sejumlah besar variabel, apa yang dapat kita lakukan untuk memilih kumpulan fitur yang penting pada saat membuat prediksi? Ada beragam prosedur atau teknik yang bisa kita terapkan sebagai bagian dari proses seleksi fitur.

Sebelum mendalami teknik pemilihan fitur, mengapa kita memilih fitur? Berikut beberapa alasannya.

Model yang lebih sederhana lebih mudah untuk ditafsirkan. Lebih mudah bagi pengguna model untuk memahami keluaran model yang menggunakan 10 variabel daripada keluaran model yang menggunakan 100 variabel.
Waktu pelatihan lebih singkat. Mengurangi jumlah variabel yang digunakan untuk membangun model pembelajaran mesin mengurangi biaya komputasi dan mempercepat pembangunan model. Namun yang lebih penting, model yang lebih sederhana, juga mendapat skor lebih cepat daripada aplikasi, yang sangat penting jika model berada di lingkungan langsung di mana keputusan perlu dibuat dalam hitungan detik.
Peningkatan generalisasi dengan mengurangi overfitting. Sangat sering, banyak variabel adalah noise dengan sedikit nilai prediktif. Namun model pembelajaran mesin belajar dari kebisingan ini yang menyebabkan overfitting dan mengurangi generalisasi. Dengan menghilangkan fitur bising yang tidak relevan, kami dapat meningkatkan generalisasi model pembelajaran mesin secara substansial.
Lebih mudah diimplementasikan oleh pengembang perangkat lunak. Saat model pembelajaran mesin diterapkan, sering kali pengembang perangkat lunak perlu menulis kode untuk memanggil variabel yang perlu dimasukkan ke dalam model untuk menghasilkan output. Jauh lebih cepat menulis kode untuk 10 hingga 50 variabel daripada 400 variabel. Selain itu, kode yang lebih sedikit tidak rentan terhadap bug dan karenanya menyediakan lingkungan yang lebih aman.
Mengurangi risiko kesalahan data selama penggunaan model. Seringkali perusahaan mengandalkan panggilan ke data pihak ketiga yang darinya mereka akan memilih variabel untuk meneruskan model pembelajaran mesin. Mengurangi jumlah variabel yang digunakan dalam model pembelajaran mesin mengurangi paparan bisnis terhadap kesalahan dalam pengumpulan dan penyimpanan data pihak ketiga dan juga potensi kesalahan dalam pengumpulan data yang mungkin timbul dalam bisnis yang sama.
Redundansi variabel. Cukup sering fitur dalam kumpulan data sangat berkorelasi. Fitur yang sangat berkorelasi memberikan inti dari informasi yang sama. Oleh karena itu mereka agak berlebihan. Kami dapat menyimpan satu dan menghapus sisanya tanpa kehilangan informasi.
Perilaku belajar yang buruk di ruang dimensi tinggi. Performa model Pembelajaran Mesin dalam algoritme berbasis pohon tertentu didukung oleh pengurangan ruang fitur. Ini berarti, dengan kata lain, dimensi tinggi menyebabkan kinerja yang buruk dalam metode berbasis pohon, dan karena itu mengurangi ruang fitur membantu membangun model yang lebih kuat dan prediktif.

Algoritma pemilihan fitur dapat dilihat sebagai kombinasi dari teknik pencarian untuk mengusulkan subset fitur baru, bersama dengan ukuran evolusi yang menilai subset fitur yang berbeda. Idealnya, metode pemilihan fitur akan mencari semua kemungkinan subset dari kombinasi fitur yang dapat diperoleh dari kumpulan data yang diberikan, dan menemukan kombinasi fitur yang menghasilkan kinerja model pembelajaran mesin terbaik. Dalam praktiknya, ini biasanya bukan pilihan karena biaya komputasi. Selain itu, subset fitur yang berbeda dapat menghasilkan performa optimal untuk berbagai algoritme pembelajaran mesin. Ini berarti tidak hanya ada satu subset fitur tetapi berpotensi banyak subset fitur optimal tergantung pada algoritme pembelajaran mesin yang ingin kami gunakan. Oleh karena itu selama bertahun-tahun, sangat banyak metode berbeda untuk memilih fitur telah dikembangkan untuk mencoba dan mengakomodasi sebanyak mungkin peringatan dan batasan. Sepanjang seri artikel ini, saya akan menjelaskan berbagai metode untuk pemilihan fitur, apa kelebihan dan kekurangannya, dan bagaimana menerapkannya dalam praktik menggunakan contoh kumpulan data bisnis.