Mengapa tidak hanya ada satu fungsi aktivasi "keystone" di Neural Networks?

Aug 20 2020

Artikel ini mengatakan yang berikut:

Memutuskan antara sigmoid atau tanh akan bergantung pada kebutuhan kekuatan gradien Anda.

Saya telah melihat (sejauh ini dalam pembelajaran saya) 7 fungsi / kurva aktivasi. Masing-masing tampaknya membangun yang terakhir . Tapi kemudian seperti kutipan di atas, saya telah membaca di banyak tempat pada dasarnya bahwa "berdasarkan kebutuhan Anda, pilih fungsi aktivasi Anda dan sesuaikan dengan kasus penggunaan spesifik Anda".

Ini sepertinya tidak terukur . Dari perspektif teknik, manusia harus masuk dan bermain-main dengan setiap jaringan saraf untuk menemukan fungsi aktivasi yang tepat atau optimal, yang sepertinya akan membutuhkan banyak waktu dan upaya. Saya telah melihat makalah yang tampaknya mendeskripsikan orang yang bekerja untuk secara otomatis menemukan fungsi aktivasi "terbaik" untuk kumpulan data tertentu juga. Dari sudut pandang abstraksi, ini seperti menulis kode untuk menangani setiap pengguna secara individual di situs web, secara independen dari yang lain, daripada hanya menulis satu sistem otentikasi pengguna yang berfungsi untuk semua orang (sebagai analogi).

Apa semua makalah / artikel ini hilang adalah penjelasan mengapa . Mengapa Anda tidak bisa hanya memiliki satu fungsi aktivasi yang berfungsi secara optimal di semua kasus? Ini akan membuatnya jadi teknisi tidak perlu mengotak-atik setiap kumpulan data dan jaringan saraf baru, mereka hanya membuat satu jaringan saraf umum dan berfungsi dengan baik untuk semua tugas umum yang diterapkan pada jaringan saraf hari ini dan masa depan. Jika seseorang menemukan yang lebih optimal, maka itu akan bermanfaat, tetapi sampai optimal berikutnya ditemukan, mengapa Anda tidak bisa menggunakan satu fungsi aktivasi jaringan saraf untuk semua situasi? Saya kehilangan informasi penting dari bacaan saya saat ini.

Apa saja contoh mengapa tidak mungkin memiliki fungsi aktivasi keystone?

Jawaban

3 D.W. Aug 20 2020 at 03:58

Itu artikel lama. Bermain-main dengan fungsi aktivasi mungkin bukan penggunaan waktu terbaik Anda, dalam banyak kasus. Saat ini, praktik teknik standar adalah (ke urutan pertama perkiraan): gunakan ULT dan jangan stres karenanya. ULT jelas lebih unggul daripada sigmoid dan tanh untuk banyak kasus, jadi jika Anda membaca artikel lama mereka akan berbicara tentang sigmoid dan tanh, tetapi hari ini, ULT telah menggantikannya. Ada fungsi aktivasi baru yang lebih bagus yang dalam beberapa kasus sedikit lebih baik daripada ULT dan dalam beberapa kasus sedikit lebih buruk tetapi versi singkatnya adalah ULT cukup baik dan jangan khawatir tentang yang lain pada tahap ini dalam pembelajaran dan pengetahuan Anda; cukup gunakan ULT dan hentikan itu sehari.

Ini adalah penyederhanaan kasar dan benar-benar ada pengecualian, tetapi saya memberi Anda aturan praktis yang akan cukup masuk akal dalam praktiknya.

Mengapa? Jawaban utama saya adalah Anda harus terbiasa dengan fakta bahwa saat bekerja dengan jaringan saraf, kita tidak benar-benar tahu jawaban untuk sebagian besar pertanyaan "mengapa". Terkadang kita memiliki intuisi dan teori, tetapi pada intinya ini adalah ilmu empiris: kita tidak benar-benar memahami mengapa jaringan saraf berfungsi dengan baik. Ada makalah yang memberikan beberapa penjelasan tentang mengapa ReLU tampaknya lebih baik daripada sigmoid / tanh - khususnya, sigmoid / tanh menderita gradien menghilang ketika input mereka berada di ekor sigmoid / tanh (karena kemudian outputnya sangat kecil secara eksponensial , jadi gradiennya pada dasarnya nol), dan kemudian pelatihan macet atau berlangsung sangat lambat - tetapi jangan berharap teori hebat yang akan memberi tahu Anda apa yang harus dilakukan. Sebaliknya, ini sebagian besar merupakan ilmu empiris, dan jika kita beruntung, kita memiliki eksperimen dan teori yang membantu kita memahami data empiris yang kita lihat.

Saya tidak melihat alasan untuk mengharapkan ada satu fungsi aktivasi yang optimal untuk semua tugas, jadi saya tidak peduli jika itu tidak benar dan tidak merasa bahwa kami memerlukan "alasan" untuk melakukannya salah.