เหตุใดจึงไม่มีฟังก์ชันการเปิดใช้งาน "Keystone" เพียงฟังก์ชันเดียวใน Neural Networks
นี้บทความกล่าวว่าต่อไปนี้:
การตัดสินใจระหว่าง sigmoid หรือ tanh จะขึ้นอยู่กับความต้องการของความแข็งแรงในการไล่ระดับสีของคุณ
ฉันได้เห็น (จนถึงตอนนี้ในการเรียนรู้ของฉัน) 7 ฟังก์ชั่นการเปิดใช้งาน / เส้นโค้ง แต่ละคนดูเหมือนว่าจะมีการสร้างในวันสุดท้าย แต่เช่นเดียวกับคำพูดข้างต้นฉันได้อ่านในหลาย ๆ ที่โดยพื้นฐานแล้วว่า "ตามความต้องการของคุณเลือกฟังก์ชันการเปิดใช้งานของคุณ
นี้ดูเหมือนจะไม่สามารถปรับขนาดได้ จากมุมมองทางวิศวกรรมมนุษย์ต้องเข้ามาและคนดูแลโครงข่ายประสาทแต่ละเครือข่ายเพื่อค้นหาฟังก์ชันการกระตุ้นที่ถูกต้องหรือเหมาะสมที่สุดซึ่งดูเหมือนว่าจะต้องใช้เวลาและความพยายามอย่างมาก ฉันเคยเห็นเอกสารที่อธิบายถึงคนที่ทำงานเกี่ยวกับการค้นหาฟังก์ชันการเปิดใช้งานที่ "ดีที่สุด" โดยอัตโนมัติสำหรับชุดข้อมูลบางชุดด้วย จากมุมมองที่เป็นนามธรรมมันเหมือนกับการเขียนโค้ดเพื่อจัดการกับผู้ใช้แต่ละคนทีละคนบนเว็บไซต์โดยไม่ขึ้นกับผู้อื่นแทนที่จะเขียนระบบตรวจสอบผู้ใช้เพียงระบบเดียวที่ใช้ได้กับทุกคน (เป็นการเปรียบเทียบ)
สิ่งทั้งหมดเหล่านี้เป็นเอกสาร / บทความที่ขาดหายไปคือคำอธิบายว่าทำไม เหตุใดคุณจึงไม่สามารถมีฟังก์ชันการเปิดใช้งานเพียงฟังก์ชันเดียวที่ทำงานได้อย่างเหมาะสมที่สุด? สิ่งนี้จะทำให้วิศวกรไม่ต้องดูแลชุดข้อมูลและเครือข่ายประสาทเทียมใหม่แต่ละชุดพวกเขาเพียงแค่สร้างเครือข่ายประสาทเทียมแบบทั่วไปหนึ่งเครือข่ายและใช้งานได้ดีสำหรับงานทั่วไปทั้งหมดในปัจจุบันและในวันพรุ่งนี้ หากมีคนพบสิ่งที่ดีที่สุดนั่นก็จะเป็นประโยชน์ แต่จนกว่าจะพบอันที่ดีที่สุดถัดไปทำไมคุณไม่สามารถใช้ฟังก์ชันการเปิดใช้งานเครือข่ายประสาทเทียมเดียวสำหรับทุกสถานการณ์ได้? ฉันไม่มีข้อมูลสำคัญนี้จากการอ่านปัจจุบันของฉัน
มีตัวอย่างอะไรบ้างที่ทำให้ไม่มีฟังก์ชันการเปิดใช้งานคีย์สโตน
คำตอบ
เป็นบทความเก่า การแก้ไขด้วยฟังก์ชันการเปิดใช้งานอาจไม่ใช่การใช้เวลาที่ดีที่สุดของคุณในกรณีส่วนใหญ่ วันนี้การปฏิบัติทางวิศวกรรมมาตรฐานคือ (ตามลำดับแรกของการประมาณ): ใช้ ReLU และอย่าเครียดกับมัน ReLU เหนือกว่า sigmoid และ tanh อย่างชัดเจนในกรณีส่วนใหญ่ดังนั้นหากคุณอ่านบทความเก่า ๆ พวกเขาจะพูดถึง sigmoid และ tanh แต่วันนี้ ReLU ได้เข้ามาแทนที่ มีฟังก์ชั่นการเปิดใช้งานที่แปลกใหม่กว่าซึ่งในบางกรณีดีกว่า ReLU เล็กน้อยและในบางกรณีก็แย่กว่าเล็กน้อย แต่เวอร์ชันสั้นคือ ReLU นั้นดีพอและไม่ต้องกังวลกับคนอื่น ๆ ในขั้นตอนนี้ในการเรียนรู้และความรู้ของคุณ เพียงแค่ใช้ ReLU และเรียกมันว่าวัน
นี่เป็นการทำให้เข้าใจง่ายอย่างหยาบและมีข้อยกเว้นอย่างแน่นอน แต่ฉันให้กฎง่ายๆแก่คุณซึ่งจะค่อนข้างสมเหตุสมผลในทางปฏิบัติ
ทำไม? คำตอบหลักของฉันคือคุณจะต้องคุ้นเคยกับข้อเท็จจริงที่ว่าเมื่อทำงานกับโครงข่ายประสาทเทียมเราไม่ทราบคำตอบของคำถามส่วนใหญ่ว่า "ทำไม" จริงๆ บางครั้งเรามีสัญชาตญาณและทฤษฎี แต่หัวใจของมันคือวิทยาศาสตร์เชิงประจักษ์: เราไม่เข้าใจจริงๆว่าทำไมเครือข่ายประสาทจึงทำงานได้ดี มีเอกสารที่ให้คำอธิบายว่าเหตุใด ReLU จึงดูเหมือนจะทำได้ดีกว่า sigmoid / tanh โดยเฉพาะอย่างยิ่ง sigmoid / tanh ต้องทนทุกข์ทรมานจากการไล่ระดับสีที่หายไปเมื่ออินพุตของพวกเขาอยู่ในส่วนท้ายของ sigmoid / tanh (เนื่องจากผลลัพธ์ของพวกเขามีขนาดเล็กอย่างทวีคูณ ดังนั้นการไล่ระดับสีจึงเป็นศูนย์เป็นหลัก) จากนั้นการฝึกอบรมจะติดขัดหรือดำเนินไปอย่างช้าๆ - แต่อย่าคาดหวังทฤษฎีที่ยอดเยี่ยมที่จะบอกคุณว่าต้องทำอย่างไร แต่นี่เป็นวิทยาศาสตร์เชิงประจักษ์เป็นส่วนใหญ่และถ้าเราโชคดีเรามีการทดลองและทฤษฎีที่ช่วยให้เราเข้าใจข้อมูลเชิงประจักษ์ที่เราเห็น
ฉันไม่เห็นเหตุผลใด ๆ ที่จะคาดหวังว่าจะมีฟังก์ชั่นการเปิดใช้งานเดียวที่เหมาะสมที่สุดสำหรับทุกงานดังนั้นฉันจึงไม่ใส่ใจหากนั่นไม่เป็นความจริงและไม่รู้สึกว่าเราต้องการ "เหตุผล" ในการ เป็นเท็จ