ฟังก์ชันσถูกเลือกให้ขยาย perceptron อย่างไร?
ฉันเพียงแค่อ่านเกี่ยวกับเพอร์เซปตรอนในเชิงลึกมากขึ้นและในขณะนี้เข้าสู่ซิกมอยด์เซลล์ประสาท
คำพูดบางส่วน:
การเปลี่ยนแปลงเล็กน้อยในน้ำหนักหรืออคติของเพอร์เซปตรอนตัวเดียวในเครือข่ายบางครั้งอาจทำให้เอาต์พุตของเพอร์เซปตรอนนั้นพลิกไปหมดโดยพูดจาก 0 เป็น 1 ..... นั่นทำให้ยากที่จะดูว่าจะค่อยๆปรับเปลี่ยนน้ำหนักและ อคติเพื่อให้เครือข่ายเข้าใกล้พฤติกรรมที่ต้องการมากขึ้น บางทีอาจมีวิธีที่ชาญฉลาดในการแก้ไขปัญหานี้ แต่ยังไม่ชัดเจนในทันทีว่าเราจะได้รับเครือข่ายการรับรู้เพื่อเรียนรู้ได้อย่างไร เราสามารถเอาชนะปัญหานี้ได้โดยการนำเซลล์ประสาทเทียมชนิดใหม่ที่เรียกว่าเซลล์ประสาทซิกมอยด์ เซลล์ประสาทซิกมอยด์มีลักษณะคล้ายกับเพอร์เซปตรอน แต่ได้รับการแก้ไขเพื่อให้การเปลี่ยนแปลงน้ำหนักและอคติเพียงเล็กน้อยทำให้ผลลัพธ์ของมันเปลี่ยนแปลงเพียงเล็กน้อย นั่นคือความจริงที่สำคัญซึ่งจะช่วยให้เครือข่ายของเซลล์ประสาท sigmoid สามารถเรียนรู้ได้
เช่นเดียวกับเพอร์เซปตรอนเซลล์ประสาทซิกมอยด์มีน้ำหนักสำหรับแต่ละอินพุต $w1,w2,…$และอคติโดยรวม b. แต่ผลลัพธ์ไม่ใช่ 0 หรือ 1 แต่เป็น$σ(w⋅x+b)$โดยที่σเรียกว่าฟังก์ชัน sigmoid และถูกกำหนดโดย: $σ(z)≡\frac{1}{1+e^{−z}}$.
ถ้าจริงแล้วσเป็นฟังก์ชันขั้นตอนเซลล์ประสาท sigmoid จะเป็นเพอร์เซปตรอนเนื่องจากผลลัพธ์จะเป็น 1 หรือ 0 ขึ้นอยู่กับว่าw⋅x + b เป็นบวกหรือลบ ด้วยการใช้ฟังก์ชันσจริงที่เราได้รับดังที่กล่าวโดยนัยแล้วข้างต้น perceptron ที่ราบรื่น ความเรียบของσหมายความว่าการเปลี่ยนแปลงเล็ก ๆ น้อย ๆ ของΔwjในน้ำหนักและΔbในอคติจะทำให้เกิดการเปลี่ยนแปลงเล็กน้อยในเอาต์พุตจากเซลล์ประสาท ในความเป็นจริงแคลคูลัสบอกเราว่าΔoutputนั้นประมาณได้ดีโดย:
$$Δoutput≈∑_j\frac{∂output}{∂w_j}Δw_j+\frac{∂output}{∂b}Δb$$
อย่าตกใจหากคุณไม่พอใจกับอนุพันธ์บางส่วน!
Δoutputเป็นฟังก์ชันเชิงเส้นของการเปลี่ยนแปลง $Δw_j$ และ $Δb$ในด้านน้ำหนักและอคติ ความเป็นเส้นตรงนี้ทำให้ง่ายต่อการเลือกการเปลี่ยนแปลงน้ำหนักและอคติเล็กน้อยเพื่อให้ได้ผลลัพธ์ที่เปลี่ยนแปลงเล็กน้อยตามที่ต้องการ ดังนั้นในขณะที่เซลล์ประสาทซิกมอยด์มีพฤติกรรมเชิงคุณภาพเช่นเดียวกับเพอร์เซปตรอน แต่ก็ช่วยให้เข้าใจได้ง่ายขึ้นว่าการเปลี่ยนน้ำหนักและอคติจะเปลี่ยนผลลัพธ์อย่างไร
ในความเป็นจริงในหนังสือเล่มนี้เราจะพิจารณาเซลล์ประสาทเป็นครั้งคราวโดยที่เอาต์พุตคือ f (w⋅x + b) สำหรับฟังก์ชันกระตุ้นอื่น ๆ f (⋅) สิ่งสำคัญที่เปลี่ยนแปลงเมื่อเราใช้ฟังก์ชันการเปิดใช้งานที่แตกต่างกันคือค่าเฉพาะสำหรับอนุพันธ์ย่อยในสมการ (5) เปลี่ยนไป ปรากฎว่าเมื่อเราคำนวณอนุพันธ์ย่อยเหล่านั้นในภายหลังการใช้σจะทำให้พีชคณิตง่ายขึ้นเนื่องจากเลขชี้กำลังมีคุณสมบัติที่น่ารักเมื่อแยกความแตกต่าง ไม่ว่าในกรณีใด ๆ σมักใช้ในงานเกี่ยวกับตาข่ายประสาทและเป็นฟังก์ชันการกระตุ้นที่เราจะใช้บ่อยที่สุดในหนังสือเล่มนี้ [END]
คำถามส่วนแรกของฉันคือพวกเขารู้ได้อย่างไรว่าจะเลือกฟังก์ชัน / สมการ "รูปซิกมอยด์" นี้ตั้งแต่แรก พวกเขารู้ได้อย่างไรว่าจะเลือกอันนี้กับฟังก์ชันโค้งหรือไม่โค้งอื่น ๆ นั่นเป็นเพียงการปฏิบัติมาตรฐานสำหรับปัญหาประเภทนี้ในชั้นเรียนคณิตศาสตร์หรือไม่? ถ้าฉันพยายามอธิบายว่าทำไมจึงเลือกฟังก์ชัน sigmoid ฉันจะบอกว่า "เพราะมันหมายความว่าคุณสามารถทำการเปลี่ยนแปลงเล็กน้อยกับอินพุตที่สอดคล้องกับการเปลี่ยนแปลงเล็กน้อยกับเอาต์พุต" แต่อย่างไร? ฉันไม่ได้ใช้วิชาคณิตศาสตร์อนุพันธ์ย่อยและไม่มีพื้นฐานเกี่ยวกับอนุพันธ์บางส่วน (และก็ไม่มีผู้ชมของฉันด้วย) การรู้ว่าเหตุใดจึงเลือกฟังก์ชัน th esigma จะช่วยให้เข้าใจได้ชัดเจนว่าเหตุใดเครือข่ายประสาทเทียมจึงทำงานได้
น่าเสียดายที่ไม่มีการอธิบายอนุพันธ์บางส่วน (อาจจะเป็นที่อื่น)
ส่วนที่สองของคำถามของฉันคือ How is $Δoutput$"ฟังก์ชันเชิงเส้น"? ทำไมไม่เป็นแค่เนินแบนแทนที่จะเป็นรูปซิกมอยด์ ทำไมมันต้องแฟนซีขนาดนี้? "การใช้σจะทำให้พีชคณิตง่ายขึ้น" อย่างไร? ฉันจะหาเอกสารวิจัยเกี่ยวกับแนวคิดดั้งเดิมที่อยู่เบื้องหลังสิ่งนี้ได้ที่ไหนหรือถ้าคุณรู้คำตอบแล้วคุณจะอธิบายได้อย่างไรว่าทำไมการใช้ซิกม่าจึงทำให้พีชคณิตง่ายขึ้น นี่ดูเหมือนเป็นส่วนสำคัญของคำอธิบายว่าทำไมเราถึงใช้ฟังก์ชัน sigma ตั้งแต่แรกดังนั้นการมีคำอธิบายคนธรรมดาจะช่วยได้มาก
คำตอบ
คำตอบสำหรับส่วนแรก
ฟังก์ชั่นในคำถามที่เรียกว่าฟังก์ชั่นโลจิสติก บางครั้งเรียกอีกอย่างว่าฟังก์ชัน sigmoid แต่ผู้เขียนบางคนใช้ sigmoid เพื่อหมายถึงฟังก์ชันรูปตัว sเท่านั้น
มีฟังก์ชันการกระตุ้นที่หลากหลายที่ใช้ในทางปฏิบัติในโครงข่ายประสาทเทียมซิกมอยด์และอื่น ๆ ฟังก์ชันโลจิสติกเป็นหนึ่งในฟังก์ชันที่ใช้กันทั่วไปเนื่องจากทั้งฟังก์ชันโลจิสติกส์และอนุพันธ์ถูกกำหนดไว้สำหรับอินพุตจริงทั้งหมดสามารถเขียนเป็นนิพจน์สั้น ๆ ในรูปของฟังก์ชันพื้นฐานและสามารถคำนวณได้อย่างมีประสิทธิภาพโดยใช้ฟังก์ชันไลบรารีมาตรฐานในการเขียนโปรแกรมส่วนใหญ่ ภาษา (ซึ่งแตกต่างจากฟังก์ชัน step ที่ใช้เป็นฟังก์ชันการเปิดใช้งานสำหรับ perceptron แบบคลาสสิก - อนุพันธ์ของฟังก์ชัน step ไม่ได้กำหนดไว้ที่ความไม่ต่อเนื่อง) อีกฟังก์ชันการเปิดใช้งานที่ใช้กันอย่างแพร่หลายซึ่งมีคุณสมบัติเหล่านี้คือ$\tanh$. ไม่มีเหตุผลที่ชัดเจนที่จะชอบอย่างใดอย่างหนึ่งเมื่อนำเสนอเซลล์ประสาทซิกมอยด์ในตอนแรก คุณสามารถเลือกฟังก์ชั่นใดก็ได้ที่คุณเรียนรู้วิธีการแยกความแตกต่างในคลาส Calculus 1 และมีรูปร่างซิกมอยด์พร้อมเส้นกำกับที่$\pm\infty$. พวกเขามีลักษณะการปฏิบัติงานที่แตกต่างกันเล็กน้อยในการฝึกอบรม แต่ไม่เกี่ยวข้องกับคำอธิบายเบื้องต้นมากนัก
เป็นที่น่าเสียดายที่ยากมากที่จะอธิบายแพร่กระจายย้อนกลับไม่เข้าใจอนุพันธ์ตั้งแต่แพร่กระจายย้อนกลับเป็นอักษรเพียงเชื้อสายไล่ระดับสีที่ไล่ระดับสีคำนวณโดยความแตกต่างโดยอัตโนมัติ ฉันจะแนะนำดูซีรีส์ 3Blue1Brown ของดีของวิดีโอ YouTube กับวิธีการทำงานแพร่กระจายย้อนกลับ: ตอนที่ 1 , ตอนที่ 2และโดยเฉพาะอย่างยิ่งส่วนที่ 3และส่วน 4
คุณพูดถึงผู้ชมในคำถาม หากคุณกำลังจะนำเสนอเนื้อหานี้ฉันจะพิจารณาแนะนำผู้ชมของคุณอย่างจริงจังไปยังวิดีโอ 4 รายการที่ลิงก์ด้านบนอย่างน้อยก็เป็นข้อมูลอ้างอิง พวกเขาให้คำอธิบายที่ดีกว่าที่ฉันสามารถบรรยายได้อย่างแน่นอน
ตอบส่วนที่สอง
เหตุผลที่ไม่ใช้ฟังก์ชันเชิงเส้นก็คือโครงข่ายประสาทเทียมที่มีฟังก์ชันการกระตุ้นเชิงเส้นทั้งหมดเป็นการรวมกันของฟังก์ชันเชิงเส้นดังนั้นจึงเป็นฟังก์ชันเชิงเส้น ดังนั้นการใช้ฟังก์ชันกระตุ้นเชิงเส้นจึงพลาดจุดทั้งหมดของการฝึกเครือข่ายประสาท คุณจะได้รับผลเดียวกันได้เร็วขึ้นโดยการทำอย่างน้อยสี่เหลี่ยมพอดีของฟังก์ชันเชิงเส้นกับข้อมูล
หากต้องการลดความซับซ้อนเพียงเล็กน้อย: เครือข่ายประสาทเทียมที่มีฟังก์ชันการเปิดใช้งานเชิงเส้นเป็นเพียงคุณลักษณะ "เส้นแนวโน้มที่พอดี" ใน Excel
ในทางตรงกันข้ามมีทฤษฎีบทการประมาณแบบสากลที่กล่าวว่าสำหรับฟังก์ชันการเปิดใช้งานแบบไม่เชิงเส้นที่ดีเพียงพอฟังก์ชันใด ๆ สามารถประมาณได้ดีโดยใช้เซลล์ประสาทที่เพียงพอ
ไม่มีการค้นพบทฤษฎีบทการประมาณสากลเป็นเวลาหลายปีหลังจากที่เครือข่ายประสาทถูกประดิษฐ์ขึ้นเป็นครั้งแรกดังนั้นจึงไม่เป็นปัจจัยกระตุ้นในการประดิษฐ์ของพวกเขา การวิจัยโครงข่ายประสาทในช่วงต้นได้รับแรงบันดาลใจจากเซลล์ประสาททางชีววิทยา (ชนิดในสมองของคุณ) และทฤษฎีการควบคุม
ในขณะที่ทฤษฎีบทการประมาณแบบสากลกล่าวว่าเครือข่ายประสาทขนาดใหญ่ที่เพียงพอมีศักยภาพในการประมาณฟังก์ชั่นใด ๆ ได้ดีเหตุผลที่แท้จริงว่าทำไมวิธีมาตรฐานในการฝึกโครงข่ายประสาทเทียม (การย้อนกลับของการไล่ระดับสีสุ่มแบบสุ่ม) ทำงานได้ดีดังนั้นในทางปฏิบัติยังเข้าใจไม่ดีและยังมีการใช้งานอยู่ พื้นที่วิจัย