คำถามเกี่ยวกับอนุพันธ์ vector-matirix ในการแพร่กระจายกลับ

Aug 16 2020

สมมติว่าฉันมีเมทริกซ์ดังต่อไปนี้:

$$ W = \begin{bmatrix} w_{1,1} & w_{1,2} \\ w_{2,1} & w_{2,2} \end{bmatrix} $$ $$ \vec{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} $$ $$ \vec{y} = W\vec{x} = \begin{bmatrix} w_{1,1}x_1 + w_{1,2}x_2 \\ w_{2,1}x_1 + w_{2,2}x_2 \end{bmatrix} $$

ในการขยายพันธุ์ย้อนกลับจำเป็นต้องคำนวณไฟล์ $\partial {\vec{y}} \over \partial {W}$ เพื่ออัปเดต $W$.

แต่ตามWikiไม่มีความเห็นพ้องกันเกี่ยวกับคำจำกัดความของอนุพันธ์ของเวกเตอร์โดยเมทริกซ์

แล้วฉันจะได้รับค่าของ $\partial {\vec{y}} \over \partial {W}$เหรอ?

คำตอบ

3 BenGrossmann Aug 16 2020 at 16:35

ไม่ว่าความคิดของคุณจะเป็นอย่างไร $\frac{\partial y}{\partial W}$ส่วนหนึ่งของข้อมูลที่ดำเนินการโดยออบเจ็กต์นี้คือชุดของอนุพันธ์บางส่วนทั้งหมด $\frac{\partial y}{\partial W_{ij}}$และอนุพันธ์เหล่านี้ควรเป็น "รายการ" ทั้งหมด $\frac{\partial y}{\partial W}$. ในหน้าวิกินี้ผู้เขียนใช้เฉพาะอนุพันธ์บางส่วนเหล่านี้และไม่ได้อ้างอิงถึงอนุพันธ์ "ทั้งหมด"$\frac{\partial y}{\partial W}$.

ปล่อย $e_1,e_2$ แสดงถึงพื้นฐานที่เป็นที่ยอมรับของ $\Bbb R^2$เช่นคอลัมน์ของ $2 \times 2$เมทริกซ์เอกลักษณ์. เราจะเห็นได้ว่าอนุพันธ์ย่อยเหล่านี้กำหนดโดย$$ \frac{\partial y}{\partial W_{ij}} = x_j e_i. $$ เราจะพูดแบบนั้น $ \frac{\partial y_k}{\partial W_{ij}} = \delta_{ik} x_j, $ ที่ไหน $y_k$ หมายถึง $k$รายการของ $y$ และ $\delta_{ik}$ หมายถึง "Kronecker delta"

ตอนนี้ในแง่ของอนุพันธ์รวม / เฟรเชต์เราสามารถพูดได้ดังต่อไปนี้$y(W)$ กำหนดฟังก์ชันจาก $\Bbb R^{2 \times 2}$ ถึง $\Bbb R^2$ดังนั้นสำหรับใด ๆ $W \in \Bbb R^{2 \times 2}$, $D_Wy(X) = Dy(X)$ กำหนดแผนที่เชิงเส้นจาก $\Bbb R^{2 \times 2}$ ถึง $\Bbb R^2$; โดยเฉพาะสำหรับใด ๆ$H \in \Bbb R^{2 \times 2}$, เรามี $$ Dy(X)(H) = y(H) = Hx. $$ แม้ว่าจะไม่ใช่อาร์เรย์ของรายการ แต่ฟังก์ชันนี้ $Dy$ เป็นตัวดำเนินการที่อาร์เรย์ / เทนเซอร์ $\frac{\partial y}{\partial W}$จะเป็นตัวแทน เราสามารถกู้คืนอนุพันธ์บางส่วนได้โดยการประเมิน "อนุพันธ์แบบกำหนดทิศทาง"$d_Wy(X)(E_{ij})$, ที่ไหน $E_{ij} = e_ie_j^T$ คือเมทริกซ์ที่มี $1$ ใน $i,j$รายการและศูนย์ที่อื่น แน่นอนเรามี$$ Dy(X)(E_{ij}) = E_{ij} x = e_i (e_j^Tx) = x_j e_i. $$ กฎลูกโซ่บอกเราสิ่งต่อไปนี้สำหรับฟังก์ชันใด ๆ $g:\mathcal Z \to \Bbb R^{2 \times 2}$เราอาจคำนวณอนุพันธ์ทั้งหมดของ $y \circ g$ดังต่อไปนี้. สำหรับใด ๆ$z \in \mathcal Z$, อนุพันธ์ (แผนที่เชิงเส้นจาก $\mathcal Z$ ถึง $\Bbb R^{2}$) มอบให้โดย $$ D(y \circ g)(z) = Dy(g(z)) \circ Dg(z), $$ ที่ไหน $Dy(g(z))$ คือแผนที่เชิงเส้นจาก $\Bbb R^{2 \times 2} \to \Bbb R^2$ และ $Dg(z)$ คือแผนที่เชิงเส้นจาก $\mathcal Z$ ถึง $\Bbb R^{2 \times 2}$. เป็นรูปธรรมมากขึ้นถ้า$h \in \mathcal Z$แล้วอนุพันธ์ทิศทาง "พร้อม" $h$ ควรให้โดย $$ D(y \circ g)(z)(h) = [Dy(g(z)) \circ Dg(z)](h) = [Dg(z)(h)] x. $$ ในทำนองเดียวกันสำหรับฟังก์ชั่นใด ๆ $p: \Bbb R^2 \to \mathcal Z$เราอาจคำนวณอนุพันธ์ทั้งหมดของ $p \circ y$ดังต่อไปนี้. สำหรับใด ๆ$X \in \Bbb R^{2 \times 2}$, อนุพันธ์ (แผนที่เชิงเส้นจาก $\Bbb R^{2 \times 2}$ ถึง $\mathcal Z$) มอบให้โดย $$ D(p \circ y)(X) = Dh(y(X)) \circ Dy(X), $$ ที่ไหน $Dh(y(X))$ คือแผนที่เชิงเส้นจาก $\Bbb R^2$ ถึง $\mathcal Z$ และ $Dy(X)$ คือแผนที่เชิงเส้นจาก $\Bbb R^{2 \times 2}$ ถึง $\Bbb R^2$. เป็นรูปธรรมมากขึ้นถ้า$H \in \Bbb R^{2 \times 2}$แล้วอนุพันธ์ทิศทาง "พร้อม" $H$ ควรให้โดย $$ D(p \circ y)(X)(H) = [Dp(y(X)) \circ Dy(X)](H) = Dp(y(X))(Hx). $$