बैक प्रोपेगेशन में वेक्टर-मैट्रिक्स व्युत्पन्न के बारे में प्रश्न
मान लें कि मेरे पास नीचे जैसा मैट्रिक्स है:
$$ W = \begin{bmatrix} w_{1,1} & w_{1,2} \\ w_{2,1} & w_{2,2} \end{bmatrix} $$ $$ \vec{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} $$ $$ \vec{y} = W\vec{x} = \begin{bmatrix} w_{1,1}x_1 + w_{1,2}x_2 \\ w_{2,1}x_1 + w_{2,2}x_2 \end{bmatrix} $$
बैक-प्रचार में, इसकी गणना करने की आवश्यकता है $\partial {\vec{y}} \over \partial {W}$ अद्यतन करने के लिए $W$.
लेकिन, विकी के अनुसार , मैट्रिक्स द्वारा वेक्टर के व्युत्पन्न की परिभाषा के बारे में कोई सहमति नहीं है।
फिर, मैं का मूल्य कैसे प्राप्त कर सकता हूं $\partial {\vec{y}} \over \partial {W}$?
जवाब
आपकी जो भी धारणा है $\frac{\partial y}{\partial W}$, इस ऑब्जेक्ट द्वारा किए गए डेटा का हिस्सा सभी आंशिक डेरिवेटिव का सेट है $\frac{\partial y}{\partial W_{ij}}$, और इन डेरिवेटिव्स को . की सभी "प्रविष्टियां" बनानी चाहिए $\frac{\partial y}{\partial W}$. इस विकी पृष्ठ में , लेखक केवल इन आंशिक डेरिवेटिव का उपयोग करते हैं और "कुल" व्युत्पन्न का कोई संदर्भ नहीं देते हैं$\frac{\partial y}{\partial W}$.
लश्कर $e_1,e_2$ के विहित आधार को निरूपित करें $\Bbb R^2$, यानी के कॉलम $2 \times 2$पहचान मैट्रिक्स। हम देख सकते हैं कि ये आंशिक व्युत्पन्न द्वारा दिए गए हैं$$ \frac{\partial y}{\partial W_{ij}} = x_j e_i. $$ चीजों को अदिश प्रविष्टियों के संदर्भ में रखने के लिए, हम कहेंगे कि $ \frac{\partial y_k}{\partial W_{ij}} = \delta_{ik} x_j, $ कहां है $y_k$ को दर्शाता है $k$की वां प्रवेश $y$ तथा $\delta_{ik}$ एक "क्रोनकर डेल्टा" को दर्शाता है।
अब, कुल/फ्रीचेट व्युत्पन्न के संदर्भ में , हम निम्नलिखित कह सकते हैं।$y(W)$ से एक फ़ंक्शन को परिभाषित करता है $\Bbb R^{2 \times 2}$ सेवा मेरे $\Bbb R^2$, तो किसी के लिए $W \in \Bbb R^{2 \times 2}$, $D_Wy(X) = Dy(X)$ से एक रैखिक मानचित्र को परिभाषित करता है $\Bbb R^{2 \times 2}$ सेवा मेरे $\Bbb R^2$; विशेष रूप से, किसी के लिए$H \in \Bbb R^{2 \times 2}$, अपने पास $$ Dy(X)(H) = y(H) = Hx. $$ हालांकि यह प्रविष्टियों की एक सरणी नहीं है, यह फ़ंक्शन $Dy$ ऑपरेटर है कि सरणी/टेंसर $\frac{\partial y}{\partial W}$प्रतिनिधित्व करेंगे। हम "दिशात्मक डेरिवेटिव" का मूल्यांकन करके आंशिक डेरिवेटिव पुनर्प्राप्त कर सकते हैं$d_Wy(X)(E_{ij})$, कहां है $E_{ij} = e_ie_j^T$ a . के साथ मैट्रिक्स है $1$ में $i,j$प्रवेश और शून्य कहीं और। दरअसल, हमारे पास$$ Dy(X)(E_{ij}) = E_{ij} x = e_i (e_j^Tx) = x_j e_i. $$ श्रृंखला नियम हमें निम्नलिखित बताता है: किसी भी कार्य के लिए $g:\mathcal Z \to \Bbb R^{2 \times 2}$, हम total के कुल व्युत्पन्न की गणना कर सकते हैं $y \circ g$निम्नलिखित नुसार। किसी के लिए$z \in \mathcal Z$, व्युत्पन्न (से एक रैखिक नक्शा $\mathcal Z$ सेवा मेरे $\Bbb R^{2}$) द्वारा दिया गया है $$ D(y \circ g)(z) = Dy(g(z)) \circ Dg(z), $$ कहां है $Dy(g(z))$ से एक रैखिक नक्शा है $\Bbb R^{2 \times 2} \to \Bbb R^2$ तथा $Dg(z)$ से एक रैखिक नक्शा है $\mathcal Z$ सेवा मेरे $\Bbb R^{2 \times 2}$. अधिक संक्षेप में, यदि$h \in \mathcal Z$, फिर दिशात्मक व्युत्पन्न "साथ" $h$ द्वारा दिया जाना चाहिए $$ D(y \circ g)(z)(h) = [Dy(g(z)) \circ Dg(z)](h) = [Dg(z)(h)] x. $$ इसी तरह, किसी भी समारोह के लिए $p: \Bbb R^2 \to \mathcal Z$, हम total के कुल व्युत्पन्न की गणना कर सकते हैं $p \circ y$निम्नलिखित नुसार। किसी के लिए$X \in \Bbb R^{2 \times 2}$, व्युत्पन्न (से एक रैखिक नक्शा $\Bbb R^{2 \times 2}$ सेवा मेरे $\mathcal Z$) द्वारा दिया गया है $$ D(p \circ y)(X) = Dh(y(X)) \circ Dy(X), $$ कहां है $Dh(y(X))$ से एक रैखिक नक्शा है $\Bbb R^2$ सेवा मेरे $\mathcal Z$ तथा $Dy(X)$ से एक रैखिक नक्शा है $\Bbb R^{2 \times 2}$ सेवा मेरे $\Bbb R^2$. अधिक संक्षेप में, यदि$H \in \Bbb R^{2 \times 2}$, फिर दिशात्मक व्युत्पन्न "साथ" $H$ द्वारा दिया जाना चाहिए $$ D(p \circ y)(X)(H) = [Dp(y(X)) \circ Dy(X)](H) = Dp(y(X))(Hx). $$