역 전파에서 벡터 마티 릭스 미분에 대한 질문

Aug 16 2020

아래와 같은 행렬이 있다고 가정 해 보겠습니다.

$$ W = \begin{bmatrix} w_{1,1} & w_{1,2} \\ w_{2,1} & w_{2,2} \end{bmatrix} $$ $$ \vec{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} $$ $$ \vec{y} = W\vec{x} = \begin{bmatrix} w_{1,1}x_1 + w_{1,2}x_2 \\ w_{2,1}x_1 + w_{2,2}x_2 \end{bmatrix} $$

역 전파에서는 다음을 계산해야합니다. $\partial {\vec{y}} \over \partial {W}$ 업데이트 $W$.

그러나 Wiki 에 따르면 행렬에 의한 벡터의 도함수 정의에 대한 합의는 없습니다.

그런 다음 어떻게 가치를 얻을 수 있습니까? $\partial {\vec{y}} \over \partial {W}$?

답변

3 BenGrossmann Aug 16 2020 at 16:35

당신의 개념이 무엇이든 $\frac{\partial y}{\partial W}$,이 객체가 전달하는 데이터의 일부는 모든 편도 함수의 집합입니다. $\frac{\partial y}{\partial W_{ij}}$, 그리고 이러한 파생물은 다음의 모든 "항목"을 형성해야합니다. $\frac{\partial y}{\partial W}$. 이 위키 페이지 에서 저자는 이러한 편도 함수 만 사용하고 "전체"도함수를 언급하지 않습니다.$\frac{\partial y}{\partial W}$.

허락하다 $e_1,e_2$ 의 표준 기반을 나타냅니다. $\Bbb R^2$, 즉 $2 \times 2$단위 행렬. 이러한 편미분은 다음과 같이 주어진다는 것을 알 수 있습니다.$$ \frac{\partial y}{\partial W_{ij}} = x_j e_i. $$ 스칼라 항목을 입력하기 위해 다음과 같이 말할 수 있습니다. $ \frac{\partial y_k}{\partial W_{ij}} = \delta_{ik} x_j, $ 어디 $y_k$ 나타냅니다 $k$의 항목 $y$$\delta_{ik}$ "Kronecker 델타"를 나타냅니다.

이제 total / Frechet 미분 측면 에서 다음과 같이 말할 수 있습니다.$y(W)$ 함수를 정의합니다. $\Bbb R^{2 \times 2}$ ...에 $\Bbb R^2$, 그래서 모든 $W \in \Bbb R^{2 \times 2}$, $D_Wy(X) = Dy(X)$ 선형지도를 정의합니다. $\Bbb R^{2 \times 2}$ ...에 $\Bbb R^2$; 특히,$H \in \Bbb R^{2 \times 2}$, 우리는 $$ Dy(X)(H) = y(H) = Hx. $$ 항목의 배열은 아니지만이 함수는 $Dy$ 배열 / 텐서가 $\frac{\partial y}{\partial W}$나타냅니다. "방향 도함수"를 평가하여 편도 함수를 복구 할 수 있습니다.$d_Wy(X)(E_{ij})$, 어디 $E_{ij} = e_ie_j^T$$1$$i,j$항목과 다른 곳에서 0. 실제로 우리는$$ Dy(X)(E_{ij}) = E_{ij} x = e_i (e_j^Tx) = x_j e_i. $$ 체인 규칙은 다음을 알려줍니다. 모든 기능에 대해 $g:\mathcal Z \to \Bbb R^{2 \times 2}$, 우리는 총 도함수를 계산할 수 있습니다 $y \circ g$다음과 같이. 어떠한 것도$z \in \mathcal Z$, 미분 (에서 선형지도 $\mathcal Z$ ...에 $\Bbb R^{2}$)는 다음과 같이 주어진다. $$ D(y \circ g)(z) = Dy(g(z)) \circ Dg(z), $$ 어디 $Dy(g(z))$ 선형지도입니다. $\Bbb R^{2 \times 2} \to \Bbb R^2$$Dg(z)$ 선형지도입니다. $\mathcal Z$ ...에 $\Bbb R^{2 \times 2}$. 더 구체적으로 말하자면$h \in \mathcal Z$, "따라"방향 도함수 $h$ ~에 의해 주어져야한다 $$ D(y \circ g)(z)(h) = [Dy(g(z)) \circ Dg(z)](h) = [Dg(z)(h)] x. $$ 마찬가지로 모든 기능에 대해 $p: \Bbb R^2 \to \mathcal Z$, 우리는 총 도함수를 계산할 수 있습니다 $p \circ y$다음과 같이. 어떠한 것도$X \in \Bbb R^{2 \times 2}$, 미분 (에서 선형지도 $\Bbb R^{2 \times 2}$ ...에 $\mathcal Z$)는 다음과 같이 주어진다. $$ D(p \circ y)(X) = Dh(y(X)) \circ Dy(X), $$ 어디 $Dh(y(X))$ 선형지도입니다. $\Bbb R^2$ ...에 $\mathcal Z$$Dy(X)$ 선형지도입니다. $\Bbb R^{2 \times 2}$ ...에 $\Bbb R^2$. 더 구체적으로 말하자면$H \in \Bbb R^{2 \times 2}$, "따라"방향 도함수 $H$ ~에 의해 주어져야한다 $$ D(p \circ y)(X)(H) = [Dp(y(X)) \circ Dy(X)](H) = Dp(y(X))(Hx). $$