행렬 미분 $\| \left| \mathbf{X}\mathbf{W}\right|-\mathbf{1}_{n \times K} \| ^2_F$ W와 관련하여
나는 다음과 관련하여 다음 함수의 행렬 미분을 취하려고합니다. $\bf W$:
\ begin {등식} \ | \ 왼쪽 | \ mathbf {X} \ mathbf {W} \ right |-\ mathbf {1} _ {n \ times K} \ | ^ 2_F \\ \ end {equation}
어디 $\mathbf{X}$ 이다 $n \times d$, $\mathbf{W}$ 이다 $d \times K$ 과 $\mathbf{1}_{n \times K}$ 모든 요소가 하나 인 마 릭스입니다. $\| \cdot \|_F$ Frobenius 규범이며 $\left| \mathbf{X}\mathbf{W}\right|$ 요소 별 절대 값 $\mathbf{X}\mathbf{W}$.
어떤 도움이라도 대단히 감사합니다.
답변
입력의 편의를 위해 행렬을 정의하십시오. $$\eqalign{ Y &= XW \\ J &= 1_{n\times K} \qquad&({\rm all\,ones\,matrix}) \\ S &= {\rm sign}(Y) \\ A &= S\odot Y \qquad&({\rm absolute\,value\,of\,}Y) \\ B &= A-J \\ Y &= S\odot A \qquad&({\rm sign\,property}) \\ }$$ 어디 $\odot$요소 별 / 아다 마르 곱을 나타내며 부호 함수는 요소별로 적용됩니다. 이 새로운 변수를 사용하여 함수를 다시 작성한 다음 기울기를 계산하십시오.$$\eqalign{ \phi &= \|B\|_F^2 \\&= B:B \\ d\phi &= 2B:dB \\ &= 2(A-J):dA \\ &= 2(A-J):S\odot dY \\ &= 2S\odot(A-J):dY \\ &= 2(Y-S):dY \\ &= 2(Y-S):X\,dW \\ &= 2X^T(Y-S):dW \\ \frac{\partial\phi}{\partial W} &= 2X^T(Y-S) \\ }$$ 여기서 콜론은 추적 / Frobenius 제품을 나타냅니다. 즉 $$\eqalign{ A:B = {\rm Tr}(A^TB) = {\rm Tr}(AB^T) = B:A }$$ 트레이스의 순환 속성은 이러한 제품을 다양한 방식으로 재배치 할 수 있습니다. $$\eqalign{ A:BC &= B^TA:C \\ &= AC^T:B \\ }$$ 마지막으로 $(A,B,C)$ 크기가 모두 같고 Hadamard와 Frobenius 제품이 서로 통근합니다. $$\eqalign{ A:B\odot C &= A\odot B:C \\\\ }$$ NB : 요소가$\,Y$0과 같으면 그라디언트가 정의되지 않습니다. 이 동작은$\,|x|\,$ 스칼라 케이스에서.