Tomando matriz derivada$\| \left| \mathbf{X}\mathbf{W}\right|-\mathbf{1}_{n \times K} \| ^2_F$con respecto a W
Estoy tratando de tomar la matriz derivada de la siguiente función con respecto a$\bf W$:
\begin{ecuación} \| \izquierda| \mathbf{X}\mathbf{W}\right|-\mathbf{1}_{n \veces K} \| ^2_F \\ \end{ecuación}
Dónde$\mathbf{X}$es$n \times d$,$\mathbf{W}$es$d \times K$y$\mathbf{1}_{n \times K}$es un marix con todos los elementos uno.$\| \cdot \|_F$es la norma de Frobenius y$\left| \mathbf{X}\mathbf{W}\right|$es el elemento valor absoluto sabio de$\mathbf{X}\mathbf{W}$.
Cualquier ayuda es muy apreciada.
Respuestas
Para facilitar la escritura, defina las matrices$$\eqalign{ Y &= XW \\ J &= 1_{n\times K} \qquad&({\rm all\,ones\,matrix}) \\ S &= {\rm sign}(Y) \\ A &= S\odot Y \qquad&({\rm absolute\,value\,of\,}Y) \\ B &= A-J \\ Y &= S\odot A \qquad&({\rm sign\,property}) \\ }$$dónde$\odot$denota el producto por elementos/Hadamard y la función de signo se aplica por elementos. Use estas nuevas variables para reescribir la función y luego calcule su gradiente.$$\eqalign{ \phi &= \|B\|_F^2 \\&= B:B \\ d\phi &= 2B:dB \\ &= 2(A-J):dA \\ &= 2(A-J):S\odot dY \\ &= 2S\odot(A-J):dY \\ &= 2(Y-S):dY \\ &= 2(Y-S):X\,dW \\ &= 2X^T(Y-S):dW \\ \frac{\partial\phi}{\partial W} &= 2X^T(Y-S) \\ }$$donde dos puntos denotan el producto traza/Frobenius, es decir$$\eqalign{ A:B = {\rm Tr}(A^TB) = {\rm Tr}(AB^T) = B:A }$$La propiedad cíclica de la traza permite reorganizar dichos productos de varias maneras.$$\eqalign{ A:BC &= B^TA:C \\ &= AC^T:B \\ }$$Finalmente, cuando$(A,B,C)$son todos del mismo tamaño, sus productos Hadamard y Frobenius se conmutan entre sí$$\eqalign{ A:B\odot C &= A\odot B:C \\\\ }$$ NB: Cuando un elemento de$\,Y$es igual a cero, el gradiente no está definido. Este comportamiento es similar a la derivada de$\,|x|\,$en el caso escalar.