Matris türevini almak $\| \left| \mathbf{X}\mathbf{W}\right|-\mathbf{1}_{n \times K} \| ^2_F$ W'ye göre

Aug 18 2020

Aşağıdaki fonksiyonun matris türevini şuna göre almaya çalışıyorum $\bf W$:

\ {denklem} başlayın \ | \ sol | \ mathbf {X} \ mathbf {W} \ right | - \ mathbf {1} _ {n \ times K} \ | ^ 2_F \\ \ end {denklem}

Nerede $\mathbf{X}$ dır-dir $n \times d$, $\mathbf{W}$ dır-dir $d \times K$ ve $\mathbf{1}_{n \times K}$ tüm unsurları olan bir marix. $\| \cdot \|_F$ Frobenius normu ve $\left| \mathbf{X}\mathbf{W}\right|$ öğenin bilge mutlak değeridir $\mathbf{X}\mathbf{W}$.

Herhangi bir yardım çok takdir edilmektedir.

Yanıtlar

3 greg Aug 18 2020 at 23:07

Yazma kolaylığı için matrisleri tanımlayın $$\eqalign{ Y &= XW \\ J &= 1_{n\times K} \qquad&({\rm all\,ones\,matrix}) \\ S &= {\rm sign}(Y) \\ A &= S\odot Y \qquad&({\rm absolute\,value\,of\,}Y) \\ B &= A-J \\ Y &= S\odot A \qquad&({\rm sign\,property}) \\ }$$ nerede $\odot$elementwise / Hadamard ürününü belirtir ve işaret fonksiyonu element-olarak uygulanır. Fonksiyonu yeniden yazmak için bu yeni değişkenleri kullanın, ardından gradyanını hesaplayın.$$\eqalign{ \phi &= \|B\|_F^2 \\&= B:B \\ d\phi &= 2B:dB \\ &= 2(A-J):dA \\ &= 2(A-J):S\odot dY \\ &= 2S\odot(A-J):dY \\ &= 2(Y-S):dY \\ &= 2(Y-S):X\,dW \\ &= 2X^T(Y-S):dW \\ \frac{\partial\phi}{\partial W} &= 2X^T(Y-S) \\ }$$ burada iki nokta üst üste iz / Frobenius ürününü belirtir, yani $$\eqalign{ A:B = {\rm Tr}(A^TB) = {\rm Tr}(AB^T) = B:A }$$ İzin döngüsel özelliği, bu tür ürünlerin çeşitli şekillerde yeniden düzenlenmesine izin verir. $$\eqalign{ A:BC &= B^TA:C \\ &= AC^T:B \\ }$$ Nihayet ne zaman $(A,B,C)$ hepsi aynı boyda, Hadamard ve Frobenius ürünleri birbirleriyle gidip geliyor $$\eqalign{ A:B\odot C &= A\odot B:C \\\\ }$$ NB: Bir öğe$\,Y$sıfıra eşittir, gradyan tanımsızdır. Bu davranış, türevine benzer$\,|x|\,$ skaler durumda.