Geri yayılmada vektör matirix türevi hakkında soru

Aug 16 2020

Diyelim ki aşağıdaki gibi bir matrisim var:

$$ W = \begin{bmatrix} w_{1,1} & w_{1,2} \\ w_{2,1} & w_{2,2} \end{bmatrix} $$ $$ \vec{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} $$ $$ \vec{y} = W\vec{x} = \begin{bmatrix} w_{1,1}x_1 + w_{1,2}x_2 \\ w_{2,1}x_1 + w_{2,2}x_2 \end{bmatrix} $$

Geri yayılmada, $\partial {\vec{y}} \over \partial {W}$ güncellemek için $W$.

Ancak Wiki'ye göre , bir vektörün türevinin bir matrisle tanımlanması konusunda fikir birliği yoktur.

Öyleyse, değerini nasıl alabilirim $\partial {\vec{y}} \over \partial {W}$?

Yanıtlar

3 BenGrossmann Aug 16 2020 at 16:35

Senin fikrin ne olursa olsun $\frac{\partial y}{\partial W}$, bu nesne tarafından taşınan verilerin bir kısmı, tüm kısmi türevlerin kümesidir $\frac{\partial y}{\partial W_{ij}}$ve bu türevler tüm "girişleri" oluşturmalıdır $\frac{\partial y}{\partial W}$. Bu wiki sayfasında , yazar (lar) sadece bu kısmi türevleri kullanırlar ve "toplam" türeve herhangi bir atıfta bulunmazlar.$\frac{\partial y}{\partial W}$.

İzin Vermek $e_1,e_2$ kanonik temelini belirtmek $\Bbb R^2$yani sütunları $2 \times 2$kimlik matrisi. Bu kısmi türevlerin şu şekilde verildiğini görebiliriz: $$ \frac{\partial y}{\partial W_{ij}} = x_j e_i. $$ Bir şeyleri skaler girişler açısından koymak için şunu söyleyebiliriz: $ \frac{\partial y_k}{\partial W_{ij}} = \delta_{ik} x_j, $ nerede $y_k$ gösterir $k$giriş $y$ ve $\delta_{ik}$ bir "Kronecker delta" anlamına gelir.

Şimdi toplam / Frechet türevi açısından şunu söyleyebiliriz.$y(W)$ bir işlevi tanımlar $\Bbb R^{2 \times 2}$ -e $\Bbb R^2$yani herhangi biri için $W \in \Bbb R^{2 \times 2}$, $D_Wy(X) = Dy(X)$ doğrusal bir haritayı tanımlar $\Bbb R^{2 \times 2}$ -e $\Bbb R^2$; özellikle, herhangi biri için$H \in \Bbb R^{2 \times 2}$, sahibiz $$ Dy(X)(H) = y(H) = Hx. $$ Bir girdi dizisi olmasa da, bu işlev $Dy$ dizi / tensörün operatördür $\frac{\partial y}{\partial W}$temsil ederdi. Kısmi türevleri "yönlü türevleri" değerlendirerek kurtarabiliriz$d_Wy(X)(E_{ij})$, nerede $E_{ij} = e_ie_j^T$ bir matristir $1$ içinde $i,j$başka yerlerde giriş ve sıfırlar. Doğrusu biz var $$ Dy(X)(E_{ij}) = E_{ij} x = e_i (e_j^Tx) = x_j e_i. $$ Zincir kuralı bize şunu söyler: herhangi bir işlev için $g:\mathcal Z \to \Bbb R^{2 \times 2}$toplam türevini hesaplayabiliriz $y \circ g$aşağıdaki gibi. Herhangi$z \in \mathcal Z$türev (doğrusal bir harita) $\mathcal Z$ -e $\Bbb R^{2}$) tarafından verilir $$ D(y \circ g)(z) = Dy(g(z)) \circ Dg(z), $$ nerede $Dy(g(z))$ doğrusal bir haritadır $\Bbb R^{2 \times 2} \to \Bbb R^2$ ve $Dg(z)$ doğrusal bir haritadır $\mathcal Z$ -e $\Bbb R^{2 \times 2}$. Daha somut olarak, eğer$h \in \mathcal Z$, ardından yönlü türev "boyunca" $h$ tarafından verilmeli $$ D(y \circ g)(z)(h) = [Dy(g(z)) \circ Dg(z)](h) = [Dg(z)(h)] x. $$ Benzer şekilde, herhangi bir işlev için $p: \Bbb R^2 \to \mathcal Z$toplam türevini hesaplayabiliriz $p \circ y$ aşağıdaki gibi. Herhangi$X \in \Bbb R^{2 \times 2}$türev (doğrusal bir harita) $\Bbb R^{2 \times 2}$ -e $\mathcal Z$) tarafından verilir $$ D(p \circ y)(X) = Dh(y(X)) \circ Dy(X), $$ nerede $Dh(y(X))$ doğrusal bir haritadır $\Bbb R^2$ -e $\mathcal Z$ ve $Dy(X)$ doğrusal bir haritadır $\Bbb R^{2 \times 2}$ -e $\Bbb R^2$. Daha somut olarak, eğer$H \in \Bbb R^{2 \times 2}$, ardından yönlü türev "boyunca" $H$ tarafından verilmeli $$ D(p \circ y)(X)(H) = [Dp(y(X)) \circ Dy(X)](H) = Dp(y(X))(Hx). $$