RNN의 시간 의존성을 어떻게 측정 할 수 있습니까?
RNN 및 LSTM에 대한 대부분의 논의는 "장기 종속성"을 포착하는 다양한 RNN의 다양한 기능을 암시합니다. 그러나 대부분의 데모에서는 생성 된 텍스트를 사용하여 바닐라 RNN에 대한 장기적인 종속성이 없음을 보여줍니다.
주어진 ARMA 시계열의 ACF 및 PACF와 같이 주어진 훈련 된 RNN의 시간 종속성을 명시 적으로 측정하는 방법이 있습니까?
나는 현재 (Frobenius norm of) 기억의 그라디언트를 보려고 노력하고 있습니다. $s_k$ 입력에 대하여 $x_l$, 어디 $l\le k$, 훈련 예제를 통해 요약 $\{x^i\}_{i=1}^N$ - $$\text{Dep}(k,l):=\sum_{i=1}^N \big\|\frac{\partial s_k}{\partial x_l}(x^i)\big\|_F$$ 이 프로토 타입에 대해 더 세련되거나 널리 사용되는 대안이 있는지 알고 싶습니다.
나는 시계열로 작업하고 있으므로 입력을 처리합니다. $\{x_t\}$ 무작위 과정의 실현으로 $\{X_t\}$, 따라서 "current"는 $x_i,s_i$ 일부 고정 $i$, "과거"내 말은 $\{x_j\}_{j=1}^{i-1},\{s_j\}_{j=1}^{i-1}$ 그리고 "시간"은 색인을 의미합니다 $t$.
나는 문학에서 "장기 의존성"은 현재 기억의 민감성을 의미한다고 생각한다. $s_k$ 과거 입력 wrt $\{x_j\}_{j=1}^{k-1}$, 그래서 내가 공식화 한 프로토 타입.
답변
나는 이것에 대한 표준 또는 널리 사용되는 메트릭을 알지 못합니다. 어떤 측정 항목이 적합한 지에 대해서는 사용하려는 용도에 따라 달라집니다.
RNN의 문제는 "잊혀진다"입니다. 긴 입력 시퀀스를 공급하는 경우$x=(x_1,\dots,x_n)$ RNN으로, 여기서 $n$ 문제는 마지막 몇 가지 값에 의해 최종 결정이 결정되는 경우가 많습니다 ($\ldots,x_{n-1},x_n$) 및 초기 값 ($x_1,x_2,\ldots$) "잊혀진"것으로 최종 결정에 영향을주지 않습니다. 이것은 많은 설정에서 바람직하지 않습니다.
귀하의 메트릭은 이에 대한 느낌을 얻는 합리적인 방법 중 하나입니다. 또 다른 합리적인 방법은 입력을 공급하는 것입니다.$x=(x_1,x_2,\dots,x_n)$, 다음 변경 $x_1$ 새로운 입력을 얻으려면 $x'=(x'_1,x_2,\dots,x_n)$, 먹이다 $x'$, RNN의 출력을 $x$ vs $x'$; 많은 훈련 샘플 또는 테스트 샘플에 대해 반복합니다.$x$.