REINFORCE는 왜 전혀 작동하지 않습니까?

Aug 15 2020

다음은 Sutton과 Barto의 책에서 인기있는 정책 기울기 알고리즘의 스크린 샷입니다.

업데이트 규칙의 수학적 파생을 이해합니다. 그러나이 알고리즘이 처음부터 작동해야하는 이유에 대한 직관을 구축 할 수 없습니다. 정말 신경 쓰이는 것은 잘못된 정책으로 시작한다는 것입니다 (즉, 매개 변수를 알지 못함).$\theta$ 아직),이 정책을 사용하여 에피소드를 생성하고 그에 따른 업데이트를 수행합니다.

REINFORCE가작동 해야 합니까? 결국 그라디언트 업데이트에 사용하는 에피소드는 매개 변수로 매개 변수화 된 정책을 사용하여 생성됩니다.$\theta$ 아직 업데이트되지 않았습니다 ( 최적의 정책을 사용하여 에피소드가 생성되지 않았습니다 . 그렇게 할 수있는 방법이 없습니다).

내 우려가 분명하기를 바라며 이것이 작동하는 이유에 대한 직관력을 제공하기를 요청합니다! 나는 그 의심 어떻게 든 우리가 잘못된 정책에서 에피소드를 샘플링에도 불구하고, 우리는 각 업데이트 (단조 개선) 후 가까운 오른쪽에 하나를 얻을. 또는 최적의 정책 (최적의 매개 변수 집합)에 가까워 질 수 있습니다.$\theta$) 평균적으로.

그래서, 여기서 정말로 무슨 일이 일어나고 있습니까?

답변

4 DavidIreland Aug 15 2020 at 21:16

REINFORCE 작업의 핵심은 매개 변수가 $G \nabla \log \pi(a|s, \theta)$.

참고 $ \nabla \log \pi(a|s, \theta) = \frac{ \nabla \pi(a|s, \theta)}{\pi(a|s, \theta)}$. 이것은 업데이트를 매우 직관적으로 만듭니다. 분자는 수익률에 비례하여 상태가 주어지면 동작이 반복 될 확률이 가장 높은 방향으로 매개 변수를 이동합니다. 이것은 본질적으로 기울기 상승이기 때문에 쉽게 볼 수 있습니다. 단계. 분모는 행동이 취해질 확률에 대해 반비례하여 더 자주 선택되기 때문에 다른 행동에 비해 유리한 행동을 제어합니다. 높은 보상이 있었지만 당시의 행동을 상상해보십시오.$t$ 선택 될 확률이 낮 으면 (예 : 0.1) 수익률에 10을 곱하여이 동작이 가장 많이 선택 될 확률을 높이는 방향으로 더 큰 업데이트 단계로 이어질 것입니다 (이는 언급 한 바와 같이 분자가 제어하는 ​​것입니다). ).

그것은 직관을위한 것입니다. 왜 그것이 효과 있는지 확인한 다음 우리가 한 일에 대해 생각하십시오. 목적 함수를 정의했습니다.$v_\pi(s)$, 우리는 우리의 매개 변수를 최대화하는 데 관심이 있습니다. $\theta$. 매개 변수와 관련하여이 목표의 도함수를 찾은 다음 매개 변수에 대한 경사 상승을 수행하여 목표를 최대화합니다.$v_\pi(s)$따라서 그래디언트 상승을 계속 수행하면 정책 매개 변수가 (결국) 최대화되는 값으로 수렴됩니다. $v$ 따라서 우리의 정책이 최적이 될 것입니다.