강화 학습의 맥락에서 Bayes 규칙 적용 [중복]
강화 학습에 관한 이 비디오를 보고있었습니다 . 에서 1시 28분 , 그것은 다음 말한다 :
$$Pr(s'|a,z,s)=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$
나는 이것이 어떻게 얻어 졌는지 알 수 없었다. 나는 조금 숙고했고 가능한 추론을 생각 해냈다. 그러나 내가 옳은지 여전히 확실하지 않습니다. 이것이 내가 생각한 것입니다.
$Pr(s'|a,z,s) = \frac{Pr(s',a,z,s)}{Pr(a,z,s)} $ ... 베이 즈 정리에 의한 방정식 (1)
$Pr(z|s',a,s) = \frac{Pr(s',a,z,s)}{Pr(a,s',s)}$ ... 베이 즈 정리에 의해
$\therefore Pr(s',a,z,s) = Pr(z|s',a,s)Pr(a,s',s)$ ... 방정식 (2)
$Pr(s'|a,z,s) = \frac{Pr(z|s',a,s)Pr(a,s',s)}{Pr(a,z,s)}$ ... 방정식 (1)에 방정식 (2)를 넣어
이제 증명해야합니다 $Pr(s'|a,s) = Pr(s',a,s)$ 과 $Pr(z|a,s) = Pr(z,a,s)$. 나에게 사용 가능한 컨텍스트에 따라$a\cap s=(a,s)$전체 샘플 공간을 형성하는 것 같습니다. 그것은 둘 다 이벤트입니다$s'$ 과 $z$ 이벤트의 하위 집합 $(a,s)$. 그게 만들 것인가$Pr(s'|a,s) = Pr(s',a,s)$ 과 $Pr(z|a,s) = Pr(z,a,s)$? 그렇다면 원래 정족수 방정식을 얻을 수있을 것 같습니다. 내가 맞습니까?
PS : 믿습니다 $Pr(s'|a,z,s)$ 방법 $s'$ 모두에 달려있다 $a,z$ 과 $s$.
답변
더 이상의 가정은 필요하지 않습니다. 이를 확인하는 간단한 방법은 주어진 측면에서 공통된 모든 RV를 제거하는 것입니다.$|$) : $$P(s'|z)=\frac{P(z|s')P(s')}{P(z)}$$
이러한 확률의 주어진 부분에 모든 RV 세트를 추가하고 유효한 공식을 얻을 수 있습니다.
또는:
$$P(s'|a,z,s)=\frac{P(s',a,z,s)}{P(a,z,s)}=\frac{P(z|s',a,s)P(s'|a,s)P(a,s)}{P(z|a,s)P(a,s)}=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$