強化学習のコンテキストでベイズルールを適用する[重複]
私は強化学習に関するこのビデオを見ていました。で1時28分、それは次のように述べています:
$$Pr(s'|a,z,s)=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$
これがどのようにして得られたのかわかりませんでした。私は少し考えて、考えられる理由を考え出しました。しかし、私が正しいかどうかはまだわかりません。これは私が考えたことです:
$Pr(s'|a,z,s) = \frac{Pr(s',a,z,s)}{Pr(a,z,s)} $ ...ベイズの定理による式(1)
$Pr(z|s',a,s) = \frac{Pr(s',a,z,s)}{Pr(a,s',s)}$ ...ベイズの定理による
$\therefore Pr(s',a,z,s) = Pr(z|s',a,s)Pr(a,s',s)$ ...式(2)
$Pr(s'|a,z,s) = \frac{Pr(z|s',a,s)Pr(a,s',s)}{Pr(a,z,s)}$ ...式(2)を式(1)に入れることによって
今私は証明する必要があります $Pr(s'|a,s) = Pr(s',a,s)$ そして $Pr(z|a,s) = Pr(z,a,s)$。私が利用できる文脈によると、$a\cap s=(a,s)$サンプル空間全体を形成しているようです(これはよくわかりませんが、最初からビデオを見た後はそうです)。それは両方のイベントです$s'$ そして $z$ イベントのサブセットです $(a,s)$。それは$Pr(s'|a,s) = Pr(s',a,s)$ そして $Pr(z|a,s) = Pr(z,a,s)$?もしそうなら、私は元の定足数の方程式を得ることができると思います。私はこれで正しいですか?
PS:私は信じています $Pr(s'|a,z,s)$ 手段 $s'$ すべてに依存します $a,z$ そして $s$。
回答
これ以上の仮定は必要ありません。これを確認する簡単な方法は、特定の側(つまり、の右側)に共通するすべてのRVを削除することです。$|$): $$P(s'|z)=\frac{P(z|s')P(s')}{P(z)}$$
これらの確率の特定の部分にRVの任意のセットを追加して、有効な式を取得できます。
または:
$$P(s'|a,z,s)=\frac{P(s',a,z,s)}{P(a,z,s)}=\frac{P(z|s',a,s)P(s'|a,s)P(a,s)}{P(z|a,s)P(a,s)}=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$