Menerapkan aturan Bayes dalam konteks pembelajaran penguatan [duplikat]
Saya menonton video ini tentang pembelajaran penguatan. Pada 1:28 , dikatakan sebagai berikut:
$$Pr(s'|a,z,s)=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$
Saya tidak bisa mendapatkan bagaimana ini diperoleh. Saya merenung sedikit dan menemukan kemungkinan alasannya. Tapi masih tidak yakin apakah saya benar. Inilah yang saya pikirkan:
$Pr(s'|a,z,s) = \frac{Pr(s',a,z,s)}{Pr(a,z,s)} $ ... persamaan (1) dengan teorema Bayes
$Pr(z|s',a,s) = \frac{Pr(s',a,z,s)}{Pr(a,s',s)}$ ... dengan teorema Bayes
$\therefore Pr(s',a,z,s) = Pr(z|s',a,s)Pr(a,s',s)$ ... persamaan (2)
$Pr(s'|a,z,s) = \frac{Pr(z|s',a,s)Pr(a,s',s)}{Pr(a,z,s)}$ ... Dengan meletakkan persamaan (2) ke dalam persamaan (1)
Sekarang saya perlu membuktikan $Pr(s'|a,s) = Pr(s',a,s)$ dan $Pr(z|a,s) = Pr(z,a,s)$. Sesuai konteks yang tersedia untuk saya, bahkan$a\cap s=(a,s)$tampaknya membentuk seluruh ruang sampel (saya tidak yakin tentang ini, sepertinya begitu setelah menonton video dari awal). Itu adalah peristiwa keduanya$s'$ dan $z$ adalah bagian dari Peristiwa $(a,s)$. Akankah itu berhasil$Pr(s'|a,s) = Pr(s',a,s)$ dan $Pr(z|a,s) = Pr(z,a,s)$? Jika ya, maka saya rasa saya akan bisa mendapatkan persamaan quoated asli. Apakah saya benar dengan ini?
PS: Saya percaya $Pr(s'|a,z,s)$ cara $s'$ tergantung semuanya $a,z$ dan $s$.
Jawaban
Anda tidak membutuhkan asumsi lebih lanjut. Cara sederhana untuk melihat ini adalah dengan membuang semua RV yang umum di sisi yang diberikan (yaitu, kanan$|$): $$P(s'|z)=\frac{P(z|s')P(s')}{P(z)}$$
Anda dapat menambahkan set RV apa pun ke bagian tertentu dari probabilitas ini dan mendapatkan rumus yang valid.
Atau:
$$P(s'|a,z,s)=\frac{P(s',a,z,s)}{P(a,z,s)}=\frac{P(z|s',a,s)P(s'|a,s)P(a,s)}{P(z|a,s)P(a,s)}=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$