Stosowanie reguły Bayesa w kontekście uczenia się ze wzmocnieniem [duplikat]

Dec 13 2020

Oglądałem ten film o uczeniu się przez wzmacnianie. O godzinie 1:28 mówi:

$$Pr(s'|a,z,s)=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$

Nie mogłem dowiedzieć się, jak to uzyskano. Trochę się zastanawiałem i wymyśliłem możliwe uzasadnienie. Ale nadal nie jestem pewien, czy mam rację. Oto, co pomyślałem:

$Pr(s'|a,z,s) = \frac{Pr(s',a,z,s)}{Pr(a,z,s)} $ ... równanie (1) według twierdzenia Bayesa
$Pr(z|s',a,s) = \frac{Pr(s',a,z,s)}{Pr(a,s',s)}$ ... według twierdzenia Bayesa
$\therefore Pr(s',a,z,s) = Pr(z|s',a,s)Pr(a,s',s)$ ... równanie (2)
$Pr(s'|a,z,s) = \frac{Pr(z|s',a,s)Pr(a,s',s)}{Pr(a,z,s)}$ ... Poprzez umieszczenie równania (2) w równaniu (1)

Teraz muszę to udowodnić $Pr(s'|a,s) = Pr(s',a,s)$ i $Pr(z|a,s) = Pr(z,a,s)$. Nawet jeśli chodzi o dostępny mi kontekst$a\cap s=(a,s)$wydaje się, że tworzy całą przestrzeń sampli (chociaż nie jestem tego pewien, wydaje się, że tak po obejrzeniu wideo od początku). To jest oba wydarzenia$s'$ i $z$ są podzbiorem zdarzenia $(a,s)$. Czy to sprawi, że$Pr(s'|a,s) = Pr(s',a,s)$ i $Pr(z|a,s) = Pr(z,a,s)$? Jeśli tak, to chyba będę w stanie uzyskać oryginalne równanie quoated. Czy mam rację z tym?

PS: Wierzę $Pr(s'|a,z,s)$ znaczy $s'$ zależy od wszystkich $a,z$ i $s$.

Odpowiedzi

2 gunes Dec 13 2020 at 20:29

Nie potrzebujesz żadnych dalszych założeń. Prostym sposobem, aby to zobaczyć, jest usunięcie wszystkich samochodów kempingowych wspólnych po danej stronie (tj. Po prawej stronie$|$): $$P(s'|z)=\frac{P(z|s')P(s')}{P(z)}$$

Możesz dodać dowolny zestaw RV do danej części tych prawdopodobieństw i uzyskać prawidłową formułę.

Lub:

$$P(s'|a,z,s)=\frac{P(s',a,z,s)}{P(a,z,s)}=\frac{P(z|s',a,s)P(s'|a,s)P(a,s)}{P(z|a,s)P(a,s)}=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$