Application de la règle de Bayes dans le contexte de l'apprentissage par renforcement [dupliquer]

Dec 13 2020

Je regardais cette vidéo sur l'apprentissage par renforcement. À 1:28 , il est dit suivant:

$$Pr(s'|a,z,s)=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$

Je n'ai pas pu comprendre comment cela a été obtenu. J'ai réfléchi un peu et j'ai trouvé un raisonnement possible. Mais je ne sais toujours pas si j'ai raison. Voici ce que j'ai pensé:

$Pr(s'|a,z,s) = \frac{Pr(s',a,z,s)}{Pr(a,z,s)} $ ... équation (1) par le théorème de Bayes
$Pr(z|s',a,s) = \frac{Pr(s',a,z,s)}{Pr(a,s',s)}$ ... par théorème de Bayes
$\therefore Pr(s',a,z,s) = Pr(z|s',a,s)Pr(a,s',s)$ ... équation (2)
$Pr(s'|a,z,s) = \frac{Pr(z|s',a,s)Pr(a,s',s)}{Pr(a,z,s)}$ ... En mettant l'équation (2) dans l'équation (1)

Maintenant j'ai besoin de prouver $Pr(s'|a,s) = Pr(s',a,s)$ et $Pr(z|a,s) = Pr(z,a,s)$. Selon le contexte dont je dispose, même$a\cap s=(a,s)$semble former tout l'espace de l'échantillon (je n'en suis pas sûr cependant, il semble que ce soit le cas après avoir regardé la vidéo depuis le début). Ce sont les deux événements$s'$ et $z$ sont un sous-ensemble de l'événement $(a,s)$. Est-ce que cela fera$Pr(s'|a,s) = Pr(s',a,s)$ et $Pr(z|a,s) = Pr(z,a,s)$? Si oui, alors je suppose que je serai en mesure d'obtenir l'équation originale en fonction du temps. Suis-je correct avec cela?

PS: je crois $Pr(s'|a,z,s)$ veux dire $s'$ dépend de tout $a,z$ et $s$.

Réponses

2 gunes Dec 13 2020 at 20:29

Vous n'avez pas besoin d'hypothèses supplémentaires. Un moyen simple de voir cela est de supprimer tous les VR communs dans le côté donné (c'est-à-dire à droite de$|$): $$P(s'|z)=\frac{P(z|s')P(s')}{P(z)}$$

Vous pouvez ajouter n'importe quel ensemble de RV à une partie donnée de ces probabilités et obtenir une formule valide.

Ou:

$$P(s'|a,z,s)=\frac{P(s',a,z,s)}{P(a,z,s)}=\frac{P(z|s',a,s)P(s'|a,s)P(a,s)}{P(z|a,s)P(a,s)}=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$