Aplicando a regra de Bayes no contexto da aprendizagem por reforço [duplicado]

Dec 13 2020

Eu estava assistindo a um vídeo sobre aprendizado por reforço. Às 1:28 , diz o seguinte:

$$Pr(s'|a,z,s)=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$

Não consegui saber como isso foi obtido. Eu ponderei um pouco e cheguei a um raciocínio possível. Mas ainda não tenho certeza se estou certo. Isto é o que pensei:

$Pr(s'|a,z,s) = \frac{Pr(s',a,z,s)}{Pr(a,z,s)} $ ... equação (1) pelo teorema de Bayes
$Pr(z|s',a,s) = \frac{Pr(s',a,z,s)}{Pr(a,s',s)}$ ... pelo teorema de Bayes
$\therefore Pr(s',a,z,s) = Pr(z|s',a,s)Pr(a,s',s)$ ... equação (2)
$Pr(s'|a,z,s) = \frac{Pr(z|s',a,s)Pr(a,s',s)}{Pr(a,z,s)}$ ... Colocando a equação (2) na equação (1)

Agora preciso provar $Pr(s'|a,s) = Pr(s',a,s)$ e $Pr(z|a,s) = Pr(z,a,s)$. De acordo com o contexto disponível para mim, mesmo$a\cap s=(a,s)$parece formar todo o espaço da amostra (não tenho certeza disso, parece que sim depois de assistir ao vídeo desde o início). Esses são os dois eventos$s'$ e $z$ são subconjuntos de eventos $(a,s)$. Isso fará$Pr(s'|a,s) = Pr(s',a,s)$ e $Pr(z|a,s) = Pr(z,a,s)$? Se sim, então acho que conseguirei obter a equação quoated original. Estou correto com isso?

PS: eu acredito $Pr(s'|a,z,s)$ significa $s'$ depende de tudo $a,z$ e $s$.

Respostas

2 gunes Dec 13 2020 at 20:29

Você não precisa de mais suposições. Uma maneira simples de ver isso é remover todos os RVs comuns em determinado lado (ou seja, à direita de$|$): $$P(s'|z)=\frac{P(z|s')P(s')}{P(z)}$$

Você pode adicionar qualquer conjunto de RVs a determinada parte dessas probabilidades e obter uma fórmula válida.

Ou:

$$P(s'|a,z,s)=\frac{P(s',a,z,s)}{P(a,z,s)}=\frac{P(z|s',a,s)P(s'|a,s)P(a,s)}{P(z|a,s)P(a,s)}=\frac{Pr(z|s',a,s)Pr(s'|a,s)}{Pr(z|a,s)}$$