Como a média ponderada é calculada nas redes Deep Q

Aug 22 2020

Eu estava lendo o livro de Sutton e eles disseram que a fórmula de atualização para aprendizado Q vem da média ponderada dos retornos, ou seja,

Nova estimativa= estimativa antiga +alfa*[retorna- estimativa antiga]

Então, pela lei dos grandes números, isso irá convergir para o valor q verdadeiro ideal

Agora, quando vamos para redes Deep Q, como exatamente a média ponderada é calculada, tudo o que eles simplesmente fizeram foi tentar reduzir o erro entre o alvo e a estimativa, e tenha em mente que este não é o verdadeiro alvo, é apenas um imparcial estimativa, já que é uma estimativa imparcial, como é calculada a média ponderada, qual é a expectativa?

Alguém pode me ajudar aqui?? desde já, obrigado

Respostas

2 harwiltz Aug 22 2020 at 19:58

Digamos$Q$é a estimativa antiga,$Q'$a nova estimativa e$R$é o retorno.

Nós temos

$$ Q' = Q + \alpha(R-Q) $$

Isso pode ser reescrito como

$$ Q' = (1-\alpha)Q + \alpha R $$

Quando$\alpha$é uma constante, esta é uma média ponderada exponencial dos retornos. Se$n$é o número de amostras que obtemos e$\alpha=1/n$(então diminui com cada amostra), obtemos

$$ Q' = \frac{n-1}{n}Q + \frac{1}{n}R $$

Isso simplesmente representa o retorno médio. Então, brincando com$\alpha$ajusta a ponderação da estimativa.