Por que precisamos de amostragem de importância?
Eu estava estudando o método de melhoria fora da política. Então eu encontrei a amostragem de importância . Eu entendi completamente a matemática por trás do cálculo, mas estou me perguntando qual é o exemplo prático de amostragem por importância.
Por exemplo, em um vídeo , é dito que precisamos calcular o valor esperado de um dado enviesado, aqui$g(x)$, em termos do valor esperado de dados justos, $f(x)$. Aqui está uma captura de tela do vídeo.
Por que precisamos disso, quando temos a distribuição de probabilidade dos dados enviesados?
Respostas
A amostragem de importância é normalmente usada quando a distribuição de interesse é difícil de amostrar - por exemplo, pode ser computacionalmente caro extrair amostras da distribuição - ou quando a distribuição só é conhecida até uma constante multiplicativa, como nas estatísticas Bayesianas, onde é intratável para calcular a probabilidade marginal; isso é
$$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} \propto p(x|\theta)p(\theta)$$
Onde $p(x)$é a nossa probabilidade marginal que pode ser intratável e, portanto, não podemos calcular o posterior completo e, portanto, outros métodos devem ser usados para gerar amostras a partir desta distribuição. Quando digo intratável, observe que
$$p(x) = \int_{\Theta} p(x|\theta)p(\theta) d\theta$$
e, portanto, intratável aqui significa que a) a integral não tem solução analítica ou b) um método numérico para calcular essa integral pode ser muito caro para ser executado.
No exemplo do seu dado, você está correto ao dizer que poderia calcular a expectativa teórica dos dados de polarização analiticamente e isso provavelmente seria um cálculo relativamente simples. No entanto, para motivar por que a amostragem de importância pode ser útil neste cenário, considere calcular a expectativa usando métodos de Monte Carlo. Seria muito mais simples amostrar uniformemente um número inteiro aleatório de 1-6 e calcular a proporção de amostragem de importância$x \frac{g(x)}{f(x)}$ do que seria extrair amostras dos dados de polarização, até porque a maioria das linguagens de programação incorporou métodos para amostrar inteiros aleatoriamente.
Como sua pergunta está marcada como aprendizagem por reforço, acrescentarei por que ela é útil no domínio RL. Uma razão é que pode ser que nossa política de interesse seja cara para amostrar, então, em vez disso, podemos apenas gerar ações a partir de alguma outra política simples enquanto ainda aprendemos sobre a política de interesse. Em segundo lugar, podemos estar interessados em uma política que é determinística (gananciosa), mas ainda ser capaz de explorar, portanto, podemos ter uma distribuição fora da política que explora com muito mais frequência.
NB: pode não estar claro como você pode usar a amostragem de importância se a distribuição só for conhecida até uma constante, então veja esta resposta para uma explicação.