Quais são as maiores barreiras para colocar RL em produção?

Jan 28 2021

Estou estudando o estado da arte do Aprendizado por Reforço, e meu ponto é que vemos muitas aplicações no mundo real usando algoritmos de aprendizagem supervisionada e não supervisionada em produção, mas não vejo a mesma coisa com algoritmos de Aprendizagem por reforço.

Quais são as maiores barreiras para colocar RL em produção?

Respostas

7 nbro Jan 28 2021 at 18:35

Há um artigo relativamente recente que aborda essa questão: Desafios da aprendizagem por reforço do mundo real (2019) por Gabriel Dulac-Arnold et al., Que apresenta todos os desafios que precisam ser enfrentados para produzir RL para problemas do mundo real, o atual abordagens / soluções para resolver os desafios e métricas para avaliá-los. Vou apenas listá-los (com base nas anotações que fiz algumas semanas atrás). Você deve ler o jornal para mais detalhes. Em qualquer caso, para quem está familiarizado com RL, eles serão bastante óbvios.

  1. Batch off-line e off-policy training
    • Uma solução atual é a amostragem de importância
  2. Aprendizagem no sistema real a partir de amostras limitadas (ineficiência da amostra)
    • Soluções: MAML, use demonstrações de especialistas para inicializar o agente, abordagens baseadas em modelo
  3. Estado contínuo de alta dimensão e espaços de ação
    • Soluções: AE-DQN, DRRN
  4. Satisfazendo as restrições de segurança
    • Soluções: MDP restrito, estratégias de exploração segura, etc.
  5. Observabilidade parcial e não estacionariedade
    • Soluções para observabilidade parcial: incorporar história na observação, redes neurais recorrentes, etc.
    • Soluções para não estacionariedade: randomização de domínio ou identificação de sistema
  6. Funções de recompensa não especificadas e multi-objetivo
    • Soluções: CVaR, DQN distributivo
  7. Explicabilidade
  8. Inferência em tempo real
  9. Atrasos do sistema (veja também esta e esta respostas)

Há também um artigo mais recente e relacionado Uma investigação empírica dos desafios da aprendizagem por reforço no mundo real (2020) por Gabriel Dulac-Arnold et al, e aqui você tem o código associado aos experimentos.

No entanto, observe que RL (em particular, bandidos) já está sendo usado para resolver pelo menos um problema do mundo real [ 1 , 2 ]. Veja também esta resposta.

4 datdinhquoc Jan 28 2021 at 16:56

Barreiras técnicas: Deve haver pelo menos estas grandes barreiras de bom senso:

  • A técnica de tentativa e erro torna o modelo difícil de aprender (muitos), em comparação com dados supervisionados prontos para uso
  • O número de etapas de tempo (que geralmente é igual ao número de ações do agente na trajetória) é grande, portanto, a exploração de força bruta não funcionará, pois o número de tentativas para encontrar erros é exponencial, embora recompensas negativas possam ajudar a abreviar a árvore da força bruta.
  • A RL na vida real leva um número ilimitado de episódios (para cada episódio, uma sequência de ações deve ser aprendida), e o treinamento incremental é cada vez mais difícil com mais dados explorados, a menos que alguns dados passados ​​e não mais relacionados sejam removidos , assim como os humanos, esquecemos um pouco do passado para aprender mais, nos lembramos mais do presente.

As barreiras técnicas são inicialmente as barreiras para aplicá-las aos negócios. As pessoas podem produzir alguns dados supervisionados manualmente de forma bastante rápida e, portanto, a aprendizagem supervisionada geralmente é escolhida primeiro, ninguém deseja experimentar RL.

Mais difícil de encontrar recursos humanos: engenheiros de IA com experiência em aprendizagem supervisionada são mais populares e mais fáceis de encontrar; menos trabalho com RL, portanto, projetos de negócios não são realizados facilmente se usando RL.

No entanto, do meu ponto de vista, RL é muito promissor no futuro, pois as entidades de IA estão cada vez mais por conta própria.