Quais são as maiores barreiras para colocar RL em produção?
Estou estudando o estado da arte do Aprendizado por Reforço, e meu ponto é que vemos muitas aplicações no mundo real usando algoritmos de aprendizagem supervisionada e não supervisionada em produção, mas não vejo a mesma coisa com algoritmos de Aprendizagem por reforço.
Quais são as maiores barreiras para colocar RL em produção?
Respostas
Há um artigo relativamente recente que aborda essa questão: Desafios da aprendizagem por reforço do mundo real (2019) por Gabriel Dulac-Arnold et al., Que apresenta todos os desafios que precisam ser enfrentados para produzir RL para problemas do mundo real, o atual abordagens / soluções para resolver os desafios e métricas para avaliá-los. Vou apenas listá-los (com base nas anotações que fiz algumas semanas atrás). Você deve ler o jornal para mais detalhes. Em qualquer caso, para quem está familiarizado com RL, eles serão bastante óbvios.
- Batch off-line e off-policy training
- Uma solução atual é a amostragem de importância
- Aprendizagem no sistema real a partir de amostras limitadas (ineficiência da amostra)
- Soluções: MAML, use demonstrações de especialistas para inicializar o agente, abordagens baseadas em modelo
- Estado contínuo de alta dimensão e espaços de ação
- Soluções: AE-DQN, DRRN
- Satisfazendo as restrições de segurança
- Soluções: MDP restrito, estratégias de exploração segura, etc.
- Observabilidade parcial e não estacionariedade
- Soluções para observabilidade parcial: incorporar história na observação, redes neurais recorrentes, etc.
- Soluções para não estacionariedade: randomização de domínio ou identificação de sistema
- Funções de recompensa não especificadas e multi-objetivo
- Soluções: CVaR, DQN distributivo
- Explicabilidade
- Inferência em tempo real
- Atrasos do sistema (veja também esta e esta respostas)
Há também um artigo mais recente e relacionado Uma investigação empírica dos desafios da aprendizagem por reforço no mundo real (2020) por Gabriel Dulac-Arnold et al, e aqui você tem o código associado aos experimentos.
No entanto, observe que RL (em particular, bandidos) já está sendo usado para resolver pelo menos um problema do mundo real [ 1 , 2 ]. Veja também esta resposta.
Barreiras técnicas: Deve haver pelo menos estas grandes barreiras de bom senso:
- A técnica de tentativa e erro torna o modelo difícil de aprender (muitos), em comparação com dados supervisionados prontos para uso
- O número de etapas de tempo (que geralmente é igual ao número de ações do agente na trajetória) é grande, portanto, a exploração de força bruta não funcionará, pois o número de tentativas para encontrar erros é exponencial, embora recompensas negativas possam ajudar a abreviar a árvore da força bruta.
- A RL na vida real leva um número ilimitado de episódios (para cada episódio, uma sequência de ações deve ser aprendida), e o treinamento incremental é cada vez mais difícil com mais dados explorados, a menos que alguns dados passados e não mais relacionados sejam removidos , assim como os humanos, esquecemos um pouco do passado para aprender mais, nos lembramos mais do presente.
As barreiras técnicas são inicialmente as barreiras para aplicá-las aos negócios. As pessoas podem produzir alguns dados supervisionados manualmente de forma bastante rápida e, portanto, a aprendizagem supervisionada geralmente é escolhida primeiro, ninguém deseja experimentar RL.
Mais difícil de encontrar recursos humanos: engenheiros de IA com experiência em aprendizagem supervisionada são mais populares e mais fáceis de encontrar; menos trabalho com RL, portanto, projetos de negócios não são realizados facilmente se usando RL.
No entanto, do meu ponto de vista, RL é muito promissor no futuro, pois as entidades de IA estão cada vez mais por conta própria.