¿Cuáles son las mayores barreras para la producción de RL?
Estoy estudiando el estado del arte del aprendizaje por refuerzo, y mi punto es que vemos tantas aplicaciones en el mundo real que utilizan algoritmos de aprendizaje supervisados y no supervisados en producción, pero no veo lo mismo con los algoritmos de aprendizaje por refuerzo.
¿Cuáles son las mayores barreras para la producción de RL?
Respuestas
Hay un artículo relativamente reciente que aborda este tema: Desafíos del aprendizaje por refuerzo del mundo real (2019) de Gabriel Dulac-Arnold et al., Que presenta todos los desafíos que deben abordarse para producir RL a problemas del mundo real, el actual enfoques / soluciones para resolver los desafíos y métricas para evaluarlos. Solo los enumeraré (según las notas que tomé hace unas semanas). Debería leer el documento para obtener más detalles. En cualquier caso, para las personas que estén familiarizadas con RL, serán bastante obvias.
- Capacitación por lotes fuera de línea y fuera de las políticas
- Una solución actual es el muestreo por importancia
- Aprendizaje del sistema real a partir de muestras limitadas (ineficiencia de la muestra)
- Soluciones: MAML, utilice demostraciones de expertos para iniciar el agente, enfoques basados en modelos
- Espacios de acción y estado continuo de alta dimensión
- Soluciones: AE-DQN, DRRN
- Satisfacer las limitaciones de seguridad
- Soluciones: MDP restringido, estrategias de exploración seguras, etc.
- Observabilidad parcial y no estacionariedad
- Soluciones a la observabilidad parcial: incorporar historia en la observación, redes neuronales recurrentes, etc.
- Soluciones a la no estacionariedad: aleatorización de dominios o identificación del sistema
- Funciones de recompensa no especificadas y multiobjetivo
- Soluciones: CVaR, Distributional DQN
- Explicabilidad
- Inferencia en tiempo real
- Retrasos del sistema (ver también esta y esta respuesta)
También hay un artículo más reciente y relacionado Una investigación empírica de los desafíos del aprendizaje por refuerzo en el mundo real (2020) por Gabriel Dulac-Arnold et al, y aquí tiene el código asociado con los experimentos.
Sin embargo, tenga en cuenta que RL (en particular, bandidos) ya se está utilizando para resolver al menos un problema del mundo real [ 1 , 2 ]. Vea también esta respuesta.
Barreras técnicas: Debería haber al menos estas grandes barreras de sentido común:
- La técnica de prueba y error hace que el modelo sea difícil de aprender (demasiados), en comparación con los datos supervisados listos para usar
- La cantidad de pasos de tiempo (que generalmente es igual a la cantidad de acciones del agente en la trayectoria) es grande, por lo que la exploración de fuerza bruta no funcionará ya que la cantidad de intentos para encontrar errores es exponencial, aunque las recompensas negativas pueden ayudar a acortar el árbol de la fuerza bruta.
- El RL de la vida real requiere un número ilimitado de episodios (para cada episodio, se debe aprender una secuencia de acciones), y el entrenamiento incremental es cada vez más difícil con más datos explorados, a menos que se eliminen algunos datos pasados y que ya no están relacionados , al igual que los humanos, olvidamos algo del pasado para aprender más, recordar más el presente.
Las barreras técnicas son al principio las barreras para aplicarlas en las empresas. Las personas pueden producir algunos datos supervisados manualmente con bastante rapidez y, por lo tanto, el aprendizaje supervisado generalmente se opta primero, nadie desea probar RL.
Más difícil de encontrar recursos humanos: los ingenieros de inteligencia artificial con experiencia en aprendizaje supervisado son más populares y más fáciles de encontrar; menos trabajo con RL, por lo que los proyectos comerciales no se llevan a cabo fácilmente si se usa RL.
Sin embargo, desde mi punto de vista, RL es muy prometedor en el futuro, ya que las entidades de inteligencia artificial ahora están cada vez más por su cuenta.