¿Qué son los agentes comerciales de aprendizaje por refuerzo y por qué los necesita al operar con productos básicos?

Dec 02 2022
Desde el concepto hasta la construcción e implementación de agentes de aprendizaje por refuerzo
El aprendizaje por refuerzo, un área del aprendizaje automático, podría ser más conocido en relación con los vehículos autónomos: donde un automóvil aprende a conducir por ensayo y error y, después de un millón de veces, el automóvil sabe cómo girar y detenerse en rojo. semáforo. — Sé que esto es demasiado simplificado, pero entiendes el punto.
Imagen generada usando Dall-E

El aprendizaje por refuerzo, un área del aprendizaje automático, podría ser más conocido en relación con los vehículos autónomos: donde un automóvil aprende a conducir por ensayo y error y, después de un millón de veces, el automóvil sabe cómo girar y detenerse en rojo. semáforo. — Sé que esto es demasiado simplificado, pero entiendes el punto.

Una aplicación menos conocida del aprendizaje por refuerzo se puede encontrar en el mundo comercial. La mayoría de nosotros estamos familiarizados con la aplicación de modelos de aprendizaje automático a datos de series temporales. En Vesper , hacemos esto para predecir los precios, la producción y los niveles de existencias de varios productos agrícolas para algunos meses en el futuro. Si bien estos modelos pueden indicar hacia dónde se dirige el mercado, no pueden decirle qué acción tomar en función de su resultado: los agentes de aprendizaje por refuerzo pueden decirle cuándo vender, comprar o mantener sus activos en función de cómo se comporta el mercado. Si bien las aplicaciones como esta se están volviendo más populares en los mercados bursátiles y de divisas, aún no se pueden encontrar casos aplicados a los mercados de productos básicos.

Junto con Slimmer.AI , nosotros (el equipo de ciencia de datos de Vesper) pasamos tres meses investigando y desarrollando un agente de RL que aprende a operar en el mercado de materias primas. ¡ Lea más sobre estos ciclos de I+D aquí !

Este artículo le dará una visión general de nuestros hallazgos más importantes. Comenzaremos explicando brevemente el concepto de aprendizaje por refuerzo, seguido de la definición de un agente comercial y los beneficios de usar uno. Finalmente, discutiremos tres métodos diferentes de aprendizaje por refuerzo y sus correspondientes pros y contras.

Aquí puede encontrar un artículo más detallado sobre las especificaciones de nuestros agentes y sus logros, así como una introducción a la biblioteca utilizada . El repositorio git correspondiente se puede encontrar aquí . Pero si eres relativamente nuevo en el concepto, ¡sigue leyendo!

¿Qué es el aprendizaje por refuerzo?

En pocas palabras, el aprendizaje por refuerzo es la práctica de aprender por ensayo y error. El modelo aprende siendo recompensado por buenas decisiones y penalizado por malas decisiones. Esto se hace ajustando el tamaño de una recompensa, llamada señal de refuerzo, que puede ser positiva o negativa y siempre como consecuencia de una acción realizada por el agente.

Un modelo de aprendizaje por refuerzo conecta a un agente con un entorno a través de una acción. Una visualización de esto se muestra en la siguiente figura. El agente recibe información sobre el estado actual ( St, ) del entorno. En base a esta información, el agente decide una acción ( At ), cambiando el estado del entorno a St+1 . La acción se elige del espacio de acción.

Espacio de acción : la colección de todas las acciones que están disponibles para el agente que puede usar para interactuar y cambiar su entorno.

La recompensa o castigo de la transición de estado se comunica al agente a través de la señal de recompensa ( Rt ). El sistema tiene como objetivo aprender una estrategia de acción que encuentre el valor de recompensa acumulativo más alto del entorno.

Un ejemplo simplificado de una tarea de aprendizaje por refuerzo de la vida real es un niño que aprende a caminar: el niño es el agente que intenta navegar por el entorno realizando acciones en forma de caminar o gatear. Cuando se dan algunos pasos, el niño recibe una reacción favorable de los padres, que es análoga a la recompensa. Por el contrario, el niño no recibirá ninguna reacción cuando gatee o no se mueva, lo que representa una recompensa o un castigo negativo.

Figura 1: Diagrama de un modelo de aprendizaje por refuerzo

¿Qué son los Agentes Comerciales?

En el contexto de la negociación, un agente de aprendizaje por refuerzo es un comerciante cuyo espacio de acción consiste en comprar, vender o mantener un activo. El mercado del que forma parte el activo actuará como el entorno. El estado se puede mostrar en forma de estadísticas sobre el mercado actual, como promedios móviles diarios, máximos y mínimos diarios o volúmenes de negociación de activos. La recompensa en el comercio se puede expresar en términos de ganancias, pérdidas u otras métricas de rendimiento. En última instancia, el objetivo del agente comercial es actuar de tal manera que maximice la recompensa futura, dado el mercado en el que opera. Un buen agente debería ser capaz de ganarle al mercado comprando a precios bajos y vendiendo a precios más altos. El comportamiento del agente dependerá en gran medida del método de RL elegido. Tres métodos de uso común se discuten en la última sección,

¿Por qué utilizar agentes comerciales?

El comercio automatizado, también conocido como comercio algorítmico, implica el uso de algoritmos para la ejecución de órdenes comerciales, que es el dominio en el que se encuentran los agentes comerciales. Esta forma de comercio tiene muchas ventajas sobre el comercio humano (manual). Primero, se debe hacer una distinción entre dos tipos de comercio automatizado:

  1. Comercio automatizado basado en reglas, donde la estrategia está predefinida y diseñada por un ser humano.
  2. Comercio automatizado basado en el aprendizaje por refuerzo, donde la estrategia se aprende mediante el aprendizaje por refuerzo.
  • Las computadoras tienen tiempos de ejecución rápidos, lo que reduce el riesgo de perder una oportunidad debido a una reacción lenta al estado del mercado.
  • Cuando utiliza el comercio automatizado, no está expuesto al riesgo de tomar malas decisiones comerciales debido a los impactos emocionales y psicológicos, algo que los humanos sufren masivamente. Las computadoras siempre ejecutarán la estrategia para la que fueron diseñadas.
  • El comercio automatizado se beneficia del hecho de que las computadoras son significativamente más capaces que los cerebros humanos para digerir cantidades masivas de datos en tiempo real, lo que permite estrategias mucho más complejas.
  • Un agente comercial nunca deja de aprender y adaptar su estrategia. Una estrategia que alguna vez fue rentable podría no funcionar cuando cambie la dinámica del mercado. Un agente comercial de aprendizaje por refuerzo bien diseñado debería poder ajustar su estrategia en consecuencia.

Como se mencionó anteriormente, existen diferentes métodos para construir un agente de aprendizaje por refuerzo. Hay tres enfoques para usar cuando se trata de transacciones financieras: solo crítico, solo actor y actor crítico. Critic-only, el método más utilizado en el dominio comercial automatizado, funciona resolviendo un espacio de acción discreto en forma de función de valor Q.

Función de valor Q: medida de la recompensa total esperada, suponiendo que el agente se encuentra en el estado St y realiza la acción At

Al hacer esto, aprende la estrategia que maximiza la recompensa futura dado el estado actual. Los ejemplos más conocidos son Q-learning y Deep Q-learning. El principal inconveniente de estos métodos es que están diseñados para tratar solo problemas de espacios de acción discretos y finitos, lo que significa que las acciones que un agente puede realizar deben estar predefinidas. Por lo tanto, se deben utilizar técnicas especiales para convertirlo en un espacio continuo, como en el caso de comprar o vender diferentes cantidades de un producto.

El segundo enfoque se denomina solo actor; aquí, el mayor beneficio es que el espacio de acción puede ser continuo ya que una política se aprende directamente en forma de una distribución de probabilidad que proporciona una estrategia para cualquier estado dado.

Política: mapeo de algún estado St a las probabilidades de seleccionar cada acción posible At dado ese estado

Sin embargo, el mayor tiempo de capacitación que se requiere para obtener las políticas óptimas puede verse como una desventaja de este enfoque.

El tercer tipo, el marco actor-crítico, combina los dos y entrena simultáneamente dos modelos: el actor, que aprende cómo hacer que el agente se comporte en un estado determinado, y el crítico, que evalúa la eficacia real de la acción seleccionada. Dos algoritmos actor-crítico de uso común son PPO o A2C. Si bien ambos métodos son muy populares cuando se analiza el comercio de acciones, existen algunas diferencias entre el mercado de acciones y el de materias primas que deben tenerse en cuenta al decidir nuestro enfoque.

La mayor diferencia entre los dos mercados es la cantidad de datos disponibles. Una dificultad con la que se encuentran a menudo los investigadores al aplicar tecnologías de IA al mercado de productos básicos es su falta de transparencia y la consecuencia asociada de la escasez de datos de mercado disponibles. Afortunadamente, como plataforma de inteligencia de productos básicos, recopilar estos datos es nuestro negocio diario. La base de datos de Vesper contiene miles de series de datos que cubren, entre otros, precios, futuros y datos de oferta y demanda de varios productos agrícolas. Otra diferencia a tener en cuenta es la naturaleza de los bienes negociados. Dado que los productos básicos agrícolas son físicos por definición, se deben tener en cuenta restricciones adicionales. Piense en las fechas de vencimiento que obligan a los comerciantes a vender un producto antes de una fecha determinada.

En este artículo, discutimos los conceptos básicos del aprendizaje por refuerzo, qué son los agentes comerciales y por qué son relevantes para ser aplicados al mercado de productos básicos. También discutimos los beneficios que vienen con ellos y cuáles son los métodos de aprendizaje por refuerzo más adecuados para nuestro caso de uso. Si está interesado en la implementación real de este método, eche un vistazo aquí, donde mostramos que los agentes comerciales superan significativamente a un modelo de referencia.

Si está interesado en el mercado de productos básicos y en cómo usamos la IA para alterarlo, ¡suscríbase a nuestra publicación !