Que sont les agents de trading d'apprentissage par renforcement et pourquoi vous en avez besoin lorsque vous négociez des matières premières

Dec 02 2022
Du concept à la construction et à la mise en œuvre d'agents d'apprentissage par renforcement
L'apprentissage par renforcement, un domaine de l'apprentissage automatique, pourrait être plus connu en relation avec les véhicules autonomes : où une voiture apprend à conduire par essais et erreurs et après un million de fois, la voiture sait comment faire un virage et s'arrêter pour un rouge feu de circulation. — Je sais que c'est trop simplifié, mais vous comprenez.
Image générée à l'aide de Dall-E

L'apprentissage par renforcement, un domaine de l'apprentissage automatique, pourrait être plus connu en relation avec les véhicules autonomes : où une voiture apprend à conduire par essais et erreurs et après un million de fois, la voiture sait comment faire un virage et s'arrêter pour un rouge feu de circulation. — Je sais que c'est trop simplifié, mais vous comprenez.

Une application moins connue de l'apprentissage par renforcement se trouve dans le monde du commerce. La plupart d'entre nous sont familiers avec l'application de modèles d'apprentissage automatique aux données de séries chronologiques. Chez Vesper , nous faisons cela pour prédire les prix, la production et les niveaux de stock de divers produits agricoles pour quelques mois à venir. Bien que ces modèles puissent indiquer où va le marché, ils ne peuvent pas vous dire quelle action entreprendre en fonction de leur résultat - les agents d'apprentissage par renforcement peuvent vous dire quand vendre, acheter ou conserver vos actifs en fonction du comportement du marché. Alors que des applications comme celle-ci deviennent de plus en plus populaires sur les marchés boursiers et forex, aucun cas n'a encore été trouvé appliqué aux marchés des matières premières.

En collaboration avec Slimmer.AI , nous (l'équipe Data Science de Vesper) avons passé trois mois à rechercher et à développer un agent RL qui apprend à négocier sur le marché des matières premières. En savoir plus sur ces cycles de R&D ici !

Cet article donnera un aperçu de nos découvertes les plus importantes. Nous commencerons par expliquer brièvement le concept d'apprentissage par renforcement, suivi par la définition d'un agent commercial et les avantages d'en utiliser un. Enfin, nous discuterons de trois méthodes différentes d'apprentissage par renforcement et de leurs avantages et inconvénients correspondants.

Un article plus approfondi sur le cahier des charges de nos agents et leurs réalisations, ainsi qu'une introduction à la librairie utilisée, se trouve ici . Le référentiel git correspondant peut être trouvé ici . Mais si vous êtes relativement nouveau dans le concept, veuillez lire ce qui suit !

Qu'est-ce que l'apprentissage par renforcement ?

En termes simples, l'apprentissage par renforcement est la pratique de l'apprentissage par essais et erreurs. Le modèle apprend en étant récompensé pour les bonnes décisions et pénalisé pour les mauvaises décisions. Cela se fait en ajustant la taille d'une récompense, appelée signal de renforcement, qui est soit positive soit négative et toujours une conséquence d'une action entreprise par l'agent.

Un modèle d'apprentissage par renforcement relie un agent à un environnement par le biais d'une action. Une visualisation de ceci est montrée dans la figure ci-dessous. L'agent reçoit des informations sur l'état actuel ( St, ) de l'environnement. Sur la base de ces informations, l'agent décide d'une action ( At ), changeant l'état de l'environnement en St+1 . L'action est choisie dans la case d'action.

Action-space : La collection de toutes les actions disponibles pour l'agent qu'il peut utiliser pour interagir et changer son environnement

La récompense ou la punition de la transition d'état est communiquée à l'agent via le signal de récompense ( Rt ). Le système vise à apprendre une stratégie d'action qui trouve la valeur de récompense cumulée la plus élevée de l'environnement.

Un exemple simplifié d'une tâche d'apprentissage par renforcement dans la vie réelle est un enfant apprenant à marcher : l'enfant est l'agent qui essaie de naviguer dans l'environnement en prenant des mesures sous forme de marche ou de rampement. Lorsque certaines mesures sont prises, l'enfant reçoit une réaction favorable des parents, qui est analogue à la récompense. En revanche, l'enfant ne recevra aucune réaction lorsqu'il rampe ou ne bouge pas, ce qui représente une récompense ou une punition négative.

Figure 1 : Schéma d'un modèle d'apprentissage par renforcement

Que sont les agents commerciaux ?

Dans le contexte du trading, un agent d'apprentissage par renforcement est un trader dont l'espace d'action consiste à acheter, vendre ou détenir un actif. Le marché auquel appartient l'actif agira comme l'environnement. L'état peut être affiché sous la forme de statistiques sur le marché actuel, telles que les moyennes mobiles quotidiennes, les hauts et les bas quotidiens ou les volumes de négociation d'actifs. La récompense dans le trading peut être exprimée en termes de bénéfices, de pertes ou d'autres mesures de performance. En fin de compte, l'objectif de l'agent commercial est d'agir de manière à maximiser la récompense future, compte tenu du marché dans lequel il opère. Un bon agent devrait être capable de battre le marché en achetant à bas prix et en vendant à des prix plus élevés. Le comportement de l'agent dépendra largement de la méthode RL choisie. Trois méthodes couramment utilisées sont discutées dans la dernière section,

Pourquoi utiliser des agents commerciaux ?

Le trading automatisé, également connu sous le nom de trading algorithmique, implique l'utilisation d'algorithmes pour l'exécution des ordres commerciaux, qui est le domaine dont relèvent les agents commerciaux. Cette forme de trading présente de nombreux avantages par rapport au trading humain (manuel). Premièrement, une distinction doit être faite entre deux types de trading automatisé :

  1. Trading automatisé basé sur des règles, où la stratégie est prédéfinie et conçue par un humain.
  2. Trading automatisé basé sur l'apprentissage par renforcement, où la stratégie est apprise à l'aide de l'apprentissage par renforcement.
  • Les ordinateurs ont des temps d'exécution rapides, ce qui réduit le risque de manquer une opportunité en raison d'une réaction lente à l'état du marché.
  • Lorsque vous utilisez le trading automatisé, vous n'êtes pas exposé au risque de prendre de mauvaises décisions de trading en raison d'impacts émotionnels et psychologiques, dont les humains souffrent massivement. Les ordinateurs exécuteront toujours la stratégie pour laquelle ils ont été conçus.
  • Le trading automatisé bénéficie du fait que les ordinateurs sont nettement plus capables que les cerveaux humains de digérer des quantités massives de données en temps réel, permettant des stratégies beaucoup plus complexes.
  • Un agent commercial ne cesse d'apprendre et d'adapter sa stratégie. Une stratégie qui était autrefois rentable peut ne pas fonctionner lorsque la dynamique du marché change. Un agent commercial d'apprentissage par renforcement bien conçu devrait pouvoir ajuster sa stratégie en conséquence.

Comme mentionné précédemment, il existe différentes méthodes pour créer un agent d'apprentissage par renforcement. Il existe trois approches à utiliser lorsqu'il s'agit de transactions financières : critique uniquement, acteur uniquement et acteur critique. Critic-only, la méthode la plus utilisée dans le domaine du trading automatisé, fonctionne en résolvant un espace d'action discret sous la forme d'une fonction Q-value.

Fonction Q-value : mesure de la récompense totale attendue, en supposant que l'agent est dans l'état St et effectue l'action At

Ce faisant, il apprend la stratégie qui maximise la récompense future compte tenu de l'état actuel. Les exemples les plus connus sont le Q-learning et le Deep Q-learning. Le principal inconvénient de ces méthodes est qu'elles sont conçues pour traiter uniquement des problèmes d'espace d'action discret et fini, ce qui signifie que les actions qu'un agent peut entreprendre doivent être prédéfinies. Par conséquent, des techniques spéciales doivent être utilisées pour le convertir en un espace continu, comme dans le cas de l'achat ou de la vente de différentes quantités d'un produit.

La deuxième approche est appelée acteur uniquement ; ici, le plus grand avantage est que l'espace d'action peut être continu puisqu'une politique est directement apprise sous la forme d'une distribution de probabilité fournissant une stratégie pour un état donné.

Politique : mappage d'un état St aux probabilités de sélectionner chaque action possible At étant donné cet état

Cependant, le temps de formation plus long nécessaire pour obtenir les politiques optimales peut être considéré comme un inconvénient de cette approche.

Le troisième type, le cadre acteur-critique, combine les deux et forme simultanément deux modèles : l'acteur, qui apprend à amener l'agent à se comporter dans un certain état, et le critique, qui évalue l'efficacité réelle de l'action sélectionnée. Deux algorithmes critiques d'acteurs couramment utilisés sont PPO ou A2C. Bien que les deux méthodes soient très populaires en matière de négociation d'actions, il existe certaines différences entre le marché boursier et le marché des matières premières qui doivent être prises en compte lors du choix de notre approche.

La plus grande différence entre les deux marchés est la quantité de données disponibles. Une difficulté que rencontrent souvent les chercheurs lors de l'application des technologies d'IA au marché des produits de base est son manque de transparence et la conséquence associée du peu de données de marché disponibles. Heureusement, en tant que plate-forme d'information sur les produits de base, la collecte de ces données est notre activité quotidienne. La base de données de Vesper contient des milliers de séries de données couvrant, entre autres, les prix, les contrats à terme et les données sur l'offre et la demande de divers produits agricoles. Une autre différence à prendre en compte est la nature des biens échangés. Les matières premières agricoles étant physiques par définition, des contraintes supplémentaires doivent être prises en compte. Pensez aux dates d'expiration qui obligent les commerçants à vendre un produit avant une certaine date.

Dans cet article, nous avons abordé les bases de l'apprentissage par renforcement, ce que sont les agents commerciaux et pourquoi ils sont pertinents pour être appliqués au marché des matières premières. Nous avons également discuté des avantages qui en découlent et des méthodes d'apprentissage par renforcement les plus appropriées pour notre cas d'utilisation. Si vous êtes intéressé par la mise en œuvre réelle de cette méthode, veuillez jeter un œil ici, où nous montrons que les agents commerciaux surpassent de manière significative un modèle de référence.

Si vous êtes intéressé par le marché des matières premières et comment nous utilisons l'IA pour le perturber, abonnez-vous à notre publication !