Что такое торговые агенты по обучению с подкреплением и зачем они вам нужны при торговле сырьевыми товарами

Обучение с подкреплением, область машинного обучения, может быть наиболее широко известна в связи с автономными транспортными средствами: когда автомобиль учится водить путем проб и ошибок, и после миллиона раз он знает, как повернуть и остановиться на красный свет. светофор. — Я знаю, что это слишком упрощенно, но суть вы поняли.
Менее известное применение обучения с подкреплением можно найти в мире трейдинга. Большинство из нас знакомы с применением моделей машинного обучения к данным временных рядов. В Vesper мы делаем это, чтобы прогнозировать цены на различные сельскохозяйственные товары, производство и уровень запасов на несколько месяцев вперед. Хотя эти модели могут указать, куда движется рынок, они не могут сказать вам, какие действия следует предпринять в зависимости от их результатов — агенты обучения с подкреплением могут сказать вам, когда продавать, покупать или удерживать ваши активы, основываясь на том, как ведет себя рынок. В то время как подобные приложения становятся все более популярными на фондовых рынках и рынках форекс, кейсов, применимых к товарным рынкам, пока не найдено.
Вместе с Slimmer.AI мы (команда Vesper Data Science) потратили три месяца на исследование и разработку агента RL, который учится торговать на товарном рынке. Узнайте больше об этих циклах исследований и разработок здесь !
В этой статье будет представлен обзор наших наиболее важных выводов. Мы начнем с краткого объяснения концепции обучения с подкреплением, а затем дадим определение торгового агента и преимущества его использования. Наконец, мы обсудим три разных метода обучения с подкреплением и их соответствующие плюсы и минусы.
Более глубокую статью о спецификациях наших агентов и их достижениях, а также введение в используемую библиотеку можно найти здесь . Соответствующий репозиторий git можно найти здесь . Но если вы относительно плохо знакомы с этой концепцией, пожалуйста, прочитайте!
Что такое обучение с подкреплением?
Проще говоря, обучение с подкреплением — это практика обучения методом проб и ошибок. Модель учится, получая вознаграждение за хорошие решения и наказание за плохие решения. Это делается путем корректировки размера вознаграждения, называемого сигналом подкрепления, которое бывает положительным или отрицательным и всегда является следствием действия, предпринятого агентом.
Модель обучения с подкреплением соединяет агента со средой посредством действия. Визуализация этого показана на рисунке ниже. Агенту предоставляется информация о текущем состоянии ( St, ) среды. На основе этой информации агент принимает решение о действии ( At ), изменяя состояние среды на St+1 . Действие выбирается из поля действия.
Пространство действий : набор всех действий, доступных агенту, которые он может использовать для взаимодействия и изменения своей среды.
Вознаграждение или наказание за переход состояния сообщается агенту через сигнал вознаграждения ( Rt ). Система направлена на изучение стратегии действий, которая находит наивысшее совокупное значение вознаграждения в среде.
Упрощенным примером реальной задачи обучения с подкреплением является ребенок, который учится ходить: ребенок — это агент, который пытается ориентироваться в окружающей среде, выполняя действия в форме ходьбы или ползания. При совершении каких-либо шагов ребенок получает благоприятную реакцию родителей, аналогичную вознаграждению. Напротив, ребенок не получит никакой реакции, когда ползает или не двигается, что представляет собой отрицательное вознаграждение или наказание.
Кто такие торговые агенты?
В контексте торговли агент обучения с подкреплением — это трейдер, пространство действий которого состоит из покупки, продажи или удержания актива. Рынок, частью которого является актив, будет выступать в качестве среды. Состояние может отображаться в виде статистики о текущем рынке, такой как дневные скользящие средние, дневные максимумы и минимумы или объемы торговли активами. Вознаграждение в торговле может быть выражено в виде прибыли, убытков или других показателей эффективности. В конечном счете, цель торгового агента состоит в том, чтобы действовать таким образом, чтобы максимизировать будущую прибыль с учетом рынка, на котором он работает. Хороший агент должен быть в состоянии обыграть рынок, покупая по низким ценам и продавая по более высоким. Поведение агента во многом будет зависеть от выбранного метода RL. В последнем разделе обсуждаются три широко используемых метода.
Зачем использовать торговых агентов?
Автоматическая торговля, также известная как алгоритмическая торговля, включает использование алгоритмов для выполнения торговых приказов, к которым относятся торговые агенты. Эта форма торговли имеет много преимуществ по сравнению с ручной торговлей. Во-первых, следует различать два типа автоматической торговли:
- Автоматическая торговля на основе правил, при которой стратегия предопределяется и разрабатывается человеком.
- Автоматическая торговля на основе обучения с подкреплением, при которой стратегия изучается с помощью обучения с подкреплением.
- Компьютеры имеют быстрое время исполнения, что снижает риск упустить возможность из-за медленной реакции на состояние рынка.
- При использовании автоматической торговли вы не подвергаетесь риску принятия неверных торговых решений из-за эмоциональных и психологических воздействий, от которых люди сильно страдают. Компьютеры всегда будут выполнять стратегию, для которой они были созданы.
- Автоматизированная торговля выигрывает от того, что компьютеры значительно лучше, чем человеческий мозг, способны обрабатывать огромные объемы данных в режиме реального времени, что позволяет использовать гораздо более сложные стратегии.
- Торговый агент никогда не прекращает учиться и адаптировать свою стратегию. Стратегия, которая когда-то была прибыльной, может перестать работать при изменении динамики рынка. Хорошо продуманный торговый агент, обучающийся с подкреплением, должен иметь возможность соответствующим образом скорректировать свою стратегию.
Как упоминалось ранее, существуют различные методы создания агента обучения с подкреплением. При работе с финансовой торговлей можно использовать три подхода: только критика, только актор и актор-критик. Только критик, наиболее часто используемый метод в области автоматической торговли, работает путем решения дискретного пространства действий в форме функции Q-значения.
Функция Q-значения: мера общего ожидаемого вознаграждения в предположении, что агент находится в состоянии St и выполняет действие At.
Делая это, он изучает стратегию, которая максимизирует будущую награду с учетом текущего состояния. Наиболее известными примерами являются Q-обучение и глубокое Q-обучение. Ключевым недостатком этих методов является то, что они предназначены только для решения дискретных проблем с ограниченным пространством действий, а это означает, что действия, которые может предпринять агент, должны быть заранее определены. Следовательно, необходимо использовать специальные методы, чтобы преобразовать его в непрерывное пространство, как в случае покупки или продажи различных количеств продукта.
Второй подход называется только актерским; здесь самое большое преимущество заключается в том, что пространство действий может быть непрерывным, поскольку политика непосредственно изучается в форме распределения вероятностей, обеспечивающего стратегию для любого заданного состояния.
Политика: отображение из некоторого состояния St в вероятности выбора каждого возможного действия At при данном состоянии
Тем не менее, более длительное время обучения, необходимое для получения оптимальных политик, можно рассматривать как недостаток этого подхода.
Третий тип, модель актер-критик, сочетает в себе две модели и одновременно обучает две модели: актера, который узнает, как заставить агента вести себя в определенном состоянии, и критика, который оценивает, насколько эффективным было выбранное действие на самом деле. Двумя широко используемыми алгоритмами актер-критик являются PPO или A2C. Хотя оба метода очень популярны при рассмотрении торговли акциями, существуют некоторые различия между фондовым и товарным рынком, которые следует учитывать при выборе нашего подхода.
Самая большая разница между двумя рынками заключается в количестве доступных данных. Трудность, с которой часто сталкиваются исследователи при применении технологий ИИ на товарном рынке, заключается в отсутствии прозрачности и, как следствие, ограниченности доступных рыночных данных. К счастью, наша повседневная работа — это платформа сбора данных о товарах. База данных Vesper содержит тысячи рядов данных, охватывающих, среди прочего, цены, фьючерсы, а также данные о спросе и предложении различных сельскохозяйственных товаров. Еще одно различие, которое необходимо учитывать, — это характер продаваемых товаров. Поскольку сельскохозяйственные товары являются физическими по определению, необходимо учитывать дополнительные ограничения. Подумайте о сроках годности, которые вынуждают трейдеров продавать товар до определенной даты.
В этой статье мы обсудили основы обучения с подкреплением, что такое торговые агенты и почему они актуальны для применения на товарном рынке. Мы также обсудили преимущества, которые они дают, и какие методы обучения с подкреплением наиболее подходят для нашего случая использования. Если вас интересует реальная реализация этого метода, посмотрите здесь, где мы показываем, что торговые агенты значительно превосходят эталонную модель.
Если вас интересует товарный рынок и то, как мы используем ИИ, чтобы изменить его, подпишитесь на нашу публикацию !