Каковы самые большие препятствия для внедрения RL в производство?
Я изучаю современное состояние обучения с подкреплением, и я считаю, что мы видим очень много приложений в реальном мире, использующих контролируемые и неконтролируемые алгоритмы обучения в производственной среде, но я не вижу того же самого с алгоритмами обучения с подкреплением.
Каковы самые большие препятствия для внедрения RL в производство?
Ответы
Существует сравнительно недавняя статья, посвященная этой проблеме: « Проблемы обучения с подкреплением в реальном мире» (2019) Габриэля Дюлак-Арнольда и др., В которой представлены все проблемы, которые необходимо решить, чтобы преобразовать RL в проблемы реального мира. подходы / решения для решения проблем и показатели для их оценки. Я лишь перечислю их (на основе заметок, сделанных несколько недель назад). Вы должны прочитать статью для получения более подробной информации. В любом случае для людей, знакомых с RL, они будут достаточно очевидны.
- Пакетное автономное и внеполитическое обучение
- Одно из текущих решений - выборка по важности
- Изучение реальной системы на ограниченных выборках (неэффективность выборки)
- Решения: MAML, использование экспертных демонстраций для начальной загрузки агента, подходы на основе моделей
- Высокомерные непрерывные пространства состояний и действий
- Решения: AE-DQN, DRRN
- Удовлетворение требований безопасности
- Решения: ограниченная MDP, стратегии безопасной разведки и т. Д.
- Частичная наблюдаемость и нестационарность
- Решения частичной наблюдаемости: включение истории в наблюдение, повторяющиеся нейронные сети и т. Д.
- Решение проблемы нестационарности: рандомизация домена или идентификация системы
- Неуказанные и многоцелевые функции вознаграждения
- Решения: CVaR, Distributional DQN
- Объяснимость
- Вывод в реальном времени
- Системные задержки (см. Также этот и этот ответы)
Также есть более свежая и связанная с этим статья Габриэля Дюлак-Арнольда и др. « Эмпирическое исследование проблем реального обучения с подкреплением» (2020), и здесь у вас есть связанный с экспериментами код.
Однако обратите внимание, что RL (в частности, бандиты) уже используется для решения как минимум одной реальной проблемы [ 1 , 2 ]. См. Также этот ответ.
Технические барьеры: должны быть, по крайней мере, эти большие барьеры здравого смысла:
- Метод проб и ошибок затрудняет изучение модели (слишком много) по сравнению с готовыми к использованию контролируемыми данными.
- Количество временных шагов (которое обычно равно количеству действий агента на траектории) велико, поэтому исследование методом перебора не сработает, поскольку количество попыток нахождения ошибок экспоненциально, хотя отрицательные награды могут помочь сократить дерево перебора.
- В реальной жизни RL занимает неограниченное количество эпизодов (для каждого эпизода должна быть изучена последовательность действий), а постепенное обучение становится все труднее и труднее со временем с более изученными данными, если не будут удалены некоторые прошлые и больше не связанные данные , как и люди, мы забываем кое-что из прошлого, чтобы больше узнать, больше запомнить настоящее.
Технические барьеры - это в первую очередь препятствия для их применения в бизнесе. Люди могут довольно быстро производить некоторые контролируемые данные вручную, и поэтому контролируемое обучение обычно выбирается первым, никто не хочет пробовать RL.
Труднее найти человеческие ресурсы: инженеры ИИ с опытом контролируемого обучения более популярны, и их легче найти; меньше работы с RL, поэтому бизнес-проекты с RL не выполняются легко.
Однако, с моей точки зрения, RL очень многообещающе в будущем, поскольку объекты ИИ теперь все больше и больше действуют сами по себе.