RLを本番環境に導入するための最大の障壁は何ですか?
私は強化学習の最先端を研究しています。私のポイントは、実世界では教師あり学習アルゴリズムと教師なし学習アルゴリズムを使用したアプリケーションが非常に多く見られるということですが、強化学習アルゴリズムでは同じことはわかりません。
RLを本番環境に導入するための最大の障壁は何ですか?
回答
この問題に取り組む比較的最近の論文があります:Gabriel Dulac-Arnold et al。による実世界の強化学習の課題(2019)、これはRLを実世界の問題に生産するために取り組む必要があるすべての課題を提示します。課題を解決するためのアプローチ/ソリューション、およびそれらを評価するためのメトリック。私はそれらだけをリストします(私が数週間前に取ったメモに基づいて)。詳細については、この論文をお読みください。いずれにせよ、RLに精通している人にとっては、それらは非常に明白です。
- バッチオフラインおよびオフポリシートレーニング
- 現在の解決策の1つは、重要度サンプリングです。
- 限られたサンプルから実際のシステムで学習する(サンプルの非効率性)
- ソリューション:MAML、専門家によるデモンストレーションを使用してエージェントをブートストラップする、モデルベースのアプローチ
- 高次元の連続状態とアクションスペース
- ソリューション:AE-DQN、DRRN
- 安全上の制約を満たす
- 解決策:制約付きMDP、安全な探査戦略など。
- 部分的な可観測性と非定常性
- 部分的な可観測性の解決策:観測に履歴を組み込む、リカレントニューラルネットワークなど。
- 非定常性の解決策:ドメインのランダム化またはシステム同定
- 不特定の多目的報酬関数
- ソリューション:CVaR、配布DQN
- 説明性
- リアルタイム推論
- システムの遅延(これとこの回答も参照)
Gabriel Dulac-Arnold et alによる、より最近の関連する論文、実世界の強化学習の課題の経験的調査(2020)もあります。ここには、実験に関連するコードがあります。
RL(特に、盗賊)が既に少なくとも1つの実世界の問題を解決するために使用されていることが、注記[ 1、2 ]。この回答も参照してください。
技術的な障壁:少なくともこれらの常識的な大きな障壁があるはずです:
- 試行錯誤の手法では、すぐに使用できる教師ありデータと比較して、モデルの学習が困難になります(多すぎます)。
- タイムステップの数(通常は軌道内のエージェントのアクションの数に等しい)が多いため、エラーを見つけるための試行の数は指数関数的であるため、ブルートフォース探索は機能しませんが、負の報酬は短縮に役立つ可能性がありますブルートフォースツリー。
- 実生活のRLは無制限の数のエピソードを取り(エピソードごとに、一連のアクションを学習する必要があります)、過去および関連性のないデータが削除されない限り、増分トレーニングはより探索されたデータに合わせてますます困難になります、人間と同じように、私たちは過去のいくつかを忘れて、より多くを学び、より多くの現在を覚えています。
技術的な障壁は、最初はそれらをビジネスに適用する際の障壁です。教師ありデータは手動でかなり迅速に作成される場合があるため、通常は教師あり学習が最初に選択され、RLを試すことは誰も望んでいません。
人的資源を見つけるのが難しい:教師あり学習の経験を持つAIエンジニアの方が人気があり、見つけやすい人もいます。RLでの作業が少ないため、RLを使用するとビジネスプロジェクトを簡単に実行できません。
しかし、私の観点からは、AIエンティティがますます独自のものになっているため、RLは将来非常に有望です。