深層強化学習-評価指標としての平均Q

Aug 18 2020

スペースインベーダーゲームの学習者向けにディープラーニングモデルを調整しています（下の画像）。状態は、プレーヤーと敵の間の相対的なユークリッド距離+プレーヤーとウィンドウの高さで正規化された6つの最も近い敵のレーザーの間の相対距離として定義されます（プレーヤーの位置が$(x_p,y_p)$ 敵の位置は $(x_e,y_e)$、相対的なユークリッド距離は $\frac{\sqrt{(x_p-x_e)^2+(y_p-y_e)^2}}{HEIGHT}$HEIGHTはウィンドウの高さです）。したがって、観測空間の次元は（10 + 6）であり、16ユニットのディープニューラルネットワークの入力になります。

私のエージェントは学習していないようで（報酬関数は増加しません）、メインのディープニューラルネットワークの出力である平均Q値を確認すると思いました。増加する代わりに、次のように述べました。平均Q値は、増加するのではなく安定します（下の図のように）。多くの調整パラメーター（バッチサイズ、ニューラルネットアーキテクチャ、パラメーターなど）を変更しましたが、それでも同じ問題が発生します。平均Q値が増加しない理由はありますか？

学習者に関するいくつかの結果は次のとおりです。

回答

NeilSlater Aug 20 2020 at 04:35

あなたの主な問題は、コア機能として相対距離を使用することだと思います。これには2つの大きな弱点があります。

オブジェクトまでの距離は、オブジェクトへの方向を示しません。最善の行動の選択はすべて、方向に決定的に依存しています。たとえば、プレイヤーの真上にある0.1ユニットの敵のレーザーボルトは回避行動を必要とする差し迫った危険ですが、左または右に0.1ユニットあるものは危険ではなく、ゲームウィンドウを離れようとしています。相対距離の特徴はこれらのシナリオを区別しませんが、それは重大な違いです。
少し重要ではありませんが、生の距離は動きの感覚を捉えていません。敵が順番に一貫して移動するが、常に正確に同じ方向または同じ速度であるとは限らない場合、それらの速度も状態の一部である必要があります。

機能を改善する1つの方法は、各アイテムに速度コンポーネントを追加して、プレーヤーからの接近または後退の速さを示すことです。これは少し役立つかもしれませんが、距離や速度よりも多くのデータが必要だと思います。

正規化を使用する必要があると思います $x, y$追跡されている各アイテムの特徴としての位置と正規化された速度$dx, dy$ 方向を変えることができるオブジェクトタイプの場合（敵のレーザーが常に真っ直ぐに落下している場合は、それらに何も必要ない場合があります）。