KukaGymEnvの状態機能は何を表していますか?

Aug 18 2020

私はDDPGが上知恵経験リプレイ(HER)で拡張を使用しようとしてpybulletのKukaGymEnv。

目標状態の特徴ベクトルを定式化するには、環境の状態の特徴が何を表すかを知る必要があります。正確には、KukaGymEnvの典型的な状態ベクトルはnumpy.ndarray、形状が(9,)。のクラスのオブジェクトです。

これらの8つの要素はそれぞれ何を表しており、この環境の目標状態ベクトルをどのように定式化できますか?私はを通過しようとしたソースコードKukaGymEnvのが、有益な何かを理解することができませんでした。

回答

1 16Aghnar Aug 18 2020 at 14:09

これは不完全な答えですが、役立つかもしれません。

あなたの状態は関数によって読み取られますgetExtendedObservation()。この関数は2つのことを行います。このソースコードgetObservation()から関数を呼び出し、状態を取得し、この状態を3つのコンポーネントで拡張します。

グリッパースペース内のブロックの相対的なx、y位置とオイラー角

しかし、返される最初の5つのコンポーネントはgetObservation()何ですか?私が読んだものから、位置があり、次に方向を説明するオイラー角があります。ただし、これにより6 + 3 = 9のフィーチャが作成されるため、位置は2つだけ、またはオイラー角は2つだけになります。あなたは私よりもkukaをよく知っていて、これの答えを知っているかもしれません:)。

したがって、要約すると:

state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]

(Zまたはベータのいずれかが存在しません)