Что представляют собой государственные особенности KukaGymEnv?
Я пытаюсь использовать DDPG, дополненный Hindsight Experience Replay (HER), на KukaGymEnv pybullet .
Чтобы сформулировать вектор признаков для состояния цели, мне нужно знать, что представляют собой особенности состояния окружающей среды. Чтобы быть точным, типичный вектор состояния KukaGymEnv - это объект numpy.ndarray
класса с формой (9,)
.
Что представляют собой эти 8 элементов, и как я могу сформулировать вектор состояния цели для этой среды? Я попытался просмотреть исходный код KukaGymEnv, но не смог понять ничего полезного.
Ответы
Вот неполный ответ, но он может помочь.
Ваше состояние считывается функцией getExtendedObservation()
. Эта функция делает две вещи: она вызывает функцию getObservation()
из этого исходного кода , получает состояние и расширяет это состояние тремя компонентами:
относительные координаты x, y и угол Эйлера блока в пространстве захвата
Но какие 5 компонентов возвращают getObservation()
? Из того, что я читал, есть позиции, а затем углы Эйлера, описывающие ориентацию. Но это даст 6 + 3 = 9 функций, так что либо будет только 2 позиции, либо только 2 угла Эйлера. Возможно, ты знаешь Куку лучше меня и знаешь ответ на этот вопрос :).
Итак, подведем итоги:
state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]
(Отсутствует либо Z, либо бета)