O que representam os recursos de estado do KukaGymEnv?
Estou tentando usar o DDPG aumentado com Hindsight Experience Replay (HER) no KukaGymEnv do pybullet .
Para formular o vetor de características para o estado objetivo, preciso saber o que representam as características do estado do ambiente. Para ser preciso, um vetor de estado típico de KukaGymEnv é um objeto da numpy.ndarray
classe com uma forma de (9,)
.
O que cada um desses 8 elementos representa e como posso formular o vetor de estado objetivo para esse ambiente? Tentei passar pelo código-fonte do KukaGymEnv, mas não consegui entender nada de útil.
Respostas
Aqui está uma resposta incompleta, mas pode ajudar.
Seu estado é lido pela função getExtendedObservation()
. Esta função faz duas coisas: ela chama a função getObservation()
deste código-fonte , obtém um estado e estende este estado com três componentes:
posição relativa x, y e ângulo euler do bloco no espaço da garra
Mas quais são os 5 primeiros componentes retornados por getObservation()
? Pelo que li, existem posições e ângulos euler descrevendo a orientação. Mas isso faria 6 + 3 = 9 recursos, então há apenas 2 posições ou apenas 2 ângulos euler. Você pode conhecer kuka melhor do que eu e saber a resposta desta :).
Entao, para resumir :
state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]
(Z ou Beta está ausente)