KukaGymEnv'in durum özellikleri neyi temsil ediyor?

Aug 18 2020

Ben DDPG üzerinde Hindsight Deneyim Replay (HER) artar kullanmaya çalışıyor pybullet en KukaGymEnv .

Hedef durum için öznitelik vektörünü formüle etmek için, ortamın durumunun özelliklerinin neyi temsil ettiğini bilmem gerekiyor. Daha net olmak gerekirse, KukaGymEnv tipik bir durum vektörü bir amacı, numpy.ndarraybir şekle sahip sınıfı (9,).

Bu 8 öğenin her biri neyi temsil ediyor ve bu ortam için hedef durum vektörünü nasıl formüle edebilirim? Ben geçmekte çalıştı kaynak kodu KukaGymEnv ki, ama yararlı bir şey anlamak edemedi.

Yanıtlar

1 16Aghnar Aug 18 2020 at 14:09

İşte eksik bir cevap, ancak yardımcı olabilir.

Durumunuz fonksiyon tarafından okunur getExtendedObservation(). Bu fonksiyon iki şey yapar: o işlevini çağırır getObservation()gelen bu kaynak kodu , bir devlet alır ve üç bileşenleri ile bu durumu uzatmak:

tutucu uzayda göreli x, y konumu ve euler blok açısı

Peki geri dönen ilk 5 bileşen getObservation()nedir? Okuduklarımdan, konumlar var, sonra yönelimi tanımlayan euler açıları. Ancak bu 6 + 3 = 9 özellik yapar, yani ya sadece 2 konum ya da sadece 2 euler açısı vardır. Kuka'yı benden daha iyi tanıyor ve bunun cevabını biliyor olabilirsiniz :).

Yani özetlemek gerekirse:

state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]

(Z veya Beta yoktur)