KukaGymEnv'in durum özellikleri neyi temsil ediyor?
Ben DDPG üzerinde Hindsight Deneyim Replay (HER) artar kullanmaya çalışıyor pybullet en KukaGymEnv .
Hedef durum için öznitelik vektörünü formüle etmek için, ortamın durumunun özelliklerinin neyi temsil ettiğini bilmem gerekiyor. Daha net olmak gerekirse, KukaGymEnv tipik bir durum vektörü bir amacı, numpy.ndarray
bir şekle sahip sınıfı (9,)
.
Bu 8 öğenin her biri neyi temsil ediyor ve bu ortam için hedef durum vektörünü nasıl formüle edebilirim? Ben geçmekte çalıştı kaynak kodu KukaGymEnv ki, ama yararlı bir şey anlamak edemedi.
Yanıtlar
İşte eksik bir cevap, ancak yardımcı olabilir.
Durumunuz fonksiyon tarafından okunur getExtendedObservation()
. Bu fonksiyon iki şey yapar: o işlevini çağırır getObservation()
gelen bu kaynak kodu , bir devlet alır ve üç bileşenleri ile bu durumu uzatmak:
tutucu uzayda göreli x, y konumu ve euler blok açısı
Peki geri dönen ilk 5 bileşen getObservation()
nedir? Okuduklarımdan, konumlar var, sonra yönelimi tanımlayan euler açıları. Ancak bu 6 + 3 = 9 özellik yapar, yani ya sadece 2 konum ya da sadece 2 euler açısı vardır. Kuka'yı benden daha iyi tanıyor ve bunun cevabını biliyor olabilirsiniz :).
Yani özetlemek gerekirse:
state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]
(Z veya Beta yoktur)