Apa yang diwakili oleh fitur-fitur negara bagian KukaGymEnv?
Saya mencoba menggunakan DDPG yang ditambah dengan Hindsight Experience Replay (HER) di KukaGymEnv pybullet .
Untuk merumuskan vektor fitur untuk keadaan tujuan, saya perlu mengetahui apa yang diwakili oleh fitur dari keadaan lingkungan. Tepatnya, vektor keadaan tipikal KukaGymEnv adalah objek numpy.ndarray
kelas dengan bentuk (9,)
.
Apa yang diwakili oleh masing-masing dari 8 elemen ini, dan bagaimana saya dapat merumuskan vektor status tujuan untuk lingkungan ini? Saya mencoba menelusuri kode sumber KukaGymEnv, tetapi tidak dapat memahami apa pun yang berguna.
Jawaban
Ini jawaban yang tidak lengkap, tapi mungkin bisa membantu.
Status Anda dibaca oleh fungsinya getExtendedObservation()
. Fungsi ini membuat dua hal: memanggil fungsi getObservation()
dari kode sumber ini , mendapat status, dan memperluas status ini dengan tiga komponen:
relatif posisi x, y dan sudut euler balok dalam ruang gripper
Tapi apa 5 komponen pertama yang dikembalikan getObservation()
? Dari yang saya baca, ada posisi, kemudian sudut euler menggambarkan orientasinya. Tapi itu akan membuat 6 + 3 = 9 fitur, jadi hanya ada 2 posisi, atau hanya 2 sudut euler. Anda mungkin tahu kuka lebih baik dari saya dan tahu jawabannya :).
Jadi, untuk menyimpulkan:
state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]
(Baik Z atau Beta tidak ada)