คุณสมบัติสถานะของ KukaGymEnv แสดงถึงอะไร?
ฉันพยายามที่จะใช้ DDPG เสริมเข้ากับประสบการณ์ย้อนหลัง Replay (เธอ) ในpybullet ของ KukaGymEnv
ในการกำหนดเวกเตอร์คุณลักษณะสำหรับสถานะเป้าหมายฉันจำเป็นต้องทราบว่าคุณลักษณะของสถานะของสภาพแวดล้อมเป็นตัวแทนของอะไร จะแม่นยำเวกเตอร์รัฐโดยทั่วไปของ KukaGymEnv เป็นวัตถุของที่เรียนกับรูปร่างของnumpy.ndarray
(9,)
องค์ประกอบทั้ง 8 นี้แสดงถึงอะไรและฉันจะกำหนดเวกเตอร์สถานะเป้าหมายสำหรับสภาพแวดล้อมนี้ได้อย่างไร ฉันพยายามอ่านซอร์สโค้ดของ KukaGymEnv แต่ไม่สามารถเข้าใจอะไรที่เป็นประโยชน์ได้
คำตอบ
นี่เป็นคำตอบที่ไม่สมบูรณ์ แต่อาจช่วยได้
getExtendedObservation()
สถานะของคุณจะถูกอ่านโดยฟังก์ชั่น ฟังก์ชันนี้สร้างสองสิ่ง: เรียกใช้ฟังก์ชันgetObservation()
จากซอร์สโค้ดนี้รับสถานะและขยายสถานะนี้ด้วยส่วนประกอบสามส่วน:
x สัมพัทธ์ตำแหน่ง y และมุมของบล็อก euler ในพื้นที่กริปเปอร์
แต่ส่วนประกอบ 5 อย่างแรกที่ส่งกลับมาgetObservation()
คืออะไร? จากสิ่งที่ฉันอ่านมีตำแหน่งแล้วมุม euler อธิบายการวางแนว แต่นั่นจะทำให้คุณสมบัติ 6 + 3 = 9 ดังนั้นจึงมีเพียง 2 ตำแหน่งหรือเพียง 2 มุมของ euler คุณอาจรู้จักคูกะดีกว่าฉันและรู้คำตอบของอันนี้ :)
ดังนั้นเพื่อสรุป:
state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]
(ไม่มี Z หรือ Beta)