KUKGymEnv की राज्य विशेषताएं क्या दर्शाती हैं?
मैं pybullet के KUKGymEnv पर Hindsight Experience Replay (HER) के साथ संवर्धित DDPG का उपयोग करने की कोशिश कर रहा हूं ।
लक्ष्य राज्य के लिए फीचर वेक्टर तैयार करने के लिए, मुझे यह जानना होगा कि पर्यावरण की स्थिति की विशेषताएं क्या दर्शाती हैं। सटीक होने के लिए, KUKGymEnv का एक विशिष्ट राज्य वेक्टर numpy.ndarray
वर्ग है जिसका एक आकार है (9,)
।
इन 8 तत्वों में से प्रत्येक क्या दर्शाता है, और मैं इस वातावरण के लिए लक्ष्य राज्य वेक्टर कैसे बना सकता हूं? मैंने KUKGymEnv के स्रोत कोड के माध्यम से जाने की कोशिश की , लेकिन कुछ भी उपयोगी समझने में असमर्थ था।
जवाब
यहाँ एक अधूरा जवाब है, लेकिन यह मदद कर सकता है।
आपका राज्य फ़ंक्शन द्वारा पढ़ा जाता है getExtendedObservation()
। यह फ़ंक्शन दो चीजें बनाता है: यह इस स्रोत कोडgetObservation()
से फ़ंक्शन को कॉल करता है , एक राज्य प्राप्त करता है, और इस राज्य को तीन घटकों के साथ विस्तारित करता है:
ग्रिपर स्पेस में ब्लॉक के सापेक्ष x, y स्थिति और यूलर कोण
लेकिन 5 पहले घटक किसके द्वारा लौटाए गए हैं getObservation()
? मैंने जो पढ़ा है, उसमें से स्थितिएँ हैं, तो अभिविन्यास का वर्णन करने वाले यूलर कोण हैं। लेकिन इससे 6 + 3 = 9 फीचर बनेंगे, इसलिए या तो केवल 2 स्थान हैं, या केवल 2 यूलर कोण हैं। आप कुका को मुझसे बेहतर जान सकते हैं और इस एक का उत्तर जान सकते हैं :)।
इसलिए योग करने के लिए :
state = [X, Y, (Z, ) , Alpha, Gamma, (Beta, ), gripX, gripY, gripAlpha]
(या तो जेड या बीटा अनुपस्थित है)