मोंटे कार्लो पद्धति में राज्य-क्रिया मूल्य को अद्यतन करते समय, क्या वापसी प्रत्येक राज्य-क्रिया जोड़ी के लिए समान है?
इस पद का उल्लेख करते हुए , राज्य-क्रिया मूल्य को अद्यतन करने के लिए निम्न सूत्र में
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
का मूल्य है $G$ (वापसी) हर राज्य-कार्रवाई के लिए समान $(s,a)$ जोड़ी?
मैं इस बिंदु को लेकर थोड़ा भ्रमित हूं, इसलिए मैं किसी भी स्पष्टीकरण का धन्यवाद करूंगा।
जवाब
चर्चा गरीब अंकन का उपयोग करती है, एक समय सूचकांक होना चाहिए। आप tuples की एक सूची प्राप्त करते हैं$(s_t, a_t, r_t, s_{t+1})$ और फिर, MC की हर यात्रा के लिए, आप अपडेट करें
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
कहां है $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, प्रत्येक के लिए $t$एपिसोड में। आप देख सकते हैं कि प्रत्येक टाइम स्टेप के लिए रिटर्न की गणना टाइमस्टेप के बाद के समय के लिए की जाती है, और इसलिए जरूरी नहीं कि टाइम स्टेप्स में भी ऐसा ही हो।