मोंटे कार्लो पद्धति में राज्य-क्रिया मूल्य को अद्यतन करते समय, क्या वापसी प्रत्येक राज्य-क्रिया जोड़ी के लिए समान है?

Jan 02 2021

इस पद का उल्लेख करते हुए , राज्य-क्रिया मूल्य को अद्यतन करने के लिए निम्न सूत्र में

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

का मूल्य है $G$ (वापसी) हर राज्य-कार्रवाई के लिए समान $(s,a)$ जोड़ी?

मैं इस बिंदु को लेकर थोड़ा भ्रमित हूं, इसलिए मैं किसी भी स्पष्टीकरण का धन्यवाद करूंगा।

जवाब

2 DavidIreland Jan 02 2021 at 08:43

चर्चा गरीब अंकन का उपयोग करती है, एक समय सूचकांक होना चाहिए। आप tuples की एक सूची प्राप्त करते हैं$(s_t, a_t, r_t, s_{t+1})$ और फिर, MC की हर यात्रा के लिए, आप अपडेट करें

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

कहां है $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, प्रत्येक के लिए $t$एपिसोड में। आप देख सकते हैं कि प्रत्येक टाइम स्टेप के लिए रिटर्न की गणना टाइमस्टेप के बाद के समय के लिए की जाती है, और इसलिए जरूरी नहीं कि टाइम स्टेप्स में भी ऐसा ही हो।