Warum brauchen wir wichtige Stichproben?

Jan 04 2021

Ich habe die Methode zur Verbesserung der Politik außerhalb der Politik studiert. Dann stieß ich auf wichtige Stichproben . Ich habe die Mathematik hinter der Berechnung vollständig verstanden, aber ich frage mich, was das praktische Beispiel für die Stichprobenerhebung ist.

In einem Video heißt es beispielsweise, dass wir hier den erwarteten Wert eines voreingenommenen Würfels berechnen müssen$g(x)$in Bezug auf den erwarteten Wert fairer Würfel, $f(x)$. Hier ist ein Screenshot des Videos.

Warum brauchen wir das, wenn wir die Wahrscheinlichkeitsverteilung der voreingenommenen Würfel haben?

Antworten

7 DavidIreland Jan 04 2021 at 16:20

Wichtige Stichproben werden normalerweise verwendet, wenn es schwierig ist, die interessierende Verteilung abzutasten - z. B. könnte es rechenintensiv sein, Stichproben aus der Verteilung zu ziehen - oder wenn die Verteilung nur bis zu einer multiplikativen Konstante bekannt ist, wie dies in der Bayes'schen Statistik der Fall ist unlösbar, um die Grenzwahrscheinlichkeit zu berechnen; das ist

$$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} \propto p(x|\theta)p(\theta)$$

wo $p(x)$ist unsere marginale Wahrscheinlichkeit, die unlösbar sein kann, und daher können wir nicht den gesamten posterioren Wert berechnen. Daher müssen andere Methoden verwendet werden, um Proben aus dieser Verteilung zu generieren. Wenn ich unlösbar sage, beachte das

$$p(x) = \int_{\Theta} p(x|\theta)p(\theta) d\theta$$

und so unlösbar bedeutet hier, dass entweder a) das Integral keine analytische Lösung hat oder b) eine numerische Methode zur Berechnung dieses Integrals zu teuer sein kann, um ausgeführt zu werden.

Im Fall Ihres Würfelbeispiels haben Sie Recht, dass Sie die theoretische Erwartung der Bias-Würfel analytisch berechnen könnten, und dies wäre wahrscheinlich eine relativ einfache Berechnung. Um zu begründen, warum in diesem Szenario eine wichtige Stichprobe nützlich sein kann, sollten Sie die Erwartung mithilfe von Monte-Carlo-Methoden berechnen. Es wäre viel einfacher, eine zufällige ganze Zahl von 1 bis 6 gleichmäßig abzutasten und das Abtastverhältnis für die Wichtigkeit zu berechnen$x \frac{g(x)}{f(x)}$ als es wäre, Stichproben aus den Bias-Würfeln zu ziehen, nicht zuletzt, weil die meisten Programmiersprachen Methoden eingebaut haben, um Ganzzahlen zufällig abzutasten.

Da Ihre Frage als Verstärkungslernen gekennzeichnet ist, werde ich hinzufügen, warum sie in der RL-Domäne nützlich ist. Ein Grund dafür ist, dass es möglicherweise teuer ist, unsere Interessenpolitik zu testen. Stattdessen können wir nur Aktionen aus einer anderen einfachen Politik generieren, während wir noch etwas über die Interessenpolitik lernen. Zweitens könnten wir an einer Politik interessiert sein, die deterministisch (gierig) ist, aber dennoch erforscht werden kann, sodass wir eine Verteilung außerhalb der Politik haben können, die viel häufiger erforscht wird.

NB: Es ist möglicherweise nicht klar, wie Sie die Wichtigkeitsabtastung verwenden können, wenn die Verteilung nur bis zu einer Konstanten bekannt ist. Eine Erklärung finden Sie in dieser Antwort .