Warum übertrifft das Lernen außerhalb der Politik das Lernen außerhalb der Politik?

Nov 26 2020

Ich lerne selbst über Reinforcement Learning mit verschiedenen Online-Ressourcen. Ich habe jetzt ein grundlegendes Verständnis dafür, wie RL funktioniert.

Ich habe das in einem Buch gesehen :

Q-Learning lernt nicht in der Politik. Ein Lernender außerhalb der Richtlinien lernt den Wert einer optimalen Richtlinie unabhängig von den Aktionen des Agenten, solange er genug erforscht.

Ein Lernender auf Richtlinien lernt den Wert der vom Agenten ausgeführten Richtlinie, einschließlich der Erkundungsschritte.

Ich verstehe den Unterschied jedoch nicht ganz. Zweitens bin ich auf die Tatsache gestoßen, dass Lernende außerhalb der Richtlinien besser arbeiten als Agenten auf Richtlinien. Ich verstehe nicht, warum das so wäre, dh warum Off-Policy besser wäre als On-Policy.

Antworten

4 kaiwenw Nov 26 2020 at 12:23

Dieser Beitrag enthält viele Antworten, die den Unterschied zwischen On-Policy und Off-Policy beschreiben.

Ihr Buch bezieht sich möglicherweise darauf, wie die aktuellen (DQN-basierten) SOTA-Algorithmen (State-of-the-Art) wie Ape-X , R2D2 , Agent57 technisch "off-policy" sind, da sie eine (sehr große) verwenden !) Wiedergabepuffer, oft verteilt verteilt. Dies hat eine Reihe von Vorteilen, z. B. die Wiederverwendung von Erfahrungen und nicht zu vergessen wichtige Erfahrungen.

Ein weiterer Vorteil ist, dass Sie viel Erfahrung verteilt sammeln können. Da RL in der Regel nicht durch die Berechnung für das Training, sondern durch das Sammeln von Erfahrungen einen Engpass aufweist, kann der verteilte Wiedergabepuffer in Ape-X ein viel schnelleres Training in Sekunden, jedoch keine Stichprobenkomplexität ermöglichen.

Es ist jedoch wichtig zu betonen, dass diese Wiedergabepuffer-Ansätze in dem Sinne, dass der Wiedergabepuffer ständig mit neuen Erfahrungen aktualisiert wird, fast auf dem neuesten Stand sind. Die Richtlinie im Wiedergabepuffer unterscheidet sich also "nicht zu stark" von Ihrer aktuellen Richtlinie (nur wenige Gradientenschritte entfernt). Am wichtigsten ist jedoch, dass die Richtlinie aus ihren eigenen Fehlern lernen kann, wenn sie ...

Off-Policy-Lernen kann sich im Allgemeinen auch auf Batch-RL (auch bekannt als Offline-RL ) beziehen , bei dem Sie einen Datensatz mit Erfahrungen aus einer anderen Verhaltensrichtlinie erhalten und Ihr Ziel darin besteht, diese zu verbessern. Insbesondere können Sie Ihre aktuelle Richtlinie in keiner Weise einführen! In diesem Fall schlagen Algorithmen, die mit einem Wiedergabepuffer (wie DQN, SAC) gut funktionieren, kläglich fehl, da sie den Wert von Aktionen überschätzen, wenn sie außerhalb der "Unterstützung" des Datensatzes extrapolieren. Siehe das BCQ-Dokument, das zeigt, wie viele "Off-Policy" -Algorithmen wie DQN fehlschlagen, wenn der "Abstand zwischen den beiden Richtlinien groß ist". Für diese Aufgabe ist SOTA eine Form des gewichteten Klonens von Verhalten, die als Critic Regularized Regression (CRR) bezeichnet wird .

Es ist auch erwähnenswert, dass Stichproben mit Wichtigkeit dazu führen können , dass Gradienten außerhalb der Politik so korrigiert werden, dass sie der Politik entsprechen. Aber je weiter Ihre Zielrichtlinie entfernt ist, desto größer ist die Varianz. Dies ist besonders tödlich für Aufgaben mit langem Horizont (oft als Fluch des Horizonts bezeichnet ).

Zusammenfassend lässt sich sagen, dass die Verwendung eines Wiederholungspuffers (wodurch der Algorithmus außerhalb der Richtlinie liegt), insbesondere eines verteilten, viele Vorteile gegenüber reinen On-Policy-Algorithmen bietet. Dies ist jedoch eine ganz besondere Klasse von Algorithmen außerhalb der Richtlinie, bei denen die Verhaltensrichtlinie Ihrer Richtlinie nahe kommt.

Im Allgemeinen ist Off-Policy jedoch viel schwieriger als On-Policy. Sie leiden unter einer Extrapolationsverzerrung, wenn Sie DQN-basierte Ansätze verwenden, und unter einer exponentiellen Varianzvergrößerung, wenn Sie die Wichtigkeitsabtastung verwenden, um dies zu korrigieren.