PyBrain - moduł nauki o wzmocnieniu

Uczenie się ze wzmocnieniem (RL) jest ważną częścią uczenia maszynowego. Uczenie się ze wzmocnieniem sprawia, że ​​agent uczy się swojego zachowania na podstawie danych wejściowych z otoczenia.

Komponenty, które oddziałują ze sobą podczas zbrojenia, są następujące -

  • Environment
  • Agent
  • Task
  • Experiment

Układ uczenia się ze wzmocnieniem podano poniżej -

W RL agent rozmawia z otoczeniem w iteracji. W każdej iteracji agent otrzymuje obserwację, która ma nagrodę. Następnie wybiera akcję i wysyła do otoczenia. Środowisko w każdej iteracji przechodzi do nowego stanu, a nagroda otrzymywana za każdym razem jest zapisywana.

Celem agenta RL jest zebranie jak największej liczby nagród. Pomiędzy kolejnymi iteracjami wydajność agenta jest porównywana z działaniem agenta, który działa w dobry sposób, a różnica w wydajności prowadzi do nagrody lub niepowodzenia. RL jest zasadniczo używany w zadaniach rozwiązywania problemów, takich jak sterowanie robotami, winda, telekomunikacja, gry itp.

Przyjrzyjmy się, jak pracować z RL w Pybrain.

Będziemy pracować nad labiryntem environmentktóry zostanie przedstawiony za pomocą dwuwymiarowej tablicy numpy, gdzie 1 to ściana, a 0 to wolne pole. Zadaniem agenta jest przemieszczenie się po wolnym polu i znalezienie punktu bramkowego.

Oto przepływ pracy w środowisku labiryntu krok po kroku.

Krok 1

Zaimportuj potrzebne pakiety z poniższym kodem -

from scipy import *
import sys, time
import matplotlib.pyplot as pylab # for visualization we are using mathplotlib

from pybrain.rl.environments.mazes import Maze, MDPMazeTask
from pybrain.rl.learners.valuebased import ActionValueTable
from pybrain.rl.agents import LearningAgent
from pybrain.rl.learners import Q, QLambda, SARSA #@UnusedImport
from pybrain.rl.explorers import BoltzmannExplorer #@UnusedImport
from pybrain.rl.experiments import Experiment
from pybrain.rl.environments import Task

Krok 2

Utwórz środowisko labiryntu za pomocą poniższego kodu -

# create the maze with walls as 1 and 0 is a free field
mazearray = array(
   [[1, 1, 1, 1, 1, 1, 1, 1, 1],
   [1, 0, 0, 1, 0, 0, 0, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 1, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 0, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 1, 1]]
)
env = Maze(mazearray, (7, 7)) # create the environment, the first parameter is the 
maze array and second one is the goal field tuple

Krok 3

Następnym krokiem jest utworzenie agenta.

Agent odgrywa ważną rolę w RL. Będzie wchodzić w interakcję ze środowiskiem labiryntu za pomocą metod getAction () i integrujeObservation ().

Agent ma kontroler (który odwzorowuje stany na działania) i ucznia.

Kontroler w PyBrain jest jak moduł, dla którego wejście to stany i zamienia je na akcje.

controller = ActionValueTable(81, 4)
controller.initialize(1.)

Plik ActionValueTablepotrzebuje 2 wejść, tj. liczby stanów i akcji. Standardowe środowisko labiryntu ma 4 akcje: północ, południe, wschód, zachód.

Teraz stworzymy ucznia. Zamierzamy użyć algorytmu uczącego SARSA () dla ucznia, który będzie używany z agentem.

learner = SARSA()
agent = LearningAgent(controller, learner)

Krok 4

Ten krok polega na dodaniu agenta do środowiska.

Aby podłączyć agenta do środowiska, potrzebujemy specjalnego komponentu o nazwie task. Rolatask to szukanie celu w środowisku i tego, jak agent otrzymuje nagrody za swoje działania.

Środowisko ma swoje zadanie. Środowisko Maze, którego używaliśmy, ma zadanie MDPMazeTask. MDP oznacza“markov decision process”co oznacza, że ​​agent zna swoją pozycję w labiryncie. Środowisko będzie parametrem zadania.

task = MDPMazeTask(env)

Krok 5

Następnym krokiem po dodaniu agenta do środowiska jest utworzenie eksperymentu.

Teraz musimy stworzyć eksperyment, abyśmy mogli skoordynować zadanie i agenta.

experiment = Experiment(task, agent)

Teraz przeprowadzimy eksperyment 1000 razy, jak pokazano poniżej -

for i in range(1000):
   experiment.doInteractions(100)
   agent.learn()
   agent.reset()

Środowisko będzie działać 100 razy między agentem a zadaniem, gdy zostanie wykonany następujący kod -

experiment.doInteractions(100)

Po każdej iteracji przywraca nowy stan zadania, który decyduje o tym, jakie informacje i nagrodę należy przekazać agentowi. Zamierzamy wykreślić nową tabelę po nauczeniu się i zresetowaniu agenta wewnątrz pętli for.

for i in range(1000):
   experiment.doInteractions(100)
   agent.learn()
   agent.reset()
   pylab.pcolor(table.params.reshape(81,4).max(1).reshape(9,9))
   pylab.savefig("test.png")

Oto pełny kod -

Przykład

maze.py

from scipy import *
import sys, time
import matplotlib.pyplot as pylab

from pybrain.rl.environments.mazes import Maze, MDPMazeTask
from pybrain.rl.learners.valuebased import ActionValueTable
from pybrain.rl.agents import LearningAgent
from pybrain.rl.learners import Q, QLambda, SARSA #@UnusedImport
from pybrain.rl.explorers import BoltzmannExplorer #@UnusedImport
from pybrain.rl.experiments import Experiment
from pybrain.rl.environments import Task

# create maze array
mazearray = array(
   [[1, 1, 1, 1, 1, 1, 1, 1, 1],
   [1, 0, 0, 1, 0, 0, 0, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 1, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 0, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 1, 1]]
)
env = Maze(mazearray, (7, 7))

# create task
task = MDPMazeTask(env)

#controller in PyBrain is like a module, for which the input is states and 
convert them into actions.
controller = ActionValueTable(81, 4)
controller.initialize(1.)

# create agent with controller and learner - using SARSA()
learner = SARSA()

# create agent
agent = LearningAgent(controller, learner)

# create experiment
experiment = Experiment(task, agent)

# prepare plotting
pylab.gray()
pylab.ion()

for i in range(1000):
experiment.doInteractions(100)

agent.learn()
agent.reset()

pylab.pcolor(controller.params.reshape(81,4).max(1).reshape(9,9))
pylab.savefig("test.png")

Wynik

python maze.py

Kolor w wolnym polu zostanie zmieniony przy każdej iteracji.