PyBrain - सुदृढीकरण सीखना मॉड्यूल

मशीन लर्निंग में सुदृढीकरण सीखना (RL) एक महत्वपूर्ण हिस्सा है। सुदृढीकरण सीखने से वातावरण के इनपुट के आधार पर एजेंट अपने व्यवहार को सीखता है।

सुदृढीकरण के दौरान एक दूसरे के साथ बातचीत करने वाले घटक इस प्रकार हैं -

  • Environment
  • Agent
  • Task
  • Experiment

सुदृढीकरण सीखने का लेआउट नीचे दिया गया है -

आरएल में, एजेंट पुनरावृत्ति में पर्यावरण के साथ बातचीत करता है। प्रत्येक पुनरावृत्ति पर, एजेंट को एक अवलोकन प्राप्त होता है जिसमें इनाम होता है। यह तब कार्रवाई को चुनता है और पर्यावरण को भेजता है। प्रत्येक पुनरावृत्ति पर वातावरण एक नई स्थिति में चला जाता है और प्रत्येक बार प्राप्त इनाम बच जाता है।

आरएल एजेंट का लक्ष्य अधिक से अधिक पुरस्कार एकत्र करना है। पुनरावृत्ति के बीच एजेंट के प्रदर्शन की तुलना उस एजेंट के साथ की जाती है जो अच्छे तरीके से कार्य करता है और प्रदर्शन में अंतर या तो इनाम या विफलता को जन्म देता है। आरएल मूल रूप से रोबोट नियंत्रण, लिफ्ट, दूरसंचार, खेल आदि जैसे समस्या निवारण कार्यों में उपयोग किया जाता है।

आइए हम Pybrain में आरएल के साथ काम करने के तरीके पर एक नज़र डालें।

हम भूलभुलैया पर काम करने जा रहे हैं environmentजिसमें 2 आयामी नुकीले सरणी का उपयोग करके प्रतिनिधित्व किया जाएगा जहां 1 एक दीवार है और 0 एक मुक्त क्षेत्र है। एजेंट की जिम्मेदारी है कि वह मुक्त क्षेत्र में आगे बढ़े और लक्ष्य बिंदु खोजे।

यहाँ भूलभुलैया के वातावरण के साथ काम करने का एक चरण है।

चरण 1

नीचे दिए गए कोड के साथ हमारे द्वारा आवश्यक पैकेज आयात करें -

from scipy import *
import sys, time
import matplotlib.pyplot as pylab # for visualization we are using mathplotlib

from pybrain.rl.environments.mazes import Maze, MDPMazeTask
from pybrain.rl.learners.valuebased import ActionValueTable
from pybrain.rl.agents import LearningAgent
from pybrain.rl.learners import Q, QLambda, SARSA #@UnusedImport
from pybrain.rl.explorers import BoltzmannExplorer #@UnusedImport
from pybrain.rl.experiments import Experiment
from pybrain.rl.environments import Task

चरण 2

नीचे दिए गए कोड का उपयोग करके भूलभुलैया का वातावरण बनाएं -

# create the maze with walls as 1 and 0 is a free field
mazearray = array(
   [[1, 1, 1, 1, 1, 1, 1, 1, 1],
   [1, 0, 0, 1, 0, 0, 0, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 1, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 0, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 1, 1]]
)
env = Maze(mazearray, (7, 7)) # create the environment, the first parameter is the 
maze array and second one is the goal field tuple

चरण 3

एजेंट बनाने के लिए अगला कदम है।

एजेंट आरएल में एक महत्वपूर्ण भूमिका निभाता है। यह गेटअवेशन () और इंटीग्रोऑब्जर्वेशन () विधियों का उपयोग करके भूलभुलैया के वातावरण के साथ बातचीत करेगा।

एजेंट के पास एक नियंत्रक है (जो क्रियाओं के लिए राज्यों को मैप करेगा) और एक शिक्षार्थी।

PyBrain में नियंत्रक एक मॉड्यूल की तरह है, जिसके लिए इनपुट राज्यों है और उन्हें क्रियाओं में परिवर्तित करते हैं।

controller = ActionValueTable(81, 4)
controller.initialize(1.)

ActionValueTable2 आदानों की जरूरत है, यानी, राज्यों और कार्यों की संख्या। मानक भूलभुलैया के वातावरण में 4 क्रियाएं हैं: उत्तर, दक्षिण, पूर्व, पश्चिम।

अब हम एक शिक्षार्थी बनाएंगे। हम एजेंट के साथ उपयोग किए जाने वाले सीखने के लिए SARSA () लर्निंग एल्गोरिदम का उपयोग करने जा रहे हैं।

learner = SARSA()
agent = LearningAgent(controller, learner)

चरण 4

यह कदम एजेंट को पर्यावरण से जोड़ रहा है।

एजेंट को पर्यावरण से जोड़ने के लिए, हमें एक विशेष घटक की आवश्यकता है जिसे कार्य कहा जाता है। की भूमिका एtask पर्यावरण में लक्ष्य को देखने के लिए है और कैसे एजेंट को कार्यों के लिए पुरस्कार मिलता है।

पर्यावरण का अपना कार्य है। जिस भूलभुलैया वातावरण का हमने उपयोग किया है, उसमें MDPMazeTask कार्य है। एमडीपी के लिए खड़ा है“markov decision process”जिसका अर्थ है, एजेंट भूलभुलैया में अपनी स्थिति जानता है। पर्यावरण कार्य के लिए एक पैरामीटर होगा।

task = MDPMazeTask(env)

चरण 5

वातावरण में एजेंट जोड़ने के बाद अगला कदम एक प्रयोग करना है।

अब हमें प्रयोग बनाने की आवश्यकता है, ताकि हम कार्य कर सकें और एजेंट एक दूसरे के साथ मिलकर काम कर सकें।

experiment = Experiment(task, agent)

अब हम प्रयोग 1000 बार चलाने जा रहे हैं जैसा कि नीचे दिखाया गया है -

for i in range(1000):
   experiment.doInteractions(100)
   agent.learn()
   agent.reset()

निम्न कोड निष्पादित होने पर एजेंट और कार्य के बीच वातावरण 100 बार चलेगा -

experiment.doInteractions(100)

प्रत्येक पुनरावृत्ति के बाद, यह कार्य को एक नया राज्य देता है जो यह तय करता है कि एजेंट को कौन सी जानकारी और इनाम पारित किया जाना चाहिए। हम लूप के लिए एजेंट के अंदर सीखने और रीसेट करने के बाद एक नई तालिका तैयार करने जा रहे हैं।

for i in range(1000):
   experiment.doInteractions(100)
   agent.learn()
   agent.reset()
   pylab.pcolor(table.params.reshape(81,4).max(1).reshape(9,9))
   pylab.savefig("test.png")

यहाँ पूर्ण कोड है -

उदाहरण

maze.py

from scipy import *
import sys, time
import matplotlib.pyplot as pylab

from pybrain.rl.environments.mazes import Maze, MDPMazeTask
from pybrain.rl.learners.valuebased import ActionValueTable
from pybrain.rl.agents import LearningAgent
from pybrain.rl.learners import Q, QLambda, SARSA #@UnusedImport
from pybrain.rl.explorers import BoltzmannExplorer #@UnusedImport
from pybrain.rl.experiments import Experiment
from pybrain.rl.environments import Task

# create maze array
mazearray = array(
   [[1, 1, 1, 1, 1, 1, 1, 1, 1],
   [1, 0, 0, 1, 0, 0, 0, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 0, 1, 0, 1],
   [1, 0, 0, 1, 0, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 1, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 0, 1],
   [1, 0, 0, 0, 0, 0, 0, 0, 1],
   [1, 1, 1, 1, 1, 1, 1, 1, 1]]
)
env = Maze(mazearray, (7, 7))

# create task
task = MDPMazeTask(env)

#controller in PyBrain is like a module, for which the input is states and 
convert them into actions.
controller = ActionValueTable(81, 4)
controller.initialize(1.)

# create agent with controller and learner - using SARSA()
learner = SARSA()

# create agent
agent = LearningAgent(controller, learner)

# create experiment
experiment = Experiment(task, agent)

# prepare plotting
pylab.gray()
pylab.ion()

for i in range(1000):
experiment.doInteractions(100)

agent.learn()
agent.reset()

pylab.pcolor(controller.params.reshape(81,4).max(1).reshape(9,9))
pylab.savefig("test.png")

उत्पादन

python maze.py

प्रत्येक पुनरावृत्ति पर मुक्त क्षेत्र में रंग बदला जाएगा।