igorcheb
/

REINFORCE-LunarLanderContinuous-v2

Reinforcement Learning

LunarLanderContinuous-v2

custom-implementation

Model card Files Files and versions Community

igorcheb commited on Jan 17, 2023

Commit

d64d8a0

•

1 Parent(s): efb8a0a

Update README.md

Files changed (1) hide show

README.md +20 -18

README.md CHANGED Viewed

@@ -30,21 +30,23 @@ Numbers on X axis are average over 40 episodes, each lasting for about 500 times
 Learning rate decay schedule: <code>torch.optim.lr_scheduler.StepLR(opt, step_size=4000, gamma=0.7)</code>
 Minimal code to use the agent:</br>
-<pre><code>
-import gym</br>
-</br>
-env_name = 'LunarLanderContinuous-v2'</br>
-env = gym.make(env_name)</br>
-agent = torch.load('best_models/best_reinforce_lunar_lander_cont_model_269.402.pt')</br>
-render = True</br>
-observation = env.reset()</br>
-while True:</br>
-    if render:</br>
-        env.render()</br>
-    action = agent.act(observation)</br>
-    observation, reward, done, info = env.step(action)</br>
-    </br>
-    if done:</br>
-        break</br>
-env.close()</br>
-</code></pre>

 Learning rate decay schedule: <code>torch.optim.lr_scheduler.StepLR(opt, step_size=4000, gamma=0.7)</code>
 Minimal code to use the agent:</br>
+```
+import gym
+from agent_class import ParameterisedPolicy
+env_name = 'LunarLanderContinuous-v2'
+env = gym.make(env_name)
+agent = torch.load('best_reinforce_lunar_lander_cont_model_269.402.pt')
+render = True
+observation = env.reset()
+while True:
+    if render:
+        env.render()
+    action = agent.act(observation)
+    observation, reward, done, info = env.step(action)
+    if done:
+        break
+env.close()
+```