kingabzpro
/

Moonman-Lunar-Landing-v2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Model card Files Files and versions Community

kingabzpro commited on May 11, 2022

Commit

0ea370b

•

1 Parent(s): 4ecb4b8

Code added

Files changed (1) hide show

README.md +40 -1

README.md CHANGED Viewed

@@ -24,5 +24,44 @@ model-index:
   This is a trained model of a **PPO** agent playing **LunarLander-v2** using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
   ## Usage (with Stable-baselines3)
-  TODO: Add your code

   This is a trained model of a **PPO** agent playing **LunarLander-v2** using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
   ## Usage (with Stable-baselines3)
+  ```python
+  import gym
+from stable_baselines3 import PPO
+from stable_baselines3.common.evaluation import evaluate_policy
+from stable_baselines3.common.env_util import make_vec_env
+# Create a vectorized environment of 16 parallel environments
+env = make_vec_env("LunarLander-v2", n_envs=16)
+# Optimizaed Hyperparameters
+model = PPO(
+    "MlpPolicy",
+    env=env,
+    n_steps=655,
+    batch_size=32,
+    n_epochs=8,
+    gamma=0.998,
+    gae_lambda=0.98,
+    ent_coef=0.01,
+    verbose=1,
+)
+# Train it for 500,000 timesteps
+model.learn(total_timesteps=int(5e6))
+# Create a new environment for evaluation
+eval_env = gym.make("LunarLander-v2")
+# Evaluate the model with 10 evaluation episodes and deterministic=True
+mean_reward, std_reward = evaluate_policy(
+    model, eval_env, n_eval_episodes=10, deterministic=True
+)
+# Print the results
+print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
+#>>> mean_reward=254.56 +/- 18.45056958672337
+  ```