kingabzpro
/

Moonman-Lunar-Landing-v2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Model card Files Files and versions Community

kingabzpro commited on May 12, 2022

Commit

277e232

•

1 Parent(s): 6c65102

Code modified

Files changed (1) hide show

README.md +8 -10

README.md CHANGED Viewed

@@ -30,24 +30,24 @@ from stable_baselines3 import PPO
 from stable_baselines3.common.evaluation import evaluate_policy
 from stable_baselines3.common.env_util import make_vec_env
-# Create a vectorized environment of 16 parallel environments
-env = make_vec_env("LunarLander-v2", n_envs=16)
 # Optimizaed Hyperparameters
 model = PPO(
     "MlpPolicy",
     env=env,
-    n_steps=655,
     batch_size=32,
-    n_epochs=8,
-    gamma=0.998,
     gae_lambda=0.98,
     ent_coef=0.01,
     verbose=1,
 )
-# Train it for 500,000 timesteps
-model.learn(total_timesteps=int(5e6))
 # Create a new environment for evaluation
 eval_env = gym.make("LunarLander-v2")
@@ -60,8 +60,6 @@ mean_reward, std_reward = evaluate_policy(
 # Print the results
 print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
-#>>> mean_reward=254.56 +/- 18.45056958672337
   ```

 from stable_baselines3.common.evaluation import evaluate_policy
 from stable_baselines3.common.env_util import make_vec_env
+# Create a vectorized environment of 64 parallel environments
+env = make_vec_env("LunarLander-v2", n_envs=64)
 # Optimizaed Hyperparameters
 model = PPO(
     "MlpPolicy",
     env=env,
+    n_steps=1024,
     batch_size=32,
+    n_epochs=10,
+    gamma=0.997,
     gae_lambda=0.98,
     ent_coef=0.01,
     verbose=1,
 )
+# Train it for 1,000,000 timesteps
+model.learn(total_timesteps=int(1e6))
 # Create a new environment for evaluation
 eval_env = gym.make("LunarLander-v2")
 # Print the results
 print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
+# >>> mean_reward=261.42 +/- 18.69168514436243
   ```