Push agent to the Hub

Files changed (5) hide show

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 tags:
-- LunarLander-v2
 - ppo
 - deep-reinforcement-learning
 - reinforcement-learning
@@ -13,39 +13,18 @@ model-index:
       type: reinforcement-learning
       name: reinforcement-learning
     dataset:
-      name: LunarLander-v2
-      type: LunarLander-v2
     metrics:
     - type: mean_reward
-      value: 54.42 +/- 114.62
       name: mean_reward
       verified: false
 ---
-  # PPO Agent Playing LunarLander-v2
-  This is a trained model of a PPO agent playing LunarLander-v2.
   # Hyperparameters
-  ```python
-  {'batch_size': 512
-'learning_rate': 0.00025
-'gamma': 0.99
-'seed': 42
-'device': 'cuda'
-'ent_coef': 0.01
-'clip_coef': 0.2
-'clip_vloss': True
-'vf_coef': 0.5
-'max_grad_norm': 0.5
-'target_kl': None
-'num_envs': 4
-'num_steps': 128
-'anneal_lr': True
-'num_minibatches': 4
-'update_epochs': 4
-'norm_adv': True
-'gae_lambda': 0.95
-'env_id': 'LunarLander-v2'}
-  ```

 ---
 tags:
+- LunarLander-v3
 - ppo
 - deep-reinforcement-learning
 - reinforcement-learning
       type: reinforcement-learning
       name: reinforcement-learning
     dataset:
+      name: LunarLander-v3
+      type: LunarLander-v3
     metrics:
     - type: mean_reward
+      value: 0.19 +/- 1.18
       name: mean_reward
       verified: false
 ---
+  # PPO Agent Playing LunarLander-v3
+  This is a trained model of a PPO agent playing LunarLander-v3.
   # Hyperparameters

logs/events.out.tfevents.1731705681.pixel-desktop.18175.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a0f42c56fb6d0570800401fead1db62bcf1005ffb3dfa918a991180e30bea6f
+size 50397

model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be3cd01a6fc41e74024d884871d7ecd42e5f78c5b4d7a36646e26a52aae111a6
 size 43026

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff46cd805c359a6cb13e67e169b52e087d9ce2db4be2a8d50e53b1b19e9663c8
 size 43026

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

results.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"env_id": "LunarLander-v2", "mean_reward": 54.~~421640837474364~~, "std_reward": ~~114~~.~~62386509067649~~, "n_evaluation_episodes": 10, "eval_datetime": "2024-11-~~15T19~~:26:17.~~794294~~"}


1	+ {"env_id": "LunarLander-v3", "mean_reward": 0.19003089068136497, "std_reward": 1.1796856304949255, "n_evaluation_episodes": 10, "eval_datetime": "2024-11-15T22:21:52.047267"}