Push agent to the Hub

Files changed (5) hide show

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ model-index:
       type: LunarLander-v2
     metrics:
     - type: mean_reward
-      value: -89.89 +/- 34.88
       name: mean_reward
       verified: false
 ---
@@ -37,8 +37,8 @@ model-index:
 'wandb_entity': None
 'capture_video': True
 'env_id': 'LunarLander-v2'
-'total_timesteps': 500000
-'learning_rate': 0.001
 'num_envs': 4
 'num_steps': 128
 'anneal_lr': True
@@ -53,7 +53,7 @@ model-index:
 'ent_coef': 0.01
 'vf_coef': 0.5
 'max_grad_norm': 0.5
-'target_kl': None
 'repo_id': 'wilt8/ppo-CleanRL-LunarLander-v2'
 'batch_size': 512
 'minibatch_size': 128}

       type: LunarLander-v2
     metrics:
     - type: mean_reward
+      value: -126.16 +/- 65.77
       name: mean_reward
       verified: false
 ---
 'wandb_entity': None
 'capture_video': True
 'env_id': 'LunarLander-v2'
+'total_timesteps': 50000
+'learning_rate': 0.00025
 'num_envs': 4
 'num_steps': 128
 'anneal_lr': True
 'ent_coef': 0.01
 'vf_coef': 0.5
 'max_grad_norm': 0.5
+'target_kl': 0.015
 'repo_id': 'wilt8/ppo-CleanRL-LunarLander-v2'
 'batch_size': 512
 'minibatch_size': 128}

logs/events.out.tfevents.1725425946.coder-william-william-gpu-dev-01-5fd55f9c84-plnfx.1521941.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7073f39a93f0e5330217f11df44285bbfe62de78f71c6bb7fc67d49d481a4e4
+size 109726

model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:318677b220e901295b2daa123bcfbdbad8592737edace0eace892497ebef1581
 size 43026

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0bee8379c6900506726ea5a3990eb0003996db65b2f1015b138a8f71be43f52
 size 43026

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

results.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"env_id": "LunarLander-v2", "mean_reward": -89.~~88970909595137~~, "std_reward": 34.~~881950781912344~~, "n_evaluation_episodes": 10, "eval_datetime": "2024-09-04T12:58:06.~~316835~~"}


1	+ {"env_id": "LunarLander-v2", "mean_reward": -126.16086227227284, "std_reward": 65.77039070781815, "n_evaluation_episodes": 10, "eval_datetime": "2024-09-04T12:59:35.846009"}