Upload . with huggingface_hub

Browse files

Files changed (8) hide show

.summary/0/events.out.tfevents.1670186873.andrew-gpu +3 -0
README.md +22 -0
checkpoint_p0/best_000000928_475136_reward_321.313.pth +3 -0
checkpoint_p0/checkpoint_000000928_475136.pth +3 -0
checkpoint_p0/checkpoint_000000952_487424.pth +3 -0
config.json +130 -0
git.diff +66 -0
sf_log.txt +263 -0

.summary/0/events.out.tfevents.1670186873.andrew-gpu ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e43b5413e94b50c334b2b093667bd2d720ba516a657964401af2294afa3c992b
+size 70933

README.md ADDED Viewed

	@@ -0,0 +1,22 @@

+---
+library_name: sample-factory
+tags:
+- deep-reinforcement-learning
+- reinforcement-learning
+- sample-factory
+---
+A(n) **APPO** model trained on the **mujoco_ant** environment.
+This model was trained using Sample-Factory 2.0: https://github.com/alex-petrenko/sample-factory.
+Documentation for how to use Sample-Factory can be found at https://www.samplefactory.dev/
+## Downloading the model
+After installing Sample-Factory, download the model with:
+```
+python -m sample_factory.huggingface.load_from_hub -r andrewzhang505/ant_test2
+```

checkpoint_p0/best_000000928_475136_reward_321.313.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78a270ae0aaa4d62d1cc85c340c7bc1f5917af859419a227346a58323c755e74
+size 89730

checkpoint_p0/checkpoint_000000928_475136.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:920e8e287f9e8564ad2da100a86f8050bdfa28428635072a4dc315076a25a387
+size 89730

checkpoint_p0/checkpoint_000000952_487424.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df941a254fb9b62986160dad41587b474e099476b2f7e76299e09883dd0142dd
+size 89730

config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "help": false,
+  "algo": "APPO",
+  "env": "mujoco_ant",
+  "experiment": "ant_test",
+  "train_dir": "/home/andrew_huggingface_co/sample-factory/train_dir",
+  "restart_behavior": "resume",
+  "device": "gpu",
+  "seed": null,
+  "num_policies": 1,
+  "async_rl": false,
+  "serial_mode": false,
+  "batched_sampling": false,
+  "num_batches_to_accumulate": 2,
+  "worker_num_splits": 2,
+  "policy_workers_per_policy": 1,
+  "max_policy_lag": 1000,
+  "num_workers": 8,
+  "num_envs_per_worker": 8,
+  "batch_size": 1024,
+  "num_batches_per_epoch": 4,
+  "num_epochs": 2,
+  "rollout": 64,
+  "recurrence": 1,
+  "shuffle_minibatches": false,
+  "gamma": 0.99,
+  "reward_scale": 1,
+  "reward_clip": 1000.0,
+  "value_bootstrap": true,
+  "normalize_returns": true,
+  "exploration_loss_coeff": 0.0,
+  "value_loss_coeff": 1.3,
+  "kl_loss_coeff": 0.1,
+  "exploration_loss": "entropy",
+  "gae_lambda": 0.95,
+  "ppo_clip_ratio": 0.2,
+  "ppo_clip_value": 1.0,
+  "with_vtrace": false,
+  "vtrace_rho": 1.0,
+  "vtrace_c": 1.0,
+  "optimizer": "adam",
+  "adam_eps": 1e-06,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.999,
+  "max_grad_norm": 3.5,
+  "learning_rate": 0.00295,
+  "lr_schedule": "linear_decay",
+  "lr_schedule_kl_threshold": 0.008,
+  "obs_subtract_mean": 0.0,
+  "obs_scale": 1.0,
+  "normalize_input": true,
+  "normalize_input_keys": null,
+  "decorrelate_experience_max_seconds": 0,
+  "decorrelate_envs_on_one_worker": true,
+  "actor_worker_gpus": [],
+  "set_workers_cpu_affinity": true,
+  "force_envs_single_thread": false,
+  "default_niceness": 0,
+  "log_to_file": true,
+  "experiment_summaries_interval": 3,
+  "flush_summaries_interval": 30,
+  "stats_avg": 100,
+  "summaries_use_frameskip": true,
+  "heartbeat_interval": 20,
+  "heartbeat_reporting_interval": 180,
+  "train_for_env_steps": 10000000,
+  "train_for_seconds": 10000000000,
+  "save_every_sec": 15,
+  "keep_checkpoints": 2,
+  "load_checkpoint_kind": "latest",
+  "save_milestones_sec": -1,
+  "save_best_every_sec": 5,
+  "save_best_metric": "reward",
+  "save_best_after": 100000,
+  "benchmark": false,
+  "encoder_mlp_layers": [
+    64,
+    64
+  ],
+  "encoder_conv_architecture": "convnet_simple",
+  "encoder_conv_mlp_layers": [
+    512
+  ],
+  "use_rnn": false,
+  "rnn_size": 512,
+  "rnn_type": "gru",
+  "rnn_num_layers": 1,
+  "decoder_mlp_layers": [],
+  "nonlinearity": "tanh",
+  "policy_initialization": "torch_default",
+  "policy_init_gain": 1.0,
+  "actor_critic_share_weights": true,
+  "adaptive_stddev": false,
+  "continuous_tanh_scale": 0.0,
+  "initial_stddev": 1.0,
+  "use_env_info_cache": false,
+  "env_gpu_actions": false,
+  "env_gpu_observations": true,
+  "env_frameskip": 1,
+  "env_framestack": 1,
+  "pixel_format": "CHW",
+  "use_record_episode_statistics": false,
+  "with_wandb": false,
+  "wandb_user": null,
+  "wandb_project": "sample_factory",
+  "wandb_group": null,
+  "wandb_job_type": "SF",
+  "wandb_tags": [],
+  "with_pbt": false,
+  "pbt_mix_policies_in_one_env": true,
+  "pbt_period_env_steps": 5000000,
+  "pbt_start_mutation": 20000000,
+  "pbt_replace_fraction": 0.3,
+  "pbt_mutation_rate": 0.15,
+  "pbt_replace_reward_gap": 0.1,
+  "pbt_replace_reward_gap_absolute": 1e-06,
+  "pbt_optimize_gamma": false,
+  "pbt_target_objective": "true_objective",
+  "pbt_perturb_min": 1.1,
+  "pbt_perturb_max": 1.5,
+  "command_line": "--algo=APPO --env=mujoco_ant --experiment=ant_test",
+  "cli_args": {
+    "algo": "APPO",
+    "env": "mujoco_ant",
+    "experiment": "ant_test"
+  },
+  "git_hash": "162ce7329569a2a3abaa26ecb8162a74f833b63e",
+  "git_repo_name": "https://github.com/andrewzhang505/sample-factory.git",
+  "train_script": "sf_examples.mujoco.train_mujoco"
+}

git.diff ADDED Viewed

	@@ -0,0 +1,66 @@

+diff --git a/sample_factory/huggingface/huggingface_utils.py b/sample_factory/huggingface/huggingface_utils.py
+index b6b10fc2..88ebd2c4 100644
+--- a/sample_factory/huggingface/huggingface_utils.py
++++ b/sample_factory/huggingface/huggingface_utils.py
+@@ -117,27 +117,40 @@ def push_to_hf(dir_path: str, repo_name: str, num_policies: int = 1):
+         exist_ok=True,
+     )
+-    # Upload folders
+-    folders = [".summary"]
+-    for policy_id in range(num_policies):
+-        folders.append(f"checkpoint_p{policy_id}")
+-    for f in folders:
+-        if os.path.exists(os.path.join(dir_path, f)):
+-            upload_folder(
+-                repo_id=repo_name,
+-                folder_path=os.path.join(dir_path, f),
+-                path_in_repo=f,
+-            )
+-
+-    # Upload files
+-    files = ["config.json", "README.md", "replay.mp4"]
+-    for f in files:
+-        if os.path.exists(os.path.join(dir_path, f)):
+-            upload_file(
+-                repo_id=repo_name,
+-                path_or_fileobj=os.path.join(dir_path, f),
+-                path_in_repo=f,
+-            )
++    upload_folder(
++        repo_id=repo_name,
++        folder_path=dir_path,
++        path_in_repo=f,
++        allow_patterns=[
++            ".summary/*",
++            "config.json",
++            "README.md",
++            "replay.mp4",
++        ]
++        + [f"checkpoint_p{policy_id}/*" for policy_id in range(num_policies)],
++    )
++
++    # # Upload folders
++    # folders = [".summary"]
++    # for policy_id in range(num_policies):
++    #     folders.append(f"checkpoint_p{policy_id}")
++    # for f in folders:
++    #     if os.path.exists(os.path.join(dir_path, f)):
++    #         upload_folder(
++    #             repo_id=repo_name,
++    #             folder_path=os.path.join(dir_path, f),
++    #             path_in_repo=f,
++    #         )
++
++    # # Upload files
++    # files = ["config.json", "README.md", "replay.mp4"]
++    # for f in files:
++    #     if os.path.exists(os.path.join(dir_path, f)):
++    #         upload_file(
++    #             repo_id=repo_name,
++    #             path_or_fileobj=os.path.join(dir_path, f),
++    #             path_in_repo=f,
++    #         )
+     log.info(f"The model has been pushed to {repo_url}")

sf_log.txt ADDED Viewed

	@@ -0,0 +1,263 @@

+[2022-12-04 20:47:56,451][04266] Saving configuration to /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/config.json...
+[2022-12-04 20:47:56,464][04266] Rollout worker 0 uses device cpu
+[2022-12-04 20:47:56,464][04266] Rollout worker 1 uses device cpu
+[2022-12-04 20:47:56,464][04266] Rollout worker 2 uses device cpu
+[2022-12-04 20:47:56,465][04266] Rollout worker 3 uses device cpu
+[2022-12-04 20:47:56,465][04266] Rollout worker 4 uses device cpu
+[2022-12-04 20:47:56,465][04266] Rollout worker 5 uses device cpu
+[2022-12-04 20:47:56,465][04266] Rollout worker 6 uses device cpu
+[2022-12-04 20:47:56,465][04266] Rollout worker 7 uses device cpu
+[2022-12-04 20:47:56,465][04266] In synchronous mode, we only accumulate one batch. Setting num_batches_to_accumulate to 1
+[2022-12-04 20:47:56,487][04266] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2022-12-04 20:47:56,487][04266] InferenceWorker_p0-w0: min num requests: 2
+[2022-12-04 20:47:56,519][04266] Starting all processes...
+[2022-12-04 20:47:56,520][04266] Starting process learner_proc0
+[2022-12-04 20:47:56,570][04266] Starting all processes...
+[2022-12-04 20:47:56,577][04266] Starting process inference_proc0-0
+[2022-12-04 20:47:56,577][04266] Starting process rollout_proc0
+[2022-12-04 20:47:56,578][04266] Starting process rollout_proc1
+[2022-12-04 20:47:56,578][04266] Starting process rollout_proc2
+[2022-12-04 20:47:56,578][04266] Starting process rollout_proc3
+[2022-12-04 20:47:56,579][04266] Starting process rollout_proc4
+[2022-12-04 20:47:56,579][04266] Starting process rollout_proc5
+[2022-12-04 20:47:56,584][04266] Starting process rollout_proc6
+[2022-12-04 20:47:56,591][04266] Starting process rollout_proc7
+[2022-12-04 20:47:58,489][04366] Worker 5 uses CPU cores [5]
+[2022-12-04 20:47:58,561][04361] Worker 0 uses CPU cores [0]
+[2022-12-04 20:47:58,611][04360] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2022-12-04 20:47:58,612][04360] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2022-12-04 20:47:58,705][04367] Worker 4 uses CPU cores [4]
+[2022-12-04 20:47:58,733][04363] Worker 6 uses CPU cores [6]
+[2022-12-04 20:47:58,765][04368] Worker 2 uses CPU cores [2]
+[2022-12-04 20:47:58,779][04365] Worker 3 uses CPU cores [3]
+[2022-12-04 20:47:58,824][04340] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2022-12-04 20:47:58,825][04340] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2022-12-04 20:47:58,834][04364] Worker 7 uses CPU cores [7]
+[2022-12-04 20:47:58,885][04362] Worker 1 uses CPU cores [1]
+[2022-12-04 20:47:59,427][04360] Num visible devices: 1
+[2022-12-04 20:47:59,428][04340] Num visible devices: 1
+[2022-12-04 20:47:59,446][04340] Starting seed is not provided
+[2022-12-04 20:47:59,446][04340] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2022-12-04 20:47:59,446][04340] Initializing actor-critic model on device cuda:0
+[2022-12-04 20:47:59,446][04340] RunningMeanStd input shape: (27,)
+[2022-12-04 20:47:59,447][04340] RunningMeanStd input shape: (1,)
+[2022-12-04 20:47:59,522][04340] Created Actor Critic model with architecture:
+[2022-12-04 20:47:59,522][04340] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): MultiInputEncoder(
+    (encoders): ModuleDict(
+      (obs): MlpEncoder(
+        (mlp_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=Tanh)
+          (2): RecursiveScriptModule(original_name=Linear)
+          (3): RecursiveScriptModule(original_name=Tanh)
+        )
+      )
+    )
+  )
+  (core): ModelCoreIdentity()
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=64, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationContinuousNonAdaptiveStddev(
+    (distribution_linear): Linear(in_features=64, out_features=8, bias=True)
+  )
+)
+[2022-12-04 20:48:03,416][04340] Using optimizer <class 'torch.optim.adam.Adam'>
+[2022-12-04 20:48:03,417][04340] No checkpoints found
+[2022-12-04 20:48:03,417][04340] Did not load from checkpoint, starting from scratch!
+[2022-12-04 20:48:03,417][04340] Initialized policy 0 weights for model version 0
+[2022-12-04 20:48:03,422][04340] LearnerWorker_p0 finished initialization!
+[2022-12-04 20:48:03,424][04340] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2022-12-04 20:48:03,551][04360] RunningMeanStd input shape: (27,)
+[2022-12-04 20:48:03,552][04360] RunningMeanStd input shape: (1,)
+[2022-12-04 20:48:03,650][04266] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2022-12-04 20:48:07,105][04266] Inference worker 0-0 is ready!
+[2022-12-04 20:48:07,105][04266] All inference workers are ready! Signal rollout workers to start!
+[2022-12-04 20:48:07,303][04364] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,303][04362] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,305][04363] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,306][04362] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,305][04367] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,305][04364] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,305][04361] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,305][04368] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,306][04366] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,307][04367] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,307][04363] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,307][04365] Decorrelating experience for 0 frames...
+[2022-12-04 20:48:07,308][04368] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,308][04366] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,308][04361] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,309][04365] Decorrelating experience for 64 frames...
+[2022-12-04 20:48:07,359][04364] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,360][04363] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,362][04366] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,361][04362] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,362][04361] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,362][04365] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,362][04367] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,362][04368] Decorrelating experience for 128 frames...
+[2022-12-04 20:48:07,467][04363] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,467][04364] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,469][04367] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,469][04365] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,470][04366] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,471][04361] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,472][04362] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,474][04368] Decorrelating experience for 192 frames...
+[2022-12-04 20:48:07,650][04364] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,658][04363] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,658][04365] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,659][04367] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,659][04362] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,661][04361] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,662][04366] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,664][04368] Decorrelating experience for 256 frames...
+[2022-12-04 20:48:07,856][04364] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,863][04363] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,864][04365] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,866][04362] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,866][04361] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,871][04366] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,872][04367] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:07,877][04368] Decorrelating experience for 320 frames...
+[2022-12-04 20:48:08,114][04364] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,119][04363] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,121][04365] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,123][04361] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,128][04362] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,129][04366] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,131][04367] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,144][04368] Decorrelating experience for 384 frames...
+[2022-12-04 20:48:08,431][04364] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,433][04363] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,437][04365] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,437][04361] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,440][04362] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,444][04367] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,452][04366] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,466][04368] Decorrelating experience for 448 frames...
+[2022-12-04 20:48:08,650][04266] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2022-12-04 20:48:08,652][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000000_0.pth...
+[2022-12-04 20:48:13,650][04266] Fps is (10 sec: 819.2, 60 sec: 819.2, 300 sec: 819.2). Total num frames: 8192. Throughput: 0: 846.4. Samples: 8464. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:13,650][04266] Avg episode reward: [(0, '-160.026')]
+[2022-12-04 20:48:16,478][04266] Heartbeat connected on Batcher_0
+[2022-12-04 20:48:16,482][04266] Heartbeat connected on LearnerWorker_p0
+[2022-12-04 20:48:16,492][04266] Heartbeat connected on InferenceWorker_p0-w0
+[2022-12-04 20:48:16,493][04266] Heartbeat connected on RolloutWorker_w0
+[2022-12-04 20:48:16,503][04266] Heartbeat connected on RolloutWorker_w2
+[2022-12-04 20:48:16,503][04266] Heartbeat connected on RolloutWorker_w1
+[2022-12-04 20:48:16,510][04266] Heartbeat connected on RolloutWorker_w4
+[2022-12-04 20:48:16,511][04266] Heartbeat connected on RolloutWorker_w3
+[2022-12-04 20:48:16,516][04266] Heartbeat connected on RolloutWorker_w5
+[2022-12-04 20:48:16,521][04266] Heartbeat connected on RolloutWorker_w6
+[2022-12-04 20:48:16,529][04266] Heartbeat connected on RolloutWorker_w7
+[2022-12-04 20:48:18,650][04266] Fps is (10 sec: 3686.4, 60 sec: 2457.6, 300 sec: 2457.6). Total num frames: 36864. Throughput: 0: 1698.1. Samples: 25472. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:18,651][04266] Avg episode reward: [(0, '-169.308')]
+[2022-12-04 20:48:18,924][04360] Updated weights for policy 0, policy_version 80 (0.0006)
+[2022-12-04 20:48:23,650][04266] Fps is (10 sec: 5734.3, 60 sec: 3276.8, 300 sec: 3276.8). Total num frames: 65536. Throughput: 0: 2930.0. Samples: 58600. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:23,651][04266] Avg episode reward: [(0, '-249.723')]
+[2022-12-04 20:48:23,656][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000128_65536.pth...
+[2022-12-04 20:48:26,260][04360] Updated weights for policy 0, policy_version 160 (0.0007)
+[2022-12-04 20:48:28,650][04266] Fps is (10 sec: 5734.4, 60 sec: 3768.3, 300 sec: 3768.3). Total num frames: 94208. Throughput: 0: 3705.3. Samples: 92632. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:28,651][04266] Avg episode reward: [(0, '-89.994')]
+[2022-12-04 20:48:33,559][04360] Updated weights for policy 0, policy_version 240 (0.0006)
+[2022-12-04 20:48:33,650][04266] Fps is (10 sec: 5734.4, 60 sec: 4096.0, 300 sec: 4096.0). Total num frames: 122880. Throughput: 0: 3641.5. Samples: 109244. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:33,651][04266] Avg episode reward: [(0, '-153.751')]
+[2022-12-04 20:48:33,651][04340] Saving new best policy, reward=-153.751!
+[2022-12-04 20:48:38,650][04266] Fps is (10 sec: 5324.8, 60 sec: 4213.0, 300 sec: 4213.0). Total num frames: 147456. Throughput: 0: 4093.4. Samples: 143268. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:38,650][04266] Avg episode reward: [(0, '-137.350')]
+[2022-12-04 20:48:38,669][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000296_151552.pth...
+[2022-12-04 20:48:38,675][04340] Removing /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000000_0.pth
+[2022-12-04 20:48:38,675][04340] Saving new best policy, reward=-137.350!
+[2022-12-04 20:48:40,889][04360] Updated weights for policy 0, policy_version 320 (0.0006)
+[2022-12-04 20:48:43,650][04266] Fps is (10 sec: 5324.8, 60 sec: 4403.2, 300 sec: 4403.2). Total num frames: 176128. Throughput: 0: 4415.1. Samples: 176604. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:43,651][04266] Avg episode reward: [(0, '-69.206')]
+[2022-12-04 20:48:43,651][04340] Saving new best policy, reward=-69.206!
+[2022-12-04 20:48:48,177][04360] Updated weights for policy 0, policy_version 400 (0.0006)
+[2022-12-04 20:48:48,650][04266] Fps is (10 sec: 5734.4, 60 sec: 4551.1, 300 sec: 4551.1). Total num frames: 204800. Throughput: 0: 4290.7. Samples: 193080. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:48,651][04266] Avg episode reward: [(0, '-52.726')]
+[2022-12-04 20:48:48,651][04340] Saving new best policy, reward=-52.726!
+[2022-12-04 20:48:53,650][04266] Fps is (10 sec: 5734.4, 60 sec: 4669.5, 300 sec: 4669.5). Total num frames: 233472. Throughput: 0: 5054.2. Samples: 227440. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2022-12-04 20:48:53,650][04266] Avg episode reward: [(0, '-33.694')]
+[2022-12-04 20:48:53,657][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000456_233472.pth...
+[2022-12-04 20:48:53,664][04340] Removing /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000128_65536.pth
+[2022-12-04 20:48:53,664][04340] Saving new best policy, reward=-33.694!
+[2022-12-04 20:48:55,518][04360] Updated weights for policy 0, policy_version 480 (0.0006)
+[2022-12-04 20:48:58,650][04266] Fps is (10 sec: 5734.4, 60 sec: 4766.3, 300 sec: 4766.3). Total num frames: 262144. Throughput: 0: 5586.5. Samples: 259856. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:48:58,651][04266] Avg episode reward: [(0, '-45.611')]
+[2022-12-04 20:49:03,653][04266] Fps is (10 sec: 4913.5, 60 sec: 4710.1, 300 sec: 4710.1). Total num frames: 282624. Throughput: 0: 5596.9. Samples: 277352. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:03,654][04266] Avg episode reward: [(0, '-29.953')]
+[2022-12-04 20:49:03,655][04340] Saving new best policy, reward=-29.953!
+[2022-12-04 20:49:04,937][04360] Updated weights for policy 0, policy_version 560 (0.0008)
+[2022-12-04 20:49:08,650][04266] Fps is (10 sec: 4096.0, 60 sec: 5051.7, 300 sec: 4663.1). Total num frames: 303104. Throughput: 0: 5336.0. Samples: 298720. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:08,650][04266] Avg episode reward: [(0, '-29.014')]
+[2022-12-04 20:49:08,678][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000600_307200.pth...
+[2022-12-04 20:49:08,686][04340] Removing /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000296_151552.pth
+[2022-12-04 20:49:08,686][04340] Saving new best policy, reward=-29.014!
+[2022-12-04 20:49:12,321][04360] Updated weights for policy 0, policy_version 640 (0.0007)
+[2022-12-04 20:49:13,650][04266] Fps is (10 sec: 4916.9, 60 sec: 5393.1, 300 sec: 4739.7). Total num frames: 331776. Throughput: 0: 5326.1. Samples: 332308. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2022-12-04 20:49:13,650][04266] Avg episode reward: [(0, '-0.035')]
+[2022-12-04 20:49:13,651][04340] Saving new best policy, reward=-0.035!
+[2022-12-04 20:49:18,650][04266] Fps is (10 sec: 5734.4, 60 sec: 5393.1, 300 sec: 4806.0). Total num frames: 360448. Throughput: 0: 5338.0. Samples: 349452. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:18,650][04266] Avg episode reward: [(0, '26.827')]
+[2022-12-04 20:49:18,651][04340] Saving new best policy, reward=26.827!
+[2022-12-04 20:49:19,490][04360] Updated weights for policy 0, policy_version 720 (0.0006)
+[2022-12-04 20:49:23,650][04266] Fps is (10 sec: 5734.3, 60 sec: 5393.1, 300 sec: 4864.0). Total num frames: 389120. Throughput: 0: 5356.0. Samples: 384288. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:23,651][04266] Avg episode reward: [(0, '75.358')]
+[2022-12-04 20:49:23,656][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000760_389120.pth...
+[2022-12-04 20:49:23,665][04340] Removing /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000456_233472.pth
+[2022-12-04 20:49:23,665][04340] Saving new best policy, reward=75.358!
+[2022-12-04 20:49:26,586][04360] Updated weights for policy 0, policy_version 800 (0.0006)
+[2022-12-04 20:49:28,650][04266] Fps is (10 sec: 5734.4, 60 sec: 5393.1, 300 sec: 4915.2). Total num frames: 417792. Throughput: 0: 5375.7. Samples: 418512. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:28,650][04266] Avg episode reward: [(0, '153.991')]
+[2022-12-04 20:49:28,651][04340] Saving new best policy, reward=153.991!
+[2022-12-04 20:49:33,650][04266] Fps is (10 sec: 5734.5, 60 sec: 5393.1, 300 sec: 4960.7). Total num frames: 446464. Throughput: 0: 5396.6. Samples: 435928. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:33,650][04266] Avg episode reward: [(0, '231.230')]
+[2022-12-04 20:49:33,671][04340] Saving new best policy, reward=231.230!
+[2022-12-04 20:49:33,672][04360] Updated weights for policy 0, policy_version 880 (0.0006)
+[2022-12-04 20:49:38,650][04266] Fps is (10 sec: 5734.3, 60 sec: 5461.3, 300 sec: 5001.4). Total num frames: 475136. Throughput: 0: 5398.1. Samples: 470356. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2022-12-04 20:49:38,651][04266] Avg episode reward: [(0, '321.313')]
+[2022-12-04 20:49:38,656][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000928_475136.pth...
+[2022-12-04 20:49:38,664][04340] Removing /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000600_307200.pth
+[2022-12-04 20:49:38,665][04340] Saving new best policy, reward=321.313!
+[2022-12-04 20:49:40,419][04266] Keyboard interrupt detected in the event loop EvtLoop [Runner_EvtLoop, process=main process 4266], exiting...
+[2022-12-04 20:49:40,420][04266] Runner profile tree view:
+main_loop: 103.9009
+[2022-12-04 20:49:40,421][04266] Collected {0: 487424}, FPS: 4691.2
+[2022-12-04 20:49:40,421][04340] Stopping Batcher_0...
+[2022-12-04 20:49:40,421][04340] Loop batcher_evt_loop terminating...
+[2022-12-04 20:49:40,421][04365] Stopping RolloutWorker_w3...
+[2022-12-04 20:49:40,422][04365] Loop rollout_proc3_evt_loop terminating...
+[2022-12-04 20:49:40,422][04340] Saving /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000952_487424.pth...
+[2022-12-04 20:49:40,424][04366] Stopping RolloutWorker_w5...
+[2022-12-04 20:49:40,424][04366] Loop rollout_proc5_evt_loop terminating...
+[2022-12-04 20:49:40,425][04361] Stopping RolloutWorker_w0...
+[2022-12-04 20:49:40,425][04362] Stopping RolloutWorker_w1...
+[2022-12-04 20:49:40,426][04363] Stopping RolloutWorker_w6...
+[2022-12-04 20:49:40,426][04361] Loop rollout_proc0_evt_loop terminating...
+[2022-12-04 20:49:40,426][04362] Loop rollout_proc1_evt_loop terminating...
+[2022-12-04 20:49:40,426][04368] Stopping RolloutWorker_w2...
+[2022-12-04 20:49:40,426][04363] Loop rollout_proc6_evt_loop terminating...
+[2022-12-04 20:49:40,426][04368] Loop rollout_proc2_evt_loop terminating...
+[2022-12-04 20:49:40,429][04340] Removing /home/andrew_huggingface_co/sample-factory/train_dir/ant_test/checkpoint_p0/checkpoint_000000760_389120.pth
+[2022-12-04 20:49:40,429][04340] Stopping LearnerWorker_p0...
+[2022-12-04 20:49:40,430][04340] Loop learner_proc0_evt_loop terminating...
+[2022-12-04 20:49:40,436][04360] Weights refcount: 2 0
+[2022-12-04 20:49:40,437][04360] Stopping InferenceWorker_p0-w0...
+[2022-12-04 20:49:40,438][04360] Loop inference_proc0-0_evt_loop terminating...
+[2022-12-04 20:49:40,474][04364] Stopping RolloutWorker_w7...
+[2022-12-04 20:49:40,475][04364] Loop rollout_proc7_evt_loop terminating...
+[2022-12-04 20:49:40,498][04367] Stopping RolloutWorker_w4...
+[2022-12-04 20:49:40,521][04367] Loop rollout_proc4_evt_loop terminating...