diff --git "a/sf_log.txt" "b/sf_log.txt"
--- "a/sf_log.txt"
+++ "b/sf_log.txt"
@@ -1006,3 +1006,1456 @@ main_loop: 1230.3498
 [2023-02-22 23:52:57,939][05631] Avg episode rewards: #0: 4.632, true rewards: #0: 4.032
 [2023-02-22 23:52:57,942][05631] Avg episode reward: 4.632, avg true_objective: 4.032
 [2023-02-22 23:53:18,579][05631] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2023-02-22 23:53:24,477][05631] The model has been pushed to https://huggingface.co/pittawat/rl_course_vizdoom_health_gathering_supreme
+[2023-02-22 23:56:04,373][05631] Environment doom_basic already registered, overwriting...
+[2023-02-22 23:56:04,375][05631] Environment doom_two_colors_easy already registered, overwriting...
+[2023-02-22 23:56:04,377][05631] Environment doom_two_colors_hard already registered, overwriting...
+[2023-02-22 23:56:04,379][05631] Environment doom_dm already registered, overwriting...
+[2023-02-22 23:56:04,386][05631] Environment doom_dwango5 already registered, overwriting...
+[2023-02-22 23:56:04,394][05631] Environment doom_my_way_home_flat_actions already registered, overwriting...
+[2023-02-22 23:56:04,403][05631] Environment doom_defend_the_center_flat_actions already registered, overwriting...
+[2023-02-22 23:56:04,404][05631] Environment doom_my_way_home already registered, overwriting...
+[2023-02-22 23:56:04,405][05631] Environment doom_deadly_corridor already registered, overwriting...
+[2023-02-22 23:56:04,406][05631] Environment doom_defend_the_center already registered, overwriting...
+[2023-02-22 23:56:04,423][05631] Environment doom_defend_the_line already registered, overwriting...
+[2023-02-22 23:56:04,428][05631] Environment doom_health_gathering already registered, overwriting...
+[2023-02-22 23:56:04,436][05631] Environment doom_health_gathering_supreme already registered, overwriting...
+[2023-02-22 23:56:04,438][05631] Environment doom_battle already registered, overwriting...
+[2023-02-22 23:56:04,441][05631] Environment doom_battle2 already registered, overwriting...
+[2023-02-22 23:56:04,445][05631] Environment doom_duel_bots already registered, overwriting...
+[2023-02-22 23:56:04,451][05631] Environment doom_deathmatch_bots already registered, overwriting...
+[2023-02-22 23:56:04,455][05631] Environment doom_duel already registered, overwriting...
+[2023-02-22 23:56:04,463][05631] Environment doom_deathmatch_full already registered, overwriting...
+[2023-02-22 23:56:04,470][05631] Environment doom_benchmark already registered, overwriting...
+[2023-02-22 23:56:04,473][05631] register_encoder_factory: <function make_vizdoom_encoder at 0x7f0a330101f0>
+[2023-02-22 23:56:04,505][05631] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2023-02-22 23:56:04,518][05631] Overriding arg 'train_for_env_steps' with value 10000000 passed from command line
+[2023-02-22 23:56:04,524][05631] Experiment dir /content/train_dir/default_experiment already exists!
+[2023-02-22 23:56:04,528][05631] Resuming existing experiment from /content/train_dir/default_experiment...
+[2023-02-22 23:56:04,536][05631] Weights and Biases integration disabled
+[2023-02-22 23:56:04,550][05631] Environment var CUDA_VISIBLE_DEVICES is 0
+
+[2023-02-22 23:56:06,759][05631] Starting experiment with the following configuration:
+help=False
+algo=APPO
+env=doom_health_gathering_supreme
+experiment=default_experiment
+train_dir=/content/train_dir
+restart_behavior=resume
+device=gpu
+seed=None
+num_policies=1
+async_rl=True
+serial_mode=False
+batched_sampling=False
+num_batches_to_accumulate=2
+worker_num_splits=2
+policy_workers_per_policy=1
+max_policy_lag=1000
+num_workers=8
+num_envs_per_worker=4
+batch_size=1024
+num_batches_per_epoch=1
+num_epochs=1
+rollout=32
+recurrence=32
+shuffle_minibatches=False
+gamma=0.99
+reward_scale=1.0
+reward_clip=1000.0
+value_bootstrap=False
+normalize_returns=True
+exploration_loss_coeff=0.001
+value_loss_coeff=0.5
+kl_loss_coeff=0.0
+exploration_loss=symmetric_kl
+gae_lambda=0.95
+ppo_clip_ratio=0.1
+ppo_clip_value=0.2
+with_vtrace=False
+vtrace_rho=1.0
+vtrace_c=1.0
+optimizer=adam
+adam_eps=1e-06
+adam_beta1=0.9
+adam_beta2=0.999
+max_grad_norm=4.0
+learning_rate=0.0001
+lr_schedule=constant
+lr_schedule_kl_threshold=0.008
+lr_adaptive_min=1e-06
+lr_adaptive_max=0.01
+obs_subtract_mean=0.0
+obs_scale=255.0
+normalize_input=True
+normalize_input_keys=None
+decorrelate_experience_max_seconds=0
+decorrelate_envs_on_one_worker=True
+actor_worker_gpus=[]
+set_workers_cpu_affinity=True
+force_envs_single_thread=False
+default_niceness=0
+log_to_file=True
+experiment_summaries_interval=10
+flush_summaries_interval=30
+stats_avg=100
+summaries_use_frameskip=True
+heartbeat_interval=20
+heartbeat_reporting_interval=600
+train_for_env_steps=10000000
+train_for_seconds=10000000000
+save_every_sec=120
+keep_checkpoints=2
+load_checkpoint_kind=latest
+save_milestones_sec=-1
+save_best_every_sec=5
+save_best_metric=reward
+save_best_after=100000
+benchmark=False
+encoder_mlp_layers=[512, 512]
+encoder_conv_architecture=convnet_simple
+encoder_conv_mlp_layers=[512]
+use_rnn=True
+rnn_size=512
+rnn_type=gru
+rnn_num_layers=1
+decoder_mlp_layers=[]
+nonlinearity=elu
+policy_initialization=orthogonal
+policy_init_gain=1.0
+actor_critic_share_weights=True
+adaptive_stddev=True
+continuous_tanh_scale=0.0
+initial_stddev=1.0
+use_env_info_cache=False
+env_gpu_actions=False
+env_gpu_observations=True
+env_frameskip=4
+env_framestack=1
+pixel_format=CHW
+use_record_episode_statistics=False
+with_wandb=False
+wandb_user=None
+wandb_project=sample_factory
+wandb_group=None
+wandb_job_type=SF
+wandb_tags=[]
+with_pbt=False
+pbt_mix_policies_in_one_env=True
+pbt_period_env_steps=5000000
+pbt_start_mutation=20000000
+pbt_replace_fraction=0.3
+pbt_mutation_rate=0.15
+pbt_replace_reward_gap=0.1
+pbt_replace_reward_gap_absolute=1e-06
+pbt_optimize_gamma=False
+pbt_target_objective=true_objective
+pbt_perturb_min=1.1
+pbt_perturb_max=1.5
+num_agents=-1
+num_humans=0
+num_bots=-1
+start_bot_difficulty=None
+timelimit=None
+res_w=128
+res_h=72
+wide_aspect_ratio=False
+eval_env_frameskip=1
+fps=35
+command_line=--env=doom_health_gathering_supreme --num_workers=8 --num_envs_per_worker=4 --train_for_env_steps=4000000
+cli_args={'env': 'doom_health_gathering_supreme', 'num_workers': 8, 'num_envs_per_worker': 4, 'train_for_env_steps': 4000000}
+git_hash=unknown
+git_repo_name=not a git repository
+[2023-02-22 23:56:06,762][05631] Saving configuration to /content/train_dir/default_experiment/config.json...
+[2023-02-22 23:56:06,767][05631] Rollout worker 0 uses device cpu
+[2023-02-22 23:56:06,769][05631] Rollout worker 1 uses device cpu
+[2023-02-22 23:56:06,775][05631] Rollout worker 2 uses device cpu
+[2023-02-22 23:56:06,776][05631] Rollout worker 3 uses device cpu
+[2023-02-22 23:56:06,777][05631] Rollout worker 4 uses device cpu
+[2023-02-22 23:56:06,778][05631] Rollout worker 5 uses device cpu
+[2023-02-22 23:56:06,779][05631] Rollout worker 6 uses device cpu
+[2023-02-22 23:56:06,781][05631] Rollout worker 7 uses device cpu
+[2023-02-22 23:56:06,927][05631] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:56:06,932][05631] InferenceWorker_p0-w0: min num requests: 2
+[2023-02-22 23:56:06,975][05631] Starting all processes...
+[2023-02-22 23:56:06,979][05631] Starting process learner_proc0
+[2023-02-22 23:56:07,170][05631] Starting all processes...
+[2023-02-22 23:56:07,183][05631] Starting process inference_proc0-0
+[2023-02-22 23:56:07,299][05631] Starting process rollout_proc0
+[2023-02-22 23:56:07,304][05631] Starting process rollout_proc1
+[2023-02-22 23:56:07,304][05631] Starting process rollout_proc2
+[2023-02-22 23:56:07,304][05631] Starting process rollout_proc3
+[2023-02-22 23:56:07,304][05631] Starting process rollout_proc4
+[2023-02-22 23:56:07,304][05631] Starting process rollout_proc5
+[2023-02-22 23:56:07,305][05631] Starting process rollout_proc6
+[2023-02-22 23:56:07,305][05631] Starting process rollout_proc7
+[2023-02-22 23:56:17,924][20332] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:56:17,924][20332] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2023-02-22 23:56:17,957][20332] Num visible devices: 1
+[2023-02-22 23:56:17,986][20332] Starting seed is not provided
+[2023-02-22 23:56:17,987][20332] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:56:17,988][20332] Initializing actor-critic model on device cuda:0
+[2023-02-22 23:56:17,989][20332] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-22 23:56:17,990][20332] RunningMeanStd input shape: (1,)
+[2023-02-22 23:56:18,029][20332] ConvEncoder: input_channels=3
+[2023-02-22 23:56:18,746][20346] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:56:18,748][20346] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2023-02-22 23:56:18,818][20346] Num visible devices: 1
+[2023-02-22 23:56:18,948][20348] Worker 2 uses CPU cores [0]
+[2023-02-22 23:56:19,060][20332] Conv encoder output size: 512
+[2023-02-22 23:56:19,064][20332] Policy head output size: 512
+[2023-02-22 23:56:19,187][20332] Created Actor Critic model with architecture:
+[2023-02-22 23:56:19,191][20332] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): VizdoomEncoder(
+    (basic_encoder): ConvEncoder(
+      (enc): RecursiveScriptModule(
+        original_name=ConvEncoderImpl
+        (conv_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Conv2d)
+          (1): RecursiveScriptModule(original_name=ELU)
+          (2): RecursiveScriptModule(original_name=Conv2d)
+          (3): RecursiveScriptModule(original_name=ELU)
+          (4): RecursiveScriptModule(original_name=Conv2d)
+          (5): RecursiveScriptModule(original_name=ELU)
+        )
+        (mlp_layers): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=ELU)
+        )
+      )
+    )
+  )
+  (core): ModelCoreRNN(
+    (core): GRU(512, 512)
+  )
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=512, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationDefault(
+    (distribution_linear): Linear(in_features=512, out_features=5, bias=True)
+  )
+)
+[2023-02-22 23:56:19,351][20350] Worker 0 uses CPU cores [0]
+[2023-02-22 23:56:19,498][20347] Worker 1 uses CPU cores [1]
+[2023-02-22 23:56:19,976][20357] Worker 3 uses CPU cores [1]
+[2023-02-22 23:56:20,061][20359] Worker 4 uses CPU cores [0]
+[2023-02-22 23:56:20,178][20369] Worker 6 uses CPU cores [0]
+[2023-02-22 23:56:20,209][20361] Worker 5 uses CPU cores [1]
+[2023-02-22 23:56:20,256][20367] Worker 7 uses CPU cores [1]
+[2023-02-22 23:56:23,348][20332] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-02-22 23:56:23,350][20332] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
+[2023-02-22 23:56:23,386][20332] Loading model from checkpoint
+[2023-02-22 23:56:23,392][20332] Loaded experiment state at self.train_step=978, self.env_steps=4005888
+[2023-02-22 23:56:23,393][20332] Initialized policy 0 weights for model version 978
+[2023-02-22 23:56:23,403][20332] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:56:23,412][20332] LearnerWorker_p0 finished initialization!
+[2023-02-22 23:56:23,621][20346] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-22 23:56:23,623][20346] RunningMeanStd input shape: (1,)
+[2023-02-22 23:56:23,643][20346] ConvEncoder: input_channels=3
+[2023-02-22 23:56:23,806][20346] Conv encoder output size: 512
+[2023-02-22 23:56:23,807][20346] Policy head output size: 512
+[2023-02-22 23:56:24,550][05631] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 4005888. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:56:26,645][05631] Inference worker 0-0 is ready!
+[2023-02-22 23:56:26,648][05631] All inference workers are ready! Signal rollout workers to start!
+[2023-02-22 23:56:26,777][20350] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,777][20359] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,787][20348] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,789][20369] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,798][20361] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,813][20357] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,835][20347] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,840][20367] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:56:26,917][05631] Heartbeat connected on Batcher_0
+[2023-02-22 23:56:26,925][05631] Heartbeat connected on LearnerWorker_p0
+[2023-02-22 23:56:26,971][05631] Heartbeat connected on InferenceWorker_p0-w0
+[2023-02-22 23:56:27,680][20367] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:27,684][20347] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:28,022][20347] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:28,222][20348] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:28,225][20359] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:28,227][20350] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:28,231][20369] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:29,301][20357] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:29,343][20347] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:29,363][20367] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:29,550][05631] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 4005888. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:56:29,633][20350] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:29,642][20359] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:29,645][20348] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:29,662][20369] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:30,434][20361] Decorrelating experience for 0 frames...
+[2023-02-22 23:56:30,678][20350] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:30,697][20369] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:30,880][20357] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:30,957][20367] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:31,425][20359] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:31,499][20350] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:31,668][05631] Heartbeat connected on RolloutWorker_w0
+[2023-02-22 23:56:31,916][20347] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:31,928][20361] Decorrelating experience for 32 frames...
+[2023-02-22 23:56:32,222][05631] Heartbeat connected on RolloutWorker_w1
+[2023-02-22 23:56:32,578][20367] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:32,634][20357] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:32,739][20369] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:32,874][05631] Heartbeat connected on RolloutWorker_w7
+[2023-02-22 23:56:33,067][05631] Heartbeat connected on RolloutWorker_w6
+[2023-02-22 23:56:33,391][20361] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:34,188][20357] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:34,550][05631] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 4005888. Throughput: 0: 2.0. Samples: 20. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:56:34,553][05631] Avg episode reward: [(0, '0.800')]
+[2023-02-22 23:56:34,668][05631] Heartbeat connected on RolloutWorker_w3
+[2023-02-22 23:56:35,037][20359] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:35,360][20348] Decorrelating experience for 64 frames...
+[2023-02-22 23:56:35,692][05631] Heartbeat connected on RolloutWorker_w4
+[2023-02-22 23:56:37,603][20361] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:38,355][05631] Heartbeat connected on RolloutWorker_w5
+[2023-02-22 23:56:39,226][20332] Signal inference workers to stop experience collection...
+[2023-02-22 23:56:39,233][20346] InferenceWorker_p0-w0: stopping experience collection
+[2023-02-22 23:56:39,550][05631] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 4005888. Throughput: 0: 153.6. Samples: 2304. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:56:39,571][05631] Avg episode reward: [(0, '3.198')]
+[2023-02-22 23:56:39,689][20348] Decorrelating experience for 96 frames...
+[2023-02-22 23:56:39,812][05631] Heartbeat connected on RolloutWorker_w2
+[2023-02-22 23:56:41,256][20332] Signal inference workers to resume experience collection...
+[2023-02-22 23:56:41,258][20346] InferenceWorker_p0-w0: resuming experience collection
+[2023-02-22 23:56:44,550][05631] Fps is (10 sec: 1228.8, 60 sec: 614.4, 300 sec: 614.4). Total num frames: 4018176. Throughput: 0: 135.7. Samples: 2714. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-02-22 23:56:44,554][05631] Avg episode reward: [(0, '3.559')]
+[2023-02-22 23:56:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 1146.9, 300 sec: 1146.9). Total num frames: 4034560. Throughput: 0: 263.9. Samples: 6598. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:56:49,553][05631] Avg episode reward: [(0, '4.147')]
+[2023-02-22 23:56:51,767][20346] Updated weights for policy 0, policy_version 988 (0.0018)
+[2023-02-22 23:56:54,550][05631] Fps is (10 sec: 3686.5, 60 sec: 1638.4, 300 sec: 1638.4). Total num frames: 4055040. Throughput: 0: 426.9. Samples: 12808. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:56:54,553][05631] Avg episode reward: [(0, '4.484')]
+[2023-02-22 23:56:59,556][05631] Fps is (10 sec: 3684.3, 60 sec: 1872.2, 300 sec: 1872.2). Total num frames: 4071424. Throughput: 0: 439.5. Samples: 15384. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:56:59,565][05631] Avg episode reward: [(0, '4.521')]
+[2023-02-22 23:57:04,552][05631] Fps is (10 sec: 2866.6, 60 sec: 1945.5, 300 sec: 1945.5). Total num frames: 4083712. Throughput: 0: 481.0. Samples: 19240. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:04,556][05631] Avg episode reward: [(0, '4.622')]
+[2023-02-22 23:57:05,519][20346] Updated weights for policy 0, policy_version 998 (0.0019)
+[2023-02-22 23:57:09,550][05631] Fps is (10 sec: 2868.8, 60 sec: 2093.5, 300 sec: 2093.5). Total num frames: 4100096. Throughput: 0: 529.8. Samples: 23840. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:57:09,553][05631] Avg episode reward: [(0, '4.583')]
+[2023-02-22 23:57:14,550][05631] Fps is (10 sec: 3687.2, 60 sec: 2293.8, 300 sec: 2293.8). Total num frames: 4120576. Throughput: 0: 593.8. Samples: 26722. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:14,555][05631] Avg episode reward: [(0, '4.683')]
+[2023-02-22 23:57:16,081][20346] Updated weights for policy 0, policy_version 1008 (0.0016)
+[2023-02-22 23:57:19,550][05631] Fps is (10 sec: 3686.3, 60 sec: 2383.1, 300 sec: 2383.1). Total num frames: 4136960. Throughput: 0: 727.4. Samples: 32754. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:57:19,559][05631] Avg episode reward: [(0, '4.449')]
+[2023-02-22 23:57:24,550][05631] Fps is (10 sec: 2867.2, 60 sec: 2389.3, 300 sec: 2389.3). Total num frames: 4149248. Throughput: 0: 763.0. Samples: 36638. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:57:24,557][05631] Avg episode reward: [(0, '4.424')]
+[2023-02-22 23:57:29,550][05631] Fps is (10 sec: 2867.3, 60 sec: 2662.4, 300 sec: 2457.6). Total num frames: 4165632. Throughput: 0: 798.6. Samples: 38652. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:29,553][05631] Avg episode reward: [(0, '4.537')]
+[2023-02-22 23:57:29,954][20346] Updated weights for policy 0, policy_version 1018 (0.0033)
+[2023-02-22 23:57:34,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3003.7, 300 sec: 2574.6). Total num frames: 4186112. Throughput: 0: 840.4. Samples: 44416. Policy #0 lag: (min: 0.0, avg: 0.8, max: 2.0)
+[2023-02-22 23:57:34,553][05631] Avg episode reward: [(0, '4.629')]
+[2023-02-22 23:57:39,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 2676.1). Total num frames: 4206592. Throughput: 0: 832.5. Samples: 50272. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:39,558][05631] Avg episode reward: [(0, '4.695')]
+[2023-02-22 23:57:41,200][20346] Updated weights for policy 0, policy_version 1028 (0.0020)
+[2023-02-22 23:57:44,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 2662.4). Total num frames: 4218880. Throughput: 0: 819.3. Samples: 52248. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:44,555][05631] Avg episode reward: [(0, '4.754')]
+[2023-02-22 23:57:49,553][05631] Fps is (10 sec: 2456.8, 60 sec: 3276.6, 300 sec: 2650.3). Total num frames: 4231168. Throughput: 0: 823.9. Samples: 56316. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:49,563][05631] Avg episode reward: [(0, '4.916')]
+[2023-02-22 23:57:53,445][20346] Updated weights for policy 0, policy_version 1038 (0.0013)
+[2023-02-22 23:57:54,550][05631] Fps is (10 sec: 3686.3, 60 sec: 3345.1, 300 sec: 2776.2). Total num frames: 4255744. Throughput: 0: 856.3. Samples: 62374. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:54,553][05631] Avg episode reward: [(0, '4.714')]
+[2023-02-22 23:57:59,550][05631] Fps is (10 sec: 4097.3, 60 sec: 3345.4, 300 sec: 2802.5). Total num frames: 4272128. Throughput: 0: 863.5. Samples: 65578. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:57:59,553][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-22 23:58:04,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.5, 300 sec: 2826.2). Total num frames: 4288512. Throughput: 0: 833.8. Samples: 70274. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:58:04,556][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-22 23:58:04,572][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001047_4288512.pth...
+[2023-02-22 23:58:04,790][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000952_3899392.pth
+[2023-02-22 23:58:05,866][20346] Updated weights for policy 0, policy_version 1048 (0.0024)
+[2023-02-22 23:58:09,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 2808.7). Total num frames: 4300800. Throughput: 0: 834.4. Samples: 74188. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:58:09,552][05631] Avg episode reward: [(0, '4.619')]
+[2023-02-22 23:58:14,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 2867.2). Total num frames: 4321280. Throughput: 0: 852.8. Samples: 77028. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:58:14,558][05631] Avg episode reward: [(0, '4.619')]
+[2023-02-22 23:58:16,727][20346] Updated weights for policy 0, policy_version 1058 (0.0025)
+[2023-02-22 23:58:19,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 2920.6). Total num frames: 4341760. Throughput: 0: 867.6. Samples: 83456. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:58:19,553][05631] Avg episode reward: [(0, '4.566')]
+[2023-02-22 23:58:24,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 2935.5). Total num frames: 4358144. Throughput: 0: 842.4. Samples: 88182. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:58:24,557][05631] Avg episode reward: [(0, '4.674')]
+[2023-02-22 23:58:29,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 2916.4). Total num frames: 4370432. Throughput: 0: 843.0. Samples: 90182. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:58:29,555][05631] Avg episode reward: [(0, '4.674')]
+[2023-02-22 23:58:30,278][20346] Updated weights for policy 0, policy_version 1068 (0.0012)
+[2023-02-22 23:58:34,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 2961.7). Total num frames: 4390912. Throughput: 0: 859.4. Samples: 94988. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:58:34,556][05631] Avg episode reward: [(0, '4.850')]
+[2023-02-22 23:58:39,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3003.7). Total num frames: 4411392. Throughput: 0: 864.6. Samples: 101282. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:58:39,561][05631] Avg episode reward: [(0, '4.769')]
+[2023-02-22 23:58:40,365][20346] Updated weights for policy 0, policy_version 1078 (0.0012)
+[2023-02-22 23:58:44,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 2984.2). Total num frames: 4423680. Throughput: 0: 854.4. Samples: 104028. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:58:44,565][05631] Avg episode reward: [(0, '4.715')]
+[2023-02-22 23:58:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.8, 300 sec: 2994.3). Total num frames: 4440064. Throughput: 0: 839.8. Samples: 108064. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:58:49,559][05631] Avg episode reward: [(0, '4.653')]
+[2023-02-22 23:58:53,834][20346] Updated weights for policy 0, policy_version 1088 (0.0017)
+[2023-02-22 23:58:54,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3003.7). Total num frames: 4456448. Throughput: 0: 863.9. Samples: 113062. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:58:54,555][05631] Avg episode reward: [(0, '4.650')]
+[2023-02-22 23:58:59,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3065.4). Total num frames: 4481024. Throughput: 0: 871.6. Samples: 116252. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:58:59,558][05631] Avg episode reward: [(0, '4.682')]
+[2023-02-22 23:59:04,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3046.4). Total num frames: 4493312. Throughput: 0: 857.3. Samples: 122034. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:59:04,555][05631] Avg episode reward: [(0, '4.670')]
+[2023-02-22 23:59:04,645][20346] Updated weights for policy 0, policy_version 1098 (0.0022)
+[2023-02-22 23:59:09,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3413.3, 300 sec: 3028.6). Total num frames: 4505600. Throughput: 0: 839.5. Samples: 125958. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:59:09,556][05631] Avg episode reward: [(0, '4.845')]
+[2023-02-22 23:59:14,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3035.9). Total num frames: 4521984. Throughput: 0: 838.8. Samples: 127930. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
+[2023-02-22 23:59:14,556][05631] Avg episode reward: [(0, '4.713')]
+[2023-02-22 23:59:17,554][20346] Updated weights for policy 0, policy_version 1108 (0.0032)
+[2023-02-22 23:59:19,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3089.6). Total num frames: 4546560. Throughput: 0: 864.8. Samples: 133904. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:59:19,559][05631] Avg episode reward: [(0, '4.482')]
+[2023-02-22 23:59:24,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3094.8). Total num frames: 4562944. Throughput: 0: 852.2. Samples: 139630. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:59:24,558][05631] Avg episode reward: [(0, '4.616')]
+[2023-02-22 23:59:29,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3077.5). Total num frames: 4575232. Throughput: 0: 830.9. Samples: 141418. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:59:29,557][05631] Avg episode reward: [(0, '4.603')]
+[2023-02-22 23:59:30,861][20346] Updated weights for policy 0, policy_version 1118 (0.0027)
+[2023-02-22 23:59:34,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3276.8, 300 sec: 3061.2). Total num frames: 4587520. Throughput: 0: 821.4. Samples: 145026. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:59:34,552][05631] Avg episode reward: [(0, '4.675')]
+[2023-02-22 23:59:39,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3108.8). Total num frames: 4612096. Throughput: 0: 846.0. Samples: 151134. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:59:39,554][05631] Avg episode reward: [(0, '4.533')]
+[2023-02-22 23:59:41,452][20346] Updated weights for policy 0, policy_version 1128 (0.0012)
+[2023-02-22 23:59:44,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3113.0). Total num frames: 4628480. Throughput: 0: 844.3. Samples: 154244. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:59:44,558][05631] Avg episode reward: [(0, '4.554')]
+[2023-02-22 23:59:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3097.0). Total num frames: 4640768. Throughput: 0: 815.2. Samples: 158716. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:59:49,552][05631] Avg episode reward: [(0, '4.432')]
+[2023-02-22 23:59:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3101.3). Total num frames: 4657152. Throughput: 0: 816.3. Samples: 162692. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:59:54,552][05631] Avg episode reward: [(0, '4.620')]
+[2023-02-22 23:59:55,245][20346] Updated weights for policy 0, policy_version 1138 (0.0019)
+[2023-02-22 23:59:59,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3124.4). Total num frames: 4677632. Throughput: 0: 842.7. Samples: 165852. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:59:59,557][05631] Avg episode reward: [(0, '4.670')]
+[2023-02-23 00:00:04,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3146.5). Total num frames: 4698112. Throughput: 0: 849.0. Samples: 172108. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:00:04,553][05631] Avg episode reward: [(0, '4.743')]
+[2023-02-23 00:00:04,579][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001147_4698112.pth...
+[2023-02-23 00:00:04,774][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth
+[2023-02-23 00:00:05,895][20346] Updated weights for policy 0, policy_version 1148 (0.0022)
+[2023-02-23 00:00:09,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3131.2). Total num frames: 4710400. Throughput: 0: 816.0. Samples: 176352. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:00:09,555][05631] Avg episode reward: [(0, '4.640')]
+[2023-02-23 00:00:14,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3116.5). Total num frames: 4722688. Throughput: 0: 820.4. Samples: 178334. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:00:14,561][05631] Avg episode reward: [(0, '4.667')]
+[2023-02-23 00:00:19,119][20346] Updated weights for policy 0, policy_version 1158 (0.0023)
+[2023-02-23 00:00:19,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3137.4). Total num frames: 4743168. Throughput: 0: 854.7. Samples: 183486. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:00:19,559][05631] Avg episode reward: [(0, '4.531')]
+[2023-02-23 00:00:24,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3157.3). Total num frames: 4763648. Throughput: 0: 859.8. Samples: 189826. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:00:24,563][05631] Avg episode reward: [(0, '4.561')]
+[2023-02-23 00:00:29,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3143.1). Total num frames: 4775936. Throughput: 0: 841.6. Samples: 192118. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:00:29,553][05631] Avg episode reward: [(0, '4.643')]
+[2023-02-23 00:00:31,191][20346] Updated weights for policy 0, policy_version 1168 (0.0030)
+[2023-02-23 00:00:34,551][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3145.7). Total num frames: 4792320. Throughput: 0: 832.8. Samples: 196192. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:00:34,562][05631] Avg episode reward: [(0, '4.525')]
+[2023-02-23 00:00:39,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3164.4). Total num frames: 4812800. Throughput: 0: 861.9. Samples: 201478. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:00:39,552][05631] Avg episode reward: [(0, '4.685')]
+[2023-02-23 00:00:42,314][20346] Updated weights for policy 0, policy_version 1178 (0.0013)
+[2023-02-23 00:00:44,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3182.3). Total num frames: 4833280. Throughput: 0: 861.6. Samples: 204622. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:00:44,561][05631] Avg episode reward: [(0, '4.800')]
+[2023-02-23 00:00:49,550][05631] Fps is (10 sec: 3686.3, 60 sec: 3481.6, 300 sec: 3184.1). Total num frames: 4849664. Throughput: 0: 845.0. Samples: 210132. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:00:49,562][05631] Avg episode reward: [(0, '4.596')]
+[2023-02-23 00:00:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3170.6). Total num frames: 4861952. Throughput: 0: 838.7. Samples: 214092. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:00:54,560][05631] Avg episode reward: [(0, '4.559')]
+[2023-02-23 00:00:56,005][20346] Updated weights for policy 0, policy_version 1188 (0.0018)
+[2023-02-23 00:00:59,550][05631] Fps is (10 sec: 2867.3, 60 sec: 3345.1, 300 sec: 3172.5). Total num frames: 4878336. Throughput: 0: 842.4. Samples: 216242. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:00:59,560][05631] Avg episode reward: [(0, '4.467')]
+[2023-02-23 00:01:04,551][05631] Fps is (10 sec: 3686.1, 60 sec: 3345.0, 300 sec: 3189.0). Total num frames: 4898816. Throughput: 0: 862.8. Samples: 222312. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:01:04,554][05631] Avg episode reward: [(0, '4.771')]
+[2023-02-23 00:01:06,164][20346] Updated weights for policy 0, policy_version 1198 (0.0013)
+[2023-02-23 00:01:09,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3190.6). Total num frames: 4915200. Throughput: 0: 835.1. Samples: 227406. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:01:09,555][05631] Avg episode reward: [(0, '4.942')]
+[2023-02-23 00:01:14,550][05631] Fps is (10 sec: 2867.4, 60 sec: 3413.3, 300 sec: 3177.9). Total num frames: 4927488. Throughput: 0: 827.6. Samples: 229360. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:01:14,553][05631] Avg episode reward: [(0, '4.753')]
+[2023-02-23 00:01:19,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3179.6). Total num frames: 4943872. Throughput: 0: 827.6. Samples: 233436. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:01:19,554][05631] Avg episode reward: [(0, '4.772')]
+[2023-02-23 00:01:20,197][20346] Updated weights for policy 0, policy_version 1208 (0.0032)
+[2023-02-23 00:01:24,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3249.0). Total num frames: 4964352. Throughput: 0: 849.5. Samples: 239706. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:01:24,552][05631] Avg episode reward: [(0, '4.636')]
+[2023-02-23 00:01:29,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3304.6). Total num frames: 4980736. Throughput: 0: 848.1. Samples: 242786. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:01:29,553][05631] Avg episode reward: [(0, '4.608')]
+[2023-02-23 00:01:31,680][20346] Updated weights for policy 0, policy_version 1218 (0.0012)
+[2023-02-23 00:01:34,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 4993024. Throughput: 0: 817.2. Samples: 246904. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:01:34,553][05631] Avg episode reward: [(0, '4.551')]
+[2023-02-23 00:01:39,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 5009408. Throughput: 0: 823.4. Samples: 251146. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:01:39,553][05631] Avg episode reward: [(0, '4.496')]
+[2023-02-23 00:01:44,091][20346] Updated weights for policy 0, policy_version 1228 (0.0018)
+[2023-02-23 00:01:44,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 5029888. Throughput: 0: 844.6. Samples: 254250. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:01:44,556][05631] Avg episode reward: [(0, '4.489')]
+[2023-02-23 00:01:49,552][05631] Fps is (10 sec: 3685.5, 60 sec: 3276.7, 300 sec: 3360.1). Total num frames: 5046272. Throughput: 0: 847.0. Samples: 260430. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:01:49,555][05631] Avg episode reward: [(0, '4.496')]
+[2023-02-23 00:01:54,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3345.1, 300 sec: 3360.2). Total num frames: 5062656. Throughput: 0: 822.0. Samples: 264396. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:01:54,553][05631] Avg episode reward: [(0, '4.575')]
+[2023-02-23 00:01:57,329][20346] Updated weights for policy 0, policy_version 1238 (0.0023)
+[2023-02-23 00:01:59,550][05631] Fps is (10 sec: 2867.9, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 5074944. Throughput: 0: 822.0. Samples: 266352. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:01:59,553][05631] Avg episode reward: [(0, '4.633')]
+[2023-02-23 00:02:04,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 5095424. Throughput: 0: 853.4. Samples: 271840. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:04,553][05631] Avg episode reward: [(0, '4.712')]
+[2023-02-23 00:02:04,567][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001244_5095424.pth...
+[2023-02-23 00:02:04,745][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001047_4288512.pth
+[2023-02-23 00:02:07,883][20346] Updated weights for policy 0, policy_version 1248 (0.0021)
+[2023-02-23 00:02:09,550][05631] Fps is (10 sec: 4095.9, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5115904. Throughput: 0: 846.3. Samples: 277790. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:02:09,560][05631] Avg episode reward: [(0, '4.587')]
+[2023-02-23 00:02:14,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5128192. Throughput: 0: 821.4. Samples: 279750. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:14,555][05631] Avg episode reward: [(0, '4.632')]
+[2023-02-23 00:02:19,550][05631] Fps is (10 sec: 2457.7, 60 sec: 3276.8, 300 sec: 3360.1). Total num frames: 5140480. Throughput: 0: 817.4. Samples: 283688. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:19,557][05631] Avg episode reward: [(0, '4.535')]
+[2023-02-23 00:02:21,629][20346] Updated weights for policy 0, policy_version 1258 (0.0014)
+[2023-02-23 00:02:24,551][05631] Fps is (10 sec: 3276.7, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 5160960. Throughput: 0: 848.1. Samples: 289310. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:24,553][05631] Avg episode reward: [(0, '4.831')]
+[2023-02-23 00:02:29,551][05631] Fps is (10 sec: 4095.5, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 5181440. Throughput: 0: 847.5. Samples: 292388. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:29,555][05631] Avg episode reward: [(0, '4.835')]
+[2023-02-23 00:02:33,127][20346] Updated weights for policy 0, policy_version 1268 (0.0012)
+[2023-02-23 00:02:34,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 5193728. Throughput: 0: 819.1. Samples: 297288. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:02:34,558][05631] Avg episode reward: [(0, '4.697')]
+[2023-02-23 00:02:39,551][05631] Fps is (10 sec: 2867.4, 60 sec: 3345.0, 300 sec: 3360.1). Total num frames: 5210112. Throughput: 0: 817.1. Samples: 301166. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:02:39,557][05631] Avg episode reward: [(0, '4.401')]
+[2023-02-23 00:02:44,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 5230592. Throughput: 0: 832.3. Samples: 303806. Policy #0 lag: (min: 0.0, avg: 0.8, max: 2.0)
+[2023-02-23 00:02:44,553][05631] Avg episode reward: [(0, '4.512')]
+[2023-02-23 00:02:45,441][20346] Updated weights for policy 0, policy_version 1278 (0.0026)
+[2023-02-23 00:02:49,550][05631] Fps is (10 sec: 4096.3, 60 sec: 3413.5, 300 sec: 3374.0). Total num frames: 5251072. Throughput: 0: 853.4. Samples: 310244. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:02:49,552][05631] Avg episode reward: [(0, '4.730')]
+[2023-02-23 00:02:54,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5263360. Throughput: 0: 833.7. Samples: 315306. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:54,558][05631] Avg episode reward: [(0, '4.705')]
+[2023-02-23 00:02:57,585][20346] Updated weights for policy 0, policy_version 1288 (0.0020)
+[2023-02-23 00:02:59,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 5279744. Throughput: 0: 834.5. Samples: 317302. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:02:59,553][05631] Avg episode reward: [(0, '4.640')]
+[2023-02-23 00:03:04,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5296128. Throughput: 0: 847.8. Samples: 321838. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:03:04,553][05631] Avg episode reward: [(0, '4.826')]
+[2023-02-23 00:03:09,067][20346] Updated weights for policy 0, policy_version 1298 (0.0019)
+[2023-02-23 00:03:09,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5316608. Throughput: 0: 857.7. Samples: 327906. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:03:09,559][05631] Avg episode reward: [(0, '4.892')]
+[2023-02-23 00:03:14,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 5332992. Throughput: 0: 853.2. Samples: 330782. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:03:14,557][05631] Avg episode reward: [(0, '4.608')]
+[2023-02-23 00:03:19,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 5345280. Throughput: 0: 831.3. Samples: 334698. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
+[2023-02-23 00:03:19,554][05631] Avg episode reward: [(0, '4.631')]
+[2023-02-23 00:03:22,896][20346] Updated weights for policy 0, policy_version 1308 (0.0019)
+[2023-02-23 00:03:24,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5361664. Throughput: 0: 847.8. Samples: 339316. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:03:24,558][05631] Avg episode reward: [(0, '4.570')]
+[2023-02-23 00:03:29,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5382144. Throughput: 0: 859.7. Samples: 342494. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:03:29,556][05631] Avg episode reward: [(0, '4.385')]
+[2023-02-23 00:03:32,607][20346] Updated weights for policy 0, policy_version 1318 (0.0019)
+[2023-02-23 00:03:34,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3360.1). Total num frames: 5402624. Throughput: 0: 853.7. Samples: 348662. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:03:34,554][05631] Avg episode reward: [(0, '4.452')]
+[2023-02-23 00:03:39,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.4, 300 sec: 3360.1). Total num frames: 5414912. Throughput: 0: 829.1. Samples: 352616. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:03:39,556][05631] Avg episode reward: [(0, '4.533')]
+[2023-02-23 00:03:44,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3345.0, 300 sec: 3360.1). Total num frames: 5431296. Throughput: 0: 827.7. Samples: 354550. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:03:44,553][05631] Avg episode reward: [(0, '4.619')]
+[2023-02-23 00:03:46,418][20346] Updated weights for policy 0, policy_version 1328 (0.0025)
+[2023-02-23 00:03:49,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5451776. Throughput: 0: 852.6. Samples: 360206. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:03:49,553][05631] Avg episode reward: [(0, '4.738')]
+[2023-02-23 00:03:54,550][05631] Fps is (10 sec: 3686.6, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 5468160. Throughput: 0: 846.7. Samples: 366008. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:03:54,558][05631] Avg episode reward: [(0, '4.729')]
+[2023-02-23 00:03:58,585][20346] Updated weights for policy 0, policy_version 1338 (0.0016)
+[2023-02-23 00:03:59,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 5480448. Throughput: 0: 827.2. Samples: 368004. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:03:59,561][05631] Avg episode reward: [(0, '4.712')]
+[2023-02-23 00:04:04,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5496832. Throughput: 0: 829.1. Samples: 372008. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:04:04,552][05631] Avg episode reward: [(0, '4.584')]
+[2023-02-23 00:04:04,576][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001342_5496832.pth...
+[2023-02-23 00:04:04,750][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001147_4698112.pth
+[2023-02-23 00:04:09,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5517312. Throughput: 0: 854.9. Samples: 377786. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:04:09,556][05631] Avg episode reward: [(0, '4.547')]
+[2023-02-23 00:04:10,198][20346] Updated weights for policy 0, policy_version 1348 (0.0017)
+[2023-02-23 00:04:14,550][05631] Fps is (10 sec: 4096.1, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 5537792. Throughput: 0: 855.1. Samples: 380974. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:04:14,554][05631] Avg episode reward: [(0, '4.556')]
+[2023-02-23 00:04:19,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 5550080. Throughput: 0: 828.9. Samples: 385962. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:04:19,557][05631] Avg episode reward: [(0, '4.594')]
+[2023-02-23 00:04:23,148][20346] Updated weights for policy 0, policy_version 1358 (0.0016)
+[2023-02-23 00:04:24,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 5562368. Throughput: 0: 830.4. Samples: 389982. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:04:24,557][05631] Avg episode reward: [(0, '4.687')]
+[2023-02-23 00:04:29,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5582848. Throughput: 0: 848.0. Samples: 392710. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:04:29,560][05631] Avg episode reward: [(0, '4.624')]
+[2023-02-23 00:04:33,791][20346] Updated weights for policy 0, policy_version 1368 (0.0022)
+[2023-02-23 00:04:34,550][05631] Fps is (10 sec: 4096.1, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5603328. Throughput: 0: 856.8. Samples: 398762. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:04:34,552][05631] Avg episode reward: [(0, '4.377')]
+[2023-02-23 00:04:39,553][05631] Fps is (10 sec: 3685.2, 60 sec: 3413.1, 300 sec: 3360.1). Total num frames: 5619712. Throughput: 0: 830.0. Samples: 403360. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:04:39,556][05631] Avg episode reward: [(0, '4.492')]
+[2023-02-23 00:04:44,551][05631] Fps is (10 sec: 2866.9, 60 sec: 3345.0, 300 sec: 3360.1). Total num frames: 5632000. Throughput: 0: 831.6. Samples: 405428. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:04:44,553][05631] Avg episode reward: [(0, '4.584')]
+[2023-02-23 00:04:47,455][20346] Updated weights for policy 0, policy_version 1378 (0.0022)
+[2023-02-23 00:04:49,550][05631] Fps is (10 sec: 3277.9, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5652480. Throughput: 0: 850.9. Samples: 410300. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:04:49,557][05631] Avg episode reward: [(0, '4.574')]
+[2023-02-23 00:04:54,550][05631] Fps is (10 sec: 4096.5, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 5672960. Throughput: 0: 864.8. Samples: 416702. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:04:54,552][05631] Avg episode reward: [(0, '4.609')]
+[2023-02-23 00:04:58,250][20346] Updated weights for policy 0, policy_version 1388 (0.0023)
+[2023-02-23 00:04:59,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 5685248. Throughput: 0: 854.0. Samples: 419402. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:04:59,556][05631] Avg episode reward: [(0, '4.708')]
+[2023-02-23 00:05:04,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 5701632. Throughput: 0: 831.0. Samples: 423358. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:05:04,556][05631] Avg episode reward: [(0, '4.778')]
+[2023-02-23 00:05:09,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5718016. Throughput: 0: 853.5. Samples: 428390. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:05:09,553][05631] Avg episode reward: [(0, '4.709')]
+[2023-02-23 00:05:10,913][20346] Updated weights for policy 0, policy_version 1398 (0.0024)
+[2023-02-23 00:05:14,557][05631] Fps is (10 sec: 3683.6, 60 sec: 3344.7, 300 sec: 3373.9). Total num frames: 5738496. Throughput: 0: 862.6. Samples: 431534. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:05:14,561][05631] Avg episode reward: [(0, '4.585')]
+[2023-02-23 00:05:19,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 5754880. Throughput: 0: 853.5. Samples: 437168. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:05:19,555][05631] Avg episode reward: [(0, '4.646')]
+[2023-02-23 00:05:23,050][20346] Updated weights for policy 0, policy_version 1408 (0.0024)
+[2023-02-23 00:05:24,550][05631] Fps is (10 sec: 3279.2, 60 sec: 3481.6, 300 sec: 3374.0). Total num frames: 5771264. Throughput: 0: 841.6. Samples: 441230. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:05:24,556][05631] Avg episode reward: [(0, '4.601')]
+[2023-02-23 00:05:29,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 5787648. Throughput: 0: 839.3. Samples: 443194. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:05:29,560][05631] Avg episode reward: [(0, '4.772')]
+[2023-02-23 00:05:34,268][20346] Updated weights for policy 0, policy_version 1418 (0.0029)
+[2023-02-23 00:05:34,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 5808128. Throughput: 0: 869.2. Samples: 449414. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:05:34,560][05631] Avg episode reward: [(0, '4.747')]
+[2023-02-23 00:05:39,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.5, 300 sec: 3360.1). Total num frames: 5824512. Throughput: 0: 850.8. Samples: 454990. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:05:39,556][05631] Avg episode reward: [(0, '4.744')]
+[2023-02-23 00:05:44,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.4, 300 sec: 3346.2). Total num frames: 5836800. Throughput: 0: 834.4. Samples: 456952. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:05:44,561][05631] Avg episode reward: [(0, '4.806')]
+[2023-02-23 00:05:47,939][20346] Updated weights for policy 0, policy_version 1428 (0.0026)
+[2023-02-23 00:05:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 5853184. Throughput: 0: 837.7. Samples: 461056. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:05:49,553][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-23 00:05:54,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5873664. Throughput: 0: 868.8. Samples: 467484. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:05:54,553][05631] Avg episode reward: [(0, '4.802')]
+[2023-02-23 00:05:57,691][20346] Updated weights for policy 0, policy_version 1438 (0.0023)
+[2023-02-23 00:05:59,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3374.0). Total num frames: 5894144. Throughput: 0: 867.9. Samples: 470582. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:05:59,553][05631] Avg episode reward: [(0, '4.815')]
+[2023-02-23 00:06:04,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 5906432. Throughput: 0: 840.8. Samples: 475004. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:06:04,553][05631] Avg episode reward: [(0, '4.737')]
+[2023-02-23 00:06:04,573][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001442_5906432.pth...
+[2023-02-23 00:06:04,731][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001244_5095424.pth
+[2023-02-23 00:06:09,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 5922816. Throughput: 0: 840.8. Samples: 479064. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:06:09,552][05631] Avg episode reward: [(0, '4.726')]
+[2023-02-23 00:06:11,225][20346] Updated weights for policy 0, policy_version 1448 (0.0014)
+[2023-02-23 00:06:14,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.8, 300 sec: 3387.9). Total num frames: 5943296. Throughput: 0: 866.1. Samples: 482168. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:06:14,553][05631] Avg episode reward: [(0, '4.481')]
+[2023-02-23 00:06:19,554][05631] Fps is (10 sec: 4094.2, 60 sec: 3481.3, 300 sec: 3387.8). Total num frames: 5963776. Throughput: 0: 870.9. Samples: 488606. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:06:19,566][05631] Avg episode reward: [(0, '4.615')]
+[2023-02-23 00:06:22,499][20346] Updated weights for policy 0, policy_version 1458 (0.0018)
+[2023-02-23 00:06:24,552][05631] Fps is (10 sec: 3276.1, 60 sec: 3413.2, 300 sec: 3374.0). Total num frames: 5976064. Throughput: 0: 842.9. Samples: 492924. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:06:24,558][05631] Avg episode reward: [(0, '4.693')]
+[2023-02-23 00:06:29,550][05631] Fps is (10 sec: 2458.7, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 5988352. Throughput: 0: 844.6. Samples: 494960. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:06:29,552][05631] Avg episode reward: [(0, '4.759')]
+[2023-02-23 00:06:34,550][05631] Fps is (10 sec: 3277.6, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6008832. Throughput: 0: 872.8. Samples: 500334. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:06:34,558][05631] Avg episode reward: [(0, '4.592')]
+[2023-02-23 00:06:34,578][20346] Updated weights for policy 0, policy_version 1468 (0.0031)
+[2023-02-23 00:06:39,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6029312. Throughput: 0: 868.1. Samples: 506550. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:06:39,553][05631] Avg episode reward: [(0, '4.625')]
+[2023-02-23 00:06:44,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3387.9). Total num frames: 6045696. Throughput: 0: 848.2. Samples: 508750. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:06:44,558][05631] Avg episode reward: [(0, '4.656')]
+[2023-02-23 00:06:47,096][20346] Updated weights for policy 0, policy_version 1478 (0.0013)
+[2023-02-23 00:06:49,551][05631] Fps is (10 sec: 2866.9, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 6057984. Throughput: 0: 842.9. Samples: 512936. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:06:49,562][05631] Avg episode reward: [(0, '5.050')]
+[2023-02-23 00:06:54,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 6078464. Throughput: 0: 876.6. Samples: 518510. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:06:54,552][05631] Avg episode reward: [(0, '4.948')]
+[2023-02-23 00:06:57,628][20346] Updated weights for policy 0, policy_version 1488 (0.0019)
+[2023-02-23 00:06:59,550][05631] Fps is (10 sec: 4506.0, 60 sec: 3481.6, 300 sec: 3415.6). Total num frames: 6103040. Throughput: 0: 880.2. Samples: 521776. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:06:59,552][05631] Avg episode reward: [(0, '4.591')]
+[2023-02-23 00:07:04,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3387.9). Total num frames: 6115328. Throughput: 0: 853.7. Samples: 527018. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:07:04,553][05631] Avg episode reward: [(0, '4.626')]
+[2023-02-23 00:07:09,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6127616. Throughput: 0: 846.8. Samples: 531030. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:07:09,558][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-23 00:07:11,311][20346] Updated weights for policy 0, policy_version 1498 (0.0021)
+[2023-02-23 00:07:14,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 6148096. Throughput: 0: 854.6. Samples: 533416. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:07:14,553][05631] Avg episode reward: [(0, '4.572')]
+[2023-02-23 00:07:19,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.6, 300 sec: 3415.7). Total num frames: 6168576. Throughput: 0: 874.3. Samples: 539676. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:07:19,553][05631] Avg episode reward: [(0, '4.795')]
+[2023-02-23 00:07:21,462][20346] Updated weights for policy 0, policy_version 1508 (0.0016)
+[2023-02-23 00:07:24,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 6180864. Throughput: 0: 849.6. Samples: 544782. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:07:24,557][05631] Avg episode reward: [(0, '4.955')]
+[2023-02-23 00:07:29,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3401.8). Total num frames: 6197248. Throughput: 0: 846.3. Samples: 546834. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:07:29,552][05631] Avg episode reward: [(0, '4.892')]
+[2023-02-23 00:07:34,551][05631] Fps is (10 sec: 3276.4, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 6213632. Throughput: 0: 851.8. Samples: 551266. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-23 00:07:34,556][05631] Avg episode reward: [(0, '4.991')]
+[2023-02-23 00:07:34,676][20346] Updated weights for policy 0, policy_version 1518 (0.0043)
+[2023-02-23 00:07:39,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 6234112. Throughput: 0: 866.8. Samples: 557516. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:07:39,553][05631] Avg episode reward: [(0, '4.851')]
+[2023-02-23 00:07:44,550][05631] Fps is (10 sec: 3686.9, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6250496. Throughput: 0: 860.0. Samples: 560478. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:07:44,553][05631] Avg episode reward: [(0, '4.687')]
+[2023-02-23 00:07:46,632][20346] Updated weights for policy 0, policy_version 1528 (0.0013)
+[2023-02-23 00:07:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 6262784. Throughput: 0: 831.0. Samples: 564412. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:07:49,559][05631] Avg episode reward: [(0, '4.607')]
+[2023-02-23 00:07:54,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 6283264. Throughput: 0: 845.7. Samples: 569086. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:07:54,564][05631] Avg episode reward: [(0, '4.788')]
+[2023-02-23 00:07:58,320][20346] Updated weights for policy 0, policy_version 1538 (0.0027)
+[2023-02-23 00:07:59,550][05631] Fps is (10 sec: 4095.9, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 6303744. Throughput: 0: 863.1. Samples: 572254. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:07:59,553][05631] Avg episode reward: [(0, '4.945')]
+[2023-02-23 00:08:04,553][05631] Fps is (10 sec: 3685.1, 60 sec: 3413.1, 300 sec: 3401.7). Total num frames: 6320128. Throughput: 0: 858.0. Samples: 578288. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:08:04,559][05631] Avg episode reward: [(0, '5.220')]
+[2023-02-23 00:08:04,579][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001543_6320128.pth...
+[2023-02-23 00:08:04,802][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001342_5496832.pth
+[2023-02-23 00:08:04,839][20332] Saving new best policy, reward=5.220!
+[2023-02-23 00:08:09,550][05631] Fps is (10 sec: 2867.3, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6332416. Throughput: 0: 830.6. Samples: 582158. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:08:09,556][05631] Avg episode reward: [(0, '5.416')]
+[2023-02-23 00:08:09,564][20332] Saving new best policy, reward=5.416!
+[2023-02-23 00:08:11,878][20346] Updated weights for policy 0, policy_version 1548 (0.0018)
+[2023-02-23 00:08:14,550][05631] Fps is (10 sec: 2868.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6348800. Throughput: 0: 828.2. Samples: 584104. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:08:14,553][05631] Avg episode reward: [(0, '5.240')]
+[2023-02-23 00:08:19,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 6369280. Throughput: 0: 855.5. Samples: 589764. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:08:19,553][05631] Avg episode reward: [(0, '5.246')]
+[2023-02-23 00:08:22,158][20346] Updated weights for policy 0, policy_version 1558 (0.0023)
+[2023-02-23 00:08:24,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.4, 300 sec: 3401.8). Total num frames: 6385664. Throughput: 0: 849.7. Samples: 595754. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:08:24,554][05631] Avg episode reward: [(0, '5.237')]
+[2023-02-23 00:08:29,551][05631] Fps is (10 sec: 3276.4, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6402048. Throughput: 0: 828.5. Samples: 597762. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:08:29,556][05631] Avg episode reward: [(0, '5.200')]
+[2023-02-23 00:08:34,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6414336. Throughput: 0: 828.8. Samples: 601706. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:08:34,554][05631] Avg episode reward: [(0, '5.333')]
+[2023-02-23 00:08:35,888][20346] Updated weights for policy 0, policy_version 1568 (0.0021)
+[2023-02-23 00:08:39,550][05631] Fps is (10 sec: 3277.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6434816. Throughput: 0: 858.9. Samples: 607736. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:08:39,555][05631] Avg episode reward: [(0, '5.066')]
+[2023-02-23 00:08:44,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 6455296. Throughput: 0: 859.2. Samples: 610918. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:08:44,561][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-23 00:08:46,584][20346] Updated weights for policy 0, policy_version 1578 (0.0015)
+[2023-02-23 00:08:49,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6467584. Throughput: 0: 829.7. Samples: 615622. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:08:49,553][05631] Avg episode reward: [(0, '4.648')]
+[2023-02-23 00:08:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6483968. Throughput: 0: 830.1. Samples: 619512. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:08:54,559][05631] Avg episode reward: [(0, '4.725')]
+[2023-02-23 00:08:59,489][20346] Updated weights for policy 0, policy_version 1588 (0.0018)
+[2023-02-23 00:08:59,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 6504448. Throughput: 0: 850.7. Samples: 622386. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:08:59,553][05631] Avg episode reward: [(0, '4.713')]
+[2023-02-23 00:09:04,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.5, 300 sec: 3415.6). Total num frames: 6524928. Throughput: 0: 864.0. Samples: 628642. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:09:04,552][05631] Avg episode reward: [(0, '4.744')]
+[2023-02-23 00:09:09,556][05631] Fps is (10 sec: 3274.8, 60 sec: 3413.0, 300 sec: 3387.8). Total num frames: 6537216. Throughput: 0: 834.4. Samples: 633306. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:09:09,566][05631] Avg episode reward: [(0, '4.822')]
+[2023-02-23 00:09:11,968][20346] Updated weights for policy 0, policy_version 1598 (0.0012)
+[2023-02-23 00:09:14,551][05631] Fps is (10 sec: 2457.3, 60 sec: 3345.0, 300 sec: 3387.9). Total num frames: 6549504. Throughput: 0: 835.5. Samples: 635358. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:09:14,556][05631] Avg episode reward: [(0, '4.815')]
+[2023-02-23 00:09:19,550][05631] Fps is (10 sec: 3278.8, 60 sec: 3345.1, 300 sec: 3415.7). Total num frames: 6569984. Throughput: 0: 856.2. Samples: 640234. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:09:19,553][05631] Avg episode reward: [(0, '4.969')]
+[2023-02-23 00:09:23,025][20346] Updated weights for policy 0, policy_version 1608 (0.0017)
+[2023-02-23 00:09:24,550][05631] Fps is (10 sec: 4096.5, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 6590464. Throughput: 0: 860.7. Samples: 646466. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:09:24,553][05631] Avg episode reward: [(0, '5.020')]
+[2023-02-23 00:09:29,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6602752. Throughput: 0: 841.2. Samples: 648774. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:09:29,561][05631] Avg episode reward: [(0, '4.957')]
+[2023-02-23 00:09:34,551][05631] Fps is (10 sec: 2457.4, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 6615040. Throughput: 0: 819.4. Samples: 652494. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:09:34,561][05631] Avg episode reward: [(0, '4.896')]
+[2023-02-23 00:09:37,051][20346] Updated weights for policy 0, policy_version 1618 (0.0022)
+[2023-02-23 00:09:39,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6635520. Throughput: 0: 844.2. Samples: 657500. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:09:39,560][05631] Avg episode reward: [(0, '4.907')]
+[2023-02-23 00:09:44,551][05631] Fps is (10 sec: 4096.2, 60 sec: 3345.0, 300 sec: 3401.8). Total num frames: 6656000. Throughput: 0: 850.1. Samples: 660640. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:09:44,560][05631] Avg episode reward: [(0, '4.669')]
+[2023-02-23 00:09:48,070][20346] Updated weights for policy 0, policy_version 1628 (0.0013)
+[2023-02-23 00:09:49,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 6668288. Throughput: 0: 828.9. Samples: 665942. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:09:49,553][05631] Avg episode reward: [(0, '4.817')]
+[2023-02-23 00:09:54,550][05631] Fps is (10 sec: 2867.3, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6684672. Throughput: 0: 813.2. Samples: 669894. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:09:54,553][05631] Avg episode reward: [(0, '4.900')]
+[2023-02-23 00:09:59,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3387.9). Total num frames: 6701056. Throughput: 0: 816.5. Samples: 672098. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:09:59,552][05631] Avg episode reward: [(0, '5.044')]
+[2023-02-23 00:10:00,807][20346] Updated weights for policy 0, policy_version 1638 (0.0030)
+[2023-02-23 00:10:04,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3401.8). Total num frames: 6721536. Throughput: 0: 850.1. Samples: 678490. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:10:04,553][05631] Avg episode reward: [(0, '4.944')]
+[2023-02-23 00:10:04,584][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001642_6725632.pth...
+[2023-02-23 00:10:04,720][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001442_5906432.pth
+[2023-02-23 00:10:09,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.7, 300 sec: 3401.8). Total num frames: 6742016. Throughput: 0: 833.4. Samples: 683970. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:10:09,554][05631] Avg episode reward: [(0, '4.623')]
+[2023-02-23 00:10:12,737][20346] Updated weights for policy 0, policy_version 1648 (0.0012)
+[2023-02-23 00:10:14,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 6754304. Throughput: 0: 826.0. Samples: 685946. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:10:14,558][05631] Avg episode reward: [(0, '4.478')]
+[2023-02-23 00:10:19,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6770688. Throughput: 0: 830.3. Samples: 689858. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:10:19,558][05631] Avg episode reward: [(0, '4.628')]
+[2023-02-23 00:10:24,403][20346] Updated weights for policy 0, policy_version 1658 (0.0019)
+[2023-02-23 00:10:24,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6791168. Throughput: 0: 858.6. Samples: 696136. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:10:24,553][05631] Avg episode reward: [(0, '4.876')]
+[2023-02-23 00:10:29,550][05631] Fps is (10 sec: 3686.3, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 6807552. Throughput: 0: 859.5. Samples: 699318. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:10:29,555][05631] Avg episode reward: [(0, '4.753')]
+[2023-02-23 00:10:34,552][05631] Fps is (10 sec: 2866.5, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 6819840. Throughput: 0: 833.7. Samples: 703460. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:10:34,555][05631] Avg episode reward: [(0, '4.770')]
+[2023-02-23 00:10:38,158][20346] Updated weights for policy 0, policy_version 1668 (0.0041)
+[2023-02-23 00:10:39,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6836224. Throughput: 0: 837.2. Samples: 707570. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:10:39,552][05631] Avg episode reward: [(0, '4.691')]
+[2023-02-23 00:10:44,550][05631] Fps is (10 sec: 3687.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6856704. Throughput: 0: 858.0. Samples: 710708. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:10:44,553][05631] Avg episode reward: [(0, '4.632')]
+[2023-02-23 00:10:48,107][20346] Updated weights for policy 0, policy_version 1678 (0.0029)
+[2023-02-23 00:10:49,554][05631] Fps is (10 sec: 3685.1, 60 sec: 3413.1, 300 sec: 3387.8). Total num frames: 6873088. Throughput: 0: 855.3. Samples: 716982. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:10:49,562][05631] Avg episode reward: [(0, '4.465')]
+[2023-02-23 00:10:54,551][05631] Fps is (10 sec: 3276.4, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 6889472. Throughput: 0: 827.0. Samples: 721186. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:10:54,556][05631] Avg episode reward: [(0, '4.593')]
+[2023-02-23 00:10:59,550][05631] Fps is (10 sec: 2868.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 6901760. Throughput: 0: 827.0. Samples: 723162. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:10:59,553][05631] Avg episode reward: [(0, '4.829')]
+[2023-02-23 00:11:01,732][20346] Updated weights for policy 0, policy_version 1688 (0.0016)
+[2023-02-23 00:11:04,550][05631] Fps is (10 sec: 3277.2, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6922240. Throughput: 0: 858.4. Samples: 728486. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:11:04,557][05631] Avg episode reward: [(0, '4.940')]
+[2023-02-23 00:11:09,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 6942720. Throughput: 0: 858.4. Samples: 734766. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:11:09,553][05631] Avg episode reward: [(0, '4.687')]
+[2023-02-23 00:11:13,068][20346] Updated weights for policy 0, policy_version 1698 (0.0015)
+[2023-02-23 00:11:14,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3345.0, 300 sec: 3360.2). Total num frames: 6955008. Throughput: 0: 835.1. Samples: 736898. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:11:14,553][05631] Avg episode reward: [(0, '4.729')]
+[2023-02-23 00:11:19,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 6971392. Throughput: 0: 831.1. Samples: 740860. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:11:19,557][05631] Avg episode reward: [(0, '4.664')]
+[2023-02-23 00:11:24,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 6991872. Throughput: 0: 862.0. Samples: 746360. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:11:24,558][05631] Avg episode reward: [(0, '4.733')]
+[2023-02-23 00:11:25,412][20346] Updated weights for policy 0, policy_version 1708 (0.0020)
+[2023-02-23 00:11:29,550][05631] Fps is (10 sec: 4096.2, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 7012352. Throughput: 0: 862.5. Samples: 749522. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:11:29,552][05631] Avg episode reward: [(0, '4.813')]
+[2023-02-23 00:11:34,553][05631] Fps is (10 sec: 3685.2, 60 sec: 3481.5, 300 sec: 3387.8). Total num frames: 7028736. Throughput: 0: 844.0. Samples: 754964. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:11:34,556][05631] Avg episode reward: [(0, '4.683')]
+[2023-02-23 00:11:37,776][20346] Updated weights for policy 0, policy_version 1718 (0.0024)
+[2023-02-23 00:11:39,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 7041024. Throughput: 0: 839.9. Samples: 758980. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:11:39,554][05631] Avg episode reward: [(0, '4.530')]
+[2023-02-23 00:11:44,550][05631] Fps is (10 sec: 2868.1, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7057408. Throughput: 0: 848.7. Samples: 761354. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:11:44,561][05631] Avg episode reward: [(0, '4.524')]
+[2023-02-23 00:11:48,822][20346] Updated weights for policy 0, policy_version 1728 (0.0013)
+[2023-02-23 00:11:49,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.5, 300 sec: 3387.9). Total num frames: 7077888. Throughput: 0: 865.5. Samples: 767432. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:11:49,556][05631] Avg episode reward: [(0, '4.634')]
+[2023-02-23 00:11:54,552][05631] Fps is (10 sec: 3685.7, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 7094272. Throughput: 0: 837.9. Samples: 772474. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:11:54,555][05631] Avg episode reward: [(0, '4.665')]
+[2023-02-23 00:11:59,552][05631] Fps is (10 sec: 2866.5, 60 sec: 3413.2, 300 sec: 3360.1). Total num frames: 7106560. Throughput: 0: 833.7. Samples: 774416. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:11:59,558][05631] Avg episode reward: [(0, '4.534')]
+[2023-02-23 00:12:02,783][20346] Updated weights for policy 0, policy_version 1738 (0.0029)
+[2023-02-23 00:12:04,550][05631] Fps is (10 sec: 3277.5, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7127040. Throughput: 0: 843.3. Samples: 778806. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:12:04,552][05631] Avg episode reward: [(0, '4.577')]
+[2023-02-23 00:12:04,569][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001740_7127040.pth...
+[2023-02-23 00:12:04,697][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001543_6320128.pth
+[2023-02-23 00:12:09,550][05631] Fps is (10 sec: 4097.0, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7147520. Throughput: 0: 863.0. Samples: 785196. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:12:09,553][05631] Avg episode reward: [(0, '4.826')]
+[2023-02-23 00:12:12,538][20346] Updated weights for policy 0, policy_version 1748 (0.0012)
+[2023-02-23 00:12:14,551][05631] Fps is (10 sec: 3685.9, 60 sec: 3481.5, 300 sec: 3374.0). Total num frames: 7163904. Throughput: 0: 863.5. Samples: 788380. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:12:14,553][05631] Avg episode reward: [(0, '4.838')]
+[2023-02-23 00:12:19,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 7176192. Throughput: 0: 829.7. Samples: 792298. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:12:19,554][05631] Avg episode reward: [(0, '4.798')]
+[2023-02-23 00:12:24,550][05631] Fps is (10 sec: 2867.6, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 7192576. Throughput: 0: 837.0. Samples: 796644. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:12:24,563][05631] Avg episode reward: [(0, '4.717')]
+[2023-02-23 00:12:26,256][20346] Updated weights for policy 0, policy_version 1758 (0.0017)
+[2023-02-23 00:12:29,550][05631] Fps is (10 sec: 3686.6, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7213056. Throughput: 0: 853.5. Samples: 799762. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:12:29,553][05631] Avg episode reward: [(0, '4.653')]
+[2023-02-23 00:12:34,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.2, 300 sec: 3374.0). Total num frames: 7229440. Throughput: 0: 856.9. Samples: 805994. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:12:34,555][05631] Avg episode reward: [(0, '4.714')]
+[2023-02-23 00:12:38,093][20346] Updated weights for policy 0, policy_version 1768 (0.0014)
+[2023-02-23 00:12:39,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 7241728. Throughput: 0: 831.7. Samples: 809900. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:12:39,558][05631] Avg episode reward: [(0, '4.777')]
+[2023-02-23 00:12:44,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 7258112. Throughput: 0: 833.4. Samples: 811916. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:12:44,560][05631] Avg episode reward: [(0, '4.729')]
+[2023-02-23 00:12:49,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 7278592. Throughput: 0: 859.3. Samples: 817476. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:12:49,557][05631] Avg episode reward: [(0, '4.659')]
+[2023-02-23 00:12:49,933][20346] Updated weights for policy 0, policy_version 1778 (0.0021)
+[2023-02-23 00:12:54,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.5, 300 sec: 3374.0). Total num frames: 7299072. Throughput: 0: 855.4. Samples: 823688. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:12:54,558][05631] Avg episode reward: [(0, '4.428')]
+[2023-02-23 00:12:59,555][05631] Fps is (10 sec: 3275.1, 60 sec: 3413.2, 300 sec: 3360.1). Total num frames: 7311360. Throughput: 0: 829.2. Samples: 825698. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:12:59,559][05631] Avg episode reward: [(0, '4.599')]
+[2023-02-23 00:13:03,182][20346] Updated weights for policy 0, policy_version 1788 (0.0013)
+[2023-02-23 00:13:04,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 7327744. Throughput: 0: 832.9. Samples: 829776. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
+[2023-02-23 00:13:04,552][05631] Avg episode reward: [(0, '4.744')]
+[2023-02-23 00:13:09,550][05631] Fps is (10 sec: 3688.3, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7348224. Throughput: 0: 862.1. Samples: 835438. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:13:09,552][05631] Avg episode reward: [(0, '4.843')]
+[2023-02-23 00:13:13,295][20346] Updated weights for policy 0, policy_version 1798 (0.0013)
+[2023-02-23 00:13:14,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 7368704. Throughput: 0: 861.7. Samples: 838540. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:13:14,561][05631] Avg episode reward: [(0, '4.630')]
+[2023-02-23 00:13:19,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.4, 300 sec: 3374.0). Total num frames: 7380992. Throughput: 0: 831.0. Samples: 843390. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:13:19,557][05631] Avg episode reward: [(0, '4.444')]
+[2023-02-23 00:13:24,551][05631] Fps is (10 sec: 2457.2, 60 sec: 3345.0, 300 sec: 3360.1). Total num frames: 7393280. Throughput: 0: 831.4. Samples: 847312. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:13:24,556][05631] Avg episode reward: [(0, '4.395')]
+[2023-02-23 00:13:27,300][20346] Updated weights for policy 0, policy_version 1808 (0.0034)
+[2023-02-23 00:13:29,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7413760. Throughput: 0: 844.0. Samples: 849898. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:13:29,553][05631] Avg episode reward: [(0, '4.697')]
+[2023-02-23 00:13:34,550][05631] Fps is (10 sec: 4096.6, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7434240. Throughput: 0: 862.6. Samples: 856294. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:13:34,553][05631] Avg episode reward: [(0, '4.761')]
+[2023-02-23 00:13:37,678][20346] Updated weights for policy 0, policy_version 1818 (0.0018)
+[2023-02-23 00:13:39,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3374.0). Total num frames: 7450624. Throughput: 0: 836.2. Samples: 861318. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:13:39,556][05631] Avg episode reward: [(0, '4.732')]
+[2023-02-23 00:13:44,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 7462912. Throughput: 0: 837.4. Samples: 863376. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:13:44,555][05631] Avg episode reward: [(0, '4.705')]
+[2023-02-23 00:13:49,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7483392. Throughput: 0: 851.7. Samples: 868104. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:13:49,553][05631] Avg episode reward: [(0, '4.663')]
+[2023-02-23 00:13:50,369][20346] Updated weights for policy 0, policy_version 1828 (0.0024)
+[2023-02-23 00:13:54,550][05631] Fps is (10 sec: 4096.1, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7503872. Throughput: 0: 868.0. Samples: 874498. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:13:54,560][05631] Avg episode reward: [(0, '4.542')]
+[2023-02-23 00:13:59,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.9, 300 sec: 3374.0). Total num frames: 7520256. Throughput: 0: 863.0. Samples: 877374. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:13:59,554][05631] Avg episode reward: [(0, '4.485')]
+[2023-02-23 00:14:02,340][20346] Updated weights for policy 0, policy_version 1838 (0.0014)
+[2023-02-23 00:14:04,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.1). Total num frames: 7532544. Throughput: 0: 845.5. Samples: 881438. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:14:04,554][05631] Avg episode reward: [(0, '4.444')]
+[2023-02-23 00:14:04,579][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001839_7532544.pth...
+[2023-02-23 00:14:04,761][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001642_6725632.pth
+[2023-02-23 00:14:09,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 7553024. Throughput: 0: 867.9. Samples: 886366. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:14:09,552][05631] Avg episode reward: [(0, '4.507')]
+[2023-02-23 00:14:13,538][20346] Updated weights for policy 0, policy_version 1848 (0.0013)
+[2023-02-23 00:14:14,550][05631] Fps is (10 sec: 4096.1, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 7573504. Throughput: 0: 880.9. Samples: 889540. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:14:14,553][05631] Avg episode reward: [(0, '4.652')]
+[2023-02-23 00:14:19,552][05631] Fps is (10 sec: 3276.2, 60 sec: 3413.2, 300 sec: 3374.0). Total num frames: 7585792. Throughput: 0: 866.3. Samples: 895280. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:14:19,558][05631] Avg episode reward: [(0, '4.794')]
+[2023-02-23 00:14:24,553][05631] Fps is (10 sec: 2866.2, 60 sec: 3481.5, 300 sec: 3387.8). Total num frames: 7602176. Throughput: 0: 840.3. Samples: 899136. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:14:24,556][05631] Avg episode reward: [(0, '4.724')]
+[2023-02-23 00:14:27,629][20346] Updated weights for policy 0, policy_version 1858 (0.0042)
+[2023-02-23 00:14:29,550][05631] Fps is (10 sec: 2867.7, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7614464. Throughput: 0: 836.7. Samples: 901028. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:14:29,562][05631] Avg episode reward: [(0, '4.653')]
+[2023-02-23 00:14:34,550][05631] Fps is (10 sec: 3277.8, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7634944. Throughput: 0: 856.9. Samples: 906664. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:14:34,553][05631] Avg episode reward: [(0, '4.515')]
+[2023-02-23 00:14:38,134][20346] Updated weights for policy 0, policy_version 1868 (0.0013)
+[2023-02-23 00:14:39,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 7651328. Throughput: 0: 839.9. Samples: 912292. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:14:39,554][05631] Avg episode reward: [(0, '4.396')]
+[2023-02-23 00:14:44,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 7667712. Throughput: 0: 820.2. Samples: 914284. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:14:44,560][05631] Avg episode reward: [(0, '4.508')]
+[2023-02-23 00:14:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 7680000. Throughput: 0: 818.6. Samples: 918276. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:14:49,559][05631] Avg episode reward: [(0, '4.580')]
+[2023-02-23 00:14:51,617][20346] Updated weights for policy 0, policy_version 1878 (0.0014)
+[2023-02-23 00:14:54,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 7704576. Throughput: 0: 847.6. Samples: 924506. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:14:54,553][05631] Avg episode reward: [(0, '4.569')]
+[2023-02-23 00:14:59,551][05631] Fps is (10 sec: 4095.5, 60 sec: 3345.0, 300 sec: 3387.9). Total num frames: 7720960. Throughput: 0: 847.9. Samples: 927698. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:14:59,558][05631] Avg episode reward: [(0, '4.678')]
+[2023-02-23 00:15:02,777][20346] Updated weights for policy 0, policy_version 1888 (0.0019)
+[2023-02-23 00:15:04,552][05631] Fps is (10 sec: 3276.1, 60 sec: 3413.2, 300 sec: 3374.0). Total num frames: 7737344. Throughput: 0: 821.5. Samples: 932246. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:15:04,555][05631] Avg episode reward: [(0, '4.664')]
+[2023-02-23 00:15:09,551][05631] Fps is (10 sec: 2867.4, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 7749632. Throughput: 0: 822.8. Samples: 936160. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:15:09,561][05631] Avg episode reward: [(0, '4.795')]
+[2023-02-23 00:15:14,550][05631] Fps is (10 sec: 3277.4, 60 sec: 3276.8, 300 sec: 3387.9). Total num frames: 7770112. Throughput: 0: 846.2. Samples: 939106. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:15:14,552][05631] Avg episode reward: [(0, '4.709')]
+[2023-02-23 00:15:15,088][20346] Updated weights for policy 0, policy_version 1898 (0.0017)
+[2023-02-23 00:15:19,552][05631] Fps is (10 sec: 4095.2, 60 sec: 3413.3, 300 sec: 3387.8). Total num frames: 7790592. Throughput: 0: 856.2. Samples: 945196. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:15:19,555][05631] Avg episode reward: [(0, '4.722')]
+[2023-02-23 00:15:24,551][05631] Fps is (10 sec: 3276.4, 60 sec: 3345.2, 300 sec: 3374.0). Total num frames: 7802880. Throughput: 0: 825.9. Samples: 949458. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:15:24,555][05631] Avg episode reward: [(0, '4.616')]
+[2023-02-23 00:15:28,716][20346] Updated weights for policy 0, policy_version 1908 (0.0027)
+[2023-02-23 00:15:29,551][05631] Fps is (10 sec: 2458.0, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 7815168. Throughput: 0: 827.0. Samples: 951498. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:15:29,558][05631] Avg episode reward: [(0, '4.583')]
+[2023-02-23 00:15:34,550][05631] Fps is (10 sec: 3277.3, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7835648. Throughput: 0: 851.8. Samples: 956608. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:15:34,558][05631] Avg episode reward: [(0, '4.504')]
+[2023-02-23 00:15:38,810][20346] Updated weights for policy 0, policy_version 1918 (0.0014)
+[2023-02-23 00:15:39,550][05631] Fps is (10 sec: 4096.3, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7856128. Throughput: 0: 854.7. Samples: 962966. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:15:39,553][05631] Avg episode reward: [(0, '4.470')]
+[2023-02-23 00:15:44,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 7872512. Throughput: 0: 838.5. Samples: 965430. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:15:44,553][05631] Avg episode reward: [(0, '4.574')]
+[2023-02-23 00:15:49,551][05631] Fps is (10 sec: 2866.9, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 7884800. Throughput: 0: 825.4. Samples: 969390. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:15:49,555][05631] Avg episode reward: [(0, '4.418')]
+[2023-02-23 00:15:52,719][20346] Updated weights for policy 0, policy_version 1928 (0.0032)
+[2023-02-23 00:15:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3387.9). Total num frames: 7901184. Throughput: 0: 846.2. Samples: 974240. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:15:54,561][05631] Avg episode reward: [(0, '4.475')]
+[2023-02-23 00:15:59,550][05631] Fps is (10 sec: 3686.8, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 7921664. Throughput: 0: 848.9. Samples: 977306. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:15:59,561][05631] Avg episode reward: [(0, '4.648')]
+[2023-02-23 00:16:03,830][20346] Updated weights for policy 0, policy_version 1938 (0.0031)
+[2023-02-23 00:16:04,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.2, 300 sec: 3374.0). Total num frames: 7938048. Throughput: 0: 837.4. Samples: 982878. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:16:04,560][05631] Avg episode reward: [(0, '4.642')]
+[2023-02-23 00:16:04,574][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001938_7938048.pth...
+[2023-02-23 00:16:04,764][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001740_7127040.pth
+[2023-02-23 00:16:09,553][05631] Fps is (10 sec: 2866.5, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 7950336. Throughput: 0: 829.3. Samples: 986776. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:16:09,557][05631] Avg episode reward: [(0, '4.710')]
+[2023-02-23 00:16:14,554][05631] Fps is (10 sec: 2866.0, 60 sec: 3276.6, 300 sec: 3373.9). Total num frames: 7966720. Throughput: 0: 828.7. Samples: 988794. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:16:14,559][05631] Avg episode reward: [(0, '4.632')]
+[2023-02-23 00:16:16,622][20346] Updated weights for policy 0, policy_version 1948 (0.0023)
+[2023-02-23 00:16:19,550][05631] Fps is (10 sec: 4097.0, 60 sec: 3345.2, 300 sec: 3387.9). Total num frames: 7991296. Throughput: 0: 850.7. Samples: 994890. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:16:19,552][05631] Avg episode reward: [(0, '4.715')]
+[2023-02-23 00:16:24,550][05631] Fps is (10 sec: 3688.0, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 8003584. Throughput: 0: 834.4. Samples: 1000512. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:16:24,553][05631] Avg episode reward: [(0, '4.703')]
+[2023-02-23 00:16:29,047][20346] Updated weights for policy 0, policy_version 1958 (0.0012)
+[2023-02-23 00:16:29,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.4, 300 sec: 3360.1). Total num frames: 8019968. Throughput: 0: 824.0. Samples: 1002508. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:16:29,557][05631] Avg episode reward: [(0, '4.941')]
+[2023-02-23 00:16:34,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 8036352. Throughput: 0: 825.8. Samples: 1006550. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:16:34,561][05631] Avg episode reward: [(0, '4.926')]
+[2023-02-23 00:16:39,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 8056832. Throughput: 0: 852.5. Samples: 1012604. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:16:39,553][05631] Avg episode reward: [(0, '4.666')]
+[2023-02-23 00:16:40,407][20346] Updated weights for policy 0, policy_version 1968 (0.0013)
+[2023-02-23 00:16:44,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 8073216. Throughput: 0: 854.3. Samples: 1015750. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:16:44,554][05631] Avg episode reward: [(0, '4.445')]
+[2023-02-23 00:16:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 8085504. Throughput: 0: 831.5. Samples: 1020296. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:16:49,553][05631] Avg episode reward: [(0, '4.485')]
+[2023-02-23 00:16:54,184][20346] Updated weights for policy 0, policy_version 1978 (0.0016)
+[2023-02-23 00:16:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 8101888. Throughput: 0: 832.3. Samples: 1024228. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:16:54,553][05631] Avg episode reward: [(0, '4.399')]
+[2023-02-23 00:16:59,552][05631] Fps is (10 sec: 3685.7, 60 sec: 3345.0, 300 sec: 3374.0). Total num frames: 8122368. Throughput: 0: 856.1. Samples: 1027318. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:16:59,561][05631] Avg episode reward: [(0, '4.410')]
+[2023-02-23 00:17:03,955][20346] Updated weights for policy 0, policy_version 1988 (0.0013)
+[2023-02-23 00:17:04,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 8142848. Throughput: 0: 860.2. Samples: 1033598. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:17:04,555][05631] Avg episode reward: [(0, '4.532')]
+[2023-02-23 00:17:09,550][05631] Fps is (10 sec: 3277.4, 60 sec: 3413.5, 300 sec: 3360.1). Total num frames: 8155136. Throughput: 0: 835.7. Samples: 1038118. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:17:09,556][05631] Avg episode reward: [(0, '4.676')]
+[2023-02-23 00:17:14,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.6, 300 sec: 3374.0). Total num frames: 8171520. Throughput: 0: 836.6. Samples: 1040156. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:17:14,555][05631] Avg episode reward: [(0, '4.729')]
+[2023-02-23 00:17:17,513][20346] Updated weights for policy 0, policy_version 1998 (0.0052)
+[2023-02-23 00:17:19,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 8192000. Throughput: 0: 859.5. Samples: 1045228. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:17:19,552][05631] Avg episode reward: [(0, '4.773')]
+[2023-02-23 00:17:24,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3387.9). Total num frames: 8212480. Throughput: 0: 861.3. Samples: 1051362. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:17:24,552][05631] Avg episode reward: [(0, '4.655')]
+[2023-02-23 00:17:28,833][20346] Updated weights for policy 0, policy_version 2008 (0.0012)
+[2023-02-23 00:17:29,552][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 8224768. Throughput: 0: 845.8. Samples: 1053810. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:17:29,555][05631] Avg episode reward: [(0, '4.536')]
+[2023-02-23 00:17:34,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 8237056. Throughput: 0: 833.5. Samples: 1057802. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:17:34,554][05631] Avg episode reward: [(0, '4.410')]
+[2023-02-23 00:17:39,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 8257536. Throughput: 0: 860.0. Samples: 1062930. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:17:39,553][05631] Avg episode reward: [(0, '4.517')]
+[2023-02-23 00:17:41,098][20346] Updated weights for policy 0, policy_version 2018 (0.0015)
+[2023-02-23 00:17:44,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 8278016. Throughput: 0: 861.8. Samples: 1066096. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:17:44,559][05631] Avg episode reward: [(0, '4.732')]
+[2023-02-23 00:17:49,551][05631] Fps is (10 sec: 3685.9, 60 sec: 3481.5, 300 sec: 3374.0). Total num frames: 8294400. Throughput: 0: 844.7. Samples: 1071612. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:17:49,553][05631] Avg episode reward: [(0, '4.768')]
+[2023-02-23 00:17:53,748][20346] Updated weights for policy 0, policy_version 2028 (0.0012)
+[2023-02-23 00:17:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.1). Total num frames: 8306688. Throughput: 0: 833.7. Samples: 1075634. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:17:54,558][05631] Avg episode reward: [(0, '4.772')]
+[2023-02-23 00:17:59,550][05631] Fps is (10 sec: 2867.6, 60 sec: 3345.2, 300 sec: 3374.0). Total num frames: 8323072. Throughput: 0: 834.8. Samples: 1077724. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:17:59,553][05631] Avg episode reward: [(0, '4.700')]
+[2023-02-23 00:18:04,480][20346] Updated weights for policy 0, policy_version 2038 (0.0016)
+[2023-02-23 00:18:04,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 8347648. Throughput: 0: 863.8. Samples: 1084098. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:18:04,558][05631] Avg episode reward: [(0, '4.493')]
+[2023-02-23 00:18:04,571][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002038_8347648.pth...
+[2023-02-23 00:18:04,734][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001839_7532544.pth
+[2023-02-23 00:18:09,552][05631] Fps is (10 sec: 4095.1, 60 sec: 3481.5, 300 sec: 3374.0). Total num frames: 8364032. Throughput: 0: 850.4. Samples: 1089630. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:18:09,559][05631] Avg episode reward: [(0, '4.641')]
+[2023-02-23 00:18:14,551][05631] Fps is (10 sec: 2866.8, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 8376320. Throughput: 0: 841.6. Samples: 1091684. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:18:14,563][05631] Avg episode reward: [(0, '4.670')]
+[2023-02-23 00:18:17,976][20346] Updated weights for policy 0, policy_version 2048 (0.0033)
+[2023-02-23 00:18:19,550][05631] Fps is (10 sec: 2867.8, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 8392704. Throughput: 0: 844.2. Samples: 1095792. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:18:19,558][05631] Avg episode reward: [(0, '4.470')]
+[2023-02-23 00:18:24,550][05631] Fps is (10 sec: 3686.9, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 8413184. Throughput: 0: 869.2. Samples: 1102042. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:18:24,552][05631] Avg episode reward: [(0, '4.387')]
+[2023-02-23 00:18:27,863][20346] Updated weights for policy 0, policy_version 2058 (0.0012)
+[2023-02-23 00:18:29,552][05631] Fps is (10 sec: 4095.4, 60 sec: 3481.5, 300 sec: 3387.9). Total num frames: 8433664. Throughput: 0: 868.7. Samples: 1105190. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:18:29,563][05631] Avg episode reward: [(0, '4.624')]
+[2023-02-23 00:18:34,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3374.0). Total num frames: 8445952. Throughput: 0: 844.7. Samples: 1109622. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:18:34,556][05631] Avg episode reward: [(0, '4.728')]
+[2023-02-23 00:18:39,550][05631] Fps is (10 sec: 2867.6, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 8462336. Throughput: 0: 848.4. Samples: 1113812. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:18:39,557][05631] Avg episode reward: [(0, '4.679')]
+[2023-02-23 00:18:41,498][20346] Updated weights for policy 0, policy_version 2068 (0.0022)
+[2023-02-23 00:18:44,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 8482816. Throughput: 0: 868.7. Samples: 1116814. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:18:44,553][05631] Avg episode reward: [(0, '4.642')]
+[2023-02-23 00:18:49,551][05631] Fps is (10 sec: 3686.0, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 8499200. Throughput: 0: 864.7. Samples: 1123010. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:18:49,558][05631] Avg episode reward: [(0, '4.780')]
+[2023-02-23 00:18:53,247][20346] Updated weights for policy 0, policy_version 2078 (0.0019)
+[2023-02-23 00:18:54,553][05631] Fps is (10 sec: 2866.4, 60 sec: 3413.2, 300 sec: 3360.1). Total num frames: 8511488. Throughput: 0: 835.7. Samples: 1127236. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:18:54,561][05631] Avg episode reward: [(0, '4.694')]
+[2023-02-23 00:18:59,550][05631] Fps is (10 sec: 2867.6, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 8527872. Throughput: 0: 833.0. Samples: 1129168. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:18:59,557][05631] Avg episode reward: [(0, '4.570')]
+[2023-02-23 00:19:04,550][05631] Fps is (10 sec: 3687.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 8548352. Throughput: 0: 862.8. Samples: 1134618. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:19:04,556][05631] Avg episode reward: [(0, '4.572')]
+[2023-02-23 00:19:05,215][20346] Updated weights for policy 0, policy_version 2088 (0.0025)
+[2023-02-23 00:19:09,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.5, 300 sec: 3374.0). Total num frames: 8568832. Throughput: 0: 867.5. Samples: 1141080. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:19:09,553][05631] Avg episode reward: [(0, '4.726')]
+[2023-02-23 00:19:14,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.4, 300 sec: 3374.0). Total num frames: 8581120. Throughput: 0: 846.0. Samples: 1143260. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:19:14,554][05631] Avg episode reward: [(0, '4.600')]
+[2023-02-23 00:19:17,903][20346] Updated weights for policy 0, policy_version 2098 (0.0033)
+[2023-02-23 00:19:19,552][05631] Fps is (10 sec: 2866.7, 60 sec: 3413.2, 300 sec: 3374.0). Total num frames: 8597504. Throughput: 0: 838.9. Samples: 1147372. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:19:19,555][05631] Avg episode reward: [(0, '4.735')]
+[2023-02-23 00:19:24,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 8613888. Throughput: 0: 866.7. Samples: 1152814. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:19:24,553][05631] Avg episode reward: [(0, '4.916')]
+[2023-02-23 00:19:28,713][20346] Updated weights for policy 0, policy_version 2108 (0.0019)
+[2023-02-23 00:19:29,550][05631] Fps is (10 sec: 3687.1, 60 sec: 3345.2, 300 sec: 3387.9). Total num frames: 8634368. Throughput: 0: 864.3. Samples: 1155706. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:19:29,552][05631] Avg episode reward: [(0, '4.967')]
+[2023-02-23 00:19:34,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 8650752. Throughput: 0: 838.4. Samples: 1160736. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:19:34,553][05631] Avg episode reward: [(0, '4.814')]
+[2023-02-23 00:19:39,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 8663040. Throughput: 0: 834.9. Samples: 1164804. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:19:39,554][05631] Avg episode reward: [(0, '4.634')]
+[2023-02-23 00:19:42,131][20346] Updated weights for policy 0, policy_version 2118 (0.0013)
+[2023-02-23 00:19:44,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 8683520. Throughput: 0: 849.1. Samples: 1167376. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:19:44,552][05631] Avg episode reward: [(0, '4.521')]
+[2023-02-23 00:19:49,550][05631] Fps is (10 sec: 4096.1, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 8704000. Throughput: 0: 870.7. Samples: 1173800. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:19:49,553][05631] Avg episode reward: [(0, '4.511')]
+[2023-02-23 00:19:52,691][20346] Updated weights for policy 0, policy_version 2128 (0.0016)
+[2023-02-23 00:19:54,551][05631] Fps is (10 sec: 3685.9, 60 sec: 3481.7, 300 sec: 3387.9). Total num frames: 8720384. Throughput: 0: 838.5. Samples: 1178812. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:19:54,554][05631] Avg episode reward: [(0, '4.582')]
+[2023-02-23 00:19:59,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 8732672. Throughput: 0: 835.2. Samples: 1180844. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:19:59,559][05631] Avg episode reward: [(0, '4.830')]
+[2023-02-23 00:20:04,551][05631] Fps is (10 sec: 3277.0, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 8753152. Throughput: 0: 844.2. Samples: 1185360. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:20:04,554][05631] Avg episode reward: [(0, '4.874')]
+[2023-02-23 00:20:04,570][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002137_8753152.pth...
+[2023-02-23 00:20:04,717][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001938_7938048.pth
+[2023-02-23 00:20:05,622][20346] Updated weights for policy 0, policy_version 2138 (0.0018)
+[2023-02-23 00:20:09,550][05631] Fps is (10 sec: 4095.9, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 8773632. Throughput: 0: 861.7. Samples: 1191590. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:20:09,553][05631] Avg episode reward: [(0, '4.805')]
+[2023-02-23 00:20:14,556][05631] Fps is (10 sec: 3684.4, 60 sec: 3481.2, 300 sec: 3387.8). Total num frames: 8790016. Throughput: 0: 868.0. Samples: 1194770. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:20:14,561][05631] Avg episode reward: [(0, '4.688')]
+[2023-02-23 00:20:17,543][20346] Updated weights for policy 0, policy_version 2148 (0.0026)
+[2023-02-23 00:20:19,550][05631] Fps is (10 sec: 2867.3, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 8802304. Throughput: 0: 844.8. Samples: 1198754. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:20:19,552][05631] Avg episode reward: [(0, '4.813')]
+[2023-02-23 00:20:24,550][05631] Fps is (10 sec: 2869.0, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 8818688. Throughput: 0: 855.7. Samples: 1203312. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:20:24,560][05631] Avg episode reward: [(0, '4.604')]
+[2023-02-23 00:20:28,842][20346] Updated weights for policy 0, policy_version 2158 (0.0013)
+[2023-02-23 00:20:29,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 8839168. Throughput: 0: 866.3. Samples: 1206358. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:20:29,561][05631] Avg episode reward: [(0, '4.641')]
+[2023-02-23 00:20:34,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 8855552. Throughput: 0: 866.2. Samples: 1212778. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:20:34,553][05631] Avg episode reward: [(0, '4.731')]
+[2023-02-23 00:20:39,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3387.9). Total num frames: 8871936. Throughput: 0: 845.0. Samples: 1216834. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:20:39,557][05631] Avg episode reward: [(0, '4.659')]
+[2023-02-23 00:20:42,116][20346] Updated weights for policy 0, policy_version 2168 (0.0028)
+[2023-02-23 00:20:44,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 8888320. Throughput: 0: 844.7. Samples: 1218854. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:20:44,553][05631] Avg episode reward: [(0, '4.657')]
+[2023-02-23 00:20:49,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 8908800. Throughput: 0: 871.8. Samples: 1224590. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:20:49,553][05631] Avg episode reward: [(0, '4.884')]
+[2023-02-23 00:20:52,075][20346] Updated weights for policy 0, policy_version 2178 (0.0013)
+[2023-02-23 00:20:54,552][05631] Fps is (10 sec: 4095.3, 60 sec: 3481.6, 300 sec: 3415.6). Total num frames: 8929280. Throughput: 0: 871.2. Samples: 1230794. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:20:54,565][05631] Avg episode reward: [(0, '4.982')]
+[2023-02-23 00:20:59,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3481.6, 300 sec: 3401.8). Total num frames: 8941568. Throughput: 0: 842.9. Samples: 1232694. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:20:59,558][05631] Avg episode reward: [(0, '4.819')]
+[2023-02-23 00:21:04,550][05631] Fps is (10 sec: 2458.0, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 8953856. Throughput: 0: 843.6. Samples: 1236718. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:21:04,553][05631] Avg episode reward: [(0, '4.813')]
+[2023-02-23 00:21:05,718][20346] Updated weights for policy 0, policy_version 2188 (0.0013)
+[2023-02-23 00:21:09,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3345.1, 300 sec: 3415.7). Total num frames: 8974336. Throughput: 0: 872.8. Samples: 1242586. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:21:09,553][05631] Avg episode reward: [(0, '4.942')]
+[2023-02-23 00:21:14,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.7, 300 sec: 3401.8). Total num frames: 8994816. Throughput: 0: 873.4. Samples: 1245660. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:21:14,555][05631] Avg episode reward: [(0, '4.893')]
+[2023-02-23 00:21:16,942][20346] Updated weights for policy 0, policy_version 2198 (0.0022)
+[2023-02-23 00:21:19,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9007104. Throughput: 0: 837.9. Samples: 1250484. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:21:19,556][05631] Avg episode reward: [(0, '4.819')]
+[2023-02-23 00:21:24,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9023488. Throughput: 0: 837.3. Samples: 1254512. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:21:24,559][05631] Avg episode reward: [(0, '4.550')]
+[2023-02-23 00:21:29,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9039872. Throughput: 0: 849.7. Samples: 1257090. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:21:29,559][05631] Avg episode reward: [(0, '4.495')]
+[2023-02-23 00:21:29,739][20346] Updated weights for policy 0, policy_version 2208 (0.0031)
+[2023-02-23 00:21:34,552][05631] Fps is (10 sec: 4095.1, 60 sec: 3481.5, 300 sec: 3415.6). Total num frames: 9064448. Throughput: 0: 858.6. Samples: 1263230. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:21:34,555][05631] Avg episode reward: [(0, '4.616')]
+[2023-02-23 00:21:39,551][05631] Fps is (10 sec: 3686.1, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9076736. Throughput: 0: 827.4. Samples: 1268026. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:21:39,558][05631] Avg episode reward: [(0, '4.694')]
+[2023-02-23 00:21:42,122][20346] Updated weights for policy 0, policy_version 2218 (0.0026)
+[2023-02-23 00:21:44,550][05631] Fps is (10 sec: 2458.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9089024. Throughput: 0: 829.0. Samples: 1269998. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:21:44,553][05631] Avg episode reward: [(0, '4.667')]
+[2023-02-23 00:21:49,550][05631] Fps is (10 sec: 3277.1, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 9109504. Throughput: 0: 844.4. Samples: 1274718. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:21:49,553][05631] Avg episode reward: [(0, '5.077')]
+[2023-02-23 00:21:53,036][20346] Updated weights for policy 0, policy_version 2228 (0.0016)
+[2023-02-23 00:21:54,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.2, 300 sec: 3415.7). Total num frames: 9129984. Throughput: 0: 857.6. Samples: 1281180. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:21:54,559][05631] Avg episode reward: [(0, '4.911')]
+[2023-02-23 00:21:59,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.4, 300 sec: 3401.8). Total num frames: 9146368. Throughput: 0: 849.3. Samples: 1283880. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:21:59,554][05631] Avg episode reward: [(0, '4.898')]
+[2023-02-23 00:22:04,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9158656. Throughput: 0: 831.3. Samples: 1287892. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:22:04,552][05631] Avg episode reward: [(0, '4.683')]
+[2023-02-23 00:22:04,571][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002236_9158656.pth...
+[2023-02-23 00:22:04,835][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002038_8347648.pth
+[2023-02-23 00:22:06,923][20346] Updated weights for policy 0, policy_version 2238 (0.0021)
+[2023-02-23 00:22:09,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9175040. Throughput: 0: 850.0. Samples: 1292764. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:22:09,553][05631] Avg episode reward: [(0, '4.525')]
+[2023-02-23 00:22:14,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9195520. Throughput: 0: 862.9. Samples: 1295922. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:22:14,553][05631] Avg episode reward: [(0, '4.572')]
+[2023-02-23 00:22:16,447][20346] Updated weights for policy 0, policy_version 2248 (0.0019)
+[2023-02-23 00:22:19,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3401.8). Total num frames: 9216000. Throughput: 0: 859.2. Samples: 1301890. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:22:19,560][05631] Avg episode reward: [(0, '4.762')]
+[2023-02-23 00:22:24,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9228288. Throughput: 0: 841.7. Samples: 1305904. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:22:24,562][05631] Avg episode reward: [(0, '4.788')]
+[2023-02-23 00:22:29,550][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 9244672. Throughput: 0: 841.0. Samples: 1307844. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:22:29,554][05631] Avg episode reward: [(0, '5.008')]
+[2023-02-23 00:22:30,279][20346] Updated weights for policy 0, policy_version 2258 (0.0012)
+[2023-02-23 00:22:34,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.2, 300 sec: 3415.6). Total num frames: 9265152. Throughput: 0: 866.8. Samples: 1313726. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:22:34,553][05631] Avg episode reward: [(0, '4.812')]
+[2023-02-23 00:22:39,550][05631] Fps is (10 sec: 3686.5, 60 sec: 3413.4, 300 sec: 3401.8). Total num frames: 9281536. Throughput: 0: 849.6. Samples: 1319414. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:22:39,553][05631] Avg episode reward: [(0, '4.714')]
+[2023-02-23 00:22:41,736][20346] Updated weights for policy 0, policy_version 2268 (0.0013)
+[2023-02-23 00:22:44,550][05631] Fps is (10 sec: 2867.3, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 9293824. Throughput: 0: 834.3. Samples: 1321422. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:22:44,556][05631] Avg episode reward: [(0, '4.571')]
+[2023-02-23 00:22:49,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9310208. Throughput: 0: 836.0. Samples: 1325510. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:22:49,553][05631] Avg episode reward: [(0, '4.592')]
+[2023-02-23 00:22:53,824][20346] Updated weights for policy 0, policy_version 2278 (0.0023)
+[2023-02-23 00:22:54,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 9330688. Throughput: 0: 863.7. Samples: 1331630. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:22:54,553][05631] Avg episode reward: [(0, '4.844')]
+[2023-02-23 00:22:59,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9351168. Throughput: 0: 861.4. Samples: 1334686. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:22:59,552][05631] Avg episode reward: [(0, '4.676')]
+[2023-02-23 00:23:04,552][05631] Fps is (10 sec: 3276.2, 60 sec: 3413.2, 300 sec: 3387.9). Total num frames: 9363456. Throughput: 0: 829.9. Samples: 1339238. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:23:04,560][05631] Avg episode reward: [(0, '4.641')]
+[2023-02-23 00:23:06,742][20346] Updated weights for policy 0, policy_version 2288 (0.0013)
+[2023-02-23 00:23:09,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 9375744. Throughput: 0: 830.7. Samples: 1343284. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:23:09,555][05631] Avg episode reward: [(0, '4.677')]
+[2023-02-23 00:23:14,550][05631] Fps is (10 sec: 3277.4, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9396224. Throughput: 0: 851.6. Samples: 1346164. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:23:14,552][05631] Avg episode reward: [(0, '4.701')]
+[2023-02-23 00:23:17,597][20346] Updated weights for policy 0, policy_version 2298 (0.0014)
+[2023-02-23 00:23:19,554][05631] Fps is (10 sec: 4094.3, 60 sec: 3344.8, 300 sec: 3401.7). Total num frames: 9416704. Throughput: 0: 856.9. Samples: 1352288. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:23:19,557][05631] Avg episode reward: [(0, '4.431')]
+[2023-02-23 00:23:24,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 9433088. Throughput: 0: 829.8. Samples: 1356756. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:23:24,560][05631] Avg episode reward: [(0, '4.568')]
+[2023-02-23 00:23:29,550][05631] Fps is (10 sec: 2868.4, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 9445376. Throughput: 0: 828.3. Samples: 1358694. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:23:29,556][05631] Avg episode reward: [(0, '4.460')]
+[2023-02-23 00:23:31,384][20346] Updated weights for policy 0, policy_version 2308 (0.0015)
+[2023-02-23 00:23:34,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9465856. Throughput: 0: 849.6. Samples: 1363740. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:23:34,552][05631] Avg episode reward: [(0, '4.759')]
+[2023-02-23 00:23:39,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 9486336. Throughput: 0: 851.6. Samples: 1369950. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:23:39,553][05631] Avg episode reward: [(0, '4.737')]
+[2023-02-23 00:23:41,990][20346] Updated weights for policy 0, policy_version 2318 (0.0014)
+[2023-02-23 00:23:44,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 9498624. Throughput: 0: 840.6. Samples: 1372514. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:23:44,556][05631] Avg episode reward: [(0, '4.778')]
+[2023-02-23 00:23:49,551][05631] Fps is (10 sec: 2457.3, 60 sec: 3345.0, 300 sec: 3387.9). Total num frames: 9510912. Throughput: 0: 826.9. Samples: 1376450. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:23:49,554][05631] Avg episode reward: [(0, '4.816')]
+[2023-02-23 00:23:54,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9531392. Throughput: 0: 847.1. Samples: 1381404. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:23:54,553][05631] Avg episode reward: [(0, '4.618')]
+[2023-02-23 00:23:55,309][20346] Updated weights for policy 0, policy_version 2328 (0.0020)
+[2023-02-23 00:23:59,550][05631] Fps is (10 sec: 4096.4, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 9551872. Throughput: 0: 849.2. Samples: 1384378. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:23:59,559][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-23 00:24:04,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 9564160. Throughput: 0: 835.8. Samples: 1389894. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:24:04,559][05631] Avg episode reward: [(0, '4.633')]
+[2023-02-23 00:24:04,574][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002335_9564160.pth...
+[2023-02-23 00:24:04,823][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002137_8753152.pth
+[2023-02-23 00:24:07,895][20346] Updated weights for policy 0, policy_version 2338 (0.0018)
+[2023-02-23 00:24:09,552][05631] Fps is (10 sec: 2866.6, 60 sec: 3413.2, 300 sec: 3387.9). Total num frames: 9580544. Throughput: 0: 821.5. Samples: 1393726. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:24:09,558][05631] Avg episode reward: [(0, '4.744')]
+[2023-02-23 00:24:14,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 9596928. Throughput: 0: 822.6. Samples: 1395712. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-23 00:24:14,552][05631] Avg episode reward: [(0, '4.597')]
+[2023-02-23 00:24:19,250][20346] Updated weights for policy 0, policy_version 2348 (0.0013)
+[2023-02-23 00:24:19,550][05631] Fps is (10 sec: 3687.3, 60 sec: 3345.3, 300 sec: 3401.8). Total num frames: 9617408. Throughput: 0: 846.7. Samples: 1401842. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:24:19,553][05631] Avg episode reward: [(0, '4.468')]
+[2023-02-23 00:24:24,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 9633792. Throughput: 0: 834.8. Samples: 1407516. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:24:24,553][05631] Avg episode reward: [(0, '4.419')]
+[2023-02-23 00:24:29,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 9646080. Throughput: 0: 820.8. Samples: 1409448. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:24:29,560][05631] Avg episode reward: [(0, '4.531')]
+[2023-02-23 00:24:33,175][20346] Updated weights for policy 0, policy_version 2358 (0.0029)
+[2023-02-23 00:24:34,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3387.9). Total num frames: 9662464. Throughput: 0: 818.9. Samples: 1413300. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-23 00:24:34,553][05631] Avg episode reward: [(0, '4.514')]
+[2023-02-23 00:24:39,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3276.8, 300 sec: 3387.9). Total num frames: 9682944. Throughput: 0: 842.6. Samples: 1419320. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:24:39,563][05631] Avg episode reward: [(0, '4.534')]
+[2023-02-23 00:24:42,964][20346] Updated weights for policy 0, policy_version 2368 (0.0024)
+[2023-02-23 00:24:44,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 9703424. Throughput: 0: 846.8. Samples: 1422482. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:24:44,558][05631] Avg episode reward: [(0, '4.342')]
+[2023-02-23 00:24:49,550][05631] Fps is (10 sec: 3276.7, 60 sec: 3413.4, 300 sec: 3374.0). Total num frames: 9715712. Throughput: 0: 826.3. Samples: 1427076. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:24:49,558][05631] Avg episode reward: [(0, '4.595')]
+[2023-02-23 00:24:54,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 9728000. Throughput: 0: 830.2. Samples: 1431084. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:24:54,553][05631] Avg episode reward: [(0, '4.671')]
+[2023-02-23 00:24:56,694][20346] Updated weights for policy 0, policy_version 2378 (0.0020)
+[2023-02-23 00:24:59,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3276.8, 300 sec: 3374.0). Total num frames: 9748480. Throughput: 0: 855.1. Samples: 1434192. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:24:59,564][05631] Avg episode reward: [(0, '4.548')]
+[2023-02-23 00:25:04,550][05631] Fps is (10 sec: 4095.9, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 9768960. Throughput: 0: 856.5. Samples: 1440386. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:25:04,564][05631] Avg episode reward: [(0, '4.483')]
+[2023-02-23 00:25:07,949][20346] Updated weights for policy 0, policy_version 2388 (0.0015)
+[2023-02-23 00:25:09,559][05631] Fps is (10 sec: 3683.1, 60 sec: 3413.0, 300 sec: 3374.0). Total num frames: 9785344. Throughput: 0: 831.5. Samples: 1444942. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:25:09,566][05631] Avg episode reward: [(0, '4.498')]
+[2023-02-23 00:25:14,552][05631] Fps is (10 sec: 2866.6, 60 sec: 3344.9, 300 sec: 3374.0). Total num frames: 9797632. Throughput: 0: 835.3. Samples: 1447038. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-23 00:25:14,556][05631] Avg episode reward: [(0, '4.677')]
+[2023-02-23 00:25:19,550][05631] Fps is (10 sec: 3279.5, 60 sec: 3345.0, 300 sec: 3387.9). Total num frames: 9818112. Throughput: 0: 860.7. Samples: 1452032. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:25:19,556][05631] Avg episode reward: [(0, '4.564')]
+[2023-02-23 00:25:20,274][20346] Updated weights for policy 0, policy_version 2398 (0.0013)
+[2023-02-23 00:25:24,550][05631] Fps is (10 sec: 4096.9, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 9838592. Throughput: 0: 863.4. Samples: 1458174. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:25:24,553][05631] Avg episode reward: [(0, '4.700')]
+[2023-02-23 00:25:29,550][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 9850880. Throughput: 0: 848.2. Samples: 1460650. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:25:29,561][05631] Avg episode reward: [(0, '4.704')]
+[2023-02-23 00:25:33,325][20346] Updated weights for policy 0, policy_version 2408 (0.0019)
+[2023-02-23 00:25:34,550][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 9863168. Throughput: 0: 832.0. Samples: 1464514. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:25:34,555][05631] Avg episode reward: [(0, '4.750')]
+[2023-02-23 00:25:39,550][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 9883648. Throughput: 0: 852.1. Samples: 1469430. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:25:39,552][05631] Avg episode reward: [(0, '4.673')]
+[2023-02-23 00:25:44,169][20346] Updated weights for policy 0, policy_version 2418 (0.0020)
+[2023-02-23 00:25:44,550][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 9904128. Throughput: 0: 852.4. Samples: 1472552. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:25:44,559][05631] Avg episode reward: [(0, '4.552')]
+[2023-02-23 00:25:49,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.4, 300 sec: 3360.1). Total num frames: 9920512. Throughput: 0: 835.5. Samples: 1477984. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-23 00:25:49,556][05631] Avg episode reward: [(0, '4.541')]
+[2023-02-23 00:25:54,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 9932800. Throughput: 0: 820.6. Samples: 1481860. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:25:54,559][05631] Avg episode reward: [(0, '4.661')]
+[2023-02-23 00:25:58,327][20346] Updated weights for policy 0, policy_version 2428 (0.0030)
+[2023-02-23 00:25:59,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 9949184. Throughput: 0: 819.3. Samples: 1483906. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:25:59,553][05631] Avg episode reward: [(0, '4.710')]
+[2023-02-23 00:26:04,550][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 9969664. Throughput: 0: 840.1. Samples: 1489838. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-23 00:26:04,553][05631] Avg episode reward: [(0, '4.772')]
+[2023-02-23 00:26:04,574][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002434_9969664.pth...
+[2023-02-23 00:26:04,701][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002236_9158656.pth
+[2023-02-23 00:26:08,983][20346] Updated weights for policy 0, policy_version 2438 (0.0020)
+[2023-02-23 00:26:09,550][05631] Fps is (10 sec: 3686.3, 60 sec: 3345.6, 300 sec: 3360.1). Total num frames: 9986048. Throughput: 0: 827.5. Samples: 1495410. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-23 00:26:09,554][05631] Avg episode reward: [(0, '4.747')]
+[2023-02-23 00:26:14,550][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.2, 300 sec: 3360.1). Total num frames: 9998336. Throughput: 0: 816.5. Samples: 1497392. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-23 00:26:14,559][05631] Avg episode reward: [(0, '4.726')]
+[2023-02-23 00:26:16,747][20332] Stopping Batcher_0...
+[2023-02-23 00:26:16,748][20332] Loop batcher_evt_loop terminating...
+[2023-02-23 00:26:16,748][05631] Component Batcher_0 stopped!
+[2023-02-23 00:26:16,760][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2023-02-23 00:26:16,819][20346] Weights refcount: 2 0
+[2023-02-23 00:26:16,824][05631] Component InferenceWorker_p0-w0 stopped!
+[2023-02-23 00:26:16,830][20346] Stopping InferenceWorker_p0-w0...
+[2023-02-23 00:26:16,832][20346] Loop inference_proc0-0_evt_loop terminating...
+[2023-02-23 00:26:16,918][20369] Stopping RolloutWorker_w6...
+[2023-02-23 00:26:16,919][20369] Loop rollout_proc6_evt_loop terminating...
+[2023-02-23 00:26:16,920][05631] Component RolloutWorker_w6 stopped!
+[2023-02-23 00:26:16,938][20350] Stopping RolloutWorker_w0...
+[2023-02-23 00:26:16,939][20350] Loop rollout_proc0_evt_loop terminating...
+[2023-02-23 00:26:16,938][05631] Component RolloutWorker_w0 stopped!
+[2023-02-23 00:26:16,955][20359] Stopping RolloutWorker_w4...
+[2023-02-23 00:26:16,955][05631] Component RolloutWorker_w4 stopped!
+[2023-02-23 00:26:16,963][20348] Stopping RolloutWorker_w2...
+[2023-02-23 00:26:16,957][20359] Loop rollout_proc4_evt_loop terminating...
+[2023-02-23 00:26:16,964][20348] Loop rollout_proc2_evt_loop terminating...
+[2023-02-23 00:26:16,963][05631] Component RolloutWorker_w2 stopped!
+[2023-02-23 00:26:17,003][05631] Component RolloutWorker_w3 stopped!
+[2023-02-23 00:26:17,007][20357] Stopping RolloutWorker_w3...
+[2023-02-23 00:26:17,013][05631] Component RolloutWorker_w5 stopped!
+[2023-02-23 00:26:17,017][20361] Stopping RolloutWorker_w5...
+[2023-02-23 00:26:17,038][20357] Loop rollout_proc3_evt_loop terminating...
+[2023-02-23 00:26:17,018][20361] Loop rollout_proc5_evt_loop terminating...
+[2023-02-23 00:26:17,059][05631] Component RolloutWorker_w7 stopped!
+[2023-02-23 00:26:17,065][20367] Stopping RolloutWorker_w7...
+[2023-02-23 00:26:17,066][20367] Loop rollout_proc7_evt_loop terminating...
+[2023-02-23 00:26:17,078][05631] Component RolloutWorker_w1 stopped!
+[2023-02-23 00:26:17,084][20347] Stopping RolloutWorker_w1...
+[2023-02-23 00:26:17,092][20332] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002335_9564160.pth
+[2023-02-23 00:26:17,108][20347] Loop rollout_proc1_evt_loop terminating...
+[2023-02-23 00:26:17,125][20332] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2023-02-23 00:26:17,423][20332] Stopping LearnerWorker_p0...
+[2023-02-23 00:26:17,423][05631] Component LearnerWorker_p0 stopped!
+[2023-02-23 00:26:17,425][05631] Waiting for process learner_proc0 to stop...
+[2023-02-23 00:26:17,438][20332] Loop learner_proc0_evt_loop terminating...
+[2023-02-23 00:26:19,855][05631] Waiting for process inference_proc0-0 to join...
+[2023-02-23 00:26:19,950][05631] Waiting for process rollout_proc0 to join...
+[2023-02-23 00:26:19,953][05631] Waiting for process rollout_proc1 to join...
+[2023-02-23 00:26:20,088][05631] Waiting for process rollout_proc2 to join...
+[2023-02-23 00:26:20,091][05631] Waiting for process rollout_proc3 to join...
+[2023-02-23 00:26:20,092][05631] Waiting for process rollout_proc4 to join...
+[2023-02-23 00:26:20,093][05631] Waiting for process rollout_proc5 to join...
+[2023-02-23 00:26:20,095][05631] Waiting for process rollout_proc6 to join...
+[2023-02-23 00:26:20,097][05631] Waiting for process rollout_proc7 to join...
+[2023-02-23 00:26:20,099][05631] Batcher 0 profile tree view:
+batching: 41.0052, releasing_batches: 0.0383
+[2023-02-23 00:26:20,101][05631] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0045
+  wait_policy_total: 873.6751
+update_model: 11.9382
+  weight_update: 0.0014
+one_step: 0.0174
+  handle_policy_step: 837.9301
+    deserialize: 23.5857, stack: 4.7781, obs_to_device_normalize: 181.7927, forward: 411.5190, send_messages: 40.9359
+    prepare_outputs: 133.1880
+      to_cpu: 82.7740
+[2023-02-23 00:26:20,103][05631] Learner 0 profile tree view:
+misc: 0.0115, prepare_batch: 25.4264
+train: 123.5324
+  epoch_init: 0.0115, minibatch_init: 0.0210, losses_postprocess: 0.9462, kl_divergence: 0.8872, after_optimizer: 4.9524
+  calculate_losses: 42.0782
+    losses_init: 0.0179, forward_head: 2.8687, bptt_initial: 27.5621, tail: 1.8407, advantages_returns: 0.5740, losses: 5.1063
+    bptt: 3.5571
+      bptt_forward_core: 3.4021
+  update: 73.4774
+    clip: 2.2143
+[2023-02-23 00:26:20,104][05631] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.5945, enqueue_policy_requests: 246.9817, env_step: 1341.2903, overhead: 37.3601, complete_rollouts: 11.7287
+save_policy_outputs: 34.9184
+  split_output_tensors: 16.8515
+[2023-02-23 00:26:20,105][05631] RolloutWorker_w7 profile tree view:
+wait_for_trajectories: 0.4761, enqueue_policy_requests: 247.1433, env_step: 1345.4331, overhead: 35.6691, complete_rollouts: 10.7025
+save_policy_outputs: 33.2625
+  split_output_tensors: 15.9364
+[2023-02-23 00:26:20,107][05631] Loop Runner_EvtLoop terminating...
+[2023-02-23 00:26:20,108][05631] Runner profile tree view:
+main_loop: 1813.1331
+[2023-02-23 00:26:20,110][05631] Collected {0: 10006528}, FPS: 3309.5
+[2023-02-23 00:26:20,166][05631] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2023-02-23 00:26:20,167][05631] Overriding arg 'num_workers' with value 1 passed from command line
+[2023-02-23 00:26:20,168][05631] Adding new argument 'no_render'=True that is not in the saved config file!
+[2023-02-23 00:26:20,171][05631] Adding new argument 'save_video'=True that is not in the saved config file!
+[2023-02-23 00:26:20,172][05631] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2023-02-23 00:26:20,173][05631] Adding new argument 'video_name'=None that is not in the saved config file!
+[2023-02-23 00:26:20,175][05631] Adding new argument 'max_num_frames'=1000000000.0 that is not in the saved config file!
+[2023-02-23 00:26:20,176][05631] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2023-02-23 00:26:20,177][05631] Adding new argument 'push_to_hub'=False that is not in the saved config file!
+[2023-02-23 00:26:20,178][05631] Adding new argument 'hf_repository'=None that is not in the saved config file!
+[2023-02-23 00:26:20,180][05631] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2023-02-23 00:26:20,181][05631] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2023-02-23 00:26:20,182][05631] Adding new argument 'train_script'=None that is not in the saved config file!
+[2023-02-23 00:26:20,184][05631] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2023-02-23 00:26:20,185][05631] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2023-02-23 00:26:20,217][05631] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-23 00:26:20,218][05631] RunningMeanStd input shape: (1,)
+[2023-02-23 00:26:20,236][05631] ConvEncoder: input_channels=3
+[2023-02-23 00:26:20,286][05631] Conv encoder output size: 512
+[2023-02-23 00:26:20,288][05631] Policy head output size: 512
+[2023-02-23 00:26:20,316][05631] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2023-02-23 00:26:20,867][05631] Num frames 100...
+[2023-02-23 00:26:21,004][05631] Num frames 200...
+[2023-02-23 00:26:21,127][05631] Num frames 300...
+[2023-02-23 00:26:21,239][05631] Num frames 400...
+[2023-02-23 00:26:21,314][05631] Avg episode rewards: #0: 4.160, true rewards: #0: 4.160
+[2023-02-23 00:26:21,315][05631] Avg episode reward: 4.160, avg true_objective: 4.160
+[2023-02-23 00:26:21,428][05631] Num frames 500...
+[2023-02-23 00:26:21,552][05631] Num frames 600...
+[2023-02-23 00:26:21,669][05631] Num frames 700...
+[2023-02-23 00:26:21,783][05631] Num frames 800...
+[2023-02-23 00:26:21,835][05631] Avg episode rewards: #0: 4.000, true rewards: #0: 4.000
+[2023-02-23 00:26:21,837][05631] Avg episode reward: 4.000, avg true_objective: 4.000
+[2023-02-23 00:26:21,964][05631] Num frames 900...
+[2023-02-23 00:26:22,098][05631] Num frames 1000...
+[2023-02-23 00:26:22,221][05631] Num frames 1100...
+[2023-02-23 00:26:22,345][05631] Num frames 1200...
+[2023-02-23 00:26:22,423][05631] Avg episode rewards: #0: 4.387, true rewards: #0: 4.053
+[2023-02-23 00:26:22,424][05631] Avg episode reward: 4.387, avg true_objective: 4.053
+[2023-02-23 00:26:22,527][05631] Num frames 1300...
+[2023-02-23 00:26:22,643][05631] Num frames 1400...
+[2023-02-23 00:26:22,761][05631] Num frames 1500...
+[2023-02-23 00:26:22,882][05631] Num frames 1600...
+[2023-02-23 00:26:22,934][05631] Avg episode rewards: #0: 4.250, true rewards: #0: 4.000
+[2023-02-23 00:26:22,936][05631] Avg episode reward: 4.250, avg true_objective: 4.000
+[2023-02-23 00:26:23,065][05631] Num frames 1700...
+[2023-02-23 00:26:23,188][05631] Num frames 1800...
+[2023-02-23 00:26:23,316][05631] Avg episode rewards: #0: 3.912, true rewards: #0: 3.712
+[2023-02-23 00:26:23,319][05631] Avg episode reward: 3.912, avg true_objective: 3.712
+[2023-02-23 00:26:23,374][05631] Num frames 1900...
+[2023-02-23 00:26:23,493][05631] Num frames 2000...
+[2023-02-23 00:26:23,611][05631] Num frames 2100...
+[2023-02-23 00:26:23,683][05631] Avg episode rewards: #0: 3.687, true rewards: #0: 3.520
+[2023-02-23 00:26:23,684][05631] Avg episode reward: 3.687, avg true_objective: 3.520
+[2023-02-23 00:26:23,791][05631] Num frames 2200...
+[2023-02-23 00:26:23,914][05631] Num frames 2300...
+[2023-02-23 00:26:24,032][05631] Num frames 2400...
+[2023-02-23 00:26:24,151][05631] Num frames 2500...
+[2023-02-23 00:26:24,239][05631] Avg episode rewards: #0: 3.897, true rewards: #0: 3.611
+[2023-02-23 00:26:24,241][05631] Avg episode reward: 3.897, avg true_objective: 3.611
+[2023-02-23 00:26:24,340][05631] Num frames 2600...
+[2023-02-23 00:26:24,456][05631] Num frames 2700...
+[2023-02-23 00:26:24,571][05631] Num frames 2800...
+[2023-02-23 00:26:24,684][05631] Num frames 2900...
+[2023-02-23 00:26:24,752][05631] Avg episode rewards: #0: 4.261, true rewards: #0: 3.636
+[2023-02-23 00:26:24,754][05631] Avg episode reward: 4.261, avg true_objective: 3.636
+[2023-02-23 00:26:24,865][05631] Num frames 3000...
+[2023-02-23 00:26:24,981][05631] Num frames 3100...
+[2023-02-23 00:26:25,119][05631] Avg episode rewards: #0: 4.072, true rewards: #0: 3.517
+[2023-02-23 00:26:25,121][05631] Avg episode reward: 4.072, avg true_objective: 3.517
+[2023-02-23 00:26:25,166][05631] Num frames 3200...
+[2023-02-23 00:26:25,288][05631] Num frames 3300...
+[2023-02-23 00:26:25,411][05631] Num frames 3400...
+[2023-02-23 00:26:25,533][05631] Num frames 3500...
+[2023-02-23 00:26:25,645][05631] Avg episode rewards: #0: 4.049, true rewards: #0: 3.549
+[2023-02-23 00:26:25,647][05631] Avg episode reward: 4.049, avg true_objective: 3.549
+[2023-02-23 00:26:45,517][05631] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2023-02-23 00:26:45,677][05631] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2023-02-23 00:26:45,679][05631] Overriding arg 'num_workers' with value 1 passed from command line
+[2023-02-23 00:26:45,682][05631] Adding new argument 'no_render'=True that is not in the saved config file!
+[2023-02-23 00:26:45,684][05631] Adding new argument 'save_video'=True that is not in the saved config file!
+[2023-02-23 00:26:45,686][05631] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2023-02-23 00:26:45,688][05631] Adding new argument 'video_name'=None that is not in the saved config file!
+[2023-02-23 00:26:45,690][05631] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
+[2023-02-23 00:26:45,692][05631] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2023-02-23 00:26:45,694][05631] Adding new argument 'push_to_hub'=True that is not in the saved config file!
+[2023-02-23 00:26:45,695][05631] Adding new argument 'hf_repository'='pittawat/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
+[2023-02-23 00:26:45,696][05631] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2023-02-23 00:26:45,697][05631] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2023-02-23 00:26:45,698][05631] Adding new argument 'train_script'=None that is not in the saved config file!
+[2023-02-23 00:26:45,699][05631] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2023-02-23 00:26:45,700][05631] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2023-02-23 00:26:45,734][05631] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-23 00:26:45,737][05631] RunningMeanStd input shape: (1,)
+[2023-02-23 00:26:45,762][05631] ConvEncoder: input_channels=3
+[2023-02-23 00:26:45,846][05631] Conv encoder output size: 512
+[2023-02-23 00:26:45,848][05631] Policy head output size: 512
+[2023-02-23 00:26:45,882][05631] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2023-02-23 00:26:46,683][05631] Num frames 100...
+[2023-02-23 00:26:46,875][05631] Num frames 200...
+[2023-02-23 00:26:47,065][05631] Num frames 300...
+[2023-02-23 00:26:47,271][05631] Num frames 400...
+[2023-02-23 00:26:47,443][05631] Avg episode rewards: #0: 5.480, true rewards: #0: 4.480
+[2023-02-23 00:26:47,445][05631] Avg episode reward: 5.480, avg true_objective: 4.480
+[2023-02-23 00:26:47,554][05631] Num frames 500...
+[2023-02-23 00:26:47,751][05631] Num frames 600...
+[2023-02-23 00:26:47,950][05631] Num frames 700...
+[2023-02-23 00:26:48,129][05631] Num frames 800...
+[2023-02-23 00:26:48,297][05631] Avg episode rewards: #0: 4.820, true rewards: #0: 4.320
+[2023-02-23 00:26:48,300][05631] Avg episode reward: 4.820, avg true_objective: 4.320
+[2023-02-23 00:26:48,369][05631] Num frames 900...
+[2023-02-23 00:26:48,498][05631] Num frames 1000...
+[2023-02-23 00:26:48,614][05631] Num frames 1100...
+[2023-02-23 00:26:48,732][05631] Num frames 1200...
+[2023-02-23 00:26:48,840][05631] Avg episode rewards: #0: 4.493, true rewards: #0: 4.160
+[2023-02-23 00:26:48,842][05631] Avg episode reward: 4.493, avg true_objective: 4.160
+[2023-02-23 00:26:48,905][05631] Num frames 1300...
+[2023-02-23 00:26:49,017][05631] Num frames 1400...
+[2023-02-23 00:26:49,133][05631] Num frames 1500...
+[2023-02-23 00:26:49,244][05631] Num frames 1600...
+[2023-02-23 00:26:49,337][05631] Avg episode rewards: #0: 4.330, true rewards: #0: 4.080
+[2023-02-23 00:26:49,339][05631] Avg episode reward: 4.330, avg true_objective: 4.080
+[2023-02-23 00:26:49,426][05631] Num frames 1700...
+[2023-02-23 00:26:49,548][05631] Num frames 1800...
+[2023-02-23 00:26:49,664][05631] Num frames 1900...
+[2023-02-23 00:26:49,783][05631] Num frames 2000...
+[2023-02-23 00:26:49,858][05631] Avg episode rewards: #0: 4.232, true rewards: #0: 4.032
+[2023-02-23 00:26:49,861][05631] Avg episode reward: 4.232, avg true_objective: 4.032
+[2023-02-23 00:26:49,963][05631] Num frames 2100...
+[2023-02-23 00:26:50,090][05631] Num frames 2200...
+[2023-02-23 00:26:50,210][05631] Num frames 2300...
+[2023-02-23 00:26:50,335][05631] Num frames 2400...
+[2023-02-23 00:26:50,450][05631] Num frames 2500...
+[2023-02-23 00:26:50,577][05631] Num frames 2600...
+[2023-02-23 00:26:50,663][05631] Avg episode rewards: #0: 5.040, true rewards: #0: 4.373
+[2023-02-23 00:26:50,665][05631] Avg episode reward: 5.040, avg true_objective: 4.373
+[2023-02-23 00:26:50,758][05631] Num frames 2700...
+[2023-02-23 00:26:50,901][05631] Num frames 2800...
+[2023-02-23 00:26:51,019][05631] Num frames 2900...
+[2023-02-23 00:26:51,133][05631] Num frames 3000...
+[2023-02-23 00:26:51,199][05631] Avg episode rewards: #0: 4.869, true rewards: #0: 4.297
+[2023-02-23 00:26:51,201][05631] Avg episode reward: 4.869, avg true_objective: 4.297
+[2023-02-23 00:26:51,318][05631] Num frames 3100...
+[2023-02-23 00:26:51,442][05631] Num frames 3200...
+[2023-02-23 00:26:51,570][05631] Num frames 3300...
+[2023-02-23 00:26:51,731][05631] Avg episode rewards: #0: 4.740, true rewards: #0: 4.240
+[2023-02-23 00:26:51,733][05631] Avg episode reward: 4.740, avg true_objective: 4.240
+[2023-02-23 00:26:51,749][05631] Num frames 3400...
+[2023-02-23 00:26:51,877][05631] Num frames 3500...
+[2023-02-23 00:26:52,003][05631] Num frames 3600...
+[2023-02-23 00:26:52,125][05631] Num frames 3700...
+[2023-02-23 00:26:52,247][05631] Num frames 3800...
+[2023-02-23 00:26:52,368][05631] Num frames 3900...
+[2023-02-23 00:26:52,429][05631] Avg episode rewards: #0: 5.116, true rewards: #0: 4.338
+[2023-02-23 00:26:52,432][05631] Avg episode reward: 5.116, avg true_objective: 4.338
+[2023-02-23 00:26:52,553][05631] Num frames 4000...
+[2023-02-23 00:26:52,670][05631] Num frames 4100...
+[2023-02-23 00:26:52,789][05631] Num frames 4200...
+[2023-02-23 00:26:52,907][05631] Num frames 4300...
+[2023-02-23 00:26:52,988][05631] Avg episode rewards: #0: 5.020, true rewards: #0: 4.320
+[2023-02-23 00:26:52,991][05631] Avg episode reward: 5.020, avg true_objective: 4.320
+[2023-02-23 00:27:13,979][05631] Replay video saved to /content/train_dir/default_experiment/replay.mp4!