Upload . with huggingface_hub

83e85e5 over 1 year ago

No virus

107 kB

	[2023-02-24 12:21:40,313][00123] Saving configuration to /content/train_dir/default_experiment/config.json...
	[2023-02-24 12:21:40,322][00123] Rollout worker 0 uses device cpu
	[2023-02-24 12:21:40,329][00123] Rollout worker 1 uses device cpu
	[2023-02-24 12:21:40,334][00123] Rollout worker 2 uses device cpu
	[2023-02-24 12:21:40,338][00123] Rollout worker 3 uses device cpu
	[2023-02-24 12:21:40,345][00123] Rollout worker 4 uses device cpu
	[2023-02-24 12:21:40,349][00123] Rollout worker 5 uses device cpu
	[2023-02-24 12:21:40,354][00123] Rollout worker 6 uses device cpu
	[2023-02-24 12:21:40,356][00123] Rollout worker 7 uses device cpu
	[2023-02-24 12:21:40,628][00123] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-02-24 12:21:40,631][00123] InferenceWorker_p0-w0: min num requests: 2
	[2023-02-24 12:21:40,680][00123] Starting all processes...
	[2023-02-24 12:21:40,686][00123] Starting process learner_proc0
	[2023-02-24 12:21:40,773][00123] Starting all processes...
	[2023-02-24 12:21:40,842][00123] Starting process inference_proc0-0
	[2023-02-24 12:21:40,844][00123] Starting process rollout_proc0
	[2023-02-24 12:21:40,845][00123] Starting process rollout_proc1
	[2023-02-24 12:21:40,849][00123] Starting process rollout_proc2
	[2023-02-24 12:21:40,849][00123] Starting process rollout_proc3
	[2023-02-24 12:21:40,849][00123] Starting process rollout_proc4
	[2023-02-24 12:21:40,849][00123] Starting process rollout_proc5
	[2023-02-24 12:21:40,849][00123] Starting process rollout_proc6
	[2023-02-24 12:21:40,849][00123] Starting process rollout_proc7
	[2023-02-24 12:21:54,144][10612] Worker 1 uses CPU cores [1]
	[2023-02-24 12:21:54,180][10610] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-02-24 12:21:54,185][10610] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
	[2023-02-24 12:21:54,461][10613] Worker 2 uses CPU cores [0]
	[2023-02-24 12:21:54,622][10611] Worker 0 uses CPU cores [0]
	[2023-02-24 12:21:54,627][10592] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-02-24 12:21:54,631][10592] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
	[2023-02-24 12:21:54,644][10616] Worker 5 uses CPU cores [1]
	[2023-02-24 12:21:54,653][10615] Worker 4 uses CPU cores [0]
	[2023-02-24 12:21:54,696][10617] Worker 6 uses CPU cores [0]
	[2023-02-24 12:21:54,747][10618] Worker 7 uses CPU cores [1]
	[2023-02-24 12:21:54,815][10614] Worker 3 uses CPU cores [1]
	[2023-02-24 12:21:55,343][10592] Num visible devices: 1
	[2023-02-24 12:21:55,347][10610] Num visible devices: 1
	[2023-02-24 12:21:55,354][10592] Starting seed is not provided
	[2023-02-24 12:21:55,355][10592] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-02-24 12:21:55,355][10592] Initializing actor-critic model on device cuda:0
	[2023-02-24 12:21:55,356][10592] RunningMeanStd input shape: (3, 72, 128)
	[2023-02-24 12:21:55,358][10592] RunningMeanStd input shape: (1,)
	[2023-02-24 12:21:55,378][10592] ConvEncoder: input_channels=3
	[2023-02-24 12:21:55,811][10592] Conv encoder output size: 512
	[2023-02-24 12:21:55,812][10592] Policy head output size: 512
	[2023-02-24 12:21:55,885][10592] Created Actor Critic model with architecture:
	[2023-02-24 12:21:55,885][10592] ActorCriticSharedWeights(
	(obs_normalizer): ObservationNormalizer(
	(running_mean_std): RunningMeanStdDictInPlace(
	(running_mean_std): ModuleDict(
	(obs): RunningMeanStdInPlace()
	)
	)
	)
	(returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
	(encoder): VizdoomEncoder(
	(basic_encoder): ConvEncoder(
	(enc): RecursiveScriptModule(
	original_name=ConvEncoderImpl
	(conv_head): RecursiveScriptModule(
	original_name=Sequential
	(0): RecursiveScriptModule(original_name=Conv2d)
	(1): RecursiveScriptModule(original_name=ELU)
	(2): RecursiveScriptModule(original_name=Conv2d)
	(3): RecursiveScriptModule(original_name=ELU)
	(4): RecursiveScriptModule(original_name=Conv2d)
	(5): RecursiveScriptModule(original_name=ELU)
	)
	(mlp_layers): RecursiveScriptModule(
	original_name=Sequential
	(0): RecursiveScriptModule(original_name=Linear)
	(1): RecursiveScriptModule(original_name=ELU)
	)
	)
	)
	)
	(core): ModelCoreRNN(
	(core): GRU(512, 512)
	)
	(decoder): MlpDecoder(
	(mlp): Identity()
	)
	(critic_linear): Linear(in_features=512, out_features=1, bias=True)
	(action_parameterization): ActionParameterizationDefault(
	(distribution_linear): Linear(in_features=512, out_features=5, bias=True)
	)
	)
	[2023-02-24 12:22:00,608][00123] Heartbeat connected on Batcher_0
	[2023-02-24 12:22:00,629][00123] Heartbeat connected on InferenceWorker_p0-w0
	[2023-02-24 12:22:00,638][00123] Heartbeat connected on RolloutWorker_w0
	[2023-02-24 12:22:00,643][00123] Heartbeat connected on RolloutWorker_w1
	[2023-02-24 12:22:00,650][00123] Heartbeat connected on RolloutWorker_w3
	[2023-02-24 12:22:00,651][00123] Heartbeat connected on RolloutWorker_w2
	[2023-02-24 12:22:00,659][00123] Heartbeat connected on RolloutWorker_w4
	[2023-02-24 12:22:00,673][00123] Heartbeat connected on RolloutWorker_w6
	[2023-02-24 12:22:00,674][00123] Heartbeat connected on RolloutWorker_w5
	[2023-02-24 12:22:00,680][00123] Heartbeat connected on RolloutWorker_w7
	[2023-02-24 12:22:04,501][10592] Using optimizer <class 'torch.optim.adam.Adam'>
	[2023-02-24 12:22:04,502][10592] No checkpoints found
	[2023-02-24 12:22:04,502][10592] Did not load from checkpoint, starting from scratch!
	[2023-02-24 12:22:04,502][10592] Initialized policy 0 weights for model version 0
	[2023-02-24 12:22:04,511][10592] LearnerWorker_p0 finished initialization!
	[2023-02-24 12:22:04,511][10592] Using GPUs [0] for process 0 (actually maps to GPUs [0])
	[2023-02-24 12:22:04,512][00123] Heartbeat connected on LearnerWorker_p0
	[2023-02-24 12:22:04,744][10610] RunningMeanStd input shape: (3, 72, 128)
	[2023-02-24 12:22:04,745][10610] RunningMeanStd input shape: (1,)
	[2023-02-24 12:22:04,764][10610] ConvEncoder: input_channels=3
	[2023-02-24 12:22:04,915][10610] Conv encoder output size: 512
	[2023-02-24 12:22:04,916][10610] Policy head output size: 512
	[2023-02-24 12:22:05,103][00123] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-02-24 12:22:07,162][00123] Inference worker 0-0 is ready!
	[2023-02-24 12:22:07,163][00123] All inference workers are ready! Signal rollout workers to start!
	[2023-02-24 12:22:07,274][10615] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,283][10617] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,318][10611] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,323][10614] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,333][10618] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,326][10613] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,340][10616] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:07,341][10612] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:22:08,533][10616] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:08,535][10612] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:08,536][10618] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:08,764][10611] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:08,771][10613] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:08,776][10615] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:08,783][10617] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:09,462][10617] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:09,459][10612] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:09,461][10616] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:09,464][10611] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:09,844][10618] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:10,103][00123] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-02-24 12:22:10,592][10615] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:10,605][10613] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:10,763][10612] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:10,790][10617] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:10,963][10616] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:11,106][10618] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:11,469][10614] Decorrelating experience for 0 frames...
	[2023-02-24 12:22:11,760][10611] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:11,781][10617] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:11,821][10614] Decorrelating experience for 32 frames...
	[2023-02-24 12:22:12,079][10615] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:12,623][10618] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:12,847][10614] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:12,982][10616] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:13,317][10615] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:13,601][10614] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:13,664][10613] Decorrelating experience for 64 frames...
	[2023-02-24 12:22:14,086][10612] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:14,337][10613] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:14,617][10611] Decorrelating experience for 96 frames...
	[2023-02-24 12:22:15,106][00123] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-02-24 12:22:20,103][00123] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 115.5. Samples: 1732. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
	[2023-02-24 12:22:20,115][00123] Avg episode reward: [(0, '1.531')]
	[2023-02-24 12:22:20,574][10592] Signal inference workers to stop experience collection...
	[2023-02-24 12:22:20,593][10610] InferenceWorker_p0-w0: stopping experience collection
	[2023-02-24 12:22:23,106][10592] Signal inference workers to resume experience collection...
	[2023-02-24 12:22:23,108][10610] InferenceWorker_p0-w0: resuming experience collection
	[2023-02-24 12:22:25,103][00123] Fps is (10 sec: 1229.1, 60 sec: 614.4, 300 sec: 614.4). Total num frames: 12288. Throughput: 0: 110.1. Samples: 2202. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
	[2023-02-24 12:22:25,110][00123] Avg episode reward: [(0, '2.665')]
	[2023-02-24 12:22:30,103][00123] Fps is (10 sec: 3276.8, 60 sec: 1310.7, 300 sec: 1310.7). Total num frames: 32768. Throughput: 0: 276.3. Samples: 6908. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-02-24 12:22:30,106][00123] Avg episode reward: [(0, '3.564')]
	[2023-02-24 12:22:31,675][10610] Updated weights for policy 0, policy_version 10 (0.0356)
	[2023-02-24 12:22:35,103][00123] Fps is (10 sec: 3686.4, 60 sec: 1638.4, 300 sec: 1638.4). Total num frames: 49152. Throughput: 0: 430.9. Samples: 12926. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:22:35,111][00123] Avg episode reward: [(0, '4.274')]
	[2023-02-24 12:22:40,103][00123] Fps is (10 sec: 3276.8, 60 sec: 1872.5, 300 sec: 1872.5). Total num frames: 65536. Throughput: 0: 429.3. Samples: 15026. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:22:40,112][00123] Avg episode reward: [(0, '4.368')]
	[2023-02-24 12:22:44,313][10610] Updated weights for policy 0, policy_version 20 (0.0014)
	[2023-02-24 12:22:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 2048.0, 300 sec: 2048.0). Total num frames: 81920. Throughput: 0: 491.1. Samples: 19644. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:22:45,108][00123] Avg episode reward: [(0, '4.382')]
	[2023-02-24 12:22:50,103][00123] Fps is (10 sec: 4096.1, 60 sec: 2366.6, 300 sec: 2366.6). Total num frames: 106496. Throughput: 0: 576.4. Samples: 25938. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-02-24 12:22:50,110][00123] Avg episode reward: [(0, '4.447')]
	[2023-02-24 12:22:50,114][10592] Saving new best policy, reward=4.447!
	[2023-02-24 12:22:54,381][10610] Updated weights for policy 0, policy_version 30 (0.0013)
	[2023-02-24 12:22:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 2457.6, 300 sec: 2457.6). Total num frames: 122880. Throughput: 0: 650.4. Samples: 29268. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-02-24 12:22:55,105][00123] Avg episode reward: [(0, '4.493')]
	[2023-02-24 12:22:55,124][10592] Saving new best policy, reward=4.493!
	[2023-02-24 12:23:00,104][00123] Fps is (10 sec: 2866.9, 60 sec: 2457.6, 300 sec: 2457.6). Total num frames: 135168. Throughput: 0: 746.8. Samples: 33604. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-02-24 12:23:00,114][00123] Avg episode reward: [(0, '4.418')]
	[2023-02-24 12:23:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 2594.1, 300 sec: 2594.1). Total num frames: 155648. Throughput: 0: 820.5. Samples: 38654. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:23:05,106][00123] Avg episode reward: [(0, '4.570')]
	[2023-02-24 12:23:05,113][10592] Saving new best policy, reward=4.570!
	[2023-02-24 12:23:06,815][10610] Updated weights for policy 0, policy_version 40 (0.0015)
	[2023-02-24 12:23:10,103][00123] Fps is (10 sec: 4096.4, 60 sec: 2935.5, 300 sec: 2709.7). Total num frames: 176128. Throughput: 0: 882.6. Samples: 41920. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:23:10,105][00123] Avg episode reward: [(0, '4.302')]
	[2023-02-24 12:23:15,103][00123] Fps is (10 sec: 3686.5, 60 sec: 3208.7, 300 sec: 2750.2). Total num frames: 192512. Throughput: 0: 920.8. Samples: 48346. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-02-24 12:23:15,112][00123] Avg episode reward: [(0, '4.179')]
	[2023-02-24 12:23:18,210][10610] Updated weights for policy 0, policy_version 50 (0.0013)
	[2023-02-24 12:23:20,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 2785.3). Total num frames: 208896. Throughput: 0: 880.0. Samples: 52524. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:23:20,108][00123] Avg episode reward: [(0, '4.291')]
	[2023-02-24 12:23:25,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3549.9, 300 sec: 2816.0). Total num frames: 225280. Throughput: 0: 880.9. Samples: 54666. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:23:25,111][00123] Avg episode reward: [(0, '4.427')]
	[2023-02-24 12:23:28,760][10610] Updated weights for policy 0, policy_version 60 (0.0014)
	[2023-02-24 12:23:30,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3618.1, 300 sec: 2939.5). Total num frames: 249856. Throughput: 0: 922.4. Samples: 61154. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
	[2023-02-24 12:23:30,105][00123] Avg episode reward: [(0, '4.416')]
	[2023-02-24 12:23:35,103][00123] Fps is (10 sec: 4095.9, 60 sec: 3618.1, 300 sec: 2958.2). Total num frames: 266240. Throughput: 0: 914.4. Samples: 67088. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:23:35,108][00123] Avg episode reward: [(0, '4.393')]
	[2023-02-24 12:23:35,116][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000065_266240.pth...
	[2023-02-24 12:23:40,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3549.9, 300 sec: 2931.9). Total num frames: 278528. Throughput: 0: 886.8. Samples: 69176. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:23:40,106][00123] Avg episode reward: [(0, '4.326')]
	[2023-02-24 12:23:41,498][10610] Updated weights for policy 0, policy_version 70 (0.0012)
	[2023-02-24 12:23:45,105][00123] Fps is (10 sec: 3276.4, 60 sec: 3618.1, 300 sec: 2990.0). Total num frames: 299008. Throughput: 0: 889.6. Samples: 73638. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:23:45,111][00123] Avg episode reward: [(0, '4.354')]
	[2023-02-24 12:23:50,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3549.9, 300 sec: 3042.8). Total num frames: 319488. Throughput: 0: 926.1. Samples: 80330. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:23:50,109][00123] Avg episode reward: [(0, '4.546')]
	[2023-02-24 12:23:51,130][10610] Updated weights for policy 0, policy_version 80 (0.0013)
	[2023-02-24 12:23:55,103][00123] Fps is (10 sec: 4096.6, 60 sec: 3618.1, 300 sec: 3090.6). Total num frames: 339968. Throughput: 0: 925.6. Samples: 83574. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:23:55,106][00123] Avg episode reward: [(0, '4.504')]
	[2023-02-24 12:24:00,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3618.2, 300 sec: 3063.1). Total num frames: 352256. Throughput: 0: 880.0. Samples: 87944. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:24:00,109][00123] Avg episode reward: [(0, '4.547')]
	[2023-02-24 12:24:04,254][10610] Updated weights for policy 0, policy_version 90 (0.0017)
	[2023-02-24 12:24:05,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3549.9, 300 sec: 3072.0). Total num frames: 368640. Throughput: 0: 891.3. Samples: 92632. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:24:05,106][00123] Avg episode reward: [(0, '4.610')]
	[2023-02-24 12:24:05,114][10592] Saving new best policy, reward=4.610!
	[2023-02-24 12:24:10,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3618.1, 300 sec: 3145.7). Total num frames: 393216. Throughput: 0: 915.0. Samples: 95840. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:24:10,111][00123] Avg episode reward: [(0, '4.641')]
	[2023-02-24 12:24:10,114][10592] Saving new best policy, reward=4.641!
	[2023-02-24 12:24:13,838][10610] Updated weights for policy 0, policy_version 100 (0.0012)
	[2023-02-24 12:24:15,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3618.1, 300 sec: 3150.8). Total num frames: 409600. Throughput: 0: 917.6. Samples: 102448. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:24:15,111][00123] Avg episode reward: [(0, '4.542')]
	[2023-02-24 12:24:20,104][00123] Fps is (10 sec: 3276.6, 60 sec: 3618.1, 300 sec: 3155.4). Total num frames: 425984. Throughput: 0: 879.6. Samples: 106672. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:24:20,114][00123] Avg episode reward: [(0, '4.324')]
	[2023-02-24 12:24:25,104][00123] Fps is (10 sec: 3276.7, 60 sec: 3618.1, 300 sec: 3159.8). Total num frames: 442368. Throughput: 0: 880.1. Samples: 108782. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:24:25,106][00123] Avg episode reward: [(0, '4.498')]
	[2023-02-24 12:24:26,242][10610] Updated weights for policy 0, policy_version 110 (0.0030)
	[2023-02-24 12:24:30,103][00123] Fps is (10 sec: 4096.3, 60 sec: 3618.1, 300 sec: 3220.3). Total num frames: 466944. Throughput: 0: 925.8. Samples: 115296. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:24:30,111][00123] Avg episode reward: [(0, '4.593')]
	[2023-02-24 12:24:35,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3618.1, 300 sec: 3222.2). Total num frames: 483328. Throughput: 0: 912.1. Samples: 121376. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:24:35,107][00123] Avg episode reward: [(0, '4.464')]
	[2023-02-24 12:24:37,063][10610] Updated weights for policy 0, policy_version 120 (0.0020)
	[2023-02-24 12:24:40,110][00123] Fps is (10 sec: 3274.6, 60 sec: 3686.0, 300 sec: 3223.8). Total num frames: 499712. Throughput: 0: 885.1. Samples: 123410. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:24:40,113][00123] Avg episode reward: [(0, '4.488')]
	[2023-02-24 12:24:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3618.2, 300 sec: 3225.6). Total num frames: 516096. Throughput: 0: 890.3. Samples: 128008. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:24:45,106][00123] Avg episode reward: [(0, '4.512')]
	[2023-02-24 12:24:48,054][10610] Updated weights for policy 0, policy_version 130 (0.0020)
	[2023-02-24 12:24:50,103][00123] Fps is (10 sec: 4098.8, 60 sec: 3686.4, 300 sec: 3276.8). Total num frames: 540672. Throughput: 0: 937.7. Samples: 134828. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:24:50,106][00123] Avg episode reward: [(0, '4.533')]
	[2023-02-24 12:24:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3618.1, 300 sec: 3276.8). Total num frames: 557056. Throughput: 0: 940.8. Samples: 138178. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:24:55,110][00123] Avg episode reward: [(0, '4.449')]
	[2023-02-24 12:24:59,843][10610] Updated weights for policy 0, policy_version 140 (0.0020)
	[2023-02-24 12:25:00,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3276.8). Total num frames: 573440. Throughput: 0: 895.2. Samples: 142730. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:25:00,107][00123] Avg episode reward: [(0, '4.349')]
	[2023-02-24 12:25:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3276.8). Total num frames: 589824. Throughput: 0: 913.2. Samples: 147764. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:25:05,106][00123] Avg episode reward: [(0, '4.214')]
	[2023-02-24 12:25:09,660][10610] Updated weights for policy 0, policy_version 150 (0.0019)
	[2023-02-24 12:25:10,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3321.1). Total num frames: 614400. Throughput: 0: 941.9. Samples: 151166. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:25:10,106][00123] Avg episode reward: [(0, '4.385')]
	[2023-02-24 12:25:15,113][00123] Fps is (10 sec: 4092.2, 60 sec: 3685.8, 300 sec: 3319.8). Total num frames: 630784. Throughput: 0: 944.6. Samples: 157812. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:25:15,115][00123] Avg episode reward: [(0, '4.371')]
	[2023-02-24 12:25:20,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3318.8). Total num frames: 647168. Throughput: 0: 906.1. Samples: 162152. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:25:20,105][00123] Avg episode reward: [(0, '4.475')]
	[2023-02-24 12:25:22,166][10610] Updated weights for policy 0, policy_version 160 (0.0024)
	[2023-02-24 12:25:25,103][00123] Fps is (10 sec: 3689.8, 60 sec: 3754.7, 300 sec: 3338.2). Total num frames: 667648. Throughput: 0: 909.3. Samples: 164320. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:25:25,106][00123] Avg episode reward: [(0, '4.552')]
	[2023-02-24 12:25:30,103][00123] Fps is (10 sec: 4095.9, 60 sec: 3686.4, 300 sec: 3356.7). Total num frames: 688128. Throughput: 0: 958.2. Samples: 171128. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:25:30,106][00123] Avg episode reward: [(0, '4.665')]
	[2023-02-24 12:25:30,109][10592] Saving new best policy, reward=4.665!
	[2023-02-24 12:25:31,391][10610] Updated weights for policy 0, policy_version 170 (0.0015)
	[2023-02-24 12:25:35,104][00123] Fps is (10 sec: 3685.9, 60 sec: 3686.3, 300 sec: 3354.8). Total num frames: 704512. Throughput: 0: 939.3. Samples: 177098. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:25:35,110][00123] Avg episode reward: [(0, '4.593')]
	[2023-02-24 12:25:35,146][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000173_708608.pth...
	[2023-02-24 12:25:40,103][00123] Fps is (10 sec: 3276.9, 60 sec: 3686.8, 300 sec: 3353.0). Total num frames: 720896. Throughput: 0: 911.6. Samples: 179198. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:25:40,107][00123] Avg episode reward: [(0, '4.405')]
	[2023-02-24 12:25:43,897][10610] Updated weights for policy 0, policy_version 180 (0.0023)
	[2023-02-24 12:25:45,104][00123] Fps is (10 sec: 3686.8, 60 sec: 3754.7, 300 sec: 3369.9). Total num frames: 741376. Throughput: 0: 915.1. Samples: 183910. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:25:45,106][00123] Avg episode reward: [(0, '4.506')]
	[2023-02-24 12:25:50,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3386.0). Total num frames: 761856. Throughput: 0: 956.1. Samples: 190788. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:25:50,110][00123] Avg episode reward: [(0, '4.530')]
	[2023-02-24 12:25:53,408][10610] Updated weights for policy 0, policy_version 190 (0.0020)
	[2023-02-24 12:25:55,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3754.7, 300 sec: 3401.5). Total num frames: 782336. Throughput: 0: 956.5. Samples: 194208. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:25:55,109][00123] Avg episode reward: [(0, '4.539')]
	[2023-02-24 12:26:00,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3381.4). Total num frames: 794624. Throughput: 0: 905.2. Samples: 198538. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:26:00,106][00123] Avg episode reward: [(0, '4.599')]
	[2023-02-24 12:26:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3396.3). Total num frames: 815104. Throughput: 0: 917.2. Samples: 203428. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:26:05,106][00123] Avg episode reward: [(0, '4.521')]
	[2023-02-24 12:26:06,044][10610] Updated weights for policy 0, policy_version 200 (0.0024)
	[2023-02-24 12:26:10,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3410.5). Total num frames: 835584. Throughput: 0: 944.6. Samples: 206828. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:26:10,105][00123] Avg episode reward: [(0, '4.805')]
	[2023-02-24 12:26:10,114][10592] Saving new best policy, reward=4.805!
	[2023-02-24 12:26:15,103][00123] Fps is (10 sec: 4095.9, 60 sec: 3755.2, 300 sec: 3424.3). Total num frames: 856064. Throughput: 0: 937.4. Samples: 213310. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:26:15,109][00123] Avg episode reward: [(0, '4.891')]
	[2023-02-24 12:26:15,129][10592] Saving new best policy, reward=4.891!
	[2023-02-24 12:26:16,336][10610] Updated weights for policy 0, policy_version 210 (0.0018)
	[2023-02-24 12:26:20,103][00123] Fps is (10 sec: 3276.7, 60 sec: 3686.4, 300 sec: 3405.3). Total num frames: 868352. Throughput: 0: 898.6. Samples: 217536. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:26:20,106][00123] Avg episode reward: [(0, '4.755')]
	[2023-02-24 12:26:25,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3418.6). Total num frames: 888832. Throughput: 0: 902.4. Samples: 219808. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:26:25,109][00123] Avg episode reward: [(0, '4.592')]
	[2023-02-24 12:26:27,610][10610] Updated weights for policy 0, policy_version 220 (0.0013)
	[2023-02-24 12:26:30,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3686.4, 300 sec: 3431.4). Total num frames: 909312. Throughput: 0: 945.5. Samples: 226458. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:26:30,105][00123] Avg episode reward: [(0, '4.572')]
	[2023-02-24 12:26:35,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3443.7). Total num frames: 929792. Throughput: 0: 928.5. Samples: 232572. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:26:35,111][00123] Avg episode reward: [(0, '4.741')]
	[2023-02-24 12:26:39,082][10610] Updated weights for policy 0, policy_version 230 (0.0012)
	[2023-02-24 12:26:40,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3425.7). Total num frames: 942080. Throughput: 0: 900.3. Samples: 234722. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:26:40,106][00123] Avg episode reward: [(0, '4.732')]
	[2023-02-24 12:26:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3437.7). Total num frames: 962560. Throughput: 0: 907.2. Samples: 239360. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:26:45,108][00123] Avg episode reward: [(0, '4.525')]
	[2023-02-24 12:26:49,346][10610] Updated weights for policy 0, policy_version 240 (0.0020)
	[2023-02-24 12:26:50,105][00123] Fps is (10 sec: 4095.1, 60 sec: 3686.3, 300 sec: 3449.2). Total num frames: 983040. Throughput: 0: 950.8. Samples: 246214. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:26:50,108][00123] Avg episode reward: [(0, '4.675')]
	[2023-02-24 12:26:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3460.4). Total num frames: 1003520. Throughput: 0: 950.0. Samples: 249576. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:26:55,108][00123] Avg episode reward: [(0, '4.805')]
	[2023-02-24 12:27:00,103][00123] Fps is (10 sec: 3687.2, 60 sec: 3754.7, 300 sec: 3457.3). Total num frames: 1019904. Throughput: 0: 905.7. Samples: 254066. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:00,106][00123] Avg episode reward: [(0, '4.788')]
	[2023-02-24 12:27:01,443][10610] Updated weights for policy 0, policy_version 250 (0.0039)
	[2023-02-24 12:27:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3512.8). Total num frames: 1036288. Throughput: 0: 921.2. Samples: 258990. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:27:05,111][00123] Avg episode reward: [(0, '4.783')]
	[2023-02-24 12:27:10,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3596.2). Total num frames: 1060864. Throughput: 0: 948.3. Samples: 262482. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:10,105][00123] Avg episode reward: [(0, '4.894')]
	[2023-02-24 12:27:10,113][10592] Saving new best policy, reward=4.894!
	[2023-02-24 12:27:11,050][10610] Updated weights for policy 0, policy_version 260 (0.0017)
	[2023-02-24 12:27:15,107][00123] Fps is (10 sec: 4094.4, 60 sec: 3686.2, 300 sec: 3651.6). Total num frames: 1077248. Throughput: 0: 948.2. Samples: 269132. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:27:15,109][00123] Avg episode reward: [(0, '4.759')]
	[2023-02-24 12:27:20,104][00123] Fps is (10 sec: 3276.5, 60 sec: 3754.6, 300 sec: 3665.6). Total num frames: 1093632. Throughput: 0: 907.0. Samples: 273386. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:20,109][00123] Avg episode reward: [(0, '4.733')]
	[2023-02-24 12:27:23,680][10610] Updated weights for policy 0, policy_version 270 (0.0012)
	[2023-02-24 12:27:25,103][00123] Fps is (10 sec: 3278.1, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 1110016. Throughput: 0: 907.8. Samples: 275574. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:27:25,105][00123] Avg episode reward: [(0, '4.652')]
	[2023-02-24 12:27:30,105][00123] Fps is (10 sec: 3686.2, 60 sec: 3686.3, 300 sec: 3665.6). Total num frames: 1130496. Throughput: 0: 949.3. Samples: 282080. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:30,111][00123] Avg episode reward: [(0, '4.869')]
	[2023-02-24 12:27:35,108][00123] Fps is (10 sec: 3275.1, 60 sec: 3549.6, 300 sec: 3651.6). Total num frames: 1142784. Throughput: 0: 880.9. Samples: 285856. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:35,115][00123] Avg episode reward: [(0, '4.916')]
	[2023-02-24 12:27:35,131][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000279_1142784.pth...
	[2023-02-24 12:27:35,319][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000065_266240.pth
	[2023-02-24 12:27:35,335][10592] Saving new best policy, reward=4.916!
	[2023-02-24 12:27:36,315][10610] Updated weights for policy 0, policy_version 280 (0.0012)
	[2023-02-24 12:27:40,103][00123] Fps is (10 sec: 2457.9, 60 sec: 3549.9, 300 sec: 3637.8). Total num frames: 1155072. Throughput: 0: 852.8. Samples: 287954. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:27:40,106][00123] Avg episode reward: [(0, '5.122')]
	[2023-02-24 12:27:40,110][10592] Saving new best policy, reward=5.122!
	[2023-02-24 12:27:45,103][00123] Fps is (10 sec: 3278.4, 60 sec: 3549.9, 300 sec: 3623.9). Total num frames: 1175552. Throughput: 0: 853.7. Samples: 292484. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:27:45,106][00123] Avg episode reward: [(0, '5.123')]
	[2023-02-24 12:27:47,548][10610] Updated weights for policy 0, policy_version 290 (0.0019)
	[2023-02-24 12:27:50,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3550.0, 300 sec: 3637.8). Total num frames: 1196032. Throughput: 0: 897.8. Samples: 299392. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:50,111][00123] Avg episode reward: [(0, '5.167')]
	[2023-02-24 12:27:50,115][10592] Saving new best policy, reward=5.167!
	[2023-02-24 12:27:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3549.9, 300 sec: 3665.6). Total num frames: 1216512. Throughput: 0: 895.3. Samples: 302770. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:27:55,111][00123] Avg episode reward: [(0, '5.192')]
	[2023-02-24 12:27:55,123][10592] Saving new best policy, reward=5.192!
	[2023-02-24 12:27:58,919][10610] Updated weights for policy 0, policy_version 300 (0.0016)
	[2023-02-24 12:28:00,103][00123] Fps is (10 sec: 3276.7, 60 sec: 3481.6, 300 sec: 3637.8). Total num frames: 1228800. Throughput: 0: 845.4. Samples: 307170. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:28:00,111][00123] Avg episode reward: [(0, '5.330')]
	[2023-02-24 12:28:00,113][10592] Saving new best policy, reward=5.330!
	[2023-02-24 12:28:05,105][00123] Fps is (10 sec: 3276.1, 60 sec: 3549.7, 300 sec: 3637.8). Total num frames: 1249280. Throughput: 0: 860.7. Samples: 312118. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:28:05,112][00123] Avg episode reward: [(0, '5.352')]
	[2023-02-24 12:28:05,124][10592] Saving new best policy, reward=5.352!
	[2023-02-24 12:28:09,266][10610] Updated weights for policy 0, policy_version 310 (0.0016)
	[2023-02-24 12:28:10,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3481.6, 300 sec: 3651.7). Total num frames: 1269760. Throughput: 0: 887.1. Samples: 315494. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:28:10,106][00123] Avg episode reward: [(0, '5.820')]
	[2023-02-24 12:28:10,112][10592] Saving new best policy, reward=5.820!
	[2023-02-24 12:28:15,103][00123] Fps is (10 sec: 4096.9, 60 sec: 3550.1, 300 sec: 3665.6). Total num frames: 1290240. Throughput: 0: 891.5. Samples: 322198. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:28:15,114][00123] Avg episode reward: [(0, '6.609')]
	[2023-02-24 12:28:15,130][10592] Saving new best policy, reward=6.609!
	[2023-02-24 12:28:20,104][00123] Fps is (10 sec: 3276.7, 60 sec: 3481.6, 300 sec: 3651.7). Total num frames: 1302528. Throughput: 0: 901.6. Samples: 326422. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:28:20,112][00123] Avg episode reward: [(0, '6.659')]
	[2023-02-24 12:28:20,114][10592] Saving new best policy, reward=6.659!
	[2023-02-24 12:28:21,977][10610] Updated weights for policy 0, policy_version 320 (0.0027)
	[2023-02-24 12:28:25,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3549.9, 300 sec: 3637.8). Total num frames: 1323008. Throughput: 0: 900.0. Samples: 328456. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:28:25,109][00123] Avg episode reward: [(0, '6.658')]
	[2023-02-24 12:28:30,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3549.9, 300 sec: 3651.7). Total num frames: 1343488. Throughput: 0: 947.6. Samples: 335126. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:28:30,111][00123] Avg episode reward: [(0, '5.949')]
	[2023-02-24 12:28:31,055][10610] Updated weights for policy 0, policy_version 330 (0.0015)
	[2023-02-24 12:28:35,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.7, 300 sec: 3679.5). Total num frames: 1363968. Throughput: 0: 929.3. Samples: 341212. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:28:35,107][00123] Avg episode reward: [(0, '5.995')]
	[2023-02-24 12:28:40,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 1376256. Throughput: 0: 902.6. Samples: 343386. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:28:40,112][00123] Avg episode reward: [(0, '6.612')]
	[2023-02-24 12:28:43,798][10610] Updated weights for policy 0, policy_version 340 (0.0038)
	[2023-02-24 12:28:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 1396736. Throughput: 0: 908.4. Samples: 348050. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:28:45,106][00123] Avg episode reward: [(0, '7.190')]
	[2023-02-24 12:28:45,119][10592] Saving new best policy, reward=7.190!
	[2023-02-24 12:28:50,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 1417216. Throughput: 0: 946.7. Samples: 354718. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:28:50,105][00123] Avg episode reward: [(0, '7.194')]
	[2023-02-24 12:28:50,111][10592] Saving new best policy, reward=7.194!
	[2023-02-24 12:28:53,423][10610] Updated weights for policy 0, policy_version 350 (0.0033)
	[2023-02-24 12:28:55,106][00123] Fps is (10 sec: 4094.8, 60 sec: 3686.2, 300 sec: 3679.4). Total num frames: 1437696. Throughput: 0: 945.8. Samples: 358056. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:28:55,111][00123] Avg episode reward: [(0, '6.702')]
	[2023-02-24 12:29:00,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 1449984. Throughput: 0: 892.8. Samples: 362372. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:29:00,107][00123] Avg episode reward: [(0, '6.985')]
	[2023-02-24 12:29:05,103][00123] Fps is (10 sec: 3277.7, 60 sec: 3686.5, 300 sec: 3651.7). Total num frames: 1470464. Throughput: 0: 907.5. Samples: 367260. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:29:05,105][00123] Avg episode reward: [(0, '7.158')]
	[2023-02-24 12:29:05,817][10610] Updated weights for policy 0, policy_version 360 (0.0018)
	[2023-02-24 12:29:10,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 1490944. Throughput: 0: 938.2. Samples: 370674. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:29:10,107][00123] Avg episode reward: [(0, '7.305')]
	[2023-02-24 12:29:10,113][10592] Saving new best policy, reward=7.305!
	[2023-02-24 12:29:15,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3679.5). Total num frames: 1511424. Throughput: 0: 934.3. Samples: 377170. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:29:15,106][00123] Avg episode reward: [(0, '7.515')]
	[2023-02-24 12:29:15,118][10592] Saving new best policy, reward=7.515!
	[2023-02-24 12:29:16,625][10610] Updated weights for policy 0, policy_version 370 (0.0011)
	[2023-02-24 12:29:20,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 1523712. Throughput: 0: 891.4. Samples: 381326. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:29:20,106][00123] Avg episode reward: [(0, '6.860')]
	[2023-02-24 12:29:25,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3618.1, 300 sec: 3637.8). Total num frames: 1540096. Throughput: 0: 891.3. Samples: 383496. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:29:25,108][00123] Avg episode reward: [(0, '7.128')]
	[2023-02-24 12:29:27,779][10610] Updated weights for policy 0, policy_version 380 (0.0034)
	[2023-02-24 12:29:30,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 1564672. Throughput: 0: 936.7. Samples: 390202. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:29:30,109][00123] Avg episode reward: [(0, '7.122')]
	[2023-02-24 12:29:35,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3686.4, 300 sec: 3679.5). Total num frames: 1585152. Throughput: 0: 928.0. Samples: 396476. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:29:35,109][00123] Avg episode reward: [(0, '7.778')]
	[2023-02-24 12:29:35,120][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000387_1585152.pth...
	[2023-02-24 12:29:35,265][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000173_708608.pth
	[2023-02-24 12:29:35,279][10592] Saving new best policy, reward=7.778!
	[2023-02-24 12:29:39,110][10610] Updated weights for policy 0, policy_version 390 (0.0020)
	[2023-02-24 12:29:40,104][00123] Fps is (10 sec: 3276.4, 60 sec: 3686.3, 300 sec: 3665.6). Total num frames: 1597440. Throughput: 0: 898.7. Samples: 398494. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:29:40,112][00123] Avg episode reward: [(0, '7.546')]
	[2023-02-24 12:29:45,104][00123] Fps is (10 sec: 3276.7, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 1617920. Throughput: 0: 908.9. Samples: 403274. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:29:45,110][00123] Avg episode reward: [(0, '7.799')]
	[2023-02-24 12:29:45,121][10592] Saving new best policy, reward=7.799!
	[2023-02-24 12:29:49,082][10610] Updated weights for policy 0, policy_version 400 (0.0050)
	[2023-02-24 12:29:50,104][00123] Fps is (10 sec: 4096.4, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 1638400. Throughput: 0: 952.6. Samples: 410128. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:29:50,114][00123] Avg episode reward: [(0, '7.509')]
	[2023-02-24 12:29:55,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3686.6, 300 sec: 3679.5). Total num frames: 1658880. Throughput: 0: 953.0. Samples: 413558. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:29:55,105][00123] Avg episode reward: [(0, '7.996')]
	[2023-02-24 12:29:55,122][10592] Saving new best policy, reward=7.996!
	[2023-02-24 12:30:00,103][00123] Fps is (10 sec: 3686.5, 60 sec: 3754.7, 300 sec: 3679.5). Total num frames: 1675264. Throughput: 0: 908.0. Samples: 418028. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:30:00,111][00123] Avg episode reward: [(0, '8.156')]
	[2023-02-24 12:30:00,113][10592] Saving new best policy, reward=8.156!
	[2023-02-24 12:30:01,464][10610] Updated weights for policy 0, policy_version 410 (0.0020)
	[2023-02-24 12:30:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 1691648. Throughput: 0: 929.6. Samples: 423160. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:30:05,111][00123] Avg episode reward: [(0, '8.454')]
	[2023-02-24 12:30:05,121][10592] Saving new best policy, reward=8.454!
	[2023-02-24 12:30:10,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3679.6). Total num frames: 1716224. Throughput: 0: 956.1. Samples: 426520. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:30:10,106][00123] Avg episode reward: [(0, '9.564')]
	[2023-02-24 12:30:10,111][10592] Saving new best policy, reward=9.564!
	[2023-02-24 12:30:10,865][10610] Updated weights for policy 0, policy_version 420 (0.0028)
	[2023-02-24 12:30:15,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3686.4, 300 sec: 3679.5). Total num frames: 1732608. Throughput: 0: 950.8. Samples: 432988. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:30:15,106][00123] Avg episode reward: [(0, '9.453')]
	[2023-02-24 12:30:20,104][00123] Fps is (10 sec: 3276.5, 60 sec: 3754.6, 300 sec: 3665.6). Total num frames: 1748992. Throughput: 0: 907.8. Samples: 437330. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:30:20,108][00123] Avg episode reward: [(0, '9.946')]
	[2023-02-24 12:30:20,118][10592] Saving new best policy, reward=9.946!
	[2023-02-24 12:30:23,456][10610] Updated weights for policy 0, policy_version 430 (0.0019)
	[2023-02-24 12:30:25,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3651.7). Total num frames: 1765376. Throughput: 0: 910.0. Samples: 439442. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:30:25,112][00123] Avg episode reward: [(0, '9.511')]
	[2023-02-24 12:30:30,103][00123] Fps is (10 sec: 4096.3, 60 sec: 3754.7, 300 sec: 3679.5). Total num frames: 1789952. Throughput: 0: 959.5. Samples: 446450. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:30:30,111][00123] Avg episode reward: [(0, '9.131')]
	[2023-02-24 12:30:32,257][10610] Updated weights for policy 0, policy_version 440 (0.0035)
	[2023-02-24 12:30:35,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3693.3). Total num frames: 1810432. Throughput: 0: 940.5. Samples: 452448. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:30:35,106][00123] Avg episode reward: [(0, '8.509')]
	[2023-02-24 12:30:40,104][00123] Fps is (10 sec: 3276.7, 60 sec: 3754.7, 300 sec: 3665.6). Total num frames: 1822720. Throughput: 0: 913.0. Samples: 454644. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:30:40,110][00123] Avg episode reward: [(0, '8.718')]
	[2023-02-24 12:30:44,708][10610] Updated weights for policy 0, policy_version 450 (0.0025)
	[2023-02-24 12:30:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3665.6). Total num frames: 1843200. Throughput: 0: 921.8. Samples: 459510. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:30:45,111][00123] Avg episode reward: [(0, '9.285')]
	[2023-02-24 12:30:50,103][00123] Fps is (10 sec: 4505.8, 60 sec: 3823.0, 300 sec: 3679.5). Total num frames: 1867776. Throughput: 0: 964.2. Samples: 466548. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:30:50,106][00123] Avg episode reward: [(0, '9.811')]
	[2023-02-24 12:30:54,370][10610] Updated weights for policy 0, policy_version 460 (0.0026)
	[2023-02-24 12:30:55,104][00123] Fps is (10 sec: 4095.9, 60 sec: 3754.7, 300 sec: 3693.3). Total num frames: 1884160. Throughput: 0: 965.4. Samples: 469964. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:30:55,108][00123] Avg episode reward: [(0, '9.722')]
	[2023-02-24 12:31:00,104][00123] Fps is (10 sec: 2867.0, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 1896448. Throughput: 0: 916.4. Samples: 474226. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:31:00,107][00123] Avg episode reward: [(0, '9.748')]
	[2023-02-24 12:31:05,103][00123] Fps is (10 sec: 3276.9, 60 sec: 3754.7, 300 sec: 3665.6). Total num frames: 1916928. Throughput: 0: 933.2. Samples: 479324. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:31:05,106][00123] Avg episode reward: [(0, '9.490')]
	[2023-02-24 12:31:06,480][10610] Updated weights for policy 0, policy_version 470 (0.0015)
	[2023-02-24 12:31:10,103][00123] Fps is (10 sec: 4506.0, 60 sec: 3754.7, 300 sec: 3679.5). Total num frames: 1941504. Throughput: 0: 963.2. Samples: 482786. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:31:10,106][00123] Avg episode reward: [(0, '9.775')]
	[2023-02-24 12:31:15,104][00123] Fps is (10 sec: 4095.9, 60 sec: 3754.6, 300 sec: 3693.3). Total num frames: 1957888. Throughput: 0: 949.8. Samples: 489192. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:31:15,107][00123] Avg episode reward: [(0, '9.728')]
	[2023-02-24 12:31:17,197][10610] Updated weights for policy 0, policy_version 480 (0.0035)
	[2023-02-24 12:31:20,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3679.5). Total num frames: 1974272. Throughput: 0: 911.5. Samples: 493464. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:31:20,106][00123] Avg episode reward: [(0, '10.407')]
	[2023-02-24 12:31:20,108][10592] Saving new best policy, reward=10.407!
	[2023-02-24 12:31:25,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3665.6). Total num frames: 1990656. Throughput: 0: 911.7. Samples: 495670. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:31:25,112][00123] Avg episode reward: [(0, '11.057')]
	[2023-02-24 12:31:25,130][10592] Saving new best policy, reward=11.057!
	[2023-02-24 12:31:27,940][10610] Updated weights for policy 0, policy_version 490 (0.0017)
	[2023-02-24 12:31:30,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3679.5). Total num frames: 2015232. Throughput: 0: 955.0. Samples: 502486. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:31:30,110][00123] Avg episode reward: [(0, '11.351')]
	[2023-02-24 12:31:30,114][10592] Saving new best policy, reward=11.351!
	[2023-02-24 12:31:35,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3686.4, 300 sec: 3693.3). Total num frames: 2031616. Throughput: 0: 928.5. Samples: 508332. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:31:35,108][00123] Avg episode reward: [(0, '11.318')]
	[2023-02-24 12:31:35,124][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000496_2031616.pth...
	[2023-02-24 12:31:35,306][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000279_1142784.pth
	[2023-02-24 12:31:40,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 2043904. Throughput: 0: 899.8. Samples: 510454. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:31:40,111][00123] Avg episode reward: [(0, '11.076')]
	[2023-02-24 12:31:40,163][10610] Updated weights for policy 0, policy_version 500 (0.0013)
	[2023-02-24 12:31:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3665.6). Total num frames: 2064384. Throughput: 0: 913.2. Samples: 515320. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:31:45,106][00123] Avg episode reward: [(0, '11.565')]
	[2023-02-24 12:31:45,118][10592] Saving new best policy, reward=11.565!
	[2023-02-24 12:31:49,730][10610] Updated weights for policy 0, policy_version 510 (0.0026)
	[2023-02-24 12:31:50,104][00123] Fps is (10 sec: 4505.5, 60 sec: 3686.4, 300 sec: 3679.5). Total num frames: 2088960. Throughput: 0: 953.6. Samples: 522236. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:31:50,112][00123] Avg episode reward: [(0, '13.058')]
	[2023-02-24 12:31:50,113][10592] Saving new best policy, reward=13.058!
	[2023-02-24 12:31:55,107][00123] Fps is (10 sec: 4094.4, 60 sec: 3686.2, 300 sec: 3679.4). Total num frames: 2105344. Throughput: 0: 949.4. Samples: 525512. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:31:55,109][00123] Avg episode reward: [(0, '13.489')]
	[2023-02-24 12:31:55,122][10592] Saving new best policy, reward=13.489!
	[2023-02-24 12:32:00,105][00123] Fps is (10 sec: 3276.4, 60 sec: 3754.6, 300 sec: 3679.4). Total num frames: 2121728. Throughput: 0: 902.0. Samples: 529784. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:32:00,112][00123] Avg episode reward: [(0, '14.328')]
	[2023-02-24 12:32:00,118][10592] Saving new best policy, reward=14.328!
	[2023-02-24 12:32:02,447][10610] Updated weights for policy 0, policy_version 520 (0.0035)
	[2023-02-24 12:32:05,103][00123] Fps is (10 sec: 3278.0, 60 sec: 3686.4, 300 sec: 3651.7). Total num frames: 2138112. Throughput: 0: 922.5. Samples: 534976. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:32:05,106][00123] Avg episode reward: [(0, '14.160')]
	[2023-02-24 12:32:10,103][00123] Fps is (10 sec: 4096.6, 60 sec: 3686.4, 300 sec: 3679.5). Total num frames: 2162688. Throughput: 0: 950.7. Samples: 538450. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:32:10,106][00123] Avg episode reward: [(0, '12.883')]
	[2023-02-24 12:32:11,250][10610] Updated weights for policy 0, policy_version 530 (0.0030)
	[2023-02-24 12:32:15,104][00123] Fps is (10 sec: 4505.4, 60 sec: 3754.7, 300 sec: 3693.3). Total num frames: 2183168. Throughput: 0: 944.0. Samples: 544968. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:32:15,108][00123] Avg episode reward: [(0, '14.374')]
	[2023-02-24 12:32:15,123][10592] Saving new best policy, reward=14.374!
	[2023-02-24 12:32:20,103][00123] Fps is (10 sec: 3276.7, 60 sec: 3686.4, 300 sec: 3679.5). Total num frames: 2195456. Throughput: 0: 909.9. Samples: 549276. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:32:20,111][00123] Avg episode reward: [(0, '14.053')]
	[2023-02-24 12:32:23,681][10610] Updated weights for policy 0, policy_version 540 (0.0031)
	[2023-02-24 12:32:25,103][00123] Fps is (10 sec: 3277.0, 60 sec: 3754.7, 300 sec: 3679.5). Total num frames: 2215936. Throughput: 0: 916.0. Samples: 551676. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:32:25,105][00123] Avg episode reward: [(0, '14.765')]
	[2023-02-24 12:32:25,121][10592] Saving new best policy, reward=14.765!
	[2023-02-24 12:32:30,103][00123] Fps is (10 sec: 4505.7, 60 sec: 3754.7, 300 sec: 3721.2). Total num frames: 2240512. Throughput: 0: 960.4. Samples: 558538. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:32:30,111][00123] Avg episode reward: [(0, '13.879')]
	[2023-02-24 12:32:33,474][10610] Updated weights for policy 0, policy_version 550 (0.0013)
	[2023-02-24 12:32:35,110][00123] Fps is (10 sec: 4093.2, 60 sec: 3754.2, 300 sec: 3734.9). Total num frames: 2256896. Throughput: 0: 935.9. Samples: 564358. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:32:35,113][00123] Avg episode reward: [(0, '13.013')]
	[2023-02-24 12:32:40,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3754.7, 300 sec: 3707.2). Total num frames: 2269184. Throughput: 0: 910.3. Samples: 566472. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:32:40,109][00123] Avg episode reward: [(0, '13.154')]
	[2023-02-24 12:32:45,103][00123] Fps is (10 sec: 3279.0, 60 sec: 3754.7, 300 sec: 3707.2). Total num frames: 2289664. Throughput: 0: 929.4. Samples: 571606. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:32:45,106][00123] Avg episode reward: [(0, '12.434')]
	[2023-02-24 12:32:45,186][10610] Updated weights for policy 0, policy_version 560 (0.0023)
	[2023-02-24 12:32:50,104][00123] Fps is (10 sec: 4505.4, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2314240. Throughput: 0: 969.0. Samples: 578582. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:32:50,111][00123] Avg episode reward: [(0, '13.466')]
	[2023-02-24 12:32:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.9, 300 sec: 3735.0). Total num frames: 2330624. Throughput: 0: 962.4. Samples: 581756. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:32:55,106][00123] Avg episode reward: [(0, '12.855')]
	[2023-02-24 12:32:55,688][10610] Updated weights for policy 0, policy_version 570 (0.0015)
	[2023-02-24 12:33:00,104][00123] Fps is (10 sec: 3276.6, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2347008. Throughput: 0: 913.0. Samples: 586054. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:33:00,113][00123] Avg episode reward: [(0, '12.388')]
	[2023-02-24 12:33:05,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3822.9, 300 sec: 3721.1). Total num frames: 2367488. Throughput: 0: 938.1. Samples: 591492. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:33:05,106][00123] Avg episode reward: [(0, '13.582')]
	[2023-02-24 12:33:06,781][10610] Updated weights for policy 0, policy_version 580 (0.0024)
	[2023-02-24 12:33:10,103][00123] Fps is (10 sec: 4096.4, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2387968. Throughput: 0: 962.6. Samples: 594994. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:33:10,112][00123] Avg episode reward: [(0, '12.904')]
	[2023-02-24 12:33:15,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3686.4, 300 sec: 3735.0). Total num frames: 2404352. Throughput: 0: 949.3. Samples: 601256. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:33:15,110][00123] Avg episode reward: [(0, '14.392')]
	[2023-02-24 12:33:17,929][10610] Updated weights for policy 0, policy_version 590 (0.0042)
	[2023-02-24 12:33:20,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2420736. Throughput: 0: 917.1. Samples: 605620. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:33:20,106][00123] Avg episode reward: [(0, '14.953')]
	[2023-02-24 12:33:20,110][10592] Saving new best policy, reward=14.953!
	[2023-02-24 12:33:25,103][00123] Fps is (10 sec: 3686.3, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2441216. Throughput: 0: 924.8. Samples: 608090. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:33:25,105][00123] Avg episode reward: [(0, '14.382')]
	[2023-02-24 12:33:28,068][10610] Updated weights for policy 0, policy_version 600 (0.0015)
	[2023-02-24 12:33:30,104][00123] Fps is (10 sec: 4505.5, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 2465792. Throughput: 0: 963.7. Samples: 614972. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:33:30,111][00123] Avg episode reward: [(0, '14.306')]
	[2023-02-24 12:33:35,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3755.1, 300 sec: 3748.9). Total num frames: 2482176. Throughput: 0: 935.8. Samples: 620692. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:33:35,112][00123] Avg episode reward: [(0, '14.579')]
	[2023-02-24 12:33:35,128][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000606_2482176.pth...
	[2023-02-24 12:33:35,278][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000387_1585152.pth
	[2023-02-24 12:33:40,103][00123] Fps is (10 sec: 2867.3, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2494464. Throughput: 0: 911.9. Samples: 622790. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:33:40,109][00123] Avg episode reward: [(0, '14.956')]
	[2023-02-24 12:33:40,117][10592] Saving new best policy, reward=14.956!
	[2023-02-24 12:33:40,553][10610] Updated weights for policy 0, policy_version 610 (0.0032)
	[2023-02-24 12:33:45,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2514944. Throughput: 0: 930.0. Samples: 627904. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:33:45,106][00123] Avg episode reward: [(0, '16.283')]
	[2023-02-24 12:33:45,131][10592] Saving new best policy, reward=16.283!
	[2023-02-24 12:33:49,844][10610] Updated weights for policy 0, policy_version 620 (0.0020)
	[2023-02-24 12:33:50,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 2539520. Throughput: 0: 961.6. Samples: 634762. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:33:50,105][00123] Avg episode reward: [(0, '15.997')]
	[2023-02-24 12:33:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2555904. Throughput: 0: 953.7. Samples: 637912. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:33:55,107][00123] Avg episode reward: [(0, '15.954')]
	[2023-02-24 12:34:00,106][00123] Fps is (10 sec: 2866.4, 60 sec: 3686.3, 300 sec: 3721.1). Total num frames: 2568192. Throughput: 0: 909.6. Samples: 642192. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:34:00,110][00123] Avg episode reward: [(0, '14.796')]
	[2023-02-24 12:34:02,395][10610] Updated weights for policy 0, policy_version 630 (0.0012)
	[2023-02-24 12:34:05,104][00123] Fps is (10 sec: 3276.8, 60 sec: 3686.4, 300 sec: 3721.1). Total num frames: 2588672. Throughput: 0: 937.5. Samples: 647806. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:34:05,110][00123] Avg episode reward: [(0, '14.226')]
	[2023-02-24 12:34:10,103][00123] Fps is (10 sec: 4506.9, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 2613248. Throughput: 0: 958.0. Samples: 651200. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:34:10,105][00123] Avg episode reward: [(0, '14.228')]
	[2023-02-24 12:34:11,144][10610] Updated weights for policy 0, policy_version 640 (0.0024)
	[2023-02-24 12:34:15,103][00123] Fps is (10 sec: 4096.1, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2629632. Throughput: 0: 939.3. Samples: 657242. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:34:15,106][00123] Avg episode reward: [(0, '15.142')]
	[2023-02-24 12:34:20,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2646016. Throughput: 0: 907.2. Samples: 661518. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:34:20,110][00123] Avg episode reward: [(0, '15.670')]
	[2023-02-24 12:34:23,863][10610] Updated weights for policy 0, policy_version 650 (0.0036)
	[2023-02-24 12:34:25,104][00123] Fps is (10 sec: 3686.0, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 2666496. Throughput: 0: 919.1. Samples: 664150. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:34:25,109][00123] Avg episode reward: [(0, '16.360')]
	[2023-02-24 12:34:25,123][10592] Saving new best policy, reward=16.360!
	[2023-02-24 12:34:30,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2691072. Throughput: 0: 959.5. Samples: 671080. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:34:30,106][00123] Avg episode reward: [(0, '18.010')]
	[2023-02-24 12:34:30,115][10592] Saving new best policy, reward=18.010!
	[2023-02-24 12:34:33,986][10610] Updated weights for policy 0, policy_version 660 (0.0019)
	[2023-02-24 12:34:35,103][00123] Fps is (10 sec: 3686.8, 60 sec: 3686.4, 300 sec: 3748.9). Total num frames: 2703360. Throughput: 0: 926.4. Samples: 676450. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:34:35,110][00123] Avg episode reward: [(0, '19.727')]
	[2023-02-24 12:34:35,125][10592] Saving new best policy, reward=19.727!
	[2023-02-24 12:34:40,103][00123] Fps is (10 sec: 2867.1, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 2719744. Throughput: 0: 903.3. Samples: 678560. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:34:40,110][00123] Avg episode reward: [(0, '18.761')]
	[2023-02-24 12:34:45,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 2740224. Throughput: 0: 926.2. Samples: 683870. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:34:45,109][00123] Avg episode reward: [(0, '17.168')]
	[2023-02-24 12:34:45,475][10610] Updated weights for policy 0, policy_version 670 (0.0031)
	[2023-02-24 12:34:50,103][00123] Fps is (10 sec: 4505.7, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2764800. Throughput: 0: 955.9. Samples: 690822. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-02-24 12:34:50,112][00123] Avg episode reward: [(0, '16.449')]
	[2023-02-24 12:34:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2781184. Throughput: 0: 945.4. Samples: 693742. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:34:55,111][00123] Avg episode reward: [(0, '16.953')]
	[2023-02-24 12:34:56,438][10610] Updated weights for policy 0, policy_version 680 (0.0020)
	[2023-02-24 12:35:00,104][00123] Fps is (10 sec: 2866.9, 60 sec: 3754.8, 300 sec: 3735.0). Total num frames: 2793472. Throughput: 0: 907.0. Samples: 698056. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:35:00,112][00123] Avg episode reward: [(0, '16.836')]
	[2023-02-24 12:35:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2813952. Throughput: 0: 941.5. Samples: 703884. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:35:05,106][00123] Avg episode reward: [(0, '16.413')]
	[2023-02-24 12:35:07,107][10610] Updated weights for policy 0, policy_version 690 (0.0019)
	[2023-02-24 12:35:10,103][00123] Fps is (10 sec: 4506.0, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2838528. Throughput: 0: 960.0. Samples: 707350. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:35:10,110][00123] Avg episode reward: [(0, '18.405')]
	[2023-02-24 12:35:15,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2854912. Throughput: 0: 938.9. Samples: 713330. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:35:15,112][00123] Avg episode reward: [(0, '18.640')]
	[2023-02-24 12:35:18,816][10610] Updated weights for policy 0, policy_version 700 (0.0027)
	[2023-02-24 12:35:20,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3686.4, 300 sec: 3735.0). Total num frames: 2867200. Throughput: 0: 915.3. Samples: 717638. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:35:20,111][00123] Avg episode reward: [(0, '18.230')]
	[2023-02-24 12:35:25,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 2891776. Throughput: 0: 930.2. Samples: 720420. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:35:25,106][00123] Avg episode reward: [(0, '19.067')]
	[2023-02-24 12:35:28,400][10610] Updated weights for policy 0, policy_version 710 (0.0012)
	[2023-02-24 12:35:30,106][00123] Fps is (10 sec: 4504.5, 60 sec: 3686.2, 300 sec: 3735.0). Total num frames: 2912256. Throughput: 0: 965.6. Samples: 727326. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:35:30,113][00123] Avg episode reward: [(0, '19.259')]
	[2023-02-24 12:35:35,105][00123] Fps is (10 sec: 3685.7, 60 sec: 3754.6, 300 sec: 3748.9). Total num frames: 2928640. Throughput: 0: 932.4. Samples: 732780. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:35:35,108][00123] Avg episode reward: [(0, '18.299')]
	[2023-02-24 12:35:35,115][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000715_2928640.pth...
	[2023-02-24 12:35:35,264][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000496_2031616.pth
	[2023-02-24 12:35:40,104][00123] Fps is (10 sec: 3277.2, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 2945024. Throughput: 0: 914.0. Samples: 734874. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:35:40,110][00123] Avg episode reward: [(0, '18.037')]
	[2023-02-24 12:35:41,122][10610] Updated weights for policy 0, policy_version 720 (0.0030)
	[2023-02-24 12:35:45,103][00123] Fps is (10 sec: 3687.1, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 2965504. Throughput: 0: 938.9. Samples: 740306. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
	[2023-02-24 12:35:45,105][00123] Avg episode reward: [(0, '19.228')]
	[2023-02-24 12:35:49,849][10610] Updated weights for policy 0, policy_version 730 (0.0021)
	[2023-02-24 12:35:50,103][00123] Fps is (10 sec: 4506.1, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 2990080. Throughput: 0: 966.4. Samples: 747370. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:35:50,106][00123] Avg episode reward: [(0, '19.695')]
	[2023-02-24 12:35:55,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3006464. Throughput: 0: 952.7. Samples: 750222. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:35:55,107][00123] Avg episode reward: [(0, '19.356')]
	[2023-02-24 12:36:00,104][00123] Fps is (10 sec: 2867.0, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3018752. Throughput: 0: 914.2. Samples: 754472. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:36:00,109][00123] Avg episode reward: [(0, '21.101')]
	[2023-02-24 12:36:00,112][10592] Saving new best policy, reward=21.101!
	[2023-02-24 12:36:02,490][10610] Updated weights for policy 0, policy_version 740 (0.0025)
	[2023-02-24 12:36:05,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3721.1). Total num frames: 3039232. Throughput: 0: 946.8. Samples: 760242. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:36:05,110][00123] Avg episode reward: [(0, '20.951')]
	[2023-02-24 12:36:10,103][00123] Fps is (10 sec: 4506.1, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 3063808. Throughput: 0: 961.0. Samples: 763666. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:36:10,106][00123] Avg episode reward: [(0, '21.994')]
	[2023-02-24 12:36:10,109][10592] Saving new best policy, reward=21.994!
	[2023-02-24 12:36:11,992][10610] Updated weights for policy 0, policy_version 750 (0.0019)
	[2023-02-24 12:36:15,103][00123] Fps is (10 sec: 4096.0, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 3080192. Throughput: 0: 935.9. Samples: 769438. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:36:15,108][00123] Avg episode reward: [(0, '21.571')]
	[2023-02-24 12:36:20,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3092480. Throughput: 0: 910.1. Samples: 773732. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:36:20,106][00123] Avg episode reward: [(0, '21.551')]
	[2023-02-24 12:36:23,988][10610] Updated weights for policy 0, policy_version 760 (0.0022)
	[2023-02-24 12:36:25,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3117056. Throughput: 0: 928.6. Samples: 776660. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:36:25,106][00123] Avg episode reward: [(0, '21.027')]
	[2023-02-24 12:36:30,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3754.8, 300 sec: 3748.9). Total num frames: 3137536. Throughput: 0: 961.4. Samples: 783570. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:36:30,109][00123] Avg episode reward: [(0, '21.766')]
	[2023-02-24 12:36:34,564][10610] Updated weights for policy 0, policy_version 770 (0.0018)
	[2023-02-24 12:36:35,106][00123] Fps is (10 sec: 3685.4, 60 sec: 3754.6, 300 sec: 3762.7). Total num frames: 3153920. Throughput: 0: 922.1. Samples: 788868. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:36:35,110][00123] Avg episode reward: [(0, '21.248')]
	[2023-02-24 12:36:40,107][00123] Fps is (10 sec: 3275.7, 60 sec: 3754.5, 300 sec: 3748.8). Total num frames: 3170304. Throughput: 0: 908.1. Samples: 791088. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:36:40,112][00123] Avg episode reward: [(0, '20.617')]
	[2023-02-24 12:36:45,103][00123] Fps is (10 sec: 3687.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3190784. Throughput: 0: 934.9. Samples: 796542. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:36:45,113][00123] Avg episode reward: [(0, '21.714')]
	[2023-02-24 12:36:45,617][10610] Updated weights for policy 0, policy_version 780 (0.0012)
	[2023-02-24 12:36:50,103][00123] Fps is (10 sec: 4507.1, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3215360. Throughput: 0: 960.2. Samples: 803450. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:36:50,106][00123] Avg episode reward: [(0, '20.774')]
	[2023-02-24 12:36:55,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3686.4, 300 sec: 3748.9). Total num frames: 3227648. Throughput: 0: 947.2. Samples: 806288. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:36:55,106][00123] Avg episode reward: [(0, '20.451')]
	[2023-02-24 12:36:56,687][10610] Updated weights for policy 0, policy_version 790 (0.0013)
	[2023-02-24 12:37:00,105][00123] Fps is (10 sec: 2866.6, 60 sec: 3754.6, 300 sec: 3748.9). Total num frames: 3244032. Throughput: 0: 913.0. Samples: 810526. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:37:00,113][00123] Avg episode reward: [(0, '20.657')]
	[2023-02-24 12:37:05,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3264512. Throughput: 0: 948.7. Samples: 816422. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:37:05,106][00123] Avg episode reward: [(0, '19.093')]
	[2023-02-24 12:37:07,059][10610] Updated weights for policy 0, policy_version 800 (0.0013)
	[2023-02-24 12:37:10,103][00123] Fps is (10 sec: 4506.5, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 3289088. Throughput: 0: 959.8. Samples: 819852. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:37:10,110][00123] Avg episode reward: [(0, '18.906')]
	[2023-02-24 12:37:15,106][00123] Fps is (10 sec: 4094.7, 60 sec: 3754.5, 300 sec: 3762.7). Total num frames: 3305472. Throughput: 0: 939.9. Samples: 825870. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:37:15,113][00123] Avg episode reward: [(0, '20.659')]
	[2023-02-24 12:37:18,932][10610] Updated weights for policy 0, policy_version 810 (0.0027)
	[2023-02-24 12:37:20,104][00123] Fps is (10 sec: 2866.9, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 3317760. Throughput: 0: 919.5. Samples: 830244. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:37:20,109][00123] Avg episode reward: [(0, '20.995')]
	[2023-02-24 12:37:25,103][00123] Fps is (10 sec: 3687.5, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3342336. Throughput: 0: 933.6. Samples: 833098. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:37:25,109][00123] Avg episode reward: [(0, '22.911')]
	[2023-02-24 12:37:25,123][10592] Saving new best policy, reward=22.911!
	[2023-02-24 12:37:28,452][10610] Updated weights for policy 0, policy_version 820 (0.0013)
	[2023-02-24 12:37:30,103][00123] Fps is (10 sec: 4506.1, 60 sec: 3754.7, 300 sec: 3749.0). Total num frames: 3362816. Throughput: 0: 965.7. Samples: 839998. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:37:30,110][00123] Avg episode reward: [(0, '23.838')]
	[2023-02-24 12:37:30,192][10592] Saving new best policy, reward=23.838!
	[2023-02-24 12:37:35,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.8, 300 sec: 3762.8). Total num frames: 3379200. Throughput: 0: 929.1. Samples: 845258. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:37:35,110][00123] Avg episode reward: [(0, '24.940')]
	[2023-02-24 12:37:35,126][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000825_3379200.pth...
	[2023-02-24 12:37:35,300][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000606_2482176.pth
	[2023-02-24 12:37:35,320][10592] Saving new best policy, reward=24.940!
	[2023-02-24 12:37:40,103][00123] Fps is (10 sec: 3276.8, 60 sec: 3754.9, 300 sec: 3748.9). Total num frames: 3395584. Throughput: 0: 910.4. Samples: 847256. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:37:40,107][00123] Avg episode reward: [(0, '24.684')]
	[2023-02-24 12:37:41,120][10610] Updated weights for policy 0, policy_version 830 (0.0032)
	[2023-02-24 12:37:45,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3416064. Throughput: 0: 938.3. Samples: 852748. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:37:45,110][00123] Avg episode reward: [(0, '22.854')]
	[2023-02-24 12:37:49,940][10610] Updated weights for policy 0, policy_version 840 (0.0012)
	[2023-02-24 12:37:50,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3440640. Throughput: 0: 962.3. Samples: 859724. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:37:50,111][00123] Avg episode reward: [(0, '20.650')]
	[2023-02-24 12:37:55,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 3452928. Throughput: 0: 946.7. Samples: 862452. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:37:55,110][00123] Avg episode reward: [(0, '20.019')]
	[2023-02-24 12:38:00,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3754.8, 300 sec: 3735.0). Total num frames: 3469312. Throughput: 0: 910.1. Samples: 866820. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
	[2023-02-24 12:38:00,107][00123] Avg episode reward: [(0, '19.050')]
	[2023-02-24 12:38:02,812][10610] Updated weights for policy 0, policy_version 850 (0.0024)
	[2023-02-24 12:38:05,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3489792. Throughput: 0: 942.2. Samples: 872644. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:38:05,105][00123] Avg episode reward: [(0, '19.243')]
	[2023-02-24 12:38:10,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3514368. Throughput: 0: 955.0. Samples: 876074. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:38:10,106][00123] Avg episode reward: [(0, '20.313')]
	[2023-02-24 12:38:12,144][10610] Updated weights for policy 0, policy_version 860 (0.0013)
	[2023-02-24 12:38:15,103][00123] Fps is (10 sec: 4095.9, 60 sec: 3754.8, 300 sec: 3762.8). Total num frames: 3530752. Throughput: 0: 927.5. Samples: 881738. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:38:15,108][00123] Avg episode reward: [(0, '20.443')]
	[2023-02-24 12:38:20,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3543040. Throughput: 0: 906.4. Samples: 886048. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:38:20,107][00123] Avg episode reward: [(0, '20.239')]
	[2023-02-24 12:38:24,460][10610] Updated weights for policy 0, policy_version 870 (0.0025)
	[2023-02-24 12:38:25,103][00123] Fps is (10 sec: 3276.9, 60 sec: 3686.4, 300 sec: 3721.1). Total num frames: 3563520. Throughput: 0: 926.1. Samples: 888932. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:38:25,106][00123] Avg episode reward: [(0, '19.493')]
	[2023-02-24 12:38:30,103][00123] Fps is (10 sec: 4505.7, 60 sec: 3754.7, 300 sec: 3748.9). Total num frames: 3588096. Throughput: 0: 960.2. Samples: 895958. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:38:30,106][00123] Avg episode reward: [(0, '17.814')]
	[2023-02-24 12:38:34,822][10610] Updated weights for policy 0, policy_version 880 (0.0012)
	[2023-02-24 12:38:35,109][00123] Fps is (10 sec: 4093.6, 60 sec: 3754.3, 300 sec: 3762.7). Total num frames: 3604480. Throughput: 0: 925.5. Samples: 901376. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:38:35,112][00123] Avg episode reward: [(0, '17.559')]
	[2023-02-24 12:38:40,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3686.4, 300 sec: 3735.0). Total num frames: 3616768. Throughput: 0: 912.7. Samples: 903524. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:38:40,106][00123] Avg episode reward: [(0, '17.297')]
	[2023-02-24 12:38:45,104][00123] Fps is (10 sec: 3688.4, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 3641344. Throughput: 0: 936.4. Samples: 908960. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:38:45,110][00123] Avg episode reward: [(0, '18.433')]
	[2023-02-24 12:38:45,917][10610] Updated weights for policy 0, policy_version 890 (0.0013)
	[2023-02-24 12:38:50,103][00123] Fps is (10 sec: 4505.6, 60 sec: 3686.4, 300 sec: 3748.9). Total num frames: 3661824. Throughput: 0: 961.1. Samples: 915894. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:38:50,112][00123] Avg episode reward: [(0, '17.921')]
	[2023-02-24 12:38:55,103][00123] Fps is (10 sec: 3686.5, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3678208. Throughput: 0: 944.3. Samples: 918566. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:38:55,110][00123] Avg episode reward: [(0, '17.976')]
	[2023-02-24 12:38:57,010][10610] Updated weights for policy 0, policy_version 900 (0.0030)
	[2023-02-24 12:39:00,105][00123] Fps is (10 sec: 3276.2, 60 sec: 3754.6, 300 sec: 3748.9). Total num frames: 3694592. Throughput: 0: 914.5. Samples: 922892. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:39:00,112][00123] Avg episode reward: [(0, '19.051')]
	[2023-02-24 12:39:05,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3715072. Throughput: 0: 951.8. Samples: 928880. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:39:05,108][00123] Avg episode reward: [(0, '21.520')]
	[2023-02-24 12:39:07,310][10610] Updated weights for policy 0, policy_version 910 (0.0012)
	[2023-02-24 12:39:10,103][00123] Fps is (10 sec: 4506.4, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3739648. Throughput: 0: 964.7. Samples: 932344. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:39:10,108][00123] Avg episode reward: [(0, '21.133')]
	[2023-02-24 12:39:15,105][00123] Fps is (10 sec: 3685.9, 60 sec: 3686.3, 300 sec: 3748.9). Total num frames: 3751936. Throughput: 0: 934.3. Samples: 938004. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:39:15,115][00123] Avg episode reward: [(0, '20.758')]
	[2023-02-24 12:39:19,377][10610] Updated weights for policy 0, policy_version 920 (0.0031)
	[2023-02-24 12:39:20,103][00123] Fps is (10 sec: 2867.3, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3768320. Throughput: 0: 913.4. Samples: 942472. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:39:20,110][00123] Avg episode reward: [(0, '21.645')]
	[2023-02-24 12:39:25,105][00123] Fps is (10 sec: 4095.9, 60 sec: 3822.8, 300 sec: 3735.0). Total num frames: 3792896. Throughput: 0: 931.0. Samples: 945420. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:39:25,112][00123] Avg episode reward: [(0, '22.693')]
	[2023-02-24 12:39:28,616][10610] Updated weights for policy 0, policy_version 930 (0.0025)
	[2023-02-24 12:39:30,103][00123] Fps is (10 sec: 4505.5, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3813376. Throughput: 0: 964.2. Samples: 952350. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:39:30,107][00123] Avg episode reward: [(0, '20.139')]
	[2023-02-24 12:39:35,103][00123] Fps is (10 sec: 3687.0, 60 sec: 3755.0, 300 sec: 3762.8). Total num frames: 3829760. Throughput: 0: 927.0. Samples: 957608. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:39:35,106][00123] Avg episode reward: [(0, '20.703')]
	[2023-02-24 12:39:35,118][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000935_3829760.pth...
	[2023-02-24 12:39:35,280][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000715_2928640.pth
	[2023-02-24 12:39:40,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 3842048. Throughput: 0: 912.9. Samples: 959646. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
	[2023-02-24 12:39:40,113][00123] Avg episode reward: [(0, '20.559')]
	[2023-02-24 12:39:41,461][10610] Updated weights for policy 0, policy_version 940 (0.0013)
	[2023-02-24 12:39:45,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3866624. Throughput: 0: 941.5. Samples: 965258. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
	[2023-02-24 12:39:45,106][00123] Avg episode reward: [(0, '19.874')]
	[2023-02-24 12:39:50,054][10610] Updated weights for policy 0, policy_version 950 (0.0012)
	[2023-02-24 12:39:50,103][00123] Fps is (10 sec: 4915.3, 60 sec: 3822.9, 300 sec: 3762.8). Total num frames: 3891200. Throughput: 0: 964.1. Samples: 972264. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:39:50,111][00123] Avg episode reward: [(0, '19.474')]
	[2023-02-24 12:39:55,103][00123] Fps is (10 sec: 3686.3, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3903488. Throughput: 0: 946.5. Samples: 974936. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:39:55,106][00123] Avg episode reward: [(0, '19.759')]
	[2023-02-24 12:40:00,104][00123] Fps is (10 sec: 2867.1, 60 sec: 3754.8, 300 sec: 3748.9). Total num frames: 3919872. Throughput: 0: 917.5. Samples: 979292. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:40:00,108][00123] Avg episode reward: [(0, '18.971')]
	[2023-02-24 12:40:02,605][10610] Updated weights for policy 0, policy_version 960 (0.0026)
	[2023-02-24 12:40:05,103][00123] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3735.0). Total num frames: 3940352. Throughput: 0: 953.8. Samples: 985394. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
	[2023-02-24 12:40:05,107][00123] Avg episode reward: [(0, '19.704')]
	[2023-02-24 12:40:10,104][00123] Fps is (10 sec: 4505.7, 60 sec: 3754.7, 300 sec: 3762.8). Total num frames: 3964928. Throughput: 0: 964.7. Samples: 988828. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
	[2023-02-24 12:40:10,106][00123] Avg episode reward: [(0, '19.829')]
	[2023-02-24 12:40:11,978][10610] Updated weights for policy 0, policy_version 970 (0.0014)
	[2023-02-24 12:40:15,104][00123] Fps is (10 sec: 4095.8, 60 sec: 3823.0, 300 sec: 3776.6). Total num frames: 3981312. Throughput: 0: 938.3. Samples: 994572. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
	[2023-02-24 12:40:15,109][00123] Avg episode reward: [(0, '19.364')]
	[2023-02-24 12:40:20,103][00123] Fps is (10 sec: 2867.2, 60 sec: 3754.6, 300 sec: 3735.0). Total num frames: 3993600. Throughput: 0: 917.7. Samples: 998906. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
	[2023-02-24 12:40:20,109][00123] Avg episode reward: [(0, '18.985')]
	[2023-02-24 12:40:22,224][10592] Stopping Batcher_0...
	[2023-02-24 12:40:22,225][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-02-24 12:40:22,224][00123] Component Batcher_0 stopped!
	[2023-02-24 12:40:22,226][10592] Loop batcher_evt_loop terminating...
	[2023-02-24 12:40:22,280][10610] Weights refcount: 2 0
	[2023-02-24 12:40:22,292][10610] Stopping InferenceWorker_p0-w0...
	[2023-02-24 12:40:22,293][00123] Component InferenceWorker_p0-w0 stopped!
	[2023-02-24 12:40:22,299][10610] Loop inference_proc0-0_evt_loop terminating...
	[2023-02-24 12:40:22,303][00123] Component RolloutWorker_w2 stopped!
	[2023-02-24 12:40:22,303][10613] Stopping RolloutWorker_w2...
	[2023-02-24 12:40:22,317][10613] Loop rollout_proc2_evt_loop terminating...
	[2023-02-24 12:40:22,321][00123] Component RolloutWorker_w4 stopped!
	[2023-02-24 12:40:22,321][10615] Stopping RolloutWorker_w4...
	[2023-02-24 12:40:22,330][10615] Loop rollout_proc4_evt_loop terminating...
	[2023-02-24 12:40:22,333][00123] Component RolloutWorker_w7 stopped!
	[2023-02-24 12:40:22,335][10618] Stopping RolloutWorker_w7...
	[2023-02-24 12:40:22,340][10618] Loop rollout_proc7_evt_loop terminating...
	[2023-02-24 12:40:22,346][00123] Component RolloutWorker_w5 stopped!
	[2023-02-24 12:40:22,348][10616] Stopping RolloutWorker_w5...
	[2023-02-24 12:40:22,357][00123] Component RolloutWorker_w3 stopped!
	[2023-02-24 12:40:22,360][10614] Stopping RolloutWorker_w3...
	[2023-02-24 12:40:22,349][10616] Loop rollout_proc5_evt_loop terminating...
	[2023-02-24 12:40:22,368][10611] Stopping RolloutWorker_w0...
	[2023-02-24 12:40:22,368][00123] Component RolloutWorker_w0 stopped!
	[2023-02-24 12:40:22,361][10614] Loop rollout_proc3_evt_loop terminating...
	[2023-02-24 12:40:22,375][10617] Stopping RolloutWorker_w6...
	[2023-02-24 12:40:22,375][00123] Component RolloutWorker_w6 stopped!
	[2023-02-24 12:40:22,385][10617] Loop rollout_proc6_evt_loop terminating...
	[2023-02-24 12:40:22,384][00123] Component RolloutWorker_w1 stopped!
	[2023-02-24 12:40:22,387][10612] Stopping RolloutWorker_w1...
	[2023-02-24 12:40:22,369][10611] Loop rollout_proc0_evt_loop terminating...
	[2023-02-24 12:40:22,392][10612] Loop rollout_proc1_evt_loop terminating...
	[2023-02-24 12:40:22,405][10592] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000825_3379200.pth
	[2023-02-24 12:40:22,416][10592] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-02-24 12:40:22,588][00123] Component LearnerWorker_p0 stopped!
	[2023-02-24 12:40:22,594][00123] Waiting for process learner_proc0 to stop...
	[2023-02-24 12:40:22,607][10592] Stopping LearnerWorker_p0...
	[2023-02-24 12:40:22,610][10592] Loop learner_proc0_evt_loop terminating...
	[2023-02-24 12:40:24,525][00123] Waiting for process inference_proc0-0 to join...
	[2023-02-24 12:40:24,848][00123] Waiting for process rollout_proc0 to join...
	[2023-02-24 12:40:24,851][00123] Waiting for process rollout_proc1 to join...
	[2023-02-24 12:40:25,299][00123] Waiting for process rollout_proc2 to join...
	[2023-02-24 12:40:25,302][00123] Waiting for process rollout_proc3 to join...
	[2023-02-24 12:40:25,305][00123] Waiting for process rollout_proc4 to join...
	[2023-02-24 12:40:25,307][00123] Waiting for process rollout_proc5 to join...
	[2023-02-24 12:40:25,308][00123] Waiting for process rollout_proc6 to join...
	[2023-02-24 12:40:25,309][00123] Waiting for process rollout_proc7 to join...
	[2023-02-24 12:40:25,314][00123] Batcher 0 profile tree view:
	batching: 26.4369, releasing_batches: 0.0270
	[2023-02-24 12:40:25,316][00123] InferenceWorker_p0-w0 profile tree view:
	wait_policy: 0.0048
	wait_policy_total: 539.5587
	update_model: 7.9993
	weight_update: 0.0012
	one_step: 0.0025
	handle_policy_step: 506.1981
	deserialize: 14.8438, stack: 2.9410, obs_to_device_normalize: 112.7926, forward: 243.4008, send_messages: 26.2322
	prepare_outputs: 80.7940
	to_cpu: 49.7400
	[2023-02-24 12:40:25,319][00123] Learner 0 profile tree view:
	misc: 0.0060, prepare_batch: 16.8995
	train: 75.7775
	epoch_init: 0.0056, minibatch_init: 0.0174, losses_postprocess: 0.5753, kl_divergence: 0.5386, after_optimizer: 32.9941
	calculate_losses: 26.6971
	losses_init: 0.0035, forward_head: 1.8631, bptt_initial: 17.4775, tail: 1.0825, advantages_returns: 0.2552, losses: 3.3438
	bptt: 2.3874
	bptt_forward_core: 2.2839
	update: 14.2609
	clip: 1.4573
	[2023-02-24 12:40:25,321][00123] RolloutWorker_w0 profile tree view:
	wait_for_trajectories: 0.3893, enqueue_policy_requests: 144.6686, env_step: 823.3335, overhead: 21.1530, complete_rollouts: 7.0786
	save_policy_outputs: 19.4649
	split_output_tensors: 9.3152
	[2023-02-24 12:40:25,327][00123] RolloutWorker_w7 profile tree view:
	wait_for_trajectories: 0.3342, enqueue_policy_requests: 148.4151, env_step: 818.8910, overhead: 21.0458, complete_rollouts: 7.1215
	save_policy_outputs: 20.7505
	split_output_tensors: 9.9418
	[2023-02-24 12:40:25,333][00123] Loop Runner_EvtLoop terminating...
	[2023-02-24 12:40:25,335][00123] Runner profile tree view:
	main_loop: 1124.6554
	[2023-02-24 12:40:25,338][00123] Collected {0: 4005888}, FPS: 3561.9
	[2023-02-24 12:40:25,459][00123] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
	[2023-02-24 12:40:25,462][00123] Overriding arg 'num_workers' with value 1 passed from command line
	[2023-02-24 12:40:25,464][00123] Adding new argument 'no_render'=True that is not in the saved config file!
	[2023-02-24 12:40:25,466][00123] Adding new argument 'save_video'=True that is not in the saved config file!
	[2023-02-24 12:40:25,468][00123] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
	[2023-02-24 12:40:25,470][00123] Adding new argument 'video_name'=None that is not in the saved config file!
	[2023-02-24 12:40:25,472][00123] Adding new argument 'max_num_frames'=1000000000.0 that is not in the saved config file!
	[2023-02-24 12:40:25,473][00123] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
	[2023-02-24 12:40:25,474][00123] Adding new argument 'push_to_hub'=False that is not in the saved config file!
	[2023-02-24 12:40:25,476][00123] Adding new argument 'hf_repository'=None that is not in the saved config file!
	[2023-02-24 12:40:25,477][00123] Adding new argument 'policy_index'=0 that is not in the saved config file!
	[2023-02-24 12:40:25,478][00123] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
	[2023-02-24 12:40:25,479][00123] Adding new argument 'train_script'=None that is not in the saved config file!
	[2023-02-24 12:40:25,481][00123] Adding new argument 'enjoy_script'=None that is not in the saved config file!
	[2023-02-24 12:40:25,482][00123] Using frameskip 1 and render_action_repeat=4 for evaluation
	[2023-02-24 12:40:25,511][00123] Doom resolution: 160x120, resize resolution: (128, 72)
	[2023-02-24 12:40:25,513][00123] RunningMeanStd input shape: (3, 72, 128)
	[2023-02-24 12:40:25,517][00123] RunningMeanStd input shape: (1,)
	[2023-02-24 12:40:25,534][00123] ConvEncoder: input_channels=3
	[2023-02-24 12:40:26,237][00123] Conv encoder output size: 512
	[2023-02-24 12:40:26,240][00123] Policy head output size: 512
	[2023-02-24 12:40:28,649][00123] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-02-24 12:40:29,935][00123] Num frames 100...
	[2023-02-24 12:40:30,046][00123] Num frames 200...
	[2023-02-24 12:40:30,165][00123] Num frames 300...
	[2023-02-24 12:40:30,284][00123] Num frames 400...
	[2023-02-24 12:40:30,444][00123] Num frames 500...
	[2023-02-24 12:40:30,577][00123] Avg episode rewards: #0: 9.480, true rewards: #0: 5.480
	[2023-02-24 12:40:30,579][00123] Avg episode reward: 9.480, avg true_objective: 5.480
	[2023-02-24 12:40:30,663][00123] Num frames 600...
	[2023-02-24 12:40:30,822][00123] Num frames 700...
	[2023-02-24 12:40:30,978][00123] Num frames 800...
	[2023-02-24 12:40:31,139][00123] Num frames 900...
	[2023-02-24 12:40:31,310][00123] Num frames 1000...
	[2023-02-24 12:40:31,474][00123] Num frames 1100...
	[2023-02-24 12:40:31,639][00123] Avg episode rewards: #0: 10.830, true rewards: #0: 5.830
	[2023-02-24 12:40:31,645][00123] Avg episode reward: 10.830, avg true_objective: 5.830
	[2023-02-24 12:40:31,702][00123] Num frames 1200...
	[2023-02-24 12:40:31,855][00123] Num frames 1300...
	[2023-02-24 12:40:32,014][00123] Num frames 1400...
	[2023-02-24 12:40:32,176][00123] Num frames 1500...
	[2023-02-24 12:40:32,341][00123] Num frames 1600...
	[2023-02-24 12:40:32,498][00123] Num frames 1700...
	[2023-02-24 12:40:32,660][00123] Num frames 1800...
	[2023-02-24 12:40:32,827][00123] Num frames 1900...
	[2023-02-24 12:40:32,998][00123] Num frames 2000...
	[2023-02-24 12:40:33,165][00123] Num frames 2100...
	[2023-02-24 12:40:33,329][00123] Num frames 2200...
	[2023-02-24 12:40:33,503][00123] Num frames 2300...
	[2023-02-24 12:40:33,683][00123] Num frames 2400...
	[2023-02-24 12:40:33,852][00123] Num frames 2500...
	[2023-02-24 12:40:33,986][00123] Num frames 2600...
	[2023-02-24 12:40:34,109][00123] Num frames 2700...
	[2023-02-24 12:40:34,227][00123] Num frames 2800...
	[2023-02-24 12:40:34,327][00123] Avg episode rewards: #0: 19.767, true rewards: #0: 9.433
	[2023-02-24 12:40:34,329][00123] Avg episode reward: 19.767, avg true_objective: 9.433
	[2023-02-24 12:40:34,419][00123] Num frames 2900...
	[2023-02-24 12:40:34,558][00123] Num frames 3000...
	[2023-02-24 12:40:34,686][00123] Num frames 3100...
	[2023-02-24 12:40:34,808][00123] Num frames 3200...
	[2023-02-24 12:40:34,928][00123] Num frames 3300...
	[2023-02-24 12:40:35,042][00123] Num frames 3400...
	[2023-02-24 12:40:35,159][00123] Num frames 3500...
	[2023-02-24 12:40:35,272][00123] Num frames 3600...
	[2023-02-24 12:40:35,397][00123] Num frames 3700...
	[2023-02-24 12:40:35,512][00123] Num frames 3800...
	[2023-02-24 12:40:35,636][00123] Num frames 3900...
	[2023-02-24 12:40:35,752][00123] Num frames 4000...
	[2023-02-24 12:40:35,870][00123] Num frames 4100...
	[2023-02-24 12:40:35,984][00123] Num frames 4200...
	[2023-02-24 12:40:36,106][00123] Num frames 4300...
	[2023-02-24 12:40:36,221][00123] Num frames 4400...
	[2023-02-24 12:40:36,337][00123] Num frames 4500...
	[2023-02-24 12:40:36,422][00123] Avg episode rewards: #0: 25.065, true rewards: #0: 11.315
	[2023-02-24 12:40:36,424][00123] Avg episode reward: 25.065, avg true_objective: 11.315
	[2023-02-24 12:40:36,508][00123] Num frames 4600...
	[2023-02-24 12:40:36,624][00123] Num frames 4700...
	[2023-02-24 12:40:36,734][00123] Num frames 4800...
	[2023-02-24 12:40:36,848][00123] Num frames 4900...
	[2023-02-24 12:40:36,965][00123] Num frames 5000...
	[2023-02-24 12:40:37,082][00123] Num frames 5100...
	[2023-02-24 12:40:37,196][00123] Num frames 5200...
	[2023-02-24 12:40:37,310][00123] Num frames 5300...
	[2023-02-24 12:40:37,429][00123] Num frames 5400...
	[2023-02-24 12:40:37,549][00123] Num frames 5500...
	[2023-02-24 12:40:37,662][00123] Avg episode rewards: #0: 24.700, true rewards: #0: 11.100
	[2023-02-24 12:40:37,664][00123] Avg episode reward: 24.700, avg true_objective: 11.100
	[2023-02-24 12:40:37,731][00123] Num frames 5600...
	[2023-02-24 12:40:37,844][00123] Num frames 5700...
	[2023-02-24 12:40:37,956][00123] Num frames 5800...
	[2023-02-24 12:40:38,077][00123] Num frames 5900...
	[2023-02-24 12:40:38,195][00123] Num frames 6000...
	[2023-02-24 12:40:38,308][00123] Num frames 6100...
	[2023-02-24 12:40:38,430][00123] Num frames 6200...
	[2023-02-24 12:40:38,543][00123] Num frames 6300...
	[2023-02-24 12:40:38,663][00123] Num frames 6400...
	[2023-02-24 12:40:38,774][00123] Num frames 6500...
	[2023-02-24 12:40:38,919][00123] Avg episode rewards: #0: 24.290, true rewards: #0: 10.957
	[2023-02-24 12:40:38,920][00123] Avg episode reward: 24.290, avg true_objective: 10.957
	[2023-02-24 12:40:38,952][00123] Num frames 6600...
	[2023-02-24 12:40:39,068][00123] Num frames 6700...
	[2023-02-24 12:40:39,180][00123] Num frames 6800...
	[2023-02-24 12:40:39,291][00123] Num frames 6900...
	[2023-02-24 12:40:39,403][00123] Num frames 7000...
	[2023-02-24 12:40:39,520][00123] Num frames 7100...
	[2023-02-24 12:40:39,638][00123] Num frames 7200...
	[2023-02-24 12:40:39,780][00123] Avg episode rewards: #0: 22.540, true rewards: #0: 10.397
	[2023-02-24 12:40:39,781][00123] Avg episode reward: 22.540, avg true_objective: 10.397
	[2023-02-24 12:40:39,812][00123] Num frames 7300...
	[2023-02-24 12:40:39,929][00123] Num frames 7400...
	[2023-02-24 12:40:40,042][00123] Num frames 7500...
	[2023-02-24 12:40:40,160][00123] Num frames 7600...
	[2023-02-24 12:40:40,271][00123] Num frames 7700...
	[2023-02-24 12:40:40,392][00123] Num frames 7800...
	[2023-02-24 12:40:40,522][00123] Num frames 7900...
	[2023-02-24 12:40:40,599][00123] Avg episode rewards: #0: 21.395, true rewards: #0: 9.895
	[2023-02-24 12:40:40,601][00123] Avg episode reward: 21.395, avg true_objective: 9.895
	[2023-02-24 12:40:40,703][00123] Num frames 8000...
	[2023-02-24 12:40:40,823][00123] Num frames 8100...
	[2023-02-24 12:40:40,942][00123] Num frames 8200...
	[2023-02-24 12:40:41,062][00123] Num frames 8300...
	[2023-02-24 12:40:41,179][00123] Num frames 8400...
	[2023-02-24 12:40:41,294][00123] Num frames 8500...
	[2023-02-24 12:40:41,413][00123] Num frames 8600...
	[2023-02-24 12:40:41,482][00123] Avg episode rewards: #0: 20.678, true rewards: #0: 9.567
	[2023-02-24 12:40:41,484][00123] Avg episode reward: 20.678, avg true_objective: 9.567
	[2023-02-24 12:40:41,587][00123] Num frames 8700...
	[2023-02-24 12:40:41,705][00123] Num frames 8800...
	[2023-02-24 12:40:41,826][00123] Num frames 8900...
	[2023-02-24 12:40:41,938][00123] Num frames 9000...
	[2023-02-24 12:40:42,052][00123] Num frames 9100...
	[2023-02-24 12:40:42,167][00123] Num frames 9200...
	[2023-02-24 12:40:42,284][00123] Num frames 9300...
	[2023-02-24 12:40:42,399][00123] Num frames 9400...
	[2023-02-24 12:40:42,525][00123] Num frames 9500...
	[2023-02-24 12:40:42,641][00123] Num frames 9600...
	[2023-02-24 12:40:42,759][00123] Num frames 9700...
	[2023-02-24 12:40:42,873][00123] Num frames 9800...
	[2023-02-24 12:40:42,994][00123] Num frames 9900...
	[2023-02-24 12:40:43,111][00123] Num frames 10000...
	[2023-02-24 12:40:43,233][00123] Num frames 10100...
	[2023-02-24 12:40:43,347][00123] Num frames 10200...
	[2023-02-24 12:40:43,463][00123] Num frames 10300...
	[2023-02-24 12:40:43,585][00123] Num frames 10400...
	[2023-02-24 12:40:43,735][00123] Num frames 10500...
	[2023-02-24 12:40:43,898][00123] Avg episode rewards: #0: 24.094, true rewards: #0: 10.594
	[2023-02-24 12:40:43,900][00123] Avg episode reward: 24.094, avg true_objective: 10.594
	[2023-02-24 12:41:49,552][00123] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
	[2023-02-24 12:43:02,874][00123] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
	[2023-02-24 12:43:02,875][00123] Overriding arg 'num_workers' with value 1 passed from command line
	[2023-02-24 12:43:02,877][00123] Adding new argument 'no_render'=True that is not in the saved config file!
	[2023-02-24 12:43:02,880][00123] Adding new argument 'save_video'=True that is not in the saved config file!
	[2023-02-24 12:43:02,885][00123] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
	[2023-02-24 12:43:02,887][00123] Adding new argument 'video_name'=None that is not in the saved config file!
	[2023-02-24 12:43:02,889][00123] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
	[2023-02-24 12:43:02,890][00123] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
	[2023-02-24 12:43:02,892][00123] Adding new argument 'push_to_hub'=True that is not in the saved config file!
	[2023-02-24 12:43:02,894][00123] Adding new argument 'hf_repository'='sheryliza/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
	[2023-02-24 12:43:02,896][00123] Adding new argument 'policy_index'=0 that is not in the saved config file!
	[2023-02-24 12:43:02,898][00123] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
	[2023-02-24 12:43:02,900][00123] Adding new argument 'train_script'=None that is not in the saved config file!
	[2023-02-24 12:43:02,902][00123] Adding new argument 'enjoy_script'=None that is not in the saved config file!
	[2023-02-24 12:43:02,904][00123] Using frameskip 1 and render_action_repeat=4 for evaluation
	[2023-02-24 12:43:02,932][00123] RunningMeanStd input shape: (3, 72, 128)
	[2023-02-24 12:43:02,934][00123] RunningMeanStd input shape: (1,)
	[2023-02-24 12:43:02,949][00123] ConvEncoder: input_channels=3
	[2023-02-24 12:43:02,989][00123] Conv encoder output size: 512
	[2023-02-24 12:43:02,990][00123] Policy head output size: 512
	[2023-02-24 12:43:03,011][00123] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
	[2023-02-24 12:43:03,461][00123] Num frames 100...
	[2023-02-24 12:43:03,575][00123] Num frames 200...
	[2023-02-24 12:43:03,697][00123] Num frames 300...
	[2023-02-24 12:43:03,820][00123] Num frames 400...
	[2023-02-24 12:43:03,935][00123] Num frames 500...
	[2023-02-24 12:43:04,055][00123] Num frames 600...
	[2023-02-24 12:43:04,171][00123] Num frames 700...
	[2023-02-24 12:43:04,273][00123] Avg episode rewards: #0: 17.360, true rewards: #0: 7.360
	[2023-02-24 12:43:04,274][00123] Avg episode reward: 17.360, avg true_objective: 7.360
	[2023-02-24 12:43:04,366][00123] Num frames 800...
	[2023-02-24 12:43:04,494][00123] Num frames 900...
	[2023-02-24 12:43:04,617][00123] Num frames 1000...
	[2023-02-24 12:43:04,779][00123] Avg episode rewards: #0: 10.940, true rewards: #0: 5.440
	[2023-02-24 12:43:04,781][00123] Avg episode reward: 10.940, avg true_objective: 5.440
	[2023-02-24 12:43:04,799][00123] Num frames 1100...
	[2023-02-24 12:43:04,910][00123] Num frames 1200...
	[2023-02-24 12:43:05,028][00123] Num frames 1300...
	[2023-02-24 12:43:05,143][00123] Num frames 1400...
	[2023-02-24 12:43:05,257][00123] Num frames 1500...
	[2023-02-24 12:43:05,387][00123] Num frames 1600...
	[2023-02-24 12:43:05,503][00123] Num frames 1700...
	[2023-02-24 12:43:05,620][00123] Num frames 1800...
	[2023-02-24 12:43:05,742][00123] Num frames 1900...
	[2023-02-24 12:43:05,864][00123] Num frames 2000...
	[2023-02-24 12:43:05,984][00123] Num frames 2100...
	[2023-02-24 12:43:06,138][00123] Avg episode rewards: #0: 15.957, true rewards: #0: 7.290
	[2023-02-24 12:43:06,140][00123] Avg episode reward: 15.957, avg true_objective: 7.290
	[2023-02-24 12:43:06,160][00123] Num frames 2200...
	[2023-02-24 12:43:06,276][00123] Num frames 2300...
	[2023-02-24 12:43:06,391][00123] Num frames 2400...
	[2023-02-24 12:43:06,514][00123] Num frames 2500...
	[2023-02-24 12:43:06,625][00123] Num frames 2600...
	[2023-02-24 12:43:06,743][00123] Num frames 2700...
	[2023-02-24 12:43:06,857][00123] Num frames 2800...
	[2023-02-24 12:43:06,968][00123] Num frames 2900...
	[2023-02-24 12:43:07,085][00123] Avg episode rewards: #0: 15.638, true rewards: #0: 7.387
	[2023-02-24 12:43:07,087][00123] Avg episode reward: 15.638, avg true_objective: 7.387
	[2023-02-24 12:43:07,146][00123] Num frames 3000...
	[2023-02-24 12:43:07,272][00123] Num frames 3100...
	[2023-02-24 12:43:07,387][00123] Num frames 3200...
	[2023-02-24 12:43:07,507][00123] Num frames 3300...
	[2023-02-24 12:43:07,626][00123] Num frames 3400...
	[2023-02-24 12:43:07,686][00123] Avg episode rewards: #0: 13.606, true rewards: #0: 6.806
	[2023-02-24 12:43:07,689][00123] Avg episode reward: 13.606, avg true_objective: 6.806
	[2023-02-24 12:43:07,804][00123] Num frames 3500...
	[2023-02-24 12:43:07,922][00123] Num frames 3600...
	[2023-02-24 12:43:08,034][00123] Num frames 3700...
	[2023-02-24 12:43:08,156][00123] Num frames 3800...
	[2023-02-24 12:43:08,269][00123] Num frames 3900...
	[2023-02-24 12:43:08,418][00123] Avg episode rewards: #0: 12.965, true rewards: #0: 6.632
	[2023-02-24 12:43:08,420][00123] Avg episode reward: 12.965, avg true_objective: 6.632
	[2023-02-24 12:43:08,451][00123] Num frames 4000...
	[2023-02-24 12:43:08,570][00123] Num frames 4100...
	[2023-02-24 12:43:08,685][00123] Num frames 4200...
	[2023-02-24 12:43:08,801][00123] Num frames 4300...
	[2023-02-24 12:43:08,913][00123] Num frames 4400...
	[2023-02-24 12:43:09,030][00123] Num frames 4500...
	[2023-02-24 12:43:09,144][00123] Num frames 4600...
	[2023-02-24 12:43:09,296][00123] Num frames 4700...
	[2023-02-24 12:43:09,470][00123] Num frames 4800...
	[2023-02-24 12:43:09,628][00123] Num frames 4900...
	[2023-02-24 12:43:09,792][00123] Num frames 5000...
	[2023-02-24 12:43:09,908][00123] Avg episode rewards: #0: 14.336, true rewards: #0: 7.193
	[2023-02-24 12:43:09,911][00123] Avg episode reward: 14.336, avg true_objective: 7.193
	[2023-02-24 12:43:10,016][00123] Num frames 5100...
	[2023-02-24 12:43:10,188][00123] Num frames 5200...
	[2023-02-24 12:43:10,353][00123] Num frames 5300...
	[2023-02-24 12:43:10,522][00123] Num frames 5400...
	[2023-02-24 12:43:10,681][00123] Num frames 5500...
	[2023-02-24 12:43:10,843][00123] Num frames 5600...
	[2023-02-24 12:43:10,995][00123] Num frames 5700...
	[2023-02-24 12:43:11,156][00123] Num frames 5800...
	[2023-02-24 12:43:11,221][00123] Avg episode rewards: #0: 14.629, true rewards: #0: 7.254
	[2023-02-24 12:43:11,223][00123] Avg episode reward: 14.629, avg true_objective: 7.254
	[2023-02-24 12:43:11,379][00123] Num frames 5900...
	[2023-02-24 12:43:11,547][00123] Num frames 6000...
	[2023-02-24 12:43:11,717][00123] Num frames 6100...
	[2023-02-24 12:43:11,878][00123] Num frames 6200...
	[2023-02-24 12:43:12,045][00123] Num frames 6300...
	[2023-02-24 12:43:12,216][00123] Num frames 6400...
	[2023-02-24 12:43:12,380][00123] Num frames 6500...
	[2023-02-24 12:43:12,544][00123] Num frames 6600...
	[2023-02-24 12:43:12,731][00123] Num frames 6700...
	[2023-02-24 12:43:12,887][00123] Num frames 6800...
	[2023-02-24 12:43:13,021][00123] Num frames 6900...
	[2023-02-24 12:43:13,164][00123] Num frames 7000...
	[2023-02-24 12:43:13,287][00123] Num frames 7100...
	[2023-02-24 12:43:13,411][00123] Num frames 7200...
	[2023-02-24 12:43:13,535][00123] Num frames 7300...
	[2023-02-24 12:43:13,667][00123] Num frames 7400...
	[2023-02-24 12:43:13,791][00123] Num frames 7500...
	[2023-02-24 12:43:13,911][00123] Num frames 7600...
	[2023-02-24 12:43:14,032][00123] Num frames 7700...
	[2023-02-24 12:43:14,160][00123] Num frames 7800...
	[2023-02-24 12:43:14,240][00123] Avg episode rewards: #0: 19.354, true rewards: #0: 8.688
	[2023-02-24 12:43:14,241][00123] Avg episode reward: 19.354, avg true_objective: 8.688
	[2023-02-24 12:43:14,346][00123] Num frames 7900...
	[2023-02-24 12:43:14,460][00123] Num frames 8000...
	[2023-02-24 12:43:14,588][00123] Num frames 8100...
	[2023-02-24 12:43:14,710][00123] Num frames 8200...
	[2023-02-24 12:43:14,769][00123] Avg episode rewards: #0: 17.801, true rewards: #0: 8.201
	[2023-02-24 12:43:14,770][00123] Avg episode reward: 17.801, avg true_objective: 8.201
	[2023-02-24 12:44:02,821][00123] Replay video saved to /content/train_dir/default_experiment/replay.mp4!