diff --git "a/sf_log.txt" "b/sf_log.txt"
new file mode 100644--- /dev/null
+++ "b/sf_log.txt"
@@ -0,0 +1,1008 @@
+[2023-02-22 23:31:48,812][05631] Saving configuration to /content/train_dir/default_experiment/config.json...
+[2023-02-22 23:31:48,815][05631] Rollout worker 0 uses device cpu
+[2023-02-22 23:31:48,817][05631] Rollout worker 1 uses device cpu
+[2023-02-22 23:31:48,819][05631] Rollout worker 2 uses device cpu
+[2023-02-22 23:31:48,820][05631] Rollout worker 3 uses device cpu
+[2023-02-22 23:31:48,822][05631] Rollout worker 4 uses device cpu
+[2023-02-22 23:31:48,823][05631] Rollout worker 5 uses device cpu
+[2023-02-22 23:31:48,825][05631] Rollout worker 6 uses device cpu
+[2023-02-22 23:31:48,827][05631] Rollout worker 7 uses device cpu
+[2023-02-22 23:31:49,015][05631] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:31:49,017][05631] InferenceWorker_p0-w0: min num requests: 2
+[2023-02-22 23:31:49,058][05631] Starting all processes...
+[2023-02-22 23:31:49,061][05631] Starting process learner_proc0
+[2023-02-22 23:31:49,117][05631] Starting all processes...
+[2023-02-22 23:31:49,125][05631] Starting process inference_proc0-0
+[2023-02-22 23:31:49,126][05631] Starting process rollout_proc0
+[2023-02-22 23:31:49,126][05631] Starting process rollout_proc1
+[2023-02-22 23:31:49,126][05631] Starting process rollout_proc2
+[2023-02-22 23:31:49,126][05631] Starting process rollout_proc3
+[2023-02-22 23:31:49,126][05631] Starting process rollout_proc4
+[2023-02-22 23:31:49,126][05631] Starting process rollout_proc5
+[2023-02-22 23:31:49,127][05631] Starting process rollout_proc6
+[2023-02-22 23:31:49,127][05631] Starting process rollout_proc7
+[2023-02-22 23:32:00,965][11388] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:32:00,965][11388] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2023-02-22 23:32:02,486][11411] Worker 6 uses CPU cores [0]
+[2023-02-22 23:32:02,621][11408] Worker 4 uses CPU cores [0]
+[2023-02-22 23:32:02,756][11388] Num visible devices: 1
+[2023-02-22 23:32:02,784][11388] Starting seed is not provided
+[2023-02-22 23:32:02,785][11388] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:32:02,785][11388] Initializing actor-critic model on device cuda:0
+[2023-02-22 23:32:02,785][11388] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-22 23:32:02,788][11388] RunningMeanStd input shape: (1,)
+[2023-02-22 23:32:02,890][11388] ConvEncoder: input_channels=3
+[2023-02-22 23:32:02,916][11406] Worker 1 uses CPU cores [1]
+[2023-02-22 23:32:03,032][11412] Worker 7 uses CPU cores [1]
+[2023-02-22 23:32:03,035][11407] Worker 2 uses CPU cores [0]
+[2023-02-22 23:32:03,123][11410] Worker 5 uses CPU cores [1]
+[2023-02-22 23:32:03,129][11402] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:32:03,129][11402] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2023-02-22 23:32:03,149][11402] Num visible devices: 1
+[2023-02-22 23:32:03,143][11409] Worker 3 uses CPU cores [1]
+[2023-02-22 23:32:03,203][11403] Worker 0 uses CPU cores [0]
+[2023-02-22 23:32:03,390][11388] Conv encoder output size: 512
+[2023-02-22 23:32:03,390][11388] Policy head output size: 512
+[2023-02-22 23:32:03,459][11388] Created Actor Critic model with architecture:
+[2023-02-22 23:32:03,460][11388] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): VizdoomEncoder(
+    (basic_encoder): ConvEncoder(
+      (enc): RecursiveScriptModule(
+        original_name=ConvEncoderImpl
+        (conv_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Conv2d)
+          (1): RecursiveScriptModule(original_name=ELU)
+          (2): RecursiveScriptModule(original_name=Conv2d)
+          (3): RecursiveScriptModule(original_name=ELU)
+          (4): RecursiveScriptModule(original_name=Conv2d)
+          (5): RecursiveScriptModule(original_name=ELU)
+        )
+        (mlp_layers): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=ELU)
+        )
+      )
+    )
+  )
+  (core): ModelCoreRNN(
+    (core): GRU(512, 512)
+  )
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=512, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationDefault(
+    (distribution_linear): Linear(in_features=512, out_features=5, bias=True)
+  )
+)
+[2023-02-22 23:32:09,008][05631] Heartbeat connected on Batcher_0
+[2023-02-22 23:32:09,017][05631] Heartbeat connected on InferenceWorker_p0-w0
+[2023-02-22 23:32:09,033][05631] Heartbeat connected on RolloutWorker_w0
+[2023-02-22 23:32:09,036][05631] Heartbeat connected on RolloutWorker_w1
+[2023-02-22 23:32:09,040][05631] Heartbeat connected on RolloutWorker_w2
+[2023-02-22 23:32:09,043][05631] Heartbeat connected on RolloutWorker_w3
+[2023-02-22 23:32:09,046][05631] Heartbeat connected on RolloutWorker_w4
+[2023-02-22 23:32:09,050][05631] Heartbeat connected on RolloutWorker_w5
+[2023-02-22 23:32:09,061][05631] Heartbeat connected on RolloutWorker_w6
+[2023-02-22 23:32:09,062][05631] Heartbeat connected on RolloutWorker_w7
+[2023-02-22 23:32:11,237][11388] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-02-22 23:32:11,238][11388] No checkpoints found
+[2023-02-22 23:32:11,238][11388] Did not load from checkpoint, starting from scratch!
+[2023-02-22 23:32:11,239][11388] Initialized policy 0 weights for model version 0
+[2023-02-22 23:32:11,243][11388] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-02-22 23:32:11,254][11388] LearnerWorker_p0 finished initialization!
+[2023-02-22 23:32:11,270][05631] Heartbeat connected on LearnerWorker_p0
+[2023-02-22 23:32:11,358][11402] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-22 23:32:11,360][11402] RunningMeanStd input shape: (1,)
+[2023-02-22 23:32:11,373][11402] ConvEncoder: input_channels=3
+[2023-02-22 23:32:11,474][11402] Conv encoder output size: 512
+[2023-02-22 23:32:11,475][11402] Policy head output size: 512
+[2023-02-22 23:32:13,904][05631] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:32:14,636][05631] Inference worker 0-0 is ready!
+[2023-02-22 23:32:14,639][05631] All inference workers are ready! Signal rollout workers to start!
+[2023-02-22 23:32:14,738][11410] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,780][11403] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,781][11411] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,805][11409] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,803][11407] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,882][11412] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,891][11406] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:14,939][11408] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:32:16,434][11410] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:16,443][11409] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:16,450][11411] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:16,460][11403] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:16,471][11407] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:16,503][11408] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:17,551][11406] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:17,588][11412] Decorrelating experience for 0 frames...
+[2023-02-22 23:32:17,598][11410] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:17,776][11407] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:17,844][11408] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:17,846][11411] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:18,810][11403] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:18,833][11406] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:18,904][05631] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:32:18,926][11409] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:19,230][11407] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:19,251][11412] Decorrelating experience for 32 frames...
+[2023-02-22 23:32:19,273][11410] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:19,305][11408] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:19,849][11411] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:19,994][11403] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:20,371][11411] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:20,530][11406] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:20,551][11409] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:20,641][11410] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:20,956][11412] Decorrelating experience for 64 frames...
+[2023-02-22 23:32:21,609][11408] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:21,601][11412] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:21,869][11403] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:21,993][11407] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:22,342][11409] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:22,683][11406] Decorrelating experience for 96 frames...
+[2023-02-22 23:32:23,904][05631] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:32:26,753][11388] Signal inference workers to stop experience collection...
+[2023-02-22 23:32:26,775][11402] InferenceWorker_p0-w0: stopping experience collection
+[2023-02-22 23:32:28,904][05631] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 143.6. Samples: 2154. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-02-22 23:32:28,907][05631] Avg episode reward: [(0, '1.807')]
+[2023-02-22 23:32:29,578][11388] Signal inference workers to resume experience collection...
+[2023-02-22 23:32:29,579][11402] InferenceWorker_p0-w0: resuming experience collection
+[2023-02-22 23:32:33,904][05631] Fps is (10 sec: 1228.8, 60 sec: 614.4, 300 sec: 614.4). Total num frames: 12288. Throughput: 0: 168.9. Samples: 3378. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-02-22 23:32:33,912][05631] Avg episode reward: [(0, '3.096')]
+[2023-02-22 23:32:38,904][05631] Fps is (10 sec: 2867.2, 60 sec: 1146.9, 300 sec: 1146.9). Total num frames: 28672. Throughput: 0: 329.7. Samples: 8242. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:32:38,906][05631] Avg episode reward: [(0, '3.630')]
+[2023-02-22 23:32:40,942][11402] Updated weights for policy 0, policy_version 10 (0.0017)
+[2023-02-22 23:32:43,904][05631] Fps is (10 sec: 3686.4, 60 sec: 1638.4, 300 sec: 1638.4). Total num frames: 49152. Throughput: 0: 378.3. Samples: 11348. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:32:43,907][05631] Avg episode reward: [(0, '4.235')]
+[2023-02-22 23:32:48,904][05631] Fps is (10 sec: 3686.4, 60 sec: 1872.5, 300 sec: 1872.5). Total num frames: 65536. Throughput: 0: 475.6. Samples: 16646. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:32:48,910][05631] Avg episode reward: [(0, '4.272')]
+[2023-02-22 23:32:53,907][05631] Fps is (10 sec: 2866.3, 60 sec: 1945.4, 300 sec: 1945.4). Total num frames: 77824. Throughput: 0: 507.3. Samples: 20294. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:32:53,910][05631] Avg episode reward: [(0, '4.315')]
+[2023-02-22 23:32:54,330][11402] Updated weights for policy 0, policy_version 20 (0.0018)
+[2023-02-22 23:32:58,904][05631] Fps is (10 sec: 2867.2, 60 sec: 2093.5, 300 sec: 2093.5). Total num frames: 94208. Throughput: 0: 496.9. Samples: 22362. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:32:58,906][05631] Avg episode reward: [(0, '4.348')]
+[2023-02-22 23:33:03,904][05631] Fps is (10 sec: 3687.6, 60 sec: 2293.8, 300 sec: 2293.8). Total num frames: 114688. Throughput: 0: 633.5. Samples: 28508. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:33:03,906][05631] Avg episode reward: [(0, '4.401')]
+[2023-02-22 23:33:03,916][11388] Saving new best policy, reward=4.401!
+[2023-02-22 23:33:05,132][11402] Updated weights for policy 0, policy_version 30 (0.0035)
+[2023-02-22 23:33:08,904][05631] Fps is (10 sec: 3686.4, 60 sec: 2383.1, 300 sec: 2383.1). Total num frames: 131072. Throughput: 0: 733.0. Samples: 32984. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:33:08,906][05631] Avg episode reward: [(0, '4.430')]
+[2023-02-22 23:33:08,914][11388] Saving new best policy, reward=4.430!
+[2023-02-22 23:33:13,904][05631] Fps is (10 sec: 2048.0, 60 sec: 2252.8, 300 sec: 2252.8). Total num frames: 135168. Throughput: 0: 703.6. Samples: 33818. Policy #0 lag: (min: 0.0, avg: 0.2, max: 1.0)
+[2023-02-22 23:33:13,910][05631] Avg episode reward: [(0, '4.269')]
+[2023-02-22 23:33:18,904][05631] Fps is (10 sec: 2048.0, 60 sec: 2525.9, 300 sec: 2331.6). Total num frames: 151552. Throughput: 0: 757.2. Samples: 37450. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:33:18,906][05631] Avg episode reward: [(0, '4.371')]
+[2023-02-22 23:33:21,443][11402] Updated weights for policy 0, policy_version 40 (0.0034)
+[2023-02-22 23:33:23,904][05631] Fps is (10 sec: 3686.4, 60 sec: 2867.2, 300 sec: 2457.6). Total num frames: 172032. Throughput: 0: 790.8. Samples: 43828. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:33:23,910][05631] Avg episode reward: [(0, '4.504')]
+[2023-02-22 23:33:23,921][11388] Saving new best policy, reward=4.504!
+[2023-02-22 23:33:28,907][05631] Fps is (10 sec: 4094.7, 60 sec: 3208.4, 300 sec: 2566.7). Total num frames: 192512. Throughput: 0: 791.6. Samples: 46972. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:33:28,918][05631] Avg episode reward: [(0, '4.443')]
+[2023-02-22 23:33:32,988][11402] Updated weights for policy 0, policy_version 50 (0.0038)
+[2023-02-22 23:33:33,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3208.5, 300 sec: 2560.0). Total num frames: 204800. Throughput: 0: 774.2. Samples: 51484. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:33:33,912][05631] Avg episode reward: [(0, '4.449')]
+[2023-02-22 23:33:38,904][05631] Fps is (10 sec: 2458.4, 60 sec: 3140.3, 300 sec: 2554.0). Total num frames: 217088. Throughput: 0: 780.3. Samples: 55406. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:33:38,912][05631] Avg episode reward: [(0, '4.264')]
+[2023-02-22 23:33:43,905][05631] Fps is (10 sec: 3276.7, 60 sec: 3140.3, 300 sec: 2639.6). Total num frames: 237568. Throughput: 0: 801.0. Samples: 58406. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:33:43,911][05631] Avg episode reward: [(0, '4.287')]
+[2023-02-22 23:33:43,922][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000058_237568.pth...
+[2023-02-22 23:33:45,151][11402] Updated weights for policy 0, policy_version 60 (0.0028)
+[2023-02-22 23:33:48,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3208.5, 300 sec: 2716.3). Total num frames: 258048. Throughput: 0: 799.5. Samples: 64484. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:33:48,911][05631] Avg episode reward: [(0, '4.361')]
+[2023-02-22 23:33:53,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3208.7, 300 sec: 2703.4). Total num frames: 270336. Throughput: 0: 795.9. Samples: 68798. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:33:53,907][05631] Avg episode reward: [(0, '4.393')]
+[2023-02-22 23:33:58,642][11402] Updated weights for policy 0, policy_version 70 (0.0013)
+[2023-02-22 23:33:58,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3208.5, 300 sec: 2730.7). Total num frames: 286720. Throughput: 0: 820.9. Samples: 70760. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:33:58,911][05631] Avg episode reward: [(0, '4.411')]
+[2023-02-22 23:34:03,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3140.3, 300 sec: 2755.5). Total num frames: 303104. Throughput: 0: 854.9. Samples: 75922. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:34:03,912][05631] Avg episode reward: [(0, '4.501')]
+[2023-02-22 23:34:08,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3208.5, 300 sec: 2813.8). Total num frames: 323584. Throughput: 0: 848.8. Samples: 82024. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:34:08,907][05631] Avg episode reward: [(0, '4.479')]
+[2023-02-22 23:34:09,146][11402] Updated weights for policy 0, policy_version 80 (0.0015)
+[2023-02-22 23:34:13,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 2833.1). Total num frames: 339968. Throughput: 0: 828.7. Samples: 84260. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:34:13,910][05631] Avg episode reward: [(0, '4.301')]
+[2023-02-22 23:34:18,904][05631] Fps is (10 sec: 2867.1, 60 sec: 3345.1, 300 sec: 2818.0). Total num frames: 352256. Throughput: 0: 813.3. Samples: 88082. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:34:18,913][05631] Avg episode reward: [(0, '4.291')]
+[2023-02-22 23:34:23,336][11402] Updated weights for policy 0, policy_version 90 (0.0024)
+[2023-02-22 23:34:23,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 2835.7). Total num frames: 368640. Throughput: 0: 835.7. Samples: 93014. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:34:23,907][05631] Avg episode reward: [(0, '4.328')]
+[2023-02-22 23:34:28,904][05631] Fps is (10 sec: 3686.5, 60 sec: 3277.0, 300 sec: 2882.4). Total num frames: 389120. Throughput: 0: 831.8. Samples: 95838. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:34:28,912][05631] Avg episode reward: [(0, '4.479')]
+[2023-02-22 23:34:33,905][05631] Fps is (10 sec: 3276.4, 60 sec: 3276.7, 300 sec: 2867.2). Total num frames: 401408. Throughput: 0: 810.8. Samples: 100972. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:34:33,912][05631] Avg episode reward: [(0, '4.441')]
+[2023-02-22 23:34:36,124][11402] Updated weights for policy 0, policy_version 100 (0.0018)
+[2023-02-22 23:34:38,904][05631] Fps is (10 sec: 2457.6, 60 sec: 3276.8, 300 sec: 2853.1). Total num frames: 413696. Throughput: 0: 795.0. Samples: 104574. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:34:38,906][05631] Avg episode reward: [(0, '4.471')]
+[2023-02-22 23:34:43,904][05631] Fps is (10 sec: 2867.6, 60 sec: 3208.6, 300 sec: 2867.2). Total num frames: 430080. Throughput: 0: 794.9. Samples: 106532. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:34:43,907][05631] Avg episode reward: [(0, '4.549')]
+[2023-02-22 23:34:43,916][11388] Saving new best policy, reward=4.549!
+[2023-02-22 23:34:48,274][11402] Updated weights for policy 0, policy_version 110 (0.0015)
+[2023-02-22 23:34:48,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3208.5, 300 sec: 2906.8). Total num frames: 450560. Throughput: 0: 815.6. Samples: 112626. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:34:48,906][05631] Avg episode reward: [(0, '4.612')]
+[2023-02-22 23:34:48,910][11388] Saving new best policy, reward=4.612!
+[2023-02-22 23:34:53,904][05631] Fps is (10 sec: 3686.3, 60 sec: 3276.8, 300 sec: 2918.4). Total num frames: 466944. Throughput: 0: 799.5. Samples: 118000. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:34:53,911][05631] Avg episode reward: [(0, '4.579')]
+[2023-02-22 23:34:58,907][05631] Fps is (10 sec: 3275.7, 60 sec: 3276.6, 300 sec: 2929.2). Total num frames: 483328. Throughput: 0: 792.9. Samples: 119944. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:34:58,911][05631] Avg episode reward: [(0, '4.527')]
+[2023-02-22 23:35:01,929][11402] Updated weights for policy 0, policy_version 120 (0.0032)
+[2023-02-22 23:35:03,904][05631] Fps is (10 sec: 2867.3, 60 sec: 3208.5, 300 sec: 2915.4). Total num frames: 495616. Throughput: 0: 794.7. Samples: 123844. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:35:03,911][05631] Avg episode reward: [(0, '4.660')]
+[2023-02-22 23:35:03,921][11388] Saving new best policy, reward=4.660!
+[2023-02-22 23:35:08,904][05631] Fps is (10 sec: 3277.8, 60 sec: 3208.5, 300 sec: 2949.1). Total num frames: 516096. Throughput: 0: 819.7. Samples: 129900. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:35:08,912][05631] Avg episode reward: [(0, '4.703')]
+[2023-02-22 23:35:08,915][11388] Saving new best policy, reward=4.703!
+[2023-02-22 23:35:12,427][11402] Updated weights for policy 0, policy_version 130 (0.0019)
+[2023-02-22 23:35:13,906][05631] Fps is (10 sec: 4095.4, 60 sec: 3276.7, 300 sec: 2981.0). Total num frames: 536576. Throughput: 0: 822.8. Samples: 132864. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:35:13,916][05631] Avg episode reward: [(0, '4.449')]
+[2023-02-22 23:35:18,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3276.8, 300 sec: 2966.8). Total num frames: 548864. Throughput: 0: 803.5. Samples: 137128. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:35:18,908][05631] Avg episode reward: [(0, '4.510')]
+[2023-02-22 23:35:23,904][05631] Fps is (10 sec: 2458.0, 60 sec: 3208.5, 300 sec: 2953.4). Total num frames: 561152. Throughput: 0: 811.9. Samples: 141108. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:35:23,907][05631] Avg episode reward: [(0, '4.519')]
+[2023-02-22 23:35:26,269][11402] Updated weights for policy 0, policy_version 140 (0.0036)
+[2023-02-22 23:35:28,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3208.5, 300 sec: 2982.7). Total num frames: 581632. Throughput: 0: 839.2. Samples: 144294. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:35:28,911][05631] Avg episode reward: [(0, '4.480')]
+[2023-02-22 23:35:33,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3010.6). Total num frames: 602112. Throughput: 0: 844.0. Samples: 150606. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:35:33,908][05631] Avg episode reward: [(0, '4.208')]
+[2023-02-22 23:35:37,322][11402] Updated weights for policy 0, policy_version 150 (0.0013)
+[2023-02-22 23:35:38,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 2997.1). Total num frames: 614400. Throughput: 0: 822.1. Samples: 154992. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:35:38,907][05631] Avg episode reward: [(0, '4.311')]
+[2023-02-22 23:35:43,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3003.7). Total num frames: 630784. Throughput: 0: 822.1. Samples: 156936. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:35:43,914][05631] Avg episode reward: [(0, '4.271')]
+[2023-02-22 23:35:43,927][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000154_630784.pth...
+[2023-02-22 23:35:48,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3010.1). Total num frames: 647168. Throughput: 0: 849.2. Samples: 162058. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:35:48,908][05631] Avg episode reward: [(0, '4.508')]
+[2023-02-22 23:35:49,942][11402] Updated weights for policy 0, policy_version 160 (0.0023)
+[2023-02-22 23:35:53,904][05631] Fps is (10 sec: 4096.1, 60 sec: 3413.4, 300 sec: 3053.4). Total num frames: 671744. Throughput: 0: 853.9. Samples: 168324. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:35:53,907][05631] Avg episode reward: [(0, '4.452')]
+[2023-02-22 23:35:58,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.2, 300 sec: 3040.1). Total num frames: 684032. Throughput: 0: 840.2. Samples: 170670. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:35:58,910][05631] Avg episode reward: [(0, '4.558')]
+[2023-02-22 23:36:02,437][11402] Updated weights for policy 0, policy_version 170 (0.0040)
+[2023-02-22 23:36:03,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3045.3). Total num frames: 700416. Throughput: 0: 834.4. Samples: 174678. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:36:03,911][05631] Avg episode reward: [(0, '4.447')]
+[2023-02-22 23:36:08,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3050.2). Total num frames: 716800. Throughput: 0: 860.3. Samples: 179820. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:36:08,907][05631] Avg episode reward: [(0, '4.720')]
+[2023-02-22 23:36:08,914][11388] Saving new best policy, reward=4.720!
+[2023-02-22 23:36:13,457][11402] Updated weights for policy 0, policy_version 180 (0.0018)
+[2023-02-22 23:36:13,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.2, 300 sec: 3072.0). Total num frames: 737280. Throughput: 0: 857.5. Samples: 182882. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:36:13,907][05631] Avg episode reward: [(0, '4.898')]
+[2023-02-22 23:36:13,921][11388] Saving new best policy, reward=4.898!
+[2023-02-22 23:36:18,906][05631] Fps is (10 sec: 3685.7, 60 sec: 3413.2, 300 sec: 3076.2). Total num frames: 753664. Throughput: 0: 840.3. Samples: 188420. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:36:18,909][05631] Avg episode reward: [(0, '4.718')]
+[2023-02-22 23:36:23,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3063.8). Total num frames: 765952. Throughput: 0: 830.3. Samples: 192356. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:36:23,910][05631] Avg episode reward: [(0, '4.706')]
+[2023-02-22 23:36:27,095][11402] Updated weights for policy 0, policy_version 190 (0.0024)
+[2023-02-22 23:36:28,904][05631] Fps is (10 sec: 2867.8, 60 sec: 3345.1, 300 sec: 3068.0). Total num frames: 782336. Throughput: 0: 836.9. Samples: 194598. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:36:28,911][05631] Avg episode reward: [(0, '4.807')]
+[2023-02-22 23:36:33,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3087.8). Total num frames: 802816. Throughput: 0: 859.1. Samples: 200716. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:36:33,907][05631] Avg episode reward: [(0, '4.739')]
+[2023-02-22 23:36:37,987][11402] Updated weights for policy 0, policy_version 200 (0.0014)
+[2023-02-22 23:36:38,908][05631] Fps is (10 sec: 3685.1, 60 sec: 3413.1, 300 sec: 3091.3). Total num frames: 819200. Throughput: 0: 833.4. Samples: 205828. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:36:38,911][05631] Avg episode reward: [(0, '4.627')]
+[2023-02-22 23:36:43,904][05631] Fps is (10 sec: 2867.1, 60 sec: 3345.1, 300 sec: 3079.6). Total num frames: 831488. Throughput: 0: 823.5. Samples: 207726. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:36:43,911][05631] Avg episode reward: [(0, '4.542')]
+[2023-02-22 23:36:48,904][05631] Fps is (10 sec: 2868.2, 60 sec: 3345.1, 300 sec: 3083.2). Total num frames: 847872. Throughput: 0: 821.2. Samples: 211632. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:36:48,912][05631] Avg episode reward: [(0, '4.506')]
+[2023-02-22 23:36:51,466][11402] Updated weights for policy 0, policy_version 210 (0.0042)
+[2023-02-22 23:36:53,904][05631] Fps is (10 sec: 3686.5, 60 sec: 3276.8, 300 sec: 3101.3). Total num frames: 868352. Throughput: 0: 839.3. Samples: 217588. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:36:53,908][05631] Avg episode reward: [(0, '4.638')]
+[2023-02-22 23:36:58,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3104.3). Total num frames: 884736. Throughput: 0: 841.8. Samples: 220762. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:36:58,909][05631] Avg episode reward: [(0, '4.493')]
+[2023-02-22 23:37:03,911][05631] Fps is (10 sec: 2865.4, 60 sec: 3276.4, 300 sec: 3093.1). Total num frames: 897024. Throughput: 0: 811.6. Samples: 224946. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:37:03,917][05631] Avg episode reward: [(0, '4.574')]
+[2023-02-22 23:37:03,962][11402] Updated weights for policy 0, policy_version 220 (0.0019)
+[2023-02-22 23:37:08,904][05631] Fps is (10 sec: 2867.1, 60 sec: 3276.8, 300 sec: 3096.3). Total num frames: 913408. Throughput: 0: 811.8. Samples: 228886. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:37:08,912][05631] Avg episode reward: [(0, '4.607')]
+[2023-02-22 23:37:13,904][05631] Fps is (10 sec: 3688.8, 60 sec: 3276.8, 300 sec: 3165.7). Total num frames: 933888. Throughput: 0: 831.1. Samples: 231996. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:37:13,907][05631] Avg episode reward: [(0, '4.605')]
+[2023-02-22 23:37:15,709][11402] Updated weights for policy 0, policy_version 230 (0.0019)
+[2023-02-22 23:37:18,905][05631] Fps is (10 sec: 4095.5, 60 sec: 3345.1, 300 sec: 3235.1). Total num frames: 954368. Throughput: 0: 832.8. Samples: 238194. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:37:18,908][05631] Avg episode reward: [(0, '4.485')]
+[2023-02-22 23:37:23,905][05631] Fps is (10 sec: 3276.4, 60 sec: 3345.0, 300 sec: 3276.8). Total num frames: 966656. Throughput: 0: 814.0. Samples: 242456. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:37:23,912][05631] Avg episode reward: [(0, '4.660')]
+[2023-02-22 23:37:28,904][05631] Fps is (10 sec: 2457.9, 60 sec: 3276.8, 300 sec: 3276.8). Total num frames: 978944. Throughput: 0: 814.9. Samples: 244396. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:37:28,914][05631] Avg episode reward: [(0, '4.772')]
+[2023-02-22 23:37:29,448][11402] Updated weights for policy 0, policy_version 240 (0.0015)
+[2023-02-22 23:37:33,904][05631] Fps is (10 sec: 3277.2, 60 sec: 3276.8, 300 sec: 3290.7). Total num frames: 999424. Throughput: 0: 842.6. Samples: 249548. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:37:33,913][05631] Avg episode reward: [(0, '4.759')]
+[2023-02-22 23:37:38,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.3, 300 sec: 3290.7). Total num frames: 1019904. Throughput: 0: 848.9. Samples: 255788. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:37:38,907][05631] Avg episode reward: [(0, '4.585')]
+[2023-02-22 23:37:39,355][11402] Updated weights for policy 0, policy_version 250 (0.0018)
+[2023-02-22 23:37:43,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3276.8). Total num frames: 1032192. Throughput: 0: 828.9. Samples: 258062. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:37:43,917][05631] Avg episode reward: [(0, '4.611')]
+[2023-02-22 23:37:43,931][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000252_1032192.pth...
+[2023-02-22 23:37:44,111][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000058_237568.pth
+[2023-02-22 23:37:48,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3290.7). Total num frames: 1048576. Throughput: 0: 821.2. Samples: 261896. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:37:48,911][05631] Avg episode reward: [(0, '4.767')]
+[2023-02-22 23:37:53,274][11402] Updated weights for policy 0, policy_version 260 (0.0058)
+[2023-02-22 23:37:53,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3276.8, 300 sec: 3290.7). Total num frames: 1064960. Throughput: 0: 849.5. Samples: 267114. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:37:53,911][05631] Avg episode reward: [(0, '4.750')]
+[2023-02-22 23:37:58,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3290.7). Total num frames: 1085440. Throughput: 0: 850.6. Samples: 270272. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:37:58,912][05631] Avg episode reward: [(0, '4.480')]
+[2023-02-22 23:38:03,904][05631] Fps is (10 sec: 3686.3, 60 sec: 3413.7, 300 sec: 3290.7). Total num frames: 1101824. Throughput: 0: 831.2. Samples: 275596. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:38:03,911][05631] Avg episode reward: [(0, '4.690')]
+[2023-02-22 23:38:04,835][11402] Updated weights for policy 0, policy_version 270 (0.0013)
+[2023-02-22 23:38:08,908][05631] Fps is (10 sec: 2866.0, 60 sec: 3344.8, 300 sec: 3318.4). Total num frames: 1114112. Throughput: 0: 821.8. Samples: 279438. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:38:08,910][05631] Avg episode reward: [(0, '4.660')]
+[2023-02-22 23:38:13,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3318.5). Total num frames: 1130496. Throughput: 0: 822.2. Samples: 281396. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:38:13,912][05631] Avg episode reward: [(0, '4.739')]
+[2023-02-22 23:38:17,611][11402] Updated weights for policy 0, policy_version 280 (0.0028)
+[2023-02-22 23:38:18,904][05631] Fps is (10 sec: 3687.9, 60 sec: 3276.9, 300 sec: 3318.5). Total num frames: 1150976. Throughput: 0: 842.6. Samples: 287464. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:38:18,912][05631] Avg episode reward: [(0, '4.893')]
+[2023-02-22 23:38:23,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3304.6). Total num frames: 1167360. Throughput: 0: 828.3. Samples: 293062. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:38:23,909][05631] Avg episode reward: [(0, '4.942')]
+[2023-02-22 23:38:23,927][11388] Saving new best policy, reward=4.942!
+[2023-02-22 23:38:28,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3318.5). Total num frames: 1183744. Throughput: 0: 821.6. Samples: 295036. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:38:28,914][05631] Avg episode reward: [(0, '4.825')]
+[2023-02-22 23:38:30,292][11402] Updated weights for policy 0, policy_version 290 (0.0016)
+[2023-02-22 23:38:33,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3276.8, 300 sec: 3318.5). Total num frames: 1196032. Throughput: 0: 824.9. Samples: 299016. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:38:33,906][05631] Avg episode reward: [(0, '4.933')]
+[2023-02-22 23:38:38,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3276.8, 300 sec: 3318.5). Total num frames: 1216512. Throughput: 0: 849.0. Samples: 305320. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:38:38,910][05631] Avg episode reward: [(0, '4.834')]
+[2023-02-22 23:38:41,134][11402] Updated weights for policy 0, policy_version 300 (0.0022)
+[2023-02-22 23:38:43,906][05631] Fps is (10 sec: 4095.1, 60 sec: 3413.2, 300 sec: 3318.4). Total num frames: 1236992. Throughput: 0: 847.9. Samples: 308430. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:38:43,909][05631] Avg episode reward: [(0, '4.849')]
+[2023-02-22 23:38:48,908][05631] Fps is (10 sec: 3275.4, 60 sec: 3344.8, 300 sec: 3318.4). Total num frames: 1249280. Throughput: 0: 824.5. Samples: 312702. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:38:48,916][05631] Avg episode reward: [(0, '4.683')]
+[2023-02-22 23:38:53,904][05631] Fps is (10 sec: 2458.1, 60 sec: 3276.8, 300 sec: 3304.6). Total num frames: 1261568. Throughput: 0: 829.0. Samples: 316738. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:38:53,906][05631] Avg episode reward: [(0, '4.638')]
+[2023-02-22 23:38:55,000][11402] Updated weights for policy 0, policy_version 310 (0.0015)
+[2023-02-22 23:38:58,904][05631] Fps is (10 sec: 3688.0, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 1286144. Throughput: 0: 854.5. Samples: 319850. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:38:58,909][05631] Avg episode reward: [(0, '4.625')]
+[2023-02-22 23:39:03,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3318.5). Total num frames: 1302528. Throughput: 0: 859.3. Samples: 326134. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:39:03,907][05631] Avg episode reward: [(0, '4.734')]
+[2023-02-22 23:39:05,450][11402] Updated weights for policy 0, policy_version 320 (0.0023)
+[2023-02-22 23:39:08,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.6, 300 sec: 3318.5). Total num frames: 1318912. Throughput: 0: 828.1. Samples: 330326. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:39:08,911][05631] Avg episode reward: [(0, '4.796')]
+[2023-02-22 23:39:13,907][05631] Fps is (10 sec: 2866.5, 60 sec: 3344.9, 300 sec: 3318.4). Total num frames: 1331200. Throughput: 0: 827.8. Samples: 332290. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:39:13,911][05631] Avg episode reward: [(0, '4.773')]
+[2023-02-22 23:39:18,545][11402] Updated weights for policy 0, policy_version 330 (0.0024)
+[2023-02-22 23:39:18,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 1351680. Throughput: 0: 856.8. Samples: 337570. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:39:18,907][05631] Avg episode reward: [(0, '4.517')]
+[2023-02-22 23:39:23,904][05631] Fps is (10 sec: 4097.0, 60 sec: 3413.3, 300 sec: 3332.3). Total num frames: 1372160. Throughput: 0: 857.0. Samples: 343884. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:39:23,911][05631] Avg episode reward: [(0, '4.435')]
+[2023-02-22 23:39:28,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3332.4). Total num frames: 1384448. Throughput: 0: 833.1. Samples: 345916. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:39:28,911][05631] Avg episode reward: [(0, '4.540')]
+[2023-02-22 23:39:30,901][11402] Updated weights for policy 0, policy_version 340 (0.0023)
+[2023-02-22 23:39:33,904][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3332.3). Total num frames: 1396736. Throughput: 0: 821.3. Samples: 349656. Policy #0 lag: (min: 0.0, avg: 0.3, max: 2.0)
+[2023-02-22 23:39:33,913][05631] Avg episode reward: [(0, '4.400')]
+[2023-02-22 23:39:38,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3346.2). Total num frames: 1417216. Throughput: 0: 853.6. Samples: 355150. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:39:38,911][05631] Avg episode reward: [(0, '4.516')]
+[2023-02-22 23:39:42,399][11402] Updated weights for policy 0, policy_version 350 (0.0026)
+[2023-02-22 23:39:43,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.2, 300 sec: 3346.2). Total num frames: 1437696. Throughput: 0: 856.7. Samples: 358400. Policy #0 lag: (min: 0.0, avg: 0.8, max: 2.0)
+[2023-02-22 23:39:43,912][05631] Avg episode reward: [(0, '4.631')]
+[2023-02-22 23:39:43,925][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000351_1437696.pth...
+[2023-02-22 23:39:44,048][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000154_630784.pth
+[2023-02-22 23:39:48,915][05631] Fps is (10 sec: 3682.5, 60 sec: 3413.0, 300 sec: 3346.1). Total num frames: 1454080. Throughput: 0: 828.7. Samples: 363436. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:39:48,919][05631] Avg episode reward: [(0, '4.724')]
+[2023-02-22 23:39:53,905][05631] Fps is (10 sec: 2867.0, 60 sec: 3413.3, 300 sec: 3332.4). Total num frames: 1466368. Throughput: 0: 823.1. Samples: 367368. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:39:53,913][05631] Avg episode reward: [(0, '4.694')]
+[2023-02-22 23:39:56,151][11402] Updated weights for policy 0, policy_version 360 (0.0023)
+[2023-02-22 23:39:58,904][05631] Fps is (10 sec: 2870.3, 60 sec: 3276.8, 300 sec: 3346.2). Total num frames: 1482752. Throughput: 0: 835.6. Samples: 369890. Policy #0 lag: (min: 0.0, avg: 0.8, max: 2.0)
+[2023-02-22 23:39:58,911][05631] Avg episode reward: [(0, '4.647')]
+[2023-02-22 23:40:03,904][05631] Fps is (10 sec: 4096.3, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1507328. Throughput: 0: 861.2. Samples: 376324. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:40:03,906][05631] Avg episode reward: [(0, '4.388')]
+[2023-02-22 23:40:05,705][11402] Updated weights for policy 0, policy_version 370 (0.0014)
+[2023-02-22 23:40:08,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 1523712. Throughput: 0: 833.5. Samples: 381390. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:40:08,911][05631] Avg episode reward: [(0, '4.430')]
+[2023-02-22 23:40:13,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.5, 300 sec: 3346.2). Total num frames: 1536000. Throughput: 0: 834.8. Samples: 383482. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:40:13,907][05631] Avg episode reward: [(0, '4.272')]
+[2023-02-22 23:40:18,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1552384. Throughput: 0: 852.4. Samples: 388016. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:40:18,911][05631] Avg episode reward: [(0, '4.473')]
+[2023-02-22 23:40:19,142][11402] Updated weights for policy 0, policy_version 380 (0.0020)
+[2023-02-22 23:40:23,906][05631] Fps is (10 sec: 3685.6, 60 sec: 3344.9, 300 sec: 3360.1). Total num frames: 1572864. Throughput: 0: 872.3. Samples: 394404. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:40:23,910][05631] Avg episode reward: [(0, '4.602')]
+[2023-02-22 23:40:28,906][05631] Fps is (10 sec: 4095.1, 60 sec: 3481.5, 300 sec: 3360.1). Total num frames: 1593344. Throughput: 0: 865.5. Samples: 397348. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:40:28,913][05631] Avg episode reward: [(0, '4.487')]
+[2023-02-22 23:40:30,651][11402] Updated weights for policy 0, policy_version 390 (0.0033)
+[2023-02-22 23:40:33,904][05631] Fps is (10 sec: 3277.5, 60 sec: 3481.6, 300 sec: 3360.1). Total num frames: 1605632. Throughput: 0: 840.4. Samples: 401244. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:40:33,908][05631] Avg episode reward: [(0, '4.482')]
+[2023-02-22 23:40:38,904][05631] Fps is (10 sec: 2867.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1622016. Throughput: 0: 859.3. Samples: 406034. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:40:38,907][05631] Avg episode reward: [(0, '4.531')]
+[2023-02-22 23:40:42,462][11402] Updated weights for policy 0, policy_version 400 (0.0013)
+[2023-02-22 23:40:43,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 1642496. Throughput: 0: 871.7. Samples: 409118. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:40:43,912][05631] Avg episode reward: [(0, '4.513')]
+[2023-02-22 23:40:48,906][05631] Fps is (10 sec: 3685.6, 60 sec: 3413.8, 300 sec: 3346.2). Total num frames: 1658880. Throughput: 0: 860.2. Samples: 415034. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:40:48,909][05631] Avg episode reward: [(0, '4.554')]
+[2023-02-22 23:40:53,906][05631] Fps is (10 sec: 2866.7, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 1671168. Throughput: 0: 836.1. Samples: 419014. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:40:53,909][05631] Avg episode reward: [(0, '4.590')]
+[2023-02-22 23:40:55,803][11402] Updated weights for policy 0, policy_version 410 (0.0015)
+[2023-02-22 23:40:58,904][05631] Fps is (10 sec: 2867.9, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 1687552. Throughput: 0: 834.1. Samples: 421016. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:40:58,910][05631] Avg episode reward: [(0, '4.548')]
+[2023-02-22 23:41:03,904][05631] Fps is (10 sec: 3687.1, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1708032. Throughput: 0: 870.4. Samples: 427182. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:41:03,910][05631] Avg episode reward: [(0, '4.711')]
+[2023-02-22 23:41:05,799][11402] Updated weights for policy 0, policy_version 420 (0.0017)
+[2023-02-22 23:41:08,907][05631] Fps is (10 sec: 4094.6, 60 sec: 3413.1, 300 sec: 3360.1). Total num frames: 1728512. Throughput: 0: 856.7. Samples: 432956. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:41:08,915][05631] Avg episode reward: [(0, '4.743')]
+[2023-02-22 23:41:13,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3346.2). Total num frames: 1740800. Throughput: 0: 835.7. Samples: 434952. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:41:13,907][05631] Avg episode reward: [(0, '4.858')]
+[2023-02-22 23:41:18,904][05631] Fps is (10 sec: 2868.1, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1757184. Throughput: 0: 838.3. Samples: 438966. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:41:18,910][05631] Avg episode reward: [(0, '4.774')]
+[2023-02-22 23:41:19,510][11402] Updated weights for policy 0, policy_version 430 (0.0014)
+[2023-02-22 23:41:23,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.5, 300 sec: 3374.0). Total num frames: 1777664. Throughput: 0: 870.1. Samples: 445190. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:41:23,907][05631] Avg episode reward: [(0, '4.701')]
+[2023-02-22 23:41:28,904][05631] Fps is (10 sec: 4095.9, 60 sec: 3413.4, 300 sec: 3374.0). Total num frames: 1798144. Throughput: 0: 871.1. Samples: 448316. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:41:28,911][05631] Avg episode reward: [(0, '4.835')]
+[2023-02-22 23:41:30,401][11402] Updated weights for policy 0, policy_version 440 (0.0022)
+[2023-02-22 23:41:33,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1810432. Throughput: 0: 836.6. Samples: 452680. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:41:33,907][05631] Avg episode reward: [(0, '4.692')]
+[2023-02-22 23:41:38,904][05631] Fps is (10 sec: 2457.7, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1822720. Throughput: 0: 839.2. Samples: 456776. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:41:38,907][05631] Avg episode reward: [(0, '4.623')]
+[2023-02-22 23:41:43,114][11402] Updated weights for policy 0, policy_version 450 (0.0033)
+[2023-02-22 23:41:43,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3374.0). Total num frames: 1843200. Throughput: 0: 864.2. Samples: 459904. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:41:43,912][05631] Avg episode reward: [(0, '4.584')]
+[2023-02-22 23:41:43,926][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000450_1843200.pth...
+[2023-02-22 23:41:44,058][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000252_1032192.pth
+[2023-02-22 23:41:48,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.5, 300 sec: 3374.0). Total num frames: 1863680. Throughput: 0: 863.0. Samples: 466018. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:41:48,911][05631] Avg episode reward: [(0, '4.599')]
+[2023-02-22 23:41:53,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.4, 300 sec: 3360.1). Total num frames: 1875968. Throughput: 0: 829.9. Samples: 470300. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:41:53,914][05631] Avg episode reward: [(0, '4.603')]
+[2023-02-22 23:41:55,621][11402] Updated weights for policy 0, policy_version 460 (0.0017)
+[2023-02-22 23:41:58,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.1). Total num frames: 1892352. Throughput: 0: 830.8. Samples: 472336. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:41:58,911][05631] Avg episode reward: [(0, '4.639')]
+[2023-02-22 23:42:03,907][05631] Fps is (10 sec: 3685.2, 60 sec: 3413.1, 300 sec: 3387.8). Total num frames: 1912832. Throughput: 0: 863.2. Samples: 477814. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:42:03,914][05631] Avg episode reward: [(0, '4.939')]
+[2023-02-22 23:42:06,642][11402] Updated weights for policy 0, policy_version 470 (0.0025)
+[2023-02-22 23:42:08,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.5, 300 sec: 3387.9). Total num frames: 1933312. Throughput: 0: 862.4. Samples: 484000. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:42:08,908][05631] Avg episode reward: [(0, '4.880')]
+[2023-02-22 23:42:13,904][05631] Fps is (10 sec: 3277.8, 60 sec: 3413.3, 300 sec: 3360.1). Total num frames: 1945600. Throughput: 0: 837.9. Samples: 486022. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:42:13,909][05631] Avg episode reward: [(0, '4.641')]
+[2023-02-22 23:42:18,904][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3360.1). Total num frames: 1957888. Throughput: 0: 827.0. Samples: 489896. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:42:18,908][05631] Avg episode reward: [(0, '4.552')]
+[2023-02-22 23:42:20,442][11402] Updated weights for policy 0, policy_version 480 (0.0035)
+[2023-02-22 23:42:23,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 1978368. Throughput: 0: 862.1. Samples: 495572. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:42:23,911][05631] Avg episode reward: [(0, '4.688')]
+[2023-02-22 23:42:28,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3387.9). Total num frames: 1998848. Throughput: 0: 862.6. Samples: 498720. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:42:28,912][05631] Avg episode reward: [(0, '4.598')]
+[2023-02-22 23:42:30,591][11402] Updated weights for policy 0, policy_version 490 (0.0014)
+[2023-02-22 23:42:33,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2015232. Throughput: 0: 838.8. Samples: 503764. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:42:33,907][05631] Avg episode reward: [(0, '4.445')]
+[2023-02-22 23:42:38,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2027520. Throughput: 0: 833.2. Samples: 507794. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:42:38,910][05631] Avg episode reward: [(0, '4.582')]
+[2023-02-22 23:42:43,621][11402] Updated weights for policy 0, policy_version 500 (0.0021)
+[2023-02-22 23:42:43,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 2048000. Throughput: 0: 847.2. Samples: 510462. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:42:43,910][05631] Avg episode reward: [(0, '4.807')]
+[2023-02-22 23:42:48,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 2068480. Throughput: 0: 861.9. Samples: 516596. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:42:48,907][05631] Avg episode reward: [(0, '4.648')]
+[2023-02-22 23:42:53,905][05631] Fps is (10 sec: 3276.4, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2080768. Throughput: 0: 831.8. Samples: 521434. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:42:53,908][05631] Avg episode reward: [(0, '4.616')]
+[2023-02-22 23:42:55,679][11402] Updated weights for policy 0, policy_version 510 (0.0019)
+[2023-02-22 23:42:58,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3374.0). Total num frames: 2097152. Throughput: 0: 830.8. Samples: 523410. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:42:58,907][05631] Avg episode reward: [(0, '4.531')]
+[2023-02-22 23:43:03,904][05631] Fps is (10 sec: 3277.2, 60 sec: 3345.2, 300 sec: 3387.9). Total num frames: 2113536. Throughput: 0: 856.4. Samples: 528432. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:43:03,911][05631] Avg episode reward: [(0, '4.480')]
+[2023-02-22 23:43:06,912][11402] Updated weights for policy 0, policy_version 520 (0.0022)
+[2023-02-22 23:43:08,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 2138112. Throughput: 0: 874.0. Samples: 534902. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:43:08,915][05631] Avg episode reward: [(0, '4.669')]
+[2023-02-22 23:43:13,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 2150400. Throughput: 0: 863.7. Samples: 537586. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:43:13,911][05631] Avg episode reward: [(0, '4.741')]
+[2023-02-22 23:43:18,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3387.9). Total num frames: 2166784. Throughput: 0: 839.6. Samples: 541544. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:43:18,912][05631] Avg episode reward: [(0, '4.730')]
+[2023-02-22 23:43:20,233][11402] Updated weights for policy 0, policy_version 530 (0.0020)
+[2023-02-22 23:43:23,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3387.9). Total num frames: 2183168. Throughput: 0: 867.4. Samples: 546826. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:43:23,906][05631] Avg episode reward: [(0, '4.878')]
+[2023-02-22 23:43:28,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 2203648. Throughput: 0: 879.0. Samples: 550018. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:28,911][05631] Avg episode reward: [(0, '4.842')]
+[2023-02-22 23:43:30,009][11402] Updated weights for policy 0, policy_version 540 (0.0025)
+[2023-02-22 23:43:33,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3415.6). Total num frames: 2224128. Throughput: 0: 871.0. Samples: 555792. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:33,911][05631] Avg episode reward: [(0, '4.430')]
+[2023-02-22 23:43:38,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3387.9). Total num frames: 2236416. Throughput: 0: 853.9. Samples: 559860. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:38,910][05631] Avg episode reward: [(0, '4.467')]
+[2023-02-22 23:43:43,349][11402] Updated weights for policy 0, policy_version 550 (0.0027)
+[2023-02-22 23:43:43,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 2252800. Throughput: 0: 855.5. Samples: 561908. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:43,906][05631] Avg episode reward: [(0, '4.584')]
+[2023-02-22 23:43:43,925][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000550_2252800.pth...
+[2023-02-22 23:43:44,049][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000351_1437696.pth
+[2023-02-22 23:43:48,904][05631] Fps is (10 sec: 3686.3, 60 sec: 3413.3, 300 sec: 3429.5). Total num frames: 2273280. Throughput: 0: 886.1. Samples: 568308. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:48,915][05631] Avg episode reward: [(0, '4.476')]
+[2023-02-22 23:43:53,846][11402] Updated weights for policy 0, policy_version 560 (0.0014)
+[2023-02-22 23:43:53,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3549.9, 300 sec: 3415.6). Total num frames: 2293760. Throughput: 0: 866.8. Samples: 573906. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:53,909][05631] Avg episode reward: [(0, '4.371')]
+[2023-02-22 23:43:58,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3481.6, 300 sec: 3401.8). Total num frames: 2306048. Throughput: 0: 851.0. Samples: 575882. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:43:58,908][05631] Avg episode reward: [(0, '4.574')]
+[2023-02-22 23:44:03,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3401.8). Total num frames: 2322432. Throughput: 0: 863.2. Samples: 580386. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:44:03,913][05631] Avg episode reward: [(0, '4.903')]
+[2023-02-22 23:44:06,103][11402] Updated weights for policy 0, policy_version 570 (0.0042)
+[2023-02-22 23:44:08,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3429.6). Total num frames: 2342912. Throughput: 0: 890.2. Samples: 586884. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2023-02-22 23:44:08,906][05631] Avg episode reward: [(0, '4.780')]
+[2023-02-22 23:44:13,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3549.9, 300 sec: 3429.5). Total num frames: 2363392. Throughput: 0: 891.2. Samples: 590122. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:44:13,909][05631] Avg episode reward: [(0, '4.532')]
+[2023-02-22 23:44:17,852][11402] Updated weights for policy 0, policy_version 580 (0.0020)
+[2023-02-22 23:44:18,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3401.8). Total num frames: 2375680. Throughput: 0: 858.3. Samples: 594414. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:44:18,915][05631] Avg episode reward: [(0, '4.614')]
+[2023-02-22 23:44:23,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3415.6). Total num frames: 2392064. Throughput: 0: 865.5. Samples: 598806. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:44:23,912][05631] Avg episode reward: [(0, '4.504')]
+[2023-02-22 23:44:28,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 2412544. Throughput: 0: 887.5. Samples: 601844. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:44:28,912][05631] Avg episode reward: [(0, '4.419')]
+[2023-02-22 23:44:29,552][11402] Updated weights for policy 0, policy_version 590 (0.0032)
+[2023-02-22 23:44:33,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 2433024. Throughput: 0: 881.3. Samples: 607966. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:44:33,910][05631] Avg episode reward: [(0, '4.540')]
+[2023-02-22 23:44:38,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3415.6). Total num frames: 2445312. Throughput: 0: 849.0. Samples: 612112. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:44:38,907][05631] Avg episode reward: [(0, '4.639')]
+[2023-02-22 23:44:42,762][11402] Updated weights for policy 0, policy_version 600 (0.0012)
+[2023-02-22 23:44:43,904][05631] Fps is (10 sec: 2457.6, 60 sec: 3413.3, 300 sec: 3401.9). Total num frames: 2457600. Throughput: 0: 851.8. Samples: 614212. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:44:43,907][05631] Avg episode reward: [(0, '4.761')]
+[2023-02-22 23:44:48,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.4, 300 sec: 3429.5). Total num frames: 2478080. Throughput: 0: 877.8. Samples: 619886. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:44:48,907][05631] Avg episode reward: [(0, '4.784')]
+[2023-02-22 23:44:52,863][11402] Updated weights for policy 0, policy_version 610 (0.0016)
+[2023-02-22 23:44:53,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3443.4). Total num frames: 2498560. Throughput: 0: 868.6. Samples: 625970. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:44:53,918][05631] Avg episode reward: [(0, '4.622')]
+[2023-02-22 23:44:58,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3415.6). Total num frames: 2514944. Throughput: 0: 841.2. Samples: 627978. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:44:58,907][05631] Avg episode reward: [(0, '4.478')]
+[2023-02-22 23:45:03,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 2527232. Throughput: 0: 834.9. Samples: 631984. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:03,907][05631] Avg episode reward: [(0, '4.492')]
+[2023-02-22 23:45:06,441][11402] Updated weights for policy 0, policy_version 620 (0.0033)
+[2023-02-22 23:45:08,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3429.5). Total num frames: 2547712. Throughput: 0: 866.0. Samples: 637776. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:08,913][05631] Avg episode reward: [(0, '4.801')]
+[2023-02-22 23:45:13,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3443.4). Total num frames: 2568192. Throughput: 0: 867.9. Samples: 640898. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:13,912][05631] Avg episode reward: [(0, '4.862')]
+[2023-02-22 23:45:17,445][11402] Updated weights for policy 0, policy_version 630 (0.0020)
+[2023-02-22 23:45:18,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3415.7). Total num frames: 2580480. Throughput: 0: 839.6. Samples: 645750. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:18,909][05631] Avg episode reward: [(0, '4.891')]
+[2023-02-22 23:45:23,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 2596864. Throughput: 0: 836.0. Samples: 649732. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:23,912][05631] Avg episode reward: [(0, '4.774')]
+[2023-02-22 23:45:28,904][05631] Fps is (10 sec: 3686.3, 60 sec: 3413.3, 300 sec: 3429.5). Total num frames: 2617344. Throughput: 0: 850.8. Samples: 652498. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:45:28,909][05631] Avg episode reward: [(0, '4.810')]
+[2023-02-22 23:45:29,912][11402] Updated weights for policy 0, policy_version 640 (0.0017)
+[2023-02-22 23:45:33,905][05631] Fps is (10 sec: 4095.9, 60 sec: 3413.3, 300 sec: 3443.4). Total num frames: 2637824. Throughput: 0: 868.7. Samples: 658980. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:33,911][05631] Avg episode reward: [(0, '4.690')]
+[2023-02-22 23:45:38,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 2650112. Throughput: 0: 844.4. Samples: 663968. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:45:38,908][05631] Avg episode reward: [(0, '4.590')]
+[2023-02-22 23:45:41,971][11402] Updated weights for policy 0, policy_version 650 (0.0025)
+[2023-02-22 23:45:43,905][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3415.7). Total num frames: 2666496. Throughput: 0: 845.6. Samples: 666030. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:45:43,912][05631] Avg episode reward: [(0, '4.603')]
+[2023-02-22 23:45:43,924][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000651_2666496.pth...
+[2023-02-22 23:45:44,067][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000450_1843200.pth
+[2023-02-22 23:45:48,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 2686976. Throughput: 0: 866.5. Samples: 670978. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:45:48,912][05631] Avg episode reward: [(0, '4.608')]
+[2023-02-22 23:45:52,715][11402] Updated weights for policy 0, policy_version 660 (0.0013)
+[2023-02-22 23:45:53,904][05631] Fps is (10 sec: 4096.2, 60 sec: 3481.6, 300 sec: 3457.3). Total num frames: 2707456. Throughput: 0: 878.6. Samples: 677312. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:53,909][05631] Avg episode reward: [(0, '4.865')]
+[2023-02-22 23:45:58,904][05631] Fps is (10 sec: 3686.3, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 2723840. Throughput: 0: 868.8. Samples: 679996. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:45:58,908][05631] Avg episode reward: [(0, '4.826')]
+[2023-02-22 23:46:03,904][05631] Fps is (10 sec: 2867.1, 60 sec: 3481.6, 300 sec: 3415.7). Total num frames: 2736128. Throughput: 0: 853.9. Samples: 684176. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:46:03,915][05631] Avg episode reward: [(0, '4.655')]
+[2023-02-22 23:46:05,964][11402] Updated weights for policy 0, policy_version 670 (0.0042)
+[2023-02-22 23:46:08,904][05631] Fps is (10 sec: 2867.3, 60 sec: 3413.3, 300 sec: 3429.5). Total num frames: 2752512. Throughput: 0: 881.3. Samples: 689390. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:46:08,907][05631] Avg episode reward: [(0, '4.633')]
+[2023-02-22 23:46:13,904][05631] Fps is (10 sec: 4096.1, 60 sec: 3481.6, 300 sec: 3457.3). Total num frames: 2777088. Throughput: 0: 890.3. Samples: 692562. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:46:13,907][05631] Avg episode reward: [(0, '4.646')]
+[2023-02-22 23:46:15,831][11402] Updated weights for policy 0, policy_version 680 (0.0031)
+[2023-02-22 23:46:18,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3549.9, 300 sec: 3443.4). Total num frames: 2793472. Throughput: 0: 874.2. Samples: 698318. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:46:18,910][05631] Avg episode reward: [(0, '4.606')]
+[2023-02-22 23:46:23,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3415.7). Total num frames: 2805760. Throughput: 0: 853.6. Samples: 702380. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:46:23,911][05631] Avg episode reward: [(0, '4.538')]
+[2023-02-22 23:46:28,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3413.4, 300 sec: 3429.5). Total num frames: 2822144. Throughput: 0: 852.0. Samples: 704370. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:46:28,907][05631] Avg episode reward: [(0, '4.635')]
+[2023-02-22 23:46:29,261][11402] Updated weights for policy 0, policy_version 690 (0.0040)
+[2023-02-22 23:46:33,904][05631] Fps is (10 sec: 4095.9, 60 sec: 3481.6, 300 sec: 3471.2). Total num frames: 2846720. Throughput: 0: 888.7. Samples: 710968. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:46:33,906][05631] Avg episode reward: [(0, '4.670')]
+[2023-02-22 23:46:38,912][05631] Fps is (10 sec: 4092.7, 60 sec: 3549.4, 300 sec: 3457.2). Total num frames: 2863104. Throughput: 0: 875.5. Samples: 716716. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:46:38,922][05631] Avg episode reward: [(0, '4.600')]
+[2023-02-22 23:46:39,711][11402] Updated weights for policy 0, policy_version 700 (0.0013)
+[2023-02-22 23:46:43,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3429.5). Total num frames: 2875392. Throughput: 0: 861.5. Samples: 718762. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:46:43,907][05631] Avg episode reward: [(0, '4.558')]
+[2023-02-22 23:46:48,904][05631] Fps is (10 sec: 2869.5, 60 sec: 3413.3, 300 sec: 3443.4). Total num frames: 2891776. Throughput: 0: 866.3. Samples: 723160. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:46:48,906][05631] Avg episode reward: [(0, '4.860')]
+[2023-02-22 23:46:51,973][11402] Updated weights for policy 0, policy_version 710 (0.0023)
+[2023-02-22 23:46:53,904][05631] Fps is (10 sec: 4096.1, 60 sec: 3481.6, 300 sec: 3471.2). Total num frames: 2916352. Throughput: 0: 889.6. Samples: 729424. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:46:53,912][05631] Avg episode reward: [(0, '5.049')]
+[2023-02-22 23:46:53,923][11388] Saving new best policy, reward=5.049!
+[2023-02-22 23:46:58,906][05631] Fps is (10 sec: 4095.4, 60 sec: 3481.5, 300 sec: 3457.3). Total num frames: 2932736. Throughput: 0: 886.9. Samples: 732474. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:46:58,911][05631] Avg episode reward: [(0, '4.561')]
+[2023-02-22 23:47:03,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3429.5). Total num frames: 2945024. Throughput: 0: 852.5. Samples: 736682. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:47:03,911][05631] Avg episode reward: [(0, '4.560')]
+[2023-02-22 23:47:04,193][11402] Updated weights for policy 0, policy_version 720 (0.0017)
+[2023-02-22 23:47:08,904][05631] Fps is (10 sec: 2867.6, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 2961408. Throughput: 0: 862.0. Samples: 741172. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:47:08,912][05631] Avg episode reward: [(0, '4.552')]
+[2023-02-22 23:47:13,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3471.2). Total num frames: 2981888. Throughput: 0: 889.1. Samples: 744378. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:47:13,907][05631] Avg episode reward: [(0, '4.634')]
+[2023-02-22 23:47:15,075][11402] Updated weights for policy 0, policy_version 730 (0.0040)
+[2023-02-22 23:47:18,911][05631] Fps is (10 sec: 4093.0, 60 sec: 3481.2, 300 sec: 3471.1). Total num frames: 3002368. Throughput: 0: 888.3. Samples: 750948. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:47:18,914][05631] Avg episode reward: [(0, '4.812')]
+[2023-02-22 23:47:23,904][05631] Fps is (10 sec: 3276.7, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 3014656. Throughput: 0: 849.1. Samples: 754920. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:47:23,910][05631] Avg episode reward: [(0, '4.914')]
+[2023-02-22 23:47:28,529][11402] Updated weights for policy 0, policy_version 740 (0.0019)
+[2023-02-22 23:47:28,904][05631] Fps is (10 sec: 2869.3, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 3031040. Throughput: 0: 849.5. Samples: 756990. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:47:28,914][05631] Avg episode reward: [(0, '4.916')]
+[2023-02-22 23:47:33,904][05631] Fps is (10 sec: 3686.5, 60 sec: 3413.3, 300 sec: 3471.2). Total num frames: 3051520. Throughput: 0: 880.3. Samples: 762772. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:47:33,911][05631] Avg episode reward: [(0, '4.705')]
+[2023-02-22 23:47:38,005][11402] Updated weights for policy 0, policy_version 750 (0.0015)
+[2023-02-22 23:47:38,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3482.1, 300 sec: 3471.2). Total num frames: 3072000. Throughput: 0: 881.2. Samples: 769076. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:47:38,915][05631] Avg episode reward: [(0, '4.615')]
+[2023-02-22 23:47:43,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3549.9, 300 sec: 3457.3). Total num frames: 3088384. Throughput: 0: 858.9. Samples: 771122. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:47:43,912][05631] Avg episode reward: [(0, '4.800')]
+[2023-02-22 23:47:43,930][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000754_3088384.pth...
+[2023-02-22 23:47:44,111][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000550_2252800.pth
+[2023-02-22 23:47:48,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3457.3). Total num frames: 3100672. Throughput: 0: 853.4. Samples: 775086. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:47:48,910][05631] Avg episode reward: [(0, '4.830')]
+[2023-02-22 23:47:51,515][11402] Updated weights for policy 0, policy_version 760 (0.0023)
+[2023-02-22 23:47:53,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3471.2). Total num frames: 3121152. Throughput: 0: 883.5. Samples: 780928. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:47:53,907][05631] Avg episode reward: [(0, '4.883')]
+[2023-02-22 23:47:58,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.7, 300 sec: 3485.1). Total num frames: 3141632. Throughput: 0: 883.7. Samples: 784146. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:47:58,907][05631] Avg episode reward: [(0, '4.331')]
+[2023-02-22 23:48:02,593][11402] Updated weights for policy 0, policy_version 770 (0.0023)
+[2023-02-22 23:48:03,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 3153920. Throughput: 0: 847.1. Samples: 789062. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:48:03,914][05631] Avg episode reward: [(0, '4.278')]
+[2023-02-22 23:48:08,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3457.3). Total num frames: 3170304. Throughput: 0: 849.1. Samples: 793128. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:48:08,910][05631] Avg episode reward: [(0, '4.467')]
+[2023-02-22 23:48:13,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3471.2). Total num frames: 3190784. Throughput: 0: 867.5. Samples: 796028. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:48:13,911][05631] Avg episode reward: [(0, '4.844')]
+[2023-02-22 23:48:14,624][11402] Updated weights for policy 0, policy_version 780 (0.0019)
+[2023-02-22 23:48:18,904][05631] Fps is (10 sec: 4096.1, 60 sec: 3482.0, 300 sec: 3485.1). Total num frames: 3211264. Throughput: 0: 880.3. Samples: 802384. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:48:18,907][05631] Avg episode reward: [(0, '4.708')]
+[2023-02-22 23:48:23,904][05631] Fps is (10 sec: 3276.7, 60 sec: 3481.6, 300 sec: 3457.3). Total num frames: 3223552. Throughput: 0: 846.2. Samples: 807156. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:48:23,912][05631] Avg episode reward: [(0, '4.558')]
+[2023-02-22 23:48:27,131][11402] Updated weights for policy 0, policy_version 790 (0.0021)
+[2023-02-22 23:48:28,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 3239936. Throughput: 0: 844.6. Samples: 809130. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:48:28,907][05631] Avg episode reward: [(0, '4.451')]
+[2023-02-22 23:48:33,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3457.3). Total num frames: 3256320. Throughput: 0: 870.0. Samples: 814236. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:48:33,907][05631] Avg episode reward: [(0, '4.528')]
+[2023-02-22 23:48:37,962][11402] Updated weights for policy 0, policy_version 800 (0.0016)
+[2023-02-22 23:48:38,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3481.6, 300 sec: 3485.1). Total num frames: 3280896. Throughput: 0: 880.7. Samples: 820558. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:48:38,910][05631] Avg episode reward: [(0, '4.724')]
+[2023-02-22 23:48:43,904][05631] Fps is (10 sec: 3686.5, 60 sec: 3413.3, 300 sec: 3457.3). Total num frames: 3293184. Throughput: 0: 866.5. Samples: 823140. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:48:43,907][05631] Avg episode reward: [(0, '4.668')]
+[2023-02-22 23:48:48,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 3309568. Throughput: 0: 849.0. Samples: 827266. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:48:48,910][05631] Avg episode reward: [(0, '4.877')]
+[2023-02-22 23:48:51,318][11402] Updated weights for policy 0, policy_version 810 (0.0019)
+[2023-02-22 23:48:53,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3457.3). Total num frames: 3325952. Throughput: 0: 873.2. Samples: 832422. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:48:53,910][05631] Avg episode reward: [(0, '4.767')]
+[2023-02-22 23:48:58,908][05631] Fps is (10 sec: 3685.1, 60 sec: 3413.1, 300 sec: 3471.1). Total num frames: 3346432. Throughput: 0: 878.1. Samples: 835546. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:48:58,910][05631] Avg episode reward: [(0, '4.604')]
+[2023-02-22 23:49:01,075][11402] Updated weights for policy 0, policy_version 820 (0.0034)
+[2023-02-22 23:49:03,910][05631] Fps is (10 sec: 3684.3, 60 sec: 3481.3, 300 sec: 3457.2). Total num frames: 3362816. Throughput: 0: 863.6. Samples: 841250. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:49:03,913][05631] Avg episode reward: [(0, '4.576')]
+[2023-02-22 23:49:08,904][05631] Fps is (10 sec: 3278.0, 60 sec: 3481.6, 300 sec: 3443.4). Total num frames: 3379200. Throughput: 0: 846.5. Samples: 845250. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:49:08,906][05631] Avg episode reward: [(0, '4.498')]
+[2023-02-22 23:49:13,904][05631] Fps is (10 sec: 3278.7, 60 sec: 3413.3, 300 sec: 3457.3). Total num frames: 3395584. Throughput: 0: 849.2. Samples: 847342. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:49:13,909][05631] Avg episode reward: [(0, '4.506')]
+[2023-02-22 23:49:14,827][11402] Updated weights for policy 0, policy_version 830 (0.0030)
+[2023-02-22 23:49:18,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3413.3, 300 sec: 3471.2). Total num frames: 3416064. Throughput: 0: 875.2. Samples: 853618. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:49:18,906][05631] Avg episode reward: [(0, '4.693')]
+[2023-02-22 23:49:23,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3481.6, 300 sec: 3457.3). Total num frames: 3432448. Throughput: 0: 857.6. Samples: 859148. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:49:23,909][05631] Avg episode reward: [(0, '4.597')]
+[2023-02-22 23:49:26,309][11402] Updated weights for policy 0, policy_version 840 (0.0017)
+[2023-02-22 23:49:28,904][05631] Fps is (10 sec: 2867.1, 60 sec: 3413.3, 300 sec: 3429.5). Total num frames: 3444736. Throughput: 0: 839.8. Samples: 860930. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:49:28,910][05631] Avg episode reward: [(0, '4.558')]
+[2023-02-22 23:49:33,904][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3429.5). Total num frames: 3457024. Throughput: 0: 831.7. Samples: 864694. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:49:33,907][05631] Avg episode reward: [(0, '4.570')]
+[2023-02-22 23:49:38,756][11402] Updated weights for policy 0, policy_version 850 (0.0015)
+[2023-02-22 23:49:38,904][05631] Fps is (10 sec: 3686.5, 60 sec: 3345.1, 300 sec: 3471.2). Total num frames: 3481600. Throughput: 0: 854.2. Samples: 870862. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:49:38,907][05631] Avg episode reward: [(0, '4.601')]
+[2023-02-22 23:49:43,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3413.3, 300 sec: 3457.3). Total num frames: 3497984. Throughput: 0: 853.9. Samples: 873968. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:49:43,912][05631] Avg episode reward: [(0, '4.768')]
+[2023-02-22 23:49:43,927][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000854_3497984.pth...
+[2023-02-22 23:49:44,062][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000651_2666496.pth
+[2023-02-22 23:49:48,906][05631] Fps is (10 sec: 2866.6, 60 sec: 3344.9, 300 sec: 3429.5). Total num frames: 3510272. Throughput: 0: 819.9. Samples: 878142. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:49:48,918][05631] Avg episode reward: [(0, '4.804')]
+[2023-02-22 23:49:52,321][11402] Updated weights for policy 0, policy_version 860 (0.0027)
+[2023-02-22 23:49:53,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3429.5). Total num frames: 3526656. Throughput: 0: 822.6. Samples: 882266. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:49:53,907][05631] Avg episode reward: [(0, '4.853')]
+[2023-02-22 23:49:58,904][05631] Fps is (10 sec: 3687.3, 60 sec: 3345.3, 300 sec: 3457.3). Total num frames: 3547136. Throughput: 0: 843.9. Samples: 885318. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:49:58,910][05631] Avg episode reward: [(0, '5.042')]
+[2023-02-22 23:50:02,647][11402] Updated weights for policy 0, policy_version 870 (0.0026)
+[2023-02-22 23:50:03,907][05631] Fps is (10 sec: 4094.9, 60 sec: 3413.5, 300 sec: 3457.3). Total num frames: 3567616. Throughput: 0: 843.4. Samples: 891572. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:50:03,913][05631] Avg episode reward: [(0, '5.002')]
+[2023-02-22 23:50:08,907][05631] Fps is (10 sec: 3275.9, 60 sec: 3344.9, 300 sec: 3429.5). Total num frames: 3579904. Throughput: 0: 811.4. Samples: 895662. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:50:08,914][05631] Avg episode reward: [(0, '4.822')]
+[2023-02-22 23:50:13,904][05631] Fps is (10 sec: 2458.2, 60 sec: 3276.8, 300 sec: 3429.5). Total num frames: 3592192. Throughput: 0: 814.8. Samples: 897598. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2023-02-22 23:50:13,912][05631] Avg episode reward: [(0, '4.515')]
+[2023-02-22 23:50:16,845][11402] Updated weights for policy 0, policy_version 880 (0.0021)
+[2023-02-22 23:50:18,904][05631] Fps is (10 sec: 3277.7, 60 sec: 3276.8, 300 sec: 3443.4). Total num frames: 3612672. Throughput: 0: 842.8. Samples: 902618. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:50:18,907][05631] Avg episode reward: [(0, '4.446')]
+[2023-02-22 23:50:23,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3443.4). Total num frames: 3633152. Throughput: 0: 842.9. Samples: 908794. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:50:23,910][05631] Avg episode reward: [(0, '4.407')]
+[2023-02-22 23:50:27,654][11402] Updated weights for policy 0, policy_version 890 (0.0018)
+[2023-02-22 23:50:28,905][05631] Fps is (10 sec: 3276.6, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 3645440. Throughput: 0: 825.5. Samples: 911116. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:50:28,915][05631] Avg episode reward: [(0, '4.415')]
+[2023-02-22 23:50:33,904][05631] Fps is (10 sec: 2457.6, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 3657728. Throughput: 0: 822.1. Samples: 915134. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2023-02-22 23:50:33,909][05631] Avg episode reward: [(0, '4.589')]
+[2023-02-22 23:50:38,904][05631] Fps is (10 sec: 3277.0, 60 sec: 3276.8, 300 sec: 3429.5). Total num frames: 3678208. Throughput: 0: 848.9. Samples: 920466. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:50:38,907][05631] Avg episode reward: [(0, '4.657')]
+[2023-02-22 23:50:40,411][11402] Updated weights for policy 0, policy_version 900 (0.0014)
+[2023-02-22 23:50:43,904][05631] Fps is (10 sec: 4096.0, 60 sec: 3345.1, 300 sec: 3429.5). Total num frames: 3698688. Throughput: 0: 851.6. Samples: 923638. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:50:43,910][05631] Avg episode reward: [(0, '4.567')]
+[2023-02-22 23:50:48,907][05631] Fps is (10 sec: 3685.5, 60 sec: 3413.3, 300 sec: 3415.6). Total num frames: 3715072. Throughput: 0: 835.2. Samples: 929158. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:50:48,915][05631] Avg episode reward: [(0, '4.529')]
+[2023-02-22 23:50:52,614][11402] Updated weights for policy 0, policy_version 910 (0.0015)
+[2023-02-22 23:50:53,905][05631] Fps is (10 sec: 2866.9, 60 sec: 3345.0, 300 sec: 3401.8). Total num frames: 3727360. Throughput: 0: 833.5. Samples: 933168. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:50:53,909][05631] Avg episode reward: [(0, '4.433')]
+[2023-02-22 23:50:58,904][05631] Fps is (10 sec: 3277.6, 60 sec: 3345.1, 300 sec: 3429.5). Total num frames: 3747840. Throughput: 0: 837.4. Samples: 935280. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:50:58,912][05631] Avg episode reward: [(0, '4.549')]
+[2023-02-22 23:51:03,904][05631] Fps is (10 sec: 3686.7, 60 sec: 3276.9, 300 sec: 3429.5). Total num frames: 3764224. Throughput: 0: 863.8. Samples: 941488. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:51:03,913][05631] Avg episode reward: [(0, '4.351')]
+[2023-02-22 23:51:03,933][11402] Updated weights for policy 0, policy_version 920 (0.0028)
+[2023-02-22 23:51:08,904][05631] Fps is (10 sec: 3686.5, 60 sec: 3413.5, 300 sec: 3415.6). Total num frames: 3784704. Throughput: 0: 847.2. Samples: 946918. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:51:08,910][05631] Avg episode reward: [(0, '4.382')]
+[2023-02-22 23:51:13,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3413.3, 300 sec: 3401.8). Total num frames: 3796992. Throughput: 0: 838.7. Samples: 948858. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:51:13,907][05631] Avg episode reward: [(0, '4.390')]
+[2023-02-22 23:51:17,222][11402] Updated weights for policy 0, policy_version 930 (0.0019)
+[2023-02-22 23:51:18,904][05631] Fps is (10 sec: 2867.2, 60 sec: 3345.1, 300 sec: 3415.6). Total num frames: 3813376. Throughput: 0: 846.1. Samples: 953210. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2023-02-22 23:51:18,906][05631] Avg episode reward: [(0, '4.371')]
+[2023-02-22 23:51:23,904][05631] Fps is (10 sec: 3686.4, 60 sec: 3345.1, 300 sec: 3429.5). Total num frames: 3833856. Throughput: 0: 867.4. Samples: 959498. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:51:23,906][05631] Avg episode reward: [(0, '4.449')]
+[2023-02-22 23:51:27,444][11402] Updated weights for policy 0, policy_version 940 (0.0024)
+[2023-02-22 23:51:28,907][05631] Fps is (10 sec: 3685.2, 60 sec: 3413.2, 300 sec: 3401.7). Total num frames: 3850240. Throughput: 0: 864.0. Samples: 962520. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2023-02-22 23:51:28,913][05631] Avg episode reward: [(0, '4.694')]
+[2023-02-22 23:51:33,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3481.6, 300 sec: 3401.9). Total num frames: 3866624. Throughput: 0: 831.0. Samples: 966550. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:51:33,907][05631] Avg episode reward: [(0, '4.934')]
+[2023-02-22 23:51:38,904][05631] Fps is (10 sec: 2868.2, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 3878912. Throughput: 0: 836.6. Samples: 970816. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:51:38,911][05631] Avg episode reward: [(0, '4.935')]
+[2023-02-22 23:51:41,154][11402] Updated weights for policy 0, policy_version 950 (0.0016)
+[2023-02-22 23:51:43,904][05631] Fps is (10 sec: 3276.7, 60 sec: 3345.0, 300 sec: 3415.6). Total num frames: 3899392. Throughput: 0: 857.5. Samples: 973868. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:51:43,908][05631] Avg episode reward: [(0, '4.654')]
+[2023-02-22 23:51:43,921][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000952_3899392.pth...
+[2023-02-22 23:51:44,097][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000754_3088384.pth
+[2023-02-22 23:51:48,911][05631] Fps is (10 sec: 4093.0, 60 sec: 3413.1, 300 sec: 3401.7). Total num frames: 3919872. Throughput: 0: 854.8. Samples: 979962. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:51:48,919][05631] Avg episode reward: [(0, '4.479')]
+[2023-02-22 23:51:52,951][11402] Updated weights for policy 0, policy_version 960 (0.0019)
+[2023-02-22 23:51:53,904][05631] Fps is (10 sec: 3276.9, 60 sec: 3413.4, 300 sec: 3387.9). Total num frames: 3932160. Throughput: 0: 823.4. Samples: 983970. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:51:53,907][05631] Avg episode reward: [(0, '4.549')]
+[2023-02-22 23:51:58,904][05631] Fps is (10 sec: 2459.3, 60 sec: 3276.8, 300 sec: 3387.9). Total num frames: 3944448. Throughput: 0: 821.8. Samples: 985838. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2023-02-22 23:51:58,907][05631] Avg episode reward: [(0, '4.631')]
+[2023-02-22 23:52:03,904][05631] Fps is (10 sec: 3276.8, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 3964928. Throughput: 0: 847.0. Samples: 991324. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:52:03,907][05631] Avg episode reward: [(0, '4.554')]
+[2023-02-22 23:52:05,063][11402] Updated weights for policy 0, policy_version 970 (0.0025)
+[2023-02-22 23:52:08,904][05631] Fps is (10 sec: 4096.1, 60 sec: 3345.1, 300 sec: 3401.8). Total num frames: 3985408. Throughput: 0: 847.3. Samples: 997626. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2023-02-22 23:52:08,918][05631] Avg episode reward: [(0, '4.466')]
+[2023-02-22 23:52:13,904][05631] Fps is (10 sec: 3686.3, 60 sec: 3413.3, 300 sec: 3388.0). Total num frames: 4001792. Throughput: 0: 823.7. Samples: 999584. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2023-02-22 23:52:13,907][05631] Avg episode reward: [(0, '4.563')]
+[2023-02-22 23:52:15,232][11388] Stopping Batcher_0...
+[2023-02-22 23:52:15,232][11388] Loop batcher_evt_loop terminating...
+[2023-02-22 23:52:15,235][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
+[2023-02-22 23:52:15,233][05631] Component Batcher_0 stopped!
+[2023-02-22 23:52:15,282][11402] Weights refcount: 2 0
+[2023-02-22 23:52:15,288][11402] Stopping InferenceWorker_p0-w0...
+[2023-02-22 23:52:15,290][05631] Component InferenceWorker_p0-w0 stopped!
+[2023-02-22 23:52:15,299][11402] Loop inference_proc0-0_evt_loop terminating...
+[2023-02-22 23:52:15,311][05631] Component RolloutWorker_w7 stopped!
+[2023-02-22 23:52:15,325][11406] Stopping RolloutWorker_w1...
+[2023-02-22 23:52:15,326][11406] Loop rollout_proc1_evt_loop terminating...
+[2023-02-22 23:52:15,325][05631] Component RolloutWorker_w3 stopped!
+[2023-02-22 23:52:15,330][05631] Component RolloutWorker_w1 stopped!
+[2023-02-22 23:52:15,311][11412] Stopping RolloutWorker_w7...
+[2023-02-22 23:52:15,332][11412] Loop rollout_proc7_evt_loop terminating...
+[2023-02-22 23:52:15,320][11409] Stopping RolloutWorker_w3...
+[2023-02-22 23:52:15,336][11409] Loop rollout_proc3_evt_loop terminating...
+[2023-02-22 23:52:15,348][11410] Stopping RolloutWorker_w5...
+[2023-02-22 23:52:15,349][05631] Component RolloutWorker_w5 stopped!
+[2023-02-22 23:52:15,349][11410] Loop rollout_proc5_evt_loop terminating...
+[2023-02-22 23:52:15,426][05631] Component RolloutWorker_w6 stopped!
+[2023-02-22 23:52:15,433][11411] Stopping RolloutWorker_w6...
+[2023-02-22 23:52:15,437][11388] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000854_3497984.pth
+[2023-02-22 23:52:15,449][11388] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
+[2023-02-22 23:52:15,461][05631] Component RolloutWorker_w4 stopped!
+[2023-02-22 23:52:15,463][11408] Stopping RolloutWorker_w4...
+[2023-02-22 23:52:15,464][11408] Loop rollout_proc4_evt_loop terminating...
+[2023-02-22 23:52:15,434][11411] Loop rollout_proc6_evt_loop terminating...
+[2023-02-22 23:52:15,484][05631] Component RolloutWorker_w2 stopped!
+[2023-02-22 23:52:15,486][11407] Stopping RolloutWorker_w2...
+[2023-02-22 23:52:15,487][11407] Loop rollout_proc2_evt_loop terminating...
+[2023-02-22 23:52:15,495][05631] Component RolloutWorker_w0 stopped!
+[2023-02-22 23:52:15,501][11403] Stopping RolloutWorker_w0...
+[2023-02-22 23:52:15,502][11403] Loop rollout_proc0_evt_loop terminating...
+[2023-02-22 23:52:15,806][05631] Component LearnerWorker_p0 stopped!
+[2023-02-22 23:52:15,809][05631] Waiting for process learner_proc0 to stop...
+[2023-02-22 23:52:15,811][11388] Stopping LearnerWorker_p0...
+[2023-02-22 23:52:15,812][11388] Loop learner_proc0_evt_loop terminating...
+[2023-02-22 23:52:18,154][05631] Waiting for process inference_proc0-0 to join...
+[2023-02-22 23:52:18,644][05631] Waiting for process rollout_proc0 to join...
+[2023-02-22 23:52:19,367][05631] Waiting for process rollout_proc1 to join...
+[2023-02-22 23:52:19,369][05631] Waiting for process rollout_proc2 to join...
+[2023-02-22 23:52:19,373][05631] Waiting for process rollout_proc3 to join...
+[2023-02-22 23:52:19,376][05631] Waiting for process rollout_proc4 to join...
+[2023-02-22 23:52:19,379][05631] Waiting for process rollout_proc5 to join...
+[2023-02-22 23:52:19,381][05631] Waiting for process rollout_proc6 to join...
+[2023-02-22 23:52:19,387][05631] Waiting for process rollout_proc7 to join...
+[2023-02-22 23:52:19,389][05631] Batcher 0 profile tree view:
+batching: 27.4365, releasing_batches: 0.0255
+[2023-02-22 23:52:19,392][05631] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0010
+  wait_policy_total: 587.6101
+update_model: 8.2518
+  weight_update: 0.0021
+one_step: 0.0078
+  handle_policy_step: 559.1051
+    deserialize: 16.1116, stack: 3.1038, obs_to_device_normalize: 120.2302, forward: 276.0293, send_messages: 27.5800
+    prepare_outputs: 88.2934
+      to_cpu: 54.9625
+[2023-02-22 23:52:19,394][05631] Learner 0 profile tree view:
+misc: 0.0066, prepare_batch: 17.7100
+train: 78.4534
+  epoch_init: 0.0058, minibatch_init: 0.0336, losses_postprocess: 0.5964, kl_divergence: 0.6001, after_optimizer: 33.1416
+  calculate_losses: 28.4165
+    losses_init: 0.0044, forward_head: 1.8369, bptt_initial: 18.7620, tail: 1.2395, advantages_returns: 0.2741, losses: 3.4618
+    bptt: 2.4634
+      bptt_forward_core: 2.3453
+  update: 14.9834
+    clip: 1.4365
+[2023-02-22 23:52:19,397][05631] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.2966, enqueue_policy_requests: 164.4713, env_step: 895.9777, overhead: 24.4791, complete_rollouts: 7.8818
+save_policy_outputs: 22.8584
+  split_output_tensors: 11.0051
+[2023-02-22 23:52:19,399][05631] RolloutWorker_w7 profile tree view:
+wait_for_trajectories: 0.3409, enqueue_policy_requests: 166.1919, env_step: 894.0748, overhead: 24.5370, complete_rollouts: 7.6446
+save_policy_outputs: 22.6258
+  split_output_tensors: 10.7994
+[2023-02-22 23:52:19,404][05631] Loop Runner_EvtLoop terminating...
+[2023-02-22 23:52:19,406][05631] Runner profile tree view:
+main_loop: 1230.3498
+[2023-02-22 23:52:19,408][05631] Collected {0: 4005888}, FPS: 3255.9
+[2023-02-22 23:52:19,456][05631] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2023-02-22 23:52:19,457][05631] Overriding arg 'num_workers' with value 1 passed from command line
+[2023-02-22 23:52:19,458][05631] Adding new argument 'no_render'=True that is not in the saved config file!
+[2023-02-22 23:52:19,460][05631] Adding new argument 'save_video'=True that is not in the saved config file!
+[2023-02-22 23:52:19,461][05631] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2023-02-22 23:52:19,462][05631] Adding new argument 'video_name'=None that is not in the saved config file!
+[2023-02-22 23:52:19,463][05631] Adding new argument 'max_num_frames'=1000000000.0 that is not in the saved config file!
+[2023-02-22 23:52:19,465][05631] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2023-02-22 23:52:19,466][05631] Adding new argument 'push_to_hub'=False that is not in the saved config file!
+[2023-02-22 23:52:19,467][05631] Adding new argument 'hf_repository'=None that is not in the saved config file!
+[2023-02-22 23:52:19,468][05631] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2023-02-22 23:52:19,469][05631] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2023-02-22 23:52:19,471][05631] Adding new argument 'train_script'=None that is not in the saved config file!
+[2023-02-22 23:52:19,472][05631] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2023-02-22 23:52:19,473][05631] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2023-02-22 23:52:19,503][05631] Doom resolution: 160x120, resize resolution: (128, 72)
+[2023-02-22 23:52:19,507][05631] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-22 23:52:19,510][05631] RunningMeanStd input shape: (1,)
+[2023-02-22 23:52:19,529][05631] ConvEncoder: input_channels=3
+[2023-02-22 23:52:20,207][05631] Conv encoder output size: 512
+[2023-02-22 23:52:20,209][05631] Policy head output size: 512
+[2023-02-22 23:52:22,551][05631] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
+[2023-02-22 23:52:23,838][05631] Num frames 100...
+[2023-02-22 23:52:23,950][05631] Num frames 200...
+[2023-02-22 23:52:24,064][05631] Num frames 300...
+[2023-02-22 23:52:24,213][05631] Avg episode rewards: #0: 3.840, true rewards: #0: 3.840
+[2023-02-22 23:52:24,215][05631] Avg episode reward: 3.840, avg true_objective: 3.840
+[2023-02-22 23:52:24,239][05631] Num frames 400...
+[2023-02-22 23:52:24,352][05631] Num frames 500...
+[2023-02-22 23:52:24,466][05631] Num frames 600...
+[2023-02-22 23:52:24,581][05631] Num frames 700...
+[2023-02-22 23:52:24,714][05631] Avg episode rewards: #0: 3.840, true rewards: #0: 3.840
+[2023-02-22 23:52:24,716][05631] Avg episode reward: 3.840, avg true_objective: 3.840
+[2023-02-22 23:52:24,759][05631] Num frames 800...
+[2023-02-22 23:52:24,889][05631] Num frames 900...
+[2023-02-22 23:52:25,004][05631] Num frames 1000...
+[2023-02-22 23:52:25,126][05631] Num frames 1100...
+[2023-02-22 23:52:25,239][05631] Avg episode rewards: #0: 3.840, true rewards: #0: 3.840
+[2023-02-22 23:52:25,242][05631] Avg episode reward: 3.840, avg true_objective: 3.840
+[2023-02-22 23:52:25,301][05631] Num frames 1200...
+[2023-02-22 23:52:25,423][05631] Num frames 1300...
+[2023-02-22 23:52:25,542][05631] Num frames 1400...
+[2023-02-22 23:52:25,673][05631] Num frames 1500...
+[2023-02-22 23:52:25,775][05631] Avg episode rewards: #0: 3.840, true rewards: #0: 3.840
+[2023-02-22 23:52:25,777][05631] Avg episode reward: 3.840, avg true_objective: 3.840
+[2023-02-22 23:52:25,876][05631] Num frames 1600...
+[2023-02-22 23:52:25,993][05631] Num frames 1700...
+[2023-02-22 23:52:26,108][05631] Num frames 1800...
+[2023-02-22 23:52:26,224][05631] Num frames 1900...
+[2023-02-22 23:52:26,309][05631] Avg episode rewards: #0: 3.840, true rewards: #0: 3.840
+[2023-02-22 23:52:26,312][05631] Avg episode reward: 3.840, avg true_objective: 3.840
+[2023-02-22 23:52:26,415][05631] Num frames 2000...
+[2023-02-22 23:52:26,545][05631] Num frames 2100...
+[2023-02-22 23:52:26,667][05631] Num frames 2200...
+[2023-02-22 23:52:26,789][05631] Num frames 2300...
+[2023-02-22 23:52:26,886][05631] Avg episode rewards: #0: 4.060, true rewards: #0: 3.893
+[2023-02-22 23:52:26,888][05631] Avg episode reward: 4.060, avg true_objective: 3.893
+[2023-02-22 23:52:26,969][05631] Num frames 2400...
+[2023-02-22 23:52:27,088][05631] Num frames 2500...
+[2023-02-22 23:52:27,216][05631] Num frames 2600...
+[2023-02-22 23:52:27,331][05631] Num frames 2700...
+[2023-02-22 23:52:27,409][05631] Avg episode rewards: #0: 4.029, true rewards: #0: 3.886
+[2023-02-22 23:52:27,411][05631] Avg episode reward: 4.029, avg true_objective: 3.886
+[2023-02-22 23:52:27,509][05631] Num frames 2800...
+[2023-02-22 23:52:27,626][05631] Num frames 2900...
+[2023-02-22 23:52:27,739][05631] Num frames 3000...
+[2023-02-22 23:52:27,859][05631] Num frames 3100...
+[2023-02-22 23:52:27,996][05631] Avg episode rewards: #0: 4.210, true rewards: #0: 3.960
+[2023-02-22 23:52:27,998][05631] Avg episode reward: 4.210, avg true_objective: 3.960
+[2023-02-22 23:52:28,037][05631] Num frames 3200...
+[2023-02-22 23:52:28,158][05631] Num frames 3300...
+[2023-02-22 23:52:28,270][05631] Num frames 3400...
+[2023-02-22 23:52:28,384][05631] Num frames 3500...
+[2023-02-22 23:52:28,506][05631] Num frames 3600...
+[2023-02-22 23:52:28,627][05631] Num frames 3700...
+[2023-02-22 23:52:28,697][05631] Avg episode rewards: #0: 4.569, true rewards: #0: 4.124
+[2023-02-22 23:52:28,699][05631] Avg episode reward: 4.569, avg true_objective: 4.124
+[2023-02-22 23:52:28,801][05631] Num frames 3800...
+[2023-02-22 23:52:28,926][05631] Num frames 3900...
+[2023-02-22 23:52:29,037][05631] Num frames 4000...
+[2023-02-22 23:52:29,190][05631] Num frames 4100...
+[2023-02-22 23:52:29,359][05631] Num frames 4200...
+[2023-02-22 23:52:29,457][05631] Avg episode rewards: #0: 4.824, true rewards: #0: 4.224
+[2023-02-22 23:52:29,459][05631] Avg episode reward: 4.824, avg true_objective: 4.224
+[2023-02-22 23:52:51,161][05631] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2023-02-22 23:52:51,297][05631] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2023-02-22 23:52:51,299][05631] Overriding arg 'num_workers' with value 1 passed from command line
+[2023-02-22 23:52:51,301][05631] Adding new argument 'no_render'=True that is not in the saved config file!
+[2023-02-22 23:52:51,303][05631] Adding new argument 'save_video'=True that is not in the saved config file!
+[2023-02-22 23:52:51,305][05631] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2023-02-22 23:52:51,307][05631] Adding new argument 'video_name'=None that is not in the saved config file!
+[2023-02-22 23:52:51,309][05631] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
+[2023-02-22 23:52:51,310][05631] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2023-02-22 23:52:51,311][05631] Adding new argument 'push_to_hub'=True that is not in the saved config file!
+[2023-02-22 23:52:51,312][05631] Adding new argument 'hf_repository'='pittawat/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
+[2023-02-22 23:52:51,314][05631] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2023-02-22 23:52:51,315][05631] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2023-02-22 23:52:51,316][05631] Adding new argument 'train_script'=None that is not in the saved config file!
+[2023-02-22 23:52:51,317][05631] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2023-02-22 23:52:51,318][05631] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2023-02-22 23:52:51,337][05631] RunningMeanStd input shape: (3, 72, 128)
+[2023-02-22 23:52:51,339][05631] RunningMeanStd input shape: (1,)
+[2023-02-22 23:52:51,357][05631] ConvEncoder: input_channels=3
+[2023-02-22 23:52:51,435][05631] Conv encoder output size: 512
+[2023-02-22 23:52:51,438][05631] Policy head output size: 512
+[2023-02-22 23:52:51,468][05631] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
+[2023-02-22 23:52:52,136][05631] Num frames 100...
+[2023-02-22 23:52:52,298][05631] Num frames 200...
+[2023-02-22 23:52:52,460][05631] Num frames 300...
+[2023-02-22 23:52:52,653][05631] Avg episode rewards: #0: 3.840, true rewards: #0: 3.840
+[2023-02-22 23:52:52,656][05631] Avg episode reward: 3.840, avg true_objective: 3.840
+[2023-02-22 23:52:52,684][05631] Num frames 400...
+[2023-02-22 23:52:52,839][05631] Num frames 500...
+[2023-02-22 23:52:52,990][05631] Num frames 600...
+[2023-02-22 23:52:53,100][05631] Num frames 700...
+[2023-02-22 23:52:53,224][05631] Num frames 800...
+[2023-02-22 23:52:53,315][05631] Avg episode rewards: #0: 4.660, true rewards: #0: 4.160
+[2023-02-22 23:52:53,316][05631] Avg episode reward: 4.660, avg true_objective: 4.160
+[2023-02-22 23:52:53,406][05631] Num frames 900...
+[2023-02-22 23:52:53,524][05631] Num frames 1000...
+[2023-02-22 23:52:53,654][05631] Num frames 1100...
+[2023-02-22 23:52:53,776][05631] Num frames 1200...
+[2023-02-22 23:52:53,861][05631] Avg episode rewards: #0: 4.387, true rewards: #0: 4.053
+[2023-02-22 23:52:53,864][05631] Avg episode reward: 4.387, avg true_objective: 4.053
+[2023-02-22 23:52:53,963][05631] Num frames 1300...
+[2023-02-22 23:52:54,081][05631] Num frames 1400...
+[2023-02-22 23:52:54,204][05631] Num frames 1500...
+[2023-02-22 23:52:54,338][05631] Num frames 1600...
+[2023-02-22 23:52:54,390][05631] Avg episode rewards: #0: 4.250, true rewards: #0: 4.000
+[2023-02-22 23:52:54,392][05631] Avg episode reward: 4.250, avg true_objective: 4.000
+[2023-02-22 23:52:54,512][05631] Num frames 1700...
+[2023-02-22 23:52:54,627][05631] Num frames 1800...
+[2023-02-22 23:52:54,747][05631] Num frames 1900...
+[2023-02-22 23:52:54,895][05631] Avg episode rewards: #0: 4.168, true rewards: #0: 3.968
+[2023-02-22 23:52:54,897][05631] Avg episode reward: 4.168, avg true_objective: 3.968
+[2023-02-22 23:52:54,921][05631] Num frames 2000...
+[2023-02-22 23:52:55,042][05631] Num frames 2100...
+[2023-02-22 23:52:55,164][05631] Num frames 2200...
+[2023-02-22 23:52:55,290][05631] Num frames 2300...
+[2023-02-22 23:52:55,414][05631] Num frames 2400...
+[2023-02-22 23:52:55,507][05631] Avg episode rewards: #0: 4.387, true rewards: #0: 4.053
+[2023-02-22 23:52:55,509][05631] Avg episode reward: 4.387, avg true_objective: 4.053
+[2023-02-22 23:52:55,596][05631] Num frames 2500...
+[2023-02-22 23:52:55,727][05631] Num frames 2600...
+[2023-02-22 23:52:55,858][05631] Num frames 2700...
+[2023-02-22 23:52:55,984][05631] Num frames 2800...
+[2023-02-22 23:52:56,100][05631] Avg episode rewards: #0: 4.497, true rewards: #0: 4.069
+[2023-02-22 23:52:56,101][05631] Avg episode reward: 4.497, avg true_objective: 4.069
+[2023-02-22 23:52:56,175][05631] Num frames 2900...
+[2023-02-22 23:52:56,313][05631] Num frames 3000...
+[2023-02-22 23:52:56,446][05631] Num frames 3100...
+[2023-02-22 23:52:56,570][05631] Num frames 3200...
+[2023-02-22 23:52:56,623][05631] Avg episode rewards: #0: 4.625, true rewards: #0: 4.000
+[2023-02-22 23:52:56,624][05631] Avg episode reward: 4.625, avg true_objective: 4.000
+[2023-02-22 23:52:56,757][05631] Num frames 3300...
+[2023-02-22 23:52:56,876][05631] Num frames 3400...
+[2023-02-22 23:52:57,002][05631] Num frames 3500...
+[2023-02-22 23:52:57,125][05631] Num frames 3600...
+[2023-02-22 23:52:57,236][05631] Avg episode rewards: #0: 4.720, true rewards: #0: 4.053
+[2023-02-22 23:52:57,239][05631] Avg episode reward: 4.720, avg true_objective: 4.053
+[2023-02-22 23:52:57,337][05631] Num frames 3700...
+[2023-02-22 23:52:57,498][05631] Num frames 3800...
+[2023-02-22 23:52:57,664][05631] Num frames 3900...
+[2023-02-22 23:52:57,831][05631] Num frames 4000...
+[2023-02-22 23:52:57,939][05631] Avg episode rewards: #0: 4.632, true rewards: #0: 4.032
+[2023-02-22 23:52:57,942][05631] Avg episode reward: 4.632, avg true_objective: 4.032
+[2023-02-22 23:53:18,579][05631] Replay video saved to /content/train_dir/default_experiment/replay.mp4!