diff --git "a/sf_log.txt" "b/sf_log.txt"
new file mode 100644--- /dev/null
+++ "b/sf_log.txt"
@@ -0,0 +1,29717 @@
+[2023-07-06 10:42:30,239][98243] Saving configuration to train_dir/atari_2b/20221014_2B__atari_surround_1111/config.json...
+[2023-07-06 10:42:30,255][98243] Rollout worker 0 uses device cpu
+[2023-07-06 10:42:30,255][98243] Rollout worker 1 uses device cpu
+[2023-07-06 10:42:30,255][98243] Rollout worker 2 uses device cpu
+[2023-07-06 10:42:30,255][98243] Rollout worker 3 uses device cpu
+[2023-07-06 10:42:32,074][98243] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-06 10:42:32,074][98243] InferenceWorker_p0-w0: min num requests: 1
+[2023-07-06 10:42:32,082][98243] Starting all processes...
+[2023-07-06 10:42:32,082][98243] Starting process learner_proc0
+[2023-07-06 10:42:33,058][98243] Starting all processes...
+[2023-07-06 10:42:33,060][98243] Starting process inference_proc0-0
+[2023-07-06 10:42:33,060][98449] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-06 10:42:33,060][98243] Starting process rollout_proc0
+[2023-07-06 10:42:33,060][98449] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2023-07-06 10:42:33,060][98243] Starting process rollout_proc1
+[2023-07-06 10:42:33,060][98243] Starting process rollout_proc2
+[2023-07-06 10:42:33,062][98243] Starting process rollout_proc3
+[2023-07-06 10:42:33,070][98449] Num visible devices: 1
+[2023-07-06 10:42:33,117][98449] Setting fixed seed 1111
+[2023-07-06 10:42:33,118][98449] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-06 10:42:33,118][98449] Initializing actor-critic model on device cuda:0
+[2023-07-06 10:42:33,118][98449] RunningMeanStd input shape: (4, 84, 84)
+[2023-07-06 10:42:33,119][98449] RunningMeanStd input shape: (1,)
+[2023-07-06 10:42:33,128][98449] ConvEncoder: input_channels=4
+[2023-07-06 10:42:33,225][98449] Conv encoder output size: 512
+[2023-07-06 10:42:33,228][98449] Created Actor Critic model with architecture:
+[2023-07-06 10:42:33,229][98449] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): MultiInputEncoder(
+    (encoders): ModuleDict(
+      (obs): ConvEncoder(
+        (enc): RecursiveScriptModule(
+          original_name=ConvEncoderImpl
+          (conv_head): RecursiveScriptModule(
+            original_name=Sequential
+            (0): RecursiveScriptModule(original_name=Conv2d)
+            (1): RecursiveScriptModule(original_name=ReLU)
+            (2): RecursiveScriptModule(original_name=Conv2d)
+            (3): RecursiveScriptModule(original_name=ReLU)
+            (4): RecursiveScriptModule(original_name=Conv2d)
+            (5): RecursiveScriptModule(original_name=ReLU)
+          )
+          (mlp_layers): RecursiveScriptModule(
+            original_name=Sequential
+            (0): RecursiveScriptModule(original_name=Linear)
+            (1): RecursiveScriptModule(original_name=ReLU)
+          )
+        )
+      )
+    )
+  )
+  (core): ModelCoreIdentity()
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=512, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationDefault(
+    (distribution_linear): Linear(in_features=512, out_features=5, bias=True)
+  )
+)
+[2023-07-06 10:42:33,559][98449] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-07-06 10:42:33,559][98449] No checkpoints found
+[2023-07-06 10:42:33,560][98449] Did not load from checkpoint, starting from scratch!
+[2023-07-06 10:42:33,560][98449] Initialized policy 0 weights for model version 0
+[2023-07-06 10:42:33,560][98449] LearnerWorker_p0 finished initialization!
+[2023-07-06 10:42:33,561][98449] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-06 10:42:34,137][98494] Worker 1 uses CPU cores [6, 7, 8, 9, 10, 11]
+[2023-07-06 10:42:34,159][98492] Worker 0 uses CPU cores [0, 1, 2, 3, 4, 5]
+[2023-07-06 10:42:34,162][98495] Worker 2 uses CPU cores [12, 13, 14, 15, 16, 17]
+[2023-07-06 10:42:34,182][98493] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-06 10:42:34,182][98493] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2023-07-06 10:42:34,193][98496] Worker 3 uses CPU cores [18, 19, 20, 21, 22, 23]
+[2023-07-06 10:42:34,193][98493] Num visible devices: 1
+[2023-07-06 10:42:34,548][98493] RunningMeanStd input shape: (4, 84, 84)
+[2023-07-06 10:42:34,548][98493] RunningMeanStd input shape: (1,)
+[2023-07-06 10:42:34,554][98493] ConvEncoder: input_channels=4
+[2023-07-06 10:42:34,605][98493] Conv encoder output size: 512
+[2023-07-06 10:42:34,609][98243] Inference worker 0-0 is ready!
+[2023-07-06 10:42:34,609][98243] All inference workers are ready! Signal rollout workers to start!
+[2023-07-06 10:42:34,609][98492] EnvRunner 0-0 uses policy 0
+[2023-07-06 10:42:34,609][98494] EnvRunner 1-0 uses policy 0
+[2023-07-06 10:42:34,609][98496] EnvRunner 3-0 uses policy 0
+[2023-07-06 10:42:34,609][98495] EnvRunner 2-0 uses policy 0
+[2023-07-06 10:42:34,764][98243] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-07-06 10:42:39,764][98243] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-07-06 10:42:44,764][98243] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-07-06 10:42:49,764][98243] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 2423.4. Samples: 36352. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-07-06 10:42:52,070][98243] Heartbeat connected on Batcher_0
+[2023-07-06 10:42:52,072][98243] Heartbeat connected on LearnerWorker_p0
+[2023-07-06 10:42:52,077][98243] Heartbeat connected on RolloutWorker_w0
+[2023-07-06 10:42:52,095][98243] Heartbeat connected on RolloutWorker_w3
+[2023-07-06 10:42:52,103][98243] Heartbeat connected on InferenceWorker_p0-w0
+[2023-07-06 10:42:52,105][98243] Heartbeat connected on RolloutWorker_w1
+[2023-07-06 10:42:52,136][98243] Heartbeat connected on RolloutWorker_w2
+[2023-07-06 10:42:52,560][98449] Signal inference workers to stop experience collection...
+[2023-07-06 10:42:52,568][98494] Worker 1, sleep for 0.250 sec to decorrelate experience collection
+[2023-07-06 10:42:52,588][98493] InferenceWorker_p0-w0: stopping experience collection
+[2023-07-06 10:42:52,605][98495] Worker 2, sleep for 0.500 sec to decorrelate experience collection
+[2023-07-06 10:42:52,819][98494] Worker 1 awakens!
+[2023-07-06 10:42:53,108][98495] Worker 2 awakens!
+[2023-07-06 10:42:53,916][98449] Signal inference workers to resume experience collection...
+[2023-07-06 10:42:53,916][98493] InferenceWorker_p0-w0: resuming experience collection
+[2023-07-06 10:42:54,563][98496] Worker 3, sleep for 0.750 sec to decorrelate experience collection
+[2023-07-06 10:42:54,764][98243] Fps is (10 sec: 9830.4, 60 sec: 4915.2, 300 sec: 4915.2). Total num frames: 98304. Throughput: 0: 6579.2. Samples: 131584. Policy #0 lag: (min: 9.0, avg: 9.0, max: 9.0)
+[2023-07-06 10:42:55,136][98493] Updated weights for policy 0, policy_version 85 (0.0006)
+[2023-07-06 10:42:55,314][98496] Worker 3 awakens!
+[2023-07-06 10:42:55,616][98493] Updated weights for policy 0, policy_version 144 (0.0007)
+[2023-07-06 10:42:56,051][98493] Updated weights for policy 0, policy_version 192 (0.0006)
+[2023-07-06 10:42:58,990][98493] Updated weights for policy 0, policy_version 259 (0.0007)
+[2023-07-06 10:42:59,561][98493] Updated weights for policy 0, policy_version 321 (0.0008)
+[2023-07-06 10:42:59,764][98243] Fps is (10 sec: 68813.9, 60 sec: 27525.1, 300 sec: 27525.1). Total num frames: 688128. Throughput: 0: 9707.5. Samples: 242688. Policy #0 lag: (min: 14.0, avg: 76.2, max: 270.0)
+[2023-07-06 10:43:00,157][98493] Updated weights for policy 0, policy_version 387 (0.0007)
+[2023-07-06 10:43:00,624][98493] Updated weights for policy 0, policy_version 434 (0.0006)
+[2023-07-06 10:43:01,240][98493] Updated weights for policy 0, policy_version 512 (0.0007)
+[2023-07-06 10:43:03,774][98493] Updated weights for policy 0, policy_version 560 (0.0008)
+[2023-07-06 10:43:04,385][98493] Updated weights for policy 0, policy_version 599 (0.0006)
+[2023-07-06 10:43:04,764][98243] Fps is (10 sec: 121241.0, 60 sec: 43690.5, 300 sec: 43690.5). Total num frames: 1310720. Throughput: 0: 13568.0. Samples: 407040. Policy #0 lag: (min: 15.0, avg: 75.6, max: 271.0)
+[2023-07-06 10:43:04,972][98493] Updated weights for policy 0, policy_version 672 (0.0009)
+[2023-07-06 10:43:05,552][98493] Updated weights for policy 0, policy_version 736 (0.0007)
+[2023-07-06 10:43:08,171][98493] Updated weights for policy 0, policy_version 791 (0.0007)
+[2023-07-06 10:43:08,774][98493] Updated weights for policy 0, policy_version 833 (0.0007)
+[2023-07-06 10:43:09,175][98449] Signal inference workers to stop experience collection... (50 times)
+[2023-07-06 10:43:09,209][98493] InferenceWorker_p0-w0: stopping experience collection (50 times)
+[2023-07-06 10:43:09,256][98449] Signal inference workers to resume experience collection... (50 times)
+[2023-07-06 10:43:09,257][98493] InferenceWorker_p0-w0: resuming experience collection (50 times)
+[2023-07-06 10:43:09,259][98493] Updated weights for policy 0, policy_version 896 (0.0007)
+[2023-07-06 10:43:09,764][98243] Fps is (10 sec: 124518.3, 60 sec: 55237.4, 300 sec: 55237.4). Total num frames: 1933312. Throughput: 0: 14101.9. Samples: 493568. Policy #0 lag: (min: 15.0, avg: 83.8, max: 271.0)
+[2023-07-06 10:43:09,894][98493] Updated weights for policy 0, policy_version 967 (0.0008)
+[2023-07-06 10:43:10,348][98493] Updated weights for policy 0, policy_version 1024 (0.0007)
+[2023-07-06 10:43:13,184][98493] Updated weights for policy 0, policy_version 1072 (0.0007)
+[2023-07-06 10:43:13,797][98493] Updated weights for policy 0, policy_version 1129 (0.0007)
+[2023-07-06 10:43:14,192][98493] Updated weights for policy 0, policy_version 1170 (0.0007)
+[2023-07-06 10:43:14,596][98493] Updated weights for policy 0, policy_version 1216 (0.0007)
+[2023-07-06 10:43:14,764][98243] Fps is (10 sec: 121241.3, 60 sec: 63078.2, 300 sec: 63078.2). Total num frames: 2523136. Throughput: 0: 16537.6. Samples: 661504. Policy #0 lag: (min: 15.0, avg: 78.8, max: 271.0)
+[2023-07-06 10:43:15,106][98493] Updated weights for policy 0, policy_version 1273 (0.0008)
+[2023-07-06 10:43:17,918][98493] Updated weights for policy 0, policy_version 1322 (0.0008)
+[2023-07-06 10:43:18,462][98493] Updated weights for policy 0, policy_version 1378 (0.0008)
+[2023-07-06 10:43:18,927][98493] Updated weights for policy 0, policy_version 1431 (0.0008)
+[2023-07-06 10:43:19,381][98493] Updated weights for policy 0, policy_version 1488 (0.0007)
+[2023-07-06 10:43:19,764][98243] Fps is (10 sec: 117964.0, 60 sec: 69176.7, 300 sec: 69176.7). Total num frames: 3112960. Throughput: 0: 18295.4. Samples: 823296. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 10:43:22,465][98493] Updated weights for policy 0, policy_version 1552 (0.0007)
+[2023-07-06 10:43:23,006][98493] Updated weights for policy 0, policy_version 1616 (0.0007)
+[2023-07-06 10:43:23,516][98493] Updated weights for policy 0, policy_version 1670 (0.0007)
+[2023-07-06 10:43:23,959][98493] Updated weights for policy 0, policy_version 1718 (0.0006)
+[2023-07-06 10:43:24,195][98449] Signal inference workers to stop experience collection... (100 times)
+[2023-07-06 10:43:24,229][98493] InferenceWorker_p0-w0: stopping experience collection (100 times)
+[2023-07-06 10:43:24,302][98449] Signal inference workers to resume experience collection... (100 times)
+[2023-07-06 10:43:24,303][98493] InferenceWorker_p0-w0: resuming experience collection (100 times)
+[2023-07-06 10:43:24,436][98493] Updated weights for policy 0, policy_version 1776 (0.0006)
+[2023-07-06 10:43:24,764][98243] Fps is (10 sec: 114687.6, 60 sec: 73400.1, 300 sec: 73400.1). Total num frames: 3670016. Throughput: 0: 20434.4. Samples: 919552. Policy #0 lag: (min: 15.0, avg: 75.9, max: 271.0)
+[2023-07-06 10:43:27,195][98493] Updated weights for policy 0, policy_version 1834 (0.0006)
+[2023-07-06 10:43:27,603][98493] Updated weights for policy 0, policy_version 1879 (0.0007)
+[2023-07-06 10:43:28,123][98493] Updated weights for policy 0, policy_version 1937 (0.0008)
+[2023-07-06 10:43:28,691][98493] Updated weights for policy 0, policy_version 2003 (0.0007)
+[2023-07-06 10:43:29,764][98243] Fps is (10 sec: 108133.4, 60 sec: 76259.8, 300 sec: 76259.8). Total num frames: 4194304. Throughput: 0: 23927.4. Samples: 1076736. Policy #0 lag: (min: 15.0, avg: 79.3, max: 271.0)
+[2023-07-06 10:43:31,325][98493] Updated weights for policy 0, policy_version 2051 (0.0007)
+[2023-07-06 10:43:31,762][98493] Updated weights for policy 0, policy_version 2103 (0.0007)
+[2023-07-06 10:43:32,315][98493] Updated weights for policy 0, policy_version 2148 (0.0006)
+[2023-07-06 10:43:32,914][98493] Updated weights for policy 0, policy_version 2217 (0.0008)
+[2023-07-06 10:43:33,473][98493] Updated weights for policy 0, policy_version 2276 (0.0007)
+[2023-07-06 10:43:34,764][98243] Fps is (10 sec: 104858.3, 60 sec: 78643.1, 300 sec: 78643.1). Total num frames: 4718592. Throughput: 0: 26942.6. Samples: 1248768. Policy #0 lag: (min: 15.0, avg: 71.2, max: 271.0)
+[2023-07-06 10:43:35,954][98493] Updated weights for policy 0, policy_version 2328 (0.0006)
+[2023-07-06 10:43:36,726][98493] Updated weights for policy 0, policy_version 2370 (0.0007)
+[2023-07-06 10:43:37,173][98493] Updated weights for policy 0, policy_version 2427 (0.0007)
+[2023-07-06 10:43:37,952][98493] Updated weights for policy 0, policy_version 2486 (0.0008)
+[2023-07-06 10:43:38,521][98493] Updated weights for policy 0, policy_version 2552 (0.0008)
+[2023-07-06 10:43:39,764][98243] Fps is (10 sec: 104858.0, 60 sec: 87381.1, 300 sec: 80659.5). Total num frames: 5242880. Throughput: 0: 26737.7. Samples: 1334784. Policy #0 lag: (min: 12.0, avg: 83.0, max: 268.0)
+[2023-07-06 10:43:40,687][98493] Updated weights for policy 0, policy_version 2620 (0.0008)
+[2023-07-06 10:43:41,558][98493] Updated weights for policy 0, policy_version 2672 (0.0007)
+[2023-07-06 10:43:42,506][98449] Signal inference workers to stop experience collection... (150 times)
+[2023-07-06 10:43:42,533][98493] InferenceWorker_p0-w0: stopping experience collection (150 times)
+[2023-07-06 10:43:42,598][98449] Signal inference workers to resume experience collection... (150 times)
+[2023-07-06 10:43:42,598][98493] InferenceWorker_p0-w0: resuming experience collection (150 times)
+[2023-07-06 10:43:42,699][98493] Updated weights for policy 0, policy_version 2713 (0.0007)
+[2023-07-06 10:43:43,225][98493] Updated weights for policy 0, policy_version 2773 (0.0007)
+[2023-07-06 10:43:44,591][98493] Updated weights for policy 0, policy_version 2818 (0.0006)
+[2023-07-06 10:43:44,764][98243] Fps is (10 sec: 108134.3, 60 sec: 96665.4, 300 sec: 82856.1). Total num frames: 5799936. Throughput: 0: 27943.8. Samples: 1500160. Policy #0 lag: (min: 15.0, avg: 128.7, max: 271.0)
+[2023-07-06 10:43:45,083][98493] Updated weights for policy 0, policy_version 2880 (0.0007)
+[2023-07-06 10:43:47,172][98493] Updated weights for policy 0, policy_version 2945 (0.0009)
+[2023-07-06 10:43:47,785][98493] Updated weights for policy 0, policy_version 3024 (0.0008)
+[2023-07-06 10:43:49,377][98493] Updated weights for policy 0, policy_version 3074 (0.0007)
+[2023-07-06 10:43:49,764][98243] Fps is (10 sec: 114689.3, 60 sec: 106496.2, 300 sec: 85196.7). Total num frames: 6389760. Throughput: 0: 28069.0. Samples: 1670144. Policy #0 lag: (min: 15.0, avg: 125.2, max: 271.0)
+[2023-07-06 10:43:49,823][98493] Updated weights for policy 0, policy_version 3133 (0.0008)
+[2023-07-06 10:43:50,864][98493] Updated weights for policy 0, policy_version 3193 (0.0007)
+[2023-07-06 10:43:52,119][98493] Updated weights for policy 0, policy_version 3248 (0.0008)
+[2023-07-06 10:43:52,611][98493] Updated weights for policy 0, policy_version 3302 (0.0007)
+[2023-07-06 10:43:54,294][98493] Updated weights for policy 0, policy_version 3351 (0.0006)
+[2023-07-06 10:43:54,764][98243] Fps is (10 sec: 114688.2, 60 sec: 114141.8, 300 sec: 86835.1). Total num frames: 6946816. Throughput: 0: 27955.2. Samples: 1751552. Policy #0 lag: (min: 15.0, avg: 118.1, max: 271.0)
+[2023-07-06 10:43:54,765][98243] Avg episode reward: [(0, '-10.000')]
+[2023-07-06 10:43:54,867][98493] Updated weights for policy 0, policy_version 3414 (0.0010)
+[2023-07-06 10:43:54,914][98449] Saving new best policy, reward=-10.000!
+[2023-07-06 10:43:56,872][98493] Updated weights for policy 0, policy_version 3488 (0.0007)
+[2023-07-06 10:43:57,365][98493] Updated weights for policy 0, policy_version 3538 (0.0008)
+[2023-07-06 10:43:58,975][98493] Updated weights for policy 0, policy_version 3588 (0.0006)
+[2023-07-06 10:43:59,353][98449] Signal inference workers to stop experience collection... (200 times)
+[2023-07-06 10:43:59,395][98493] InferenceWorker_p0-w0: stopping experience collection (200 times)
+[2023-07-06 10:43:59,461][98449] Signal inference workers to resume experience collection... (200 times)
+[2023-07-06 10:43:59,461][98493] InferenceWorker_p0-w0: resuming experience collection (200 times)
+[2023-07-06 10:43:59,562][98493] Updated weights for policy 0, policy_version 3655 (0.0007)
+[2023-07-06 10:43:59,764][98243] Fps is (10 sec: 114687.6, 60 sec: 114141.8, 300 sec: 88666.3). Total num frames: 7536640. Throughput: 0: 28069.0. Samples: 1924608. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 10:43:59,765][98243] Avg episode reward: [(0, '-10.000')]
+[2023-07-06 10:44:00,005][98493] Updated weights for policy 0, policy_version 3712 (0.0007)
+[2023-07-06 10:44:01,659][98493] Updated weights for policy 0, policy_version 3765 (0.0006)
+[2023-07-06 10:44:02,157][98493] Updated weights for policy 0, policy_version 3825 (0.0007)
+[2023-07-06 10:44:03,882][98493] Updated weights for policy 0, policy_version 3860 (0.0007)
+[2023-07-06 10:44:04,322][98493] Updated weights for policy 0, policy_version 3914 (0.0007)
+[2023-07-06 10:44:04,764][98243] Fps is (10 sec: 117963.6, 60 sec: 113595.6, 300 sec: 90293.9). Total num frames: 8126464. Throughput: 0: 28057.6. Samples: 2085888. Policy #0 lag: (min: 10.0, avg: 98.1, max: 266.0)
+[2023-07-06 10:44:04,765][98243] Avg episode reward: [(0, '-10.000')]
+[2023-07-06 10:44:05,896][98493] Updated weights for policy 0, policy_version 3984 (0.0011)
+[2023-07-06 10:44:06,466][98493] Updated weights for policy 0, policy_version 4048 (0.0008)
+[2023-07-06 10:44:08,621][98493] Updated weights for policy 0, policy_version 4100 (0.0006)
+[2023-07-06 10:44:09,115][98493] Updated weights for policy 0, policy_version 4160 (0.0007)
+[2023-07-06 10:44:09,608][98493] Updated weights for policy 0, policy_version 4216 (0.0007)
+[2023-07-06 10:44:09,764][98243] Fps is (10 sec: 111411.7, 60 sec: 111957.3, 300 sec: 91060.5). Total num frames: 8650752. Throughput: 0: 27796.0. Samples: 2170368. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 10:44:09,764][98243] Avg episode reward: [(0, '-10.000')]
+[2023-07-06 10:44:10,981][98493] Updated weights for policy 0, policy_version 4260 (0.0007)
+[2023-07-06 10:44:11,308][98493] Updated weights for policy 0, policy_version 4291 (0.0008)
+[2023-07-06 10:44:13,583][98493] Updated weights for policy 0, policy_version 4354 (0.0006)
+[2023-07-06 10:44:14,196][98493] Updated weights for policy 0, policy_version 4432 (0.0007)
+[2023-07-06 10:44:14,764][98243] Fps is (10 sec: 104858.8, 60 sec: 110865.2, 300 sec: 91750.3). Total num frames: 9175040. Throughput: 0: 27955.3. Samples: 2334720. Policy #0 lag: (min: 3.0, avg: 82.3, max: 259.0)
+[2023-07-06 10:44:14,765][98243] Avg episode reward: [(0, '-10.000')]
+[2023-07-06 10:44:15,441][98493] Updated weights for policy 0, policy_version 4484 (0.0007)
+[2023-07-06 10:44:16,266][98493] Updated weights for policy 0, policy_version 4547 (0.0007)
+[2023-07-06 10:44:16,385][98449] Signal inference workers to stop experience collection... (250 times)
+[2023-07-06 10:44:16,430][98493] InferenceWorker_p0-w0: stopping experience collection (250 times)
+[2023-07-06 10:44:16,484][98449] Signal inference workers to resume experience collection... (250 times)
+[2023-07-06 10:44:16,485][98493] InferenceWorker_p0-w0: resuming experience collection (250 times)
+[2023-07-06 10:44:16,759][98493] Updated weights for policy 0, policy_version 4608 (0.0006)
+[2023-07-06 10:44:19,185][98493] Updated weights for policy 0, policy_version 4688 (0.0007)
+[2023-07-06 10:44:19,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109772.9, 300 sec: 92374.5). Total num frames: 9699328. Throughput: 0: 27534.2. Samples: 2487808. Policy #0 lag: (min: 0.0, avg: 68.8, max: 240.0)
+[2023-07-06 10:44:19,765][98243] Avg episode reward: [(0, '-9.990')]
+[2023-07-06 10:44:19,765][98449] Saving new best policy, reward=-9.990!
+[2023-07-06 10:44:20,242][98493] Updated weights for policy 0, policy_version 4739 (0.0007)
+[2023-07-06 10:44:20,663][98493] Updated weights for policy 0, policy_version 4798 (0.0006)
+[2023-07-06 10:44:21,460][98493] Updated weights for policy 0, policy_version 4844 (0.0007)
+[2023-07-06 10:44:23,702][98493] Updated weights for policy 0, policy_version 4870 (0.0006)
+[2023-07-06 10:44:24,227][98493] Updated weights for policy 0, policy_version 4936 (0.0007)
+[2023-07-06 10:44:24,764][98243] Fps is (10 sec: 104856.5, 60 sec: 109226.6, 300 sec: 92941.8). Total num frames: 10223616. Throughput: 0: 27488.7. Samples: 2571776. Policy #0 lag: (min: 9.0, avg: 74.4, max: 265.0)
+[2023-07-06 10:44:24,765][98243] Avg episode reward: [(0, '-9.990')]
+[2023-07-06 10:44:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000004992_10223616.pth...
+[2023-07-06 10:44:25,215][98493] Updated weights for policy 0, policy_version 4993 (0.0007)
+[2023-07-06 10:44:25,660][98493] Updated weights for policy 0, policy_version 5046 (0.0007)
+[2023-07-06 10:44:26,157][98493] Updated weights for policy 0, policy_version 5104 (0.0007)
+[2023-07-06 10:44:28,772][98493] Updated weights for policy 0, policy_version 5156 (0.0006)
+[2023-07-06 10:44:29,289][98493] Updated weights for policy 0, policy_version 5216 (0.0006)
+[2023-07-06 10:44:29,764][98243] Fps is (10 sec: 104857.3, 60 sec: 109226.9, 300 sec: 93460.0). Total num frames: 10747904. Throughput: 0: 27477.3. Samples: 2736640. Policy #0 lag: (min: 47.0, avg: 111.0, max: 303.0)
+[2023-07-06 10:44:29,765][98243] Avg episode reward: [(0, '-9.990')]
+[2023-07-06 10:44:30,355][98493] Updated weights for policy 0, policy_version 5280 (0.0006)
+[2023-07-06 10:44:30,770][98493] Updated weights for policy 0, policy_version 5328 (0.0007)
+[2023-07-06 10:44:31,178][98493] Updated weights for policy 0, policy_version 5372 (0.0006)
+[2023-07-06 10:44:33,500][98493] Updated weights for policy 0, policy_version 5433 (0.0007)
+[2023-07-06 10:44:34,030][98493] Updated weights for policy 0, policy_version 5500 (0.0008)
+[2023-07-06 10:44:34,608][98449] Signal inference workers to stop experience collection... (300 times)
+[2023-07-06 10:44:34,640][98493] InferenceWorker_p0-w0: stopping experience collection (300 times)
+[2023-07-06 10:44:34,705][98449] Signal inference workers to resume experience collection... (300 times)
+[2023-07-06 10:44:34,705][98493] InferenceWorker_p0-w0: resuming experience collection (300 times)
+[2023-07-06 10:44:34,764][98243] Fps is (10 sec: 108135.6, 60 sec: 109772.9, 300 sec: 94208.0). Total num frames: 11304960. Throughput: 0: 27318.0. Samples: 2899456. Policy #0 lag: (min: 15.0, avg: 134.6, max: 271.0)
+[2023-07-06 10:44:34,764][98243] Avg episode reward: [(0, '-9.980')]
+[2023-07-06 10:44:34,983][98449] Saving new best policy, reward=-9.980!
+[2023-07-06 10:44:35,061][98493] Updated weights for policy 0, policy_version 5559 (0.0007)
+[2023-07-06 10:44:35,603][98493] Updated weights for policy 0, policy_version 5600 (0.0007)
+[2023-07-06 10:44:38,097][98493] Updated weights for policy 0, policy_version 5655 (0.0007)
+[2023-07-06 10:44:38,664][98493] Updated weights for policy 0, policy_version 5728 (0.0006)
+[2023-07-06 10:44:39,449][98493] Updated weights for policy 0, policy_version 5784 (0.0007)
+[2023-07-06 10:44:39,764][98243] Fps is (10 sec: 117965.2, 60 sec: 111411.4, 300 sec: 95420.4). Total num frames: 11927552. Throughput: 0: 27488.7. Samples: 2988544. Policy #0 lag: (min: 15.0, avg: 134.6, max: 271.0)
+[2023-07-06 10:44:39,765][98243] Avg episode reward: [(0, '-9.920')]
+[2023-07-06 10:44:39,767][98449] Saving new best policy, reward=-9.920!
+[2023-07-06 10:44:40,269][98493] Updated weights for policy 0, policy_version 5846 (0.0006)
+[2023-07-06 10:44:43,067][98493] Updated weights for policy 0, policy_version 5936 (0.0008)
+[2023-07-06 10:44:43,550][98493] Updated weights for policy 0, policy_version 5987 (0.0006)
+[2023-07-06 10:44:44,142][98493] Updated weights for policy 0, policy_version 6055 (0.0027)
+[2023-07-06 10:44:44,764][98243] Fps is (10 sec: 114686.3, 60 sec: 110864.9, 300 sec: 95783.2). Total num frames: 12451840. Throughput: 0: 27135.9. Samples: 3145728. Policy #0 lag: (min: 15.0, avg: 169.1, max: 271.0)
+[2023-07-06 10:44:44,765][98243] Avg episode reward: [(0, '-9.880')]
+[2023-07-06 10:44:44,765][98449] Saving new best policy, reward=-9.880!
+[2023-07-06 10:44:45,225][98493] Updated weights for policy 0, policy_version 6115 (0.0007)
+[2023-07-06 10:44:47,769][98493] Updated weights for policy 0, policy_version 6148 (0.0007)
+[2023-07-06 10:44:48,285][98493] Updated weights for policy 0, policy_version 6208 (0.0008)
+[2023-07-06 10:44:48,815][98493] Updated weights for policy 0, policy_version 6263 (0.0008)
+[2023-07-06 10:44:49,343][98493] Updated weights for policy 0, policy_version 6328 (0.0008)
+[2023-07-06 10:44:49,764][98243] Fps is (10 sec: 108133.9, 60 sec: 110318.9, 300 sec: 96362.1). Total num frames: 13008896. Throughput: 0: 27249.8. Samples: 3312128. Policy #0 lag: (min: 13.0, avg: 68.4, max: 269.0)
+[2023-07-06 10:44:49,765][98243] Avg episode reward: [(0, '-9.860')]
+[2023-07-06 10:44:49,916][98493] Updated weights for policy 0, policy_version 6369 (0.0007)
+[2023-07-06 10:44:49,994][98449] Saving new best policy, reward=-9.860!
+[2023-07-06 10:44:52,399][98493] Updated weights for policy 0, policy_version 6416 (0.0007)
+[2023-07-06 10:44:52,735][98449] Signal inference workers to stop experience collection... (350 times)
+[2023-07-06 10:44:52,762][98493] InferenceWorker_p0-w0: stopping experience collection (350 times)
+[2023-07-06 10:44:52,817][98449] Signal inference workers to resume experience collection... (350 times)
+[2023-07-06 10:44:52,817][98493] InferenceWorker_p0-w0: resuming experience collection (350 times)
+[2023-07-06 10:44:53,102][98493] Updated weights for policy 0, policy_version 6496 (0.0008)
+[2023-07-06 10:44:53,629][98493] Updated weights for policy 0, policy_version 6551 (0.0008)
+[2023-07-06 10:44:54,594][98493] Updated weights for policy 0, policy_version 6616 (0.0007)
+[2023-07-06 10:44:54,764][98243] Fps is (10 sec: 111413.3, 60 sec: 110319.0, 300 sec: 96899.6). Total num frames: 13565952. Throughput: 0: 27363.6. Samples: 3401728. Policy #0 lag: (min: 67.0, avg: 194.1, max: 379.0)
+[2023-07-06 10:44:54,764][98243] Avg episode reward: [(0, '-9.840')]
+[2023-07-06 10:44:54,918][98449] Saving new best policy, reward=-9.840!
+[2023-07-06 10:44:57,102][98493] Updated weights for policy 0, policy_version 6678 (0.0007)
+[2023-07-06 10:44:57,690][98493] Updated weights for policy 0, policy_version 6741 (0.0008)
+[2023-07-06 10:44:58,214][98493] Updated weights for policy 0, policy_version 6786 (0.0007)
+[2023-07-06 10:44:58,649][98493] Updated weights for policy 0, policy_version 6837 (0.0007)
+[2023-07-06 10:44:59,231][98493] Updated weights for policy 0, policy_version 6871 (0.0006)
+[2023-07-06 10:44:59,764][98243] Fps is (10 sec: 114687.5, 60 sec: 110318.9, 300 sec: 97625.9). Total num frames: 14155776. Throughput: 0: 27272.5. Samples: 3561984. Policy #0 lag: (min: 67.0, avg: 194.1, max: 379.0)
+[2023-07-06 10:44:59,765][98243] Avg episode reward: [(0, '-9.830')]
+[2023-07-06 10:44:59,765][98449] Saving new best policy, reward=-9.830!
+[2023-07-06 10:45:01,618][98493] Updated weights for policy 0, policy_version 6928 (0.0007)
+[2023-07-06 10:45:02,282][98493] Updated weights for policy 0, policy_version 7008 (0.0007)
+[2023-07-06 10:45:03,314][98493] Updated weights for policy 0, policy_version 7059 (0.0007)
+[2023-07-06 10:45:03,841][98493] Updated weights for policy 0, policy_version 7120 (0.0007)
+[2023-07-06 10:45:04,764][98243] Fps is (10 sec: 111410.4, 60 sec: 109226.8, 300 sec: 97867.0). Total num frames: 14680064. Throughput: 0: 27579.7. Samples: 3728896. Policy #0 lag: (min: 14.0, avg: 78.0, max: 270.0)
+[2023-07-06 10:45:04,765][98243] Avg episode reward: [(0, '-9.830')]
+[2023-07-06 10:45:06,215][98493] Updated weights for policy 0, policy_version 7169 (0.0006)
+[2023-07-06 10:45:06,650][98493] Updated weights for policy 0, policy_version 7220 (0.0007)
+[2023-07-06 10:45:07,182][98493] Updated weights for policy 0, policy_version 7288 (0.0008)
+[2023-07-06 10:45:08,180][98493] Updated weights for policy 0, policy_version 7344 (0.0007)
+[2023-07-06 10:45:08,775][98493] Updated weights for policy 0, policy_version 7401 (0.0007)
+[2023-07-06 10:45:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.5, 300 sec: 98092.5). Total num frames: 15204352. Throughput: 0: 27648.0. Samples: 3815936. Policy #0 lag: (min: 23.0, avg: 140.2, max: 279.0)
+[2023-07-06 10:45:09,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:09,768][98449] Saving new best policy, reward=-9.820!
+[2023-07-06 10:45:10,982][98449] Signal inference workers to stop experience collection... (400 times)
+[2023-07-06 10:45:11,017][98493] InferenceWorker_p0-w0: stopping experience collection (400 times)
+[2023-07-06 10:45:11,075][98449] Signal inference workers to resume experience collection... (400 times)
+[2023-07-06 10:45:11,075][98493] InferenceWorker_p0-w0: resuming experience collection (400 times)
+[2023-07-06 10:45:11,286][98493] Updated weights for policy 0, policy_version 7462 (0.0007)
+[2023-07-06 10:45:11,877][98493] Updated weights for policy 0, policy_version 7527 (0.0007)
+[2023-07-06 10:45:12,692][98493] Updated weights for policy 0, policy_version 7584 (0.0007)
+[2023-07-06 10:45:13,400][98493] Updated weights for policy 0, policy_version 7640 (0.0007)
+[2023-07-06 10:45:14,765][98243] Fps is (10 sec: 104854.1, 60 sec: 109226.0, 300 sec: 98303.7). Total num frames: 15728640. Throughput: 0: 27579.5. Samples: 3977728. Policy #0 lag: (min: 23.0, avg: 140.2, max: 279.0)
+[2023-07-06 10:45:14,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:15,824][98493] Updated weights for policy 0, policy_version 7696 (0.0008)
+[2023-07-06 10:45:16,543][98493] Updated weights for policy 0, policy_version 7776 (0.0008)
+[2023-07-06 10:45:16,994][98493] Updated weights for policy 0, policy_version 7809 (0.0016)
+[2023-07-06 10:45:17,433][98493] Updated weights for policy 0, policy_version 7867 (0.0007)
+[2023-07-06 10:45:18,040][98493] Updated weights for policy 0, policy_version 7920 (0.0007)
+[2023-07-06 10:45:19,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.5, 300 sec: 98502.5). Total num frames: 16252928. Throughput: 0: 27886.9. Samples: 4154368. Policy #0 lag: (min: 15.0, avg: 85.5, max: 271.0)
+[2023-07-06 10:45:19,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:20,632][98493] Updated weights for policy 0, policy_version 7968 (0.0007)
+[2023-07-06 10:45:21,139][98493] Updated weights for policy 0, policy_version 8020 (0.0007)
+[2023-07-06 10:45:21,706][98493] Updated weights for policy 0, policy_version 8070 (0.0007)
+[2023-07-06 10:45:22,124][98493] Updated weights for policy 0, policy_version 8127 (0.0006)
+[2023-07-06 10:45:24,764][98243] Fps is (10 sec: 104860.7, 60 sec: 109226.7, 300 sec: 98689.4). Total num frames: 16777216. Throughput: 0: 27636.6. Samples: 4232192. Policy #0 lag: (min: 37.0, avg: 200.5, max: 293.0)
+[2023-07-06 10:45:24,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:24,986][98493] Updated weights for policy 0, policy_version 8194 (0.0007)
+[2023-07-06 10:45:25,420][98493] Updated weights for policy 0, policy_version 8245 (0.0007)
+[2023-07-06 10:45:25,954][98493] Updated weights for policy 0, policy_version 8315 (0.0007)
+[2023-07-06 10:45:26,821][98493] Updated weights for policy 0, policy_version 8380 (0.0007)
+[2023-07-06 10:45:27,177][98449] Signal inference workers to stop experience collection... (450 times)
+[2023-07-06 10:45:27,221][98493] InferenceWorker_p0-w0: stopping experience collection (450 times)
+[2023-07-06 10:45:27,264][98449] Signal inference workers to resume experience collection... (450 times)
+[2023-07-06 10:45:27,264][98493] InferenceWorker_p0-w0: resuming experience collection (450 times)
+[2023-07-06 10:45:27,521][98493] Updated weights for policy 0, policy_version 8448 (0.0025)
+[2023-07-06 10:45:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.7, 300 sec: 98865.7). Total num frames: 17301504. Throughput: 0: 27943.9. Samples: 4403200. Policy #0 lag: (min: 37.0, avg: 200.5, max: 293.0)
+[2023-07-06 10:45:29,764][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:30,208][98493] Updated weights for policy 0, policy_version 8512 (0.0008)
+[2023-07-06 10:45:30,697][98493] Updated weights for policy 0, policy_version 8570 (0.0006)
+[2023-07-06 10:45:31,685][98493] Updated weights for policy 0, policy_version 8633 (0.0008)
+[2023-07-06 10:45:32,269][98493] Updated weights for policy 0, policy_version 8704 (0.0008)
+[2023-07-06 10:45:34,330][98493] Updated weights for policy 0, policy_version 8753 (0.0008)
+[2023-07-06 10:45:34,764][98243] Fps is (10 sec: 117965.0, 60 sec: 110865.0, 300 sec: 99760.3). Total num frames: 17956864. Throughput: 0: 28012.1. Samples: 4572672. Policy #0 lag: (min: 15.0, avg: 82.7, max: 271.0)
+[2023-07-06 10:45:34,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:34,985][98493] Updated weights for policy 0, policy_version 8791 (0.0007)
+[2023-07-06 10:45:35,951][98493] Updated weights for policy 0, policy_version 8835 (0.0006)
+[2023-07-06 10:45:36,509][98493] Updated weights for policy 0, policy_version 8904 (0.0008)
+[2023-07-06 10:45:36,977][98493] Updated weights for policy 0, policy_version 8959 (0.0007)
+[2023-07-06 10:45:38,892][98493] Updated weights for policy 0, policy_version 9015 (0.0008)
+[2023-07-06 10:45:39,770][98243] Fps is (10 sec: 121175.1, 60 sec: 109762.7, 300 sec: 100072.2). Total num frames: 18513920. Throughput: 0: 27894.9. Samples: 4657152. Policy #0 lag: (min: 11.0, avg: 103.5, max: 267.0)
+[2023-07-06 10:45:39,770][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:39,942][98493] Updated weights for policy 0, policy_version 9059 (0.0008)
+[2023-07-06 10:45:40,735][98493] Updated weights for policy 0, policy_version 9112 (0.0008)
+[2023-07-06 10:45:41,233][98493] Updated weights for policy 0, policy_version 9168 (0.0008)
+[2023-07-06 10:45:42,956][98493] Updated weights for policy 0, policy_version 9221 (0.0007)
+[2023-07-06 10:45:44,338][98493] Updated weights for policy 0, policy_version 9287 (0.0008)
+[2023-07-06 10:45:44,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110865.3, 300 sec: 100546.0). Total num frames: 19103744. Throughput: 0: 28091.8. Samples: 4826112. Policy #0 lag: (min: 11.0, avg: 103.5, max: 267.0)
+[2023-07-06 10:45:44,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:44,779][98493] Updated weights for policy 0, policy_version 9344 (0.0007)
+[2023-07-06 10:45:45,557][98449] Signal inference workers to stop experience collection... (500 times)
+[2023-07-06 10:45:45,592][98493] InferenceWorker_p0-w0: stopping experience collection (500 times)
+[2023-07-06 10:45:45,641][98449] Signal inference workers to resume experience collection... (500 times)
+[2023-07-06 10:45:45,642][98493] InferenceWorker_p0-w0: resuming experience collection (500 times)
+[2023-07-06 10:45:45,716][98493] Updated weights for policy 0, policy_version 9394 (0.0008)
+[2023-07-06 10:45:46,266][98493] Updated weights for policy 0, policy_version 9466 (0.0007)
+[2023-07-06 10:45:47,654][98493] Updated weights for policy 0, policy_version 9505 (0.0007)
+[2023-07-06 10:45:48,917][98493] Updated weights for policy 0, policy_version 9557 (0.0007)
+[2023-07-06 10:45:49,764][98243] Fps is (10 sec: 114749.5, 60 sec: 110864.9, 300 sec: 100824.5). Total num frames: 19660800. Throughput: 0: 28205.4. Samples: 4998144. Policy #0 lag: (min: 59.0, avg: 179.9, max: 294.0)
+[2023-07-06 10:45:49,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:45:50,055][98493] Updated weights for policy 0, policy_version 9601 (0.0007)
+[2023-07-06 10:45:50,539][98493] Updated weights for policy 0, policy_version 9664 (0.0007)
+[2023-07-06 10:45:51,053][98493] Updated weights for policy 0, policy_version 9724 (0.0007)
+[2023-07-06 10:45:52,266][98493] Updated weights for policy 0, policy_version 9765 (0.0007)
+[2023-07-06 10:45:53,385][98493] Updated weights for policy 0, policy_version 9814 (0.0008)
+[2023-07-06 10:45:54,765][98243] Fps is (10 sec: 108131.5, 60 sec: 110318.3, 300 sec: 100925.3). Total num frames: 20185088. Throughput: 0: 28091.6. Samples: 5080064. Policy #0 lag: (min: 59.0, avg: 179.9, max: 294.0)
+[2023-07-06 10:45:54,765][98243] Avg episode reward: [(0, '-9.830')]
+[2023-07-06 10:45:55,019][98493] Updated weights for policy 0, policy_version 9875 (0.0007)
+[2023-07-06 10:45:55,491][98493] Updated weights for policy 0, policy_version 9923 (0.0006)
+[2023-07-06 10:45:56,791][98493] Updated weights for policy 0, policy_version 10000 (0.0008)
+[2023-07-06 10:45:58,234][98493] Updated weights for policy 0, policy_version 10064 (0.0007)
+[2023-07-06 10:45:59,535][98493] Updated weights for policy 0, policy_version 10119 (0.0008)
+[2023-07-06 10:45:59,764][98243] Fps is (10 sec: 111412.0, 60 sec: 110318.9, 300 sec: 101341.0). Total num frames: 20774912. Throughput: 0: 28194.3. Samples: 5246464. Policy #0 lag: (min: 15.0, avg: 101.2, max: 271.0)
+[2023-07-06 10:45:59,765][98243] Avg episode reward: [(0, '-9.900')]
+[2023-07-06 10:46:00,185][98493] Updated weights for policy 0, policy_version 10177 (0.0008)
+[2023-07-06 10:46:00,602][98493] Updated weights for policy 0, policy_version 10230 (0.0006)
+[2023-07-06 10:46:01,499][98493] Updated weights for policy 0, policy_version 10260 (0.0006)
+[2023-07-06 10:46:03,043][98493] Updated weights for policy 0, policy_version 10320 (0.0007)
+[2023-07-06 10:46:04,099][98493] Updated weights for policy 0, policy_version 10369 (0.0007)
+[2023-07-06 10:46:04,247][98449] Signal inference workers to stop experience collection... (550 times)
+[2023-07-06 10:46:04,282][98493] InferenceWorker_p0-w0: stopping experience collection (550 times)
+[2023-07-06 10:46:04,335][98449] Signal inference workers to resume experience collection... (550 times)
+[2023-07-06 10:46:04,336][98493] InferenceWorker_p0-w0: resuming experience collection (550 times)
+[2023-07-06 10:46:04,764][98243] Fps is (10 sec: 117966.8, 60 sec: 111411.0, 300 sec: 101736.7). Total num frames: 21364736. Throughput: 0: 27977.9. Samples: 5413376. Policy #0 lag: (min: 15.0, avg: 116.6, max: 271.0)
+[2023-07-06 10:46:04,765][98243] Avg episode reward: [(0, '-9.980')]
+[2023-07-06 10:46:04,879][98493] Updated weights for policy 0, policy_version 10433 (0.0007)
+[2023-07-06 10:46:05,331][98493] Updated weights for policy 0, policy_version 10494 (0.0009)
+[2023-07-06 10:46:07,723][98493] Updated weights for policy 0, policy_version 10564 (0.0007)
+[2023-07-06 10:46:08,148][98493] Updated weights for policy 0, policy_version 10620 (0.0007)
+[2023-07-06 10:46:09,067][98493] Updated weights for policy 0, policy_version 10682 (0.0007)
+[2023-07-06 10:46:09,764][98243] Fps is (10 sec: 117965.3, 60 sec: 112503.5, 300 sec: 102114.2). Total num frames: 21954560. Throughput: 0: 28171.4. Samples: 5499904. Policy #0 lag: (min: 15.0, avg: 116.6, max: 271.0)
+[2023-07-06 10:46:09,765][98243] Avg episode reward: [(0, '-9.970')]
+[2023-07-06 10:46:09,921][98493] Updated weights for policy 0, policy_version 10748 (0.0006)
+[2023-07-06 10:46:11,463][98493] Updated weights for policy 0, policy_version 10816 (0.0007)
+[2023-07-06 10:46:12,699][98493] Updated weights for policy 0, policy_version 10853 (0.0006)
+[2023-07-06 10:46:13,814][98493] Updated weights for policy 0, policy_version 10928 (0.0007)
+[2023-07-06 10:46:14,655][98493] Updated weights for policy 0, policy_version 10998 (0.0007)
+[2023-07-06 10:46:14,764][98243] Fps is (10 sec: 117966.1, 60 sec: 113596.4, 300 sec: 102474.4). Total num frames: 22544384. Throughput: 0: 28023.5. Samples: 5664256. Policy #0 lag: (min: 52.0, avg: 168.8, max: 308.0)
+[2023-07-06 10:46:14,765][98243] Avg episode reward: [(0, '-9.940')]
+[2023-07-06 10:46:16,146][98493] Updated weights for policy 0, policy_version 11043 (0.0009)
+[2023-07-06 10:46:16,982][98493] Updated weights for policy 0, policy_version 11074 (0.0006)
+[2023-07-06 10:46:17,477][98493] Updated weights for policy 0, policy_version 11136 (0.0007)
+[2023-07-06 10:46:18,716][98493] Updated weights for policy 0, policy_version 11193 (0.0007)
+[2023-07-06 10:46:19,310][98493] Updated weights for policy 0, policy_version 11248 (0.0007)
+[2023-07-06 10:46:19,764][98243] Fps is (10 sec: 111411.6, 60 sec: 113595.8, 300 sec: 102527.4). Total num frames: 23068672. Throughput: 0: 27909.7. Samples: 5828608. Policy #0 lag: (min: 52.0, avg: 168.8, max: 308.0)
+[2023-07-06 10:46:19,765][98243] Avg episode reward: [(0, '-9.960')]
+[2023-07-06 10:46:20,553][98493] Updated weights for policy 0, policy_version 11280 (0.0006)
+[2023-07-06 10:46:20,936][98493] Updated weights for policy 0, policy_version 11325 (0.0007)
+[2023-07-06 10:46:22,138][98493] Updated weights for policy 0, policy_version 11386 (0.0007)
+[2023-07-06 10:46:23,413][98493] Updated weights for policy 0, policy_version 11447 (0.0007)
+[2023-07-06 10:46:23,660][98449] Signal inference workers to stop experience collection... (600 times)
+[2023-07-06 10:46:23,676][98493] InferenceWorker_p0-w0: stopping experience collection (600 times)
+[2023-07-06 10:46:23,751][98449] Signal inference workers to resume experience collection... (600 times)
+[2023-07-06 10:46:23,751][98493] InferenceWorker_p0-w0: resuming experience collection (600 times)
+[2023-07-06 10:46:24,025][98493] Updated weights for policy 0, policy_version 11504 (0.0007)
+[2023-07-06 10:46:24,764][98243] Fps is (10 sec: 104856.1, 60 sec: 113595.5, 300 sec: 102578.0). Total num frames: 23592960. Throughput: 0: 27958.5. Samples: 5915136. Policy #0 lag: (min: 10.0, avg: 122.0, max: 266.0)
+[2023-07-06 10:46:24,765][98243] Avg episode reward: [(0, '-9.980')]
+[2023-07-06 10:46:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000011520_23592960.pth...
+[2023-07-06 10:46:25,434][98493] Updated weights for policy 0, policy_version 11552 (0.0007)
+[2023-07-06 10:46:26,532][98493] Updated weights for policy 0, policy_version 11600 (0.0007)
+[2023-07-06 10:46:27,949][98493] Updated weights for policy 0, policy_version 11652 (0.0007)
+[2023-07-06 10:46:28,373][98493] Updated weights for policy 0, policy_version 11707 (0.0006)
+[2023-07-06 10:46:28,849][98493] Updated weights for policy 0, policy_version 11760 (0.0006)
+[2023-07-06 10:46:29,764][98243] Fps is (10 sec: 104856.5, 60 sec: 113595.6, 300 sec: 102626.5). Total num frames: 24117248. Throughput: 0: 27807.2. Samples: 6077440. Policy #0 lag: (min: 10.0, avg: 122.0, max: 266.0)
+[2023-07-06 10:46:29,765][98243] Avg episode reward: [(0, '-9.950')]
+[2023-07-06 10:46:30,154][98493] Updated weights for policy 0, policy_version 11813 (0.0007)
+[2023-07-06 10:46:31,047][98493] Updated weights for policy 0, policy_version 11846 (0.0006)
+[2023-07-06 10:46:31,489][98493] Updated weights for policy 0, policy_version 11900 (0.0006)
+[2023-07-06 10:46:33,044][98493] Updated weights for policy 0, policy_version 11961 (0.0007)
+[2023-07-06 10:46:33,717][98493] Updated weights for policy 0, policy_version 12009 (0.0006)
+[2023-07-06 10:46:34,737][98493] Updated weights for policy 0, policy_version 12064 (0.0007)
+[2023-07-06 10:46:34,764][98243] Fps is (10 sec: 111414.1, 60 sec: 112503.7, 300 sec: 102946.1). Total num frames: 24707072. Throughput: 0: 27727.8. Samples: 6245888. Policy #0 lag: (min: 7.0, avg: 123.9, max: 263.0)
+[2023-07-06 10:46:34,764][98243] Avg episode reward: [(0, '-9.940')]
+[2023-07-06 10:46:35,907][98493] Updated weights for policy 0, policy_version 12119 (0.0007)
+[2023-07-06 10:46:37,462][98493] Updated weights for policy 0, policy_version 12161 (0.0007)
+[2023-07-06 10:46:38,261][98493] Updated weights for policy 0, policy_version 12240 (0.0007)
+[2023-07-06 10:46:39,396][98493] Updated weights for policy 0, policy_version 12304 (0.0007)
+[2023-07-06 10:46:39,764][98243] Fps is (10 sec: 114687.8, 60 sec: 112513.6, 300 sec: 103118.8). Total num frames: 25264128. Throughput: 0: 27739.1. Samples: 6328320. Policy #0 lag: (min: 15.0, avg: 137.6, max: 271.0)
+[2023-07-06 10:46:39,765][98243] Avg episode reward: [(0, '-9.890')]
+[2023-07-06 10:46:39,781][98493] Updated weights for policy 0, policy_version 12349 (0.0007)
+[2023-07-06 10:46:42,199][98493] Updated weights for policy 0, policy_version 12417 (0.0006)
+[2023-07-06 10:46:42,665][98493] Updated weights for policy 0, policy_version 12475 (0.0007)
+[2023-07-06 10:46:43,256][98449] Signal inference workers to stop experience collection... (650 times)
+[2023-07-06 10:46:43,290][98493] InferenceWorker_p0-w0: stopping experience collection (650 times)
+[2023-07-06 10:46:43,336][98449] Signal inference workers to resume experience collection... (650 times)
+[2023-07-06 10:46:43,336][98493] InferenceWorker_p0-w0: resuming experience collection (650 times)
+[2023-07-06 10:46:43,468][98493] Updated weights for policy 0, policy_version 12528 (0.0007)
+[2023-07-06 10:46:44,431][98493] Updated weights for policy 0, policy_version 12581 (0.0006)
+[2023-07-06 10:46:44,764][98243] Fps is (10 sec: 111410.2, 60 sec: 111957.4, 300 sec: 103284.7). Total num frames: 25821184. Throughput: 0: 27613.9. Samples: 6489088. Policy #0 lag: (min: 15.0, avg: 137.6, max: 271.0)
+[2023-07-06 10:46:44,765][98243] Avg episode reward: [(0, '-9.910')]
+[2023-07-06 10:46:45,480][98493] Updated weights for policy 0, policy_version 12626 (0.0006)
+[2023-07-06 10:46:46,853][98493] Updated weights for policy 0, policy_version 12675 (0.0006)
+[2023-07-06 10:46:47,357][98493] Updated weights for policy 0, policy_version 12736 (0.0007)
+[2023-07-06 10:46:48,314][98493] Updated weights for policy 0, policy_version 12800 (0.0007)
+[2023-07-06 10:46:49,394][98493] Updated weights for policy 0, policy_version 12854 (0.0007)
+[2023-07-06 10:46:49,764][98243] Fps is (10 sec: 108135.4, 60 sec: 111411.4, 300 sec: 103315.5). Total num frames: 26345472. Throughput: 0: 27568.4. Samples: 6653952. Policy #0 lag: (min: 15.0, avg: 134.8, max: 271.0)
+[2023-07-06 10:46:49,765][98243] Avg episode reward: [(0, '-9.820')]
+[2023-07-06 10:46:50,562][98493] Updated weights for policy 0, policy_version 12896 (0.0007)
+[2023-07-06 10:46:51,699][98493] Updated weights for policy 0, policy_version 12951 (0.0007)
+[2023-07-06 10:46:52,613][98493] Updated weights for policy 0, policy_version 13011 (0.0007)
+[2023-07-06 10:46:53,725][98493] Updated weights for policy 0, policy_version 13064 (0.0006)
+[2023-07-06 10:46:54,203][98493] Updated weights for policy 0, policy_version 13120 (0.0033)
+[2023-07-06 10:46:54,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.7, 300 sec: 103345.2). Total num frames: 26869760. Throughput: 0: 27511.5. Samples: 6737920. Policy #0 lag: (min: 15.0, avg: 134.8, max: 271.0)
+[2023-07-06 10:46:54,765][98243] Avg episode reward: [(0, '-9.710')]
+[2023-07-06 10:46:54,783][98449] Saving new best policy, reward=-9.710!
+[2023-07-06 10:46:55,458][98493] Updated weights for policy 0, policy_version 13181 (0.0007)
+[2023-07-06 10:46:56,570][98493] Updated weights for policy 0, policy_version 13238 (0.0007)
+[2023-07-06 10:46:57,574][98493] Updated weights for policy 0, policy_version 13296 (0.0007)
+[2023-07-06 10:46:58,603][98493] Updated weights for policy 0, policy_version 13350 (0.0007)
+[2023-07-06 10:46:59,764][98243] Fps is (10 sec: 104855.6, 60 sec: 110318.7, 300 sec: 103373.7). Total num frames: 27394048. Throughput: 0: 27556.9. Samples: 6904320. Policy #0 lag: (min: 15.0, avg: 134.8, max: 271.0)
+[2023-07-06 10:46:59,766][98243] Avg episode reward: [(0, '-9.750')]
+[2023-07-06 10:46:59,793][98493] Updated weights for policy 0, policy_version 13379 (0.0013)
+[2023-07-06 10:47:00,294][98493] Updated weights for policy 0, policy_version 13434 (0.0007)
+[2023-07-06 10:47:01,188][98493] Updated weights for policy 0, policy_version 13488 (0.0007)
+[2023-07-06 10:47:02,058][98493] Updated weights for policy 0, policy_version 13536 (0.0007)
+[2023-07-06 10:47:03,018][98449] Signal inference workers to stop experience collection... (700 times)
+[2023-07-06 10:47:03,058][98493] InferenceWorker_p0-w0: stopping experience collection (700 times)
+[2023-07-06 10:47:03,104][98449] Signal inference workers to resume experience collection... (700 times)
+[2023-07-06 10:47:03,105][98493] InferenceWorker_p0-w0: resuming experience collection (700 times)
+[2023-07-06 10:47:03,180][98493] Updated weights for policy 0, policy_version 13585 (0.0007)
+[2023-07-06 10:47:04,469][98493] Updated weights for policy 0, policy_version 13635 (0.0008)
+[2023-07-06 10:47:04,764][98243] Fps is (10 sec: 111409.7, 60 sec: 110318.8, 300 sec: 103643.9). Total num frames: 27983872. Throughput: 0: 27682.0. Samples: 7074304. Policy #0 lag: (min: 6.0, avg: 113.0, max: 262.0)
+[2023-07-06 10:47:04,765][98243] Avg episode reward: [(0, '-9.690')]
+[2023-07-06 10:47:04,940][98449] Saving new best policy, reward=-9.690!
+[2023-07-06 10:47:05,431][98493] Updated weights for policy 0, policy_version 13699 (0.0006)
+[2023-07-06 10:47:05,906][98493] Updated weights for policy 0, policy_version 13760 (0.0015)
+[2023-07-06 10:47:06,982][98493] Updated weights for policy 0, policy_version 13824 (0.0007)
+[2023-07-06 10:47:08,251][98493] Updated weights for policy 0, policy_version 13880 (0.0006)
+[2023-07-06 10:47:09,655][98493] Updated weights for policy 0, policy_version 13936 (0.0007)
+[2023-07-06 10:47:09,764][98243] Fps is (10 sec: 114690.1, 60 sec: 109772.8, 300 sec: 103785.2). Total num frames: 28540928. Throughput: 0: 27636.7. Samples: 7158784. Policy #0 lag: (min: 6.0, avg: 113.0, max: 262.0)
+[2023-07-06 10:47:09,765][98243] Avg episode reward: [(0, '-9.600')]
+[2023-07-06 10:47:09,778][98449] Saving new best policy, reward=-9.600!
+[2023-07-06 10:47:10,453][98493] Updated weights for policy 0, policy_version 14010 (0.0007)
+[2023-07-06 10:47:11,471][98493] Updated weights for policy 0, policy_version 14064 (0.0007)
+[2023-07-06 10:47:12,763][98493] Updated weights for policy 0, policy_version 14120 (0.0008)
+[2023-07-06 10:47:14,200][98493] Updated weights for policy 0, policy_version 14176 (0.0007)
+[2023-07-06 10:47:14,709][98493] Updated weights for policy 0, policy_version 14224 (0.0007)
+[2023-07-06 10:47:14,764][98243] Fps is (10 sec: 114689.4, 60 sec: 109772.7, 300 sec: 104038.4). Total num frames: 29130752. Throughput: 0: 27773.2. Samples: 7327232. Policy #0 lag: (min: 2.0, avg: 124.9, max: 258.0)
+[2023-07-06 10:47:14,765][98243] Avg episode reward: [(0, '-9.480')]
+[2023-07-06 10:47:14,982][98449] Saving new best policy, reward=-9.480!
+[2023-07-06 10:47:16,172][98493] Updated weights for policy 0, policy_version 14274 (0.0007)
+[2023-07-06 10:47:17,150][98493] Updated weights for policy 0, policy_version 14338 (0.0008)
+[2023-07-06 10:47:18,775][98493] Updated weights for policy 0, policy_version 14423 (0.0007)
+[2023-07-06 10:47:19,315][98493] Updated weights for policy 0, policy_version 14480 (0.0007)
+[2023-07-06 10:47:19,748][98493] Updated weights for policy 0, policy_version 14528 (0.0007)
+[2023-07-06 10:47:19,764][98243] Fps is (10 sec: 121241.9, 60 sec: 111411.2, 300 sec: 104397.7). Total num frames: 29753344. Throughput: 0: 27636.6. Samples: 7489536. Policy #0 lag: (min: 2.0, avg: 124.9, max: 258.0)
+[2023-07-06 10:47:19,764][98243] Avg episode reward: [(0, '-9.360')]
+[2023-07-06 10:47:19,765][98449] Saving new best policy, reward=-9.360!
+[2023-07-06 10:47:21,306][98493] Updated weights for policy 0, policy_version 14587 (0.0008)
+[2023-07-06 10:47:22,189][98449] Signal inference workers to stop experience collection... (750 times)
+[2023-07-06 10:47:22,233][98493] InferenceWorker_p0-w0: stopping experience collection (750 times)
+[2023-07-06 10:47:22,282][98449] Signal inference workers to resume experience collection... (750 times)
+[2023-07-06 10:47:22,283][98493] InferenceWorker_p0-w0: resuming experience collection (750 times)
+[2023-07-06 10:47:22,284][98493] Updated weights for policy 0, policy_version 14640 (0.0007)
+[2023-07-06 10:47:23,666][98493] Updated weights for policy 0, policy_version 14704 (0.0007)
+[2023-07-06 10:47:24,370][98493] Updated weights for policy 0, policy_version 14752 (0.0008)
+[2023-07-06 10:47:24,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111411.4, 300 sec: 104405.6). Total num frames: 30277632. Throughput: 0: 27739.1. Samples: 7576576. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 10:47:24,765][98243] Avg episode reward: [(0, '-9.200')]
+[2023-07-06 10:47:24,768][98449] Saving new best policy, reward=-9.200!
+[2023-07-06 10:47:25,539][98493] Updated weights for policy 0, policy_version 14807 (0.0007)
+[2023-07-06 10:47:26,827][98493] Updated weights for policy 0, policy_version 14856 (0.0007)
+[2023-07-06 10:47:27,296][98493] Updated weights for policy 0, policy_version 14912 (0.0007)
+[2023-07-06 10:47:28,283][98493] Updated weights for policy 0, policy_version 14968 (0.0007)
+[2023-07-06 10:47:29,214][98493] Updated weights for policy 0, policy_version 15008 (0.0006)
+[2023-07-06 10:47:29,765][98243] Fps is (10 sec: 104854.4, 60 sec: 111410.8, 300 sec: 104413.2). Total num frames: 30801920. Throughput: 0: 27886.7. Samples: 7744000. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 10:47:29,766][98243] Avg episode reward: [(0, '-9.210')]
+[2023-07-06 10:47:29,840][98493] Updated weights for policy 0, policy_version 15044 (0.0006)
+[2023-07-06 10:47:31,318][98493] Updated weights for policy 0, policy_version 15108 (0.0007)
+[2023-07-06 10:47:31,766][98493] Updated weights for policy 0, policy_version 15166 (0.0007)
+[2023-07-06 10:47:32,837][98493] Updated weights for policy 0, policy_version 15219 (0.0008)
+[2023-07-06 10:47:34,031][98493] Updated weights for policy 0, policy_version 15269 (0.0007)
+[2023-07-06 10:47:34,667][98493] Updated weights for policy 0, policy_version 15328 (0.0007)
+[2023-07-06 10:47:34,764][98243] Fps is (10 sec: 111411.7, 60 sec: 111411.0, 300 sec: 106412.7). Total num frames: 31391744. Throughput: 0: 28000.7. Samples: 7913984. Policy #0 lag: (min: 15.0, avg: 126.6, max: 271.0)
+[2023-07-06 10:47:34,764][98243] Avg episode reward: [(0, '-9.120')]
+[2023-07-06 10:47:34,910][98449] Saving new best policy, reward=-9.120!
+[2023-07-06 10:47:36,163][98493] Updated weights for policy 0, policy_version 15385 (0.0008)
+[2023-07-06 10:47:37,061][98493] Updated weights for policy 0, policy_version 15440 (0.0007)
+[2023-07-06 10:47:37,441][98493] Updated weights for policy 0, policy_version 15486 (0.0006)
+[2023-07-06 10:47:38,494][98493] Updated weights for policy 0, policy_version 15523 (0.0007)
+[2023-07-06 10:47:39,215][98493] Updated weights for policy 0, policy_version 15578 (0.0007)
+[2023-07-06 10:47:39,765][98243] Fps is (10 sec: 117965.7, 60 sec: 111957.1, 300 sec: 108412.0). Total num frames: 31981568. Throughput: 0: 28057.5. Samples: 8000512. Policy #0 lag: (min: 15.0, avg: 126.6, max: 271.0)
+[2023-07-06 10:47:39,765][98243] Avg episode reward: [(0, '-9.040')]
+[2023-07-06 10:47:39,767][98449] Saving new best policy, reward=-9.040!
+[2023-07-06 10:47:40,661][98493] Updated weights for policy 0, policy_version 15632 (0.0007)
+[2023-07-06 10:47:41,799][98493] Updated weights for policy 0, policy_version 15682 (0.0007)
+[2023-07-06 10:47:41,912][98449] Signal inference workers to stop experience collection... (800 times)
+[2023-07-06 10:47:41,957][98493] InferenceWorker_p0-w0: stopping experience collection (800 times)
+[2023-07-06 10:47:42,016][98449] Signal inference workers to resume experience collection... (800 times)
+[2023-07-06 10:47:42,017][98493] InferenceWorker_p0-w0: resuming experience collection (800 times)
+[2023-07-06 10:47:42,307][98493] Updated weights for policy 0, policy_version 15744 (0.0006)
+[2023-07-06 10:47:43,206][98493] Updated weights for policy 0, policy_version 15794 (0.0006)
+[2023-07-06 10:47:43,923][98493] Updated weights for policy 0, policy_version 15840 (0.0007)
+[2023-07-06 10:47:44,764][98243] Fps is (10 sec: 111409.0, 60 sec: 111410.8, 300 sec: 110189.3). Total num frames: 32505856. Throughput: 0: 28160.0. Samples: 8171520. Policy #0 lag: (min: 27.0, avg: 161.9, max: 283.0)
+[2023-07-06 10:47:44,765][98243] Avg episode reward: [(0, '-9.040')]
+[2023-07-06 10:47:45,106][98493] Updated weights for policy 0, policy_version 15878 (0.0007)
+[2023-07-06 10:47:45,488][98493] Updated weights for policy 0, policy_version 15928 (0.0007)
+[2023-07-06 10:47:46,825][98493] Updated weights for policy 0, policy_version 15996 (0.0006)
+[2023-07-06 10:47:47,557][98493] Updated weights for policy 0, policy_version 16037 (0.0007)
+[2023-07-06 10:47:48,556][98493] Updated weights for policy 0, policy_version 16088 (0.0006)
+[2023-07-06 10:47:49,764][98243] Fps is (10 sec: 104859.8, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 33030144. Throughput: 0: 28194.2. Samples: 8343040. Policy #0 lag: (min: 27.0, avg: 161.9, max: 283.0)
+[2023-07-06 10:47:49,765][98243] Avg episode reward: [(0, '-8.920')]
+[2023-07-06 10:47:49,839][98493] Updated weights for policy 0, policy_version 16144 (0.0008)
+[2023-07-06 10:47:49,974][98449] Saving new best policy, reward=-8.920!
+[2023-07-06 10:47:51,115][98493] Updated weights for policy 0, policy_version 16208 (0.0007)
+[2023-07-06 10:47:51,525][98493] Updated weights for policy 0, policy_version 16256 (0.0006)
+[2023-07-06 10:47:52,428][98493] Updated weights for policy 0, policy_version 16320 (0.0007)
+[2023-07-06 10:47:53,559][98493] Updated weights for policy 0, policy_version 16370 (0.0007)
+[2023-07-06 10:47:54,674][98493] Updated weights for policy 0, policy_version 16400 (0.0008)
+[2023-07-06 10:47:54,764][98243] Fps is (10 sec: 108135.1, 60 sec: 111957.2, 300 sec: 111522.2). Total num frames: 33587200. Throughput: 0: 28091.7. Samples: 8422912. Policy #0 lag: (min: 27.0, avg: 161.9, max: 283.0)
+[2023-07-06 10:47:54,766][98243] Avg episode reward: [(0, '-8.920')]
+[2023-07-06 10:47:55,643][98493] Updated weights for policy 0, policy_version 16464 (0.0007)
+[2023-07-06 10:47:56,472][98493] Updated weights for policy 0, policy_version 16513 (0.0006)
+[2023-07-06 10:47:56,952][98493] Updated weights for policy 0, policy_version 16576 (0.0006)
+[2023-07-06 10:47:59,426][98493] Updated weights for policy 0, policy_version 16643 (0.0007)
+[2023-07-06 10:47:59,764][98243] Fps is (10 sec: 111411.2, 60 sec: 112503.8, 300 sec: 111300.1). Total num frames: 34144256. Throughput: 0: 28137.3. Samples: 8593408. Policy #0 lag: (min: 15.0, avg: 128.7, max: 271.0)
+[2023-07-06 10:47:59,764][98243] Avg episode reward: [(0, '-8.920')]
+[2023-07-06 10:47:59,863][98493] Updated weights for policy 0, policy_version 16699 (0.0008)
+[2023-07-06 10:48:00,545][98493] Updated weights for policy 0, policy_version 16752 (0.0007)
+[2023-07-06 10:48:01,117][98449] Signal inference workers to stop experience collection... (850 times)
+[2023-07-06 10:48:01,142][98493] InferenceWorker_p0-w0: stopping experience collection (850 times)
+[2023-07-06 10:48:01,219][98449] Signal inference workers to resume experience collection... (850 times)
+[2023-07-06 10:48:01,219][98493] InferenceWorker_p0-w0: resuming experience collection (850 times)
+[2023-07-06 10:48:01,443][98493] Updated weights for policy 0, policy_version 16805 (0.0007)
+[2023-07-06 10:48:02,556][98493] Updated weights for policy 0, policy_version 16855 (0.0012)
+[2023-07-06 10:48:04,209][98493] Updated weights for policy 0, policy_version 16912 (0.0007)
+[2023-07-06 10:48:04,596][98493] Updated weights for policy 0, policy_version 16959 (0.0008)
+[2023-07-06 10:48:04,764][98243] Fps is (10 sec: 114689.1, 60 sec: 112503.7, 300 sec: 111189.0). Total num frames: 34734080. Throughput: 0: 28319.3. Samples: 8763904. Policy #0 lag: (min: 15.0, avg: 128.7, max: 271.0)
+[2023-07-06 10:48:04,765][98243] Avg episode reward: [(0, '-8.900')]
+[2023-07-06 10:48:04,765][98449] Saving new best policy, reward=-8.900!
+[2023-07-06 10:48:05,333][98493] Updated weights for policy 0, policy_version 17017 (0.0007)
+[2023-07-06 10:48:06,195][98493] Updated weights for policy 0, policy_version 17072 (0.0007)
+[2023-07-06 10:48:06,929][98493] Updated weights for policy 0, policy_version 17120 (0.0007)
+[2023-07-06 10:48:08,854][98493] Updated weights for policy 0, policy_version 17178 (0.0007)
+[2023-07-06 10:48:09,167][98493] Updated weights for policy 0, policy_version 17216 (0.0006)
+[2023-07-06 10:48:09,764][98243] Fps is (10 sec: 117964.8, 60 sec: 113049.6, 300 sec: 111189.1). Total num frames: 35323904. Throughput: 0: 28273.8. Samples: 8848896. Policy #0 lag: (min: 15.0, avg: 103.6, max: 271.0)
+[2023-07-06 10:48:09,765][98243] Avg episode reward: [(0, '-8.870')]
+[2023-07-06 10:48:09,872][98449] Saving new best policy, reward=-8.870!
+[2023-07-06 10:48:09,959][98493] Updated weights for policy 0, policy_version 17272 (0.0007)
+[2023-07-06 10:48:10,708][98493] Updated weights for policy 0, policy_version 17339 (0.0007)
+[2023-07-06 10:48:11,846][98493] Updated weights for policy 0, policy_version 17403 (0.0007)
+[2023-07-06 10:48:13,848][98493] Updated weights for policy 0, policy_version 17472 (0.0007)
+[2023-07-06 10:48:14,624][98493] Updated weights for policy 0, policy_version 17536 (0.0015)
+[2023-07-06 10:48:14,764][98243] Fps is (10 sec: 117965.2, 60 sec: 113049.7, 300 sec: 111189.1). Total num frames: 35913728. Throughput: 0: 28342.2. Samples: 9019392. Policy #0 lag: (min: 15.0, avg: 103.6, max: 271.0)
+[2023-07-06 10:48:14,765][98243] Avg episode reward: [(0, '-8.880')]
+[2023-07-06 10:48:15,547][98493] Updated weights for policy 0, policy_version 17600 (0.0007)
+[2023-07-06 10:48:16,666][98493] Updated weights for policy 0, policy_version 17660 (0.0006)
+[2023-07-06 10:48:18,322][98493] Updated weights for policy 0, policy_version 17721 (0.0008)
+[2023-07-06 10:48:19,497][98493] Updated weights for policy 0, policy_version 17776 (0.0007)
+[2023-07-06 10:48:19,764][98243] Fps is (10 sec: 114688.9, 60 sec: 111957.5, 300 sec: 111189.1). Total num frames: 36470784. Throughput: 0: 28228.3. Samples: 9184256. Policy #0 lag: (min: 15.0, avg: 103.6, max: 271.0)
+[2023-07-06 10:48:19,764][98243] Avg episode reward: [(0, '-8.880')]
+[2023-07-06 10:48:19,814][98449] Signal inference workers to stop experience collection... (900 times)
+[2023-07-06 10:48:19,846][98493] InferenceWorker_p0-w0: stopping experience collection (900 times)
+[2023-07-06 10:48:19,896][98449] Signal inference workers to resume experience collection... (900 times)
+[2023-07-06 10:48:19,896][98493] InferenceWorker_p0-w0: resuming experience collection (900 times)
+[2023-07-06 10:48:20,122][98493] Updated weights for policy 0, policy_version 17846 (0.0008)
+[2023-07-06 10:48:21,199][98493] Updated weights for policy 0, policy_version 17894 (0.0007)
+[2023-07-06 10:48:22,470][98493] Updated weights for policy 0, policy_version 17923 (0.0007)
+[2023-07-06 10:48:23,026][98493] Updated weights for policy 0, policy_version 17984 (0.0006)
+[2023-07-06 10:48:24,157][98493] Updated weights for policy 0, policy_version 18040 (0.0009)
+[2023-07-06 10:48:24,667][98493] Updated weights for policy 0, policy_version 18096 (0.0007)
+[2023-07-06 10:48:24,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113049.4, 300 sec: 111411.2). Total num frames: 37060608. Throughput: 0: 28239.7. Samples: 9271296. Policy #0 lag: (min: 38.0, avg: 168.0, max: 294.0)
+[2023-07-06 10:48:24,765][98243] Avg episode reward: [(0, '-8.880')]
+[2023-07-06 10:48:24,805][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000018112_37093376.pth...
+[2023-07-06 10:48:24,840][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000004992_10223616.pth
+[2023-07-06 10:48:25,752][98493] Updated weights for policy 0, policy_version 18144 (0.0006)
+[2023-07-06 10:48:27,170][98493] Updated weights for policy 0, policy_version 18199 (0.0008)
+[2023-07-06 10:48:27,447][98493] Updated weights for policy 0, policy_version 18239 (0.0007)
+[2023-07-06 10:48:28,763][98493] Updated weights for policy 0, policy_version 18288 (0.0007)
+[2023-07-06 10:48:29,330][98493] Updated weights for policy 0, policy_version 18344 (0.0009)
+[2023-07-06 10:48:29,764][98243] Fps is (10 sec: 114684.6, 60 sec: 113595.9, 300 sec: 111522.2). Total num frames: 37617664. Throughput: 0: 28228.2. Samples: 9441792. Policy #0 lag: (min: 38.0, avg: 168.0, max: 294.0)
+[2023-07-06 10:48:29,765][98243] Avg episode reward: [(0, '-8.880')]
+[2023-07-06 10:48:30,284][98493] Updated weights for policy 0, policy_version 18400 (0.0007)
+[2023-07-06 10:48:31,669][98493] Updated weights for policy 0, policy_version 18448 (0.0007)
+[2023-07-06 10:48:32,906][98493] Updated weights for policy 0, policy_version 18499 (0.0008)
+[2023-07-06 10:48:33,357][98493] Updated weights for policy 0, policy_version 18559 (0.0007)
+[2023-07-06 10:48:34,147][98493] Updated weights for policy 0, policy_version 18608 (0.0007)
+[2023-07-06 10:48:34,765][98243] Fps is (10 sec: 111407.2, 60 sec: 113048.7, 300 sec: 111633.2). Total num frames: 38174720. Throughput: 0: 28216.6. Samples: 9612800. Policy #0 lag: (min: 47.0, avg: 166.6, max: 309.0)
+[2023-07-06 10:48:34,766][98243] Avg episode reward: [(0, '-8.890')]
+[2023-07-06 10:48:34,904][98493] Updated weights for policy 0, policy_version 18659 (0.0007)
+[2023-07-06 10:48:36,419][98493] Updated weights for policy 0, policy_version 18724 (0.0007)
+[2023-07-06 10:48:37,364][98493] Updated weights for policy 0, policy_version 18758 (0.0006)
+[2023-07-06 10:48:38,531][98493] Updated weights for policy 0, policy_version 18818 (0.0008)
+[2023-07-06 10:48:38,638][98449] Signal inference workers to stop experience collection... (950 times)
+[2023-07-06 10:48:38,682][98493] InferenceWorker_p0-w0: stopping experience collection (950 times)
+[2023-07-06 10:48:38,723][98449] Signal inference workers to resume experience collection... (950 times)
+[2023-07-06 10:48:38,723][98493] InferenceWorker_p0-w0: resuming experience collection (950 times)
+[2023-07-06 10:48:38,986][98493] Updated weights for policy 0, policy_version 18877 (0.0007)
+[2023-07-06 10:48:39,607][98493] Updated weights for policy 0, policy_version 18928 (0.0007)
+[2023-07-06 10:48:39,764][98243] Fps is (10 sec: 117965.3, 60 sec: 113595.8, 300 sec: 111855.5). Total num frames: 38797312. Throughput: 0: 28307.9. Samples: 9696768. Policy #0 lag: (min: 47.0, avg: 166.6, max: 309.0)
+[2023-07-06 10:48:39,765][98243] Avg episode reward: [(0, '-8.910')]
+[2023-07-06 10:48:41,348][98493] Updated weights for policy 0, policy_version 18983 (0.0007)
+[2023-07-06 10:48:42,192][98493] Updated weights for policy 0, policy_version 19032 (0.0008)
+[2023-07-06 10:48:43,143][98493] Updated weights for policy 0, policy_version 19088 (0.0006)
+[2023-07-06 10:48:43,877][98493] Updated weights for policy 0, policy_version 19137 (0.0007)
+[2023-07-06 10:48:44,310][98493] Updated weights for policy 0, policy_version 19194 (0.0007)
+[2023-07-06 10:48:44,764][98243] Fps is (10 sec: 114693.3, 60 sec: 113596.1, 300 sec: 111633.3). Total num frames: 39321600. Throughput: 0: 28262.4. Samples: 9865216. Policy #0 lag: (min: 47.0, avg: 166.6, max: 309.0)
+[2023-07-06 10:48:44,765][98243] Avg episode reward: [(0, '-9.010')]
+[2023-07-06 10:48:45,898][98493] Updated weights for policy 0, policy_version 19257 (0.0006)
+[2023-07-06 10:48:46,920][98493] Updated weights for policy 0, policy_version 19322 (0.0006)
+[2023-07-06 10:48:48,400][98493] Updated weights for policy 0, policy_version 19376 (0.0006)
+[2023-07-06 10:48:48,828][98493] Updated weights for policy 0, policy_version 19415 (0.0007)
+[2023-07-06 10:48:49,764][98243] Fps is (10 sec: 104859.5, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 39845888. Throughput: 0: 28273.8. Samples: 10036224. Policy #0 lag: (min: 11.0, avg: 109.1, max: 267.0)
+[2023-07-06 10:48:49,765][98243] Avg episode reward: [(0, '-9.150')]
+[2023-07-06 10:48:50,107][98493] Updated weights for policy 0, policy_version 19457 (0.0007)
+[2023-07-06 10:48:50,559][98493] Updated weights for policy 0, policy_version 19519 (0.0007)
+[2023-07-06 10:48:51,295][98493] Updated weights for policy 0, policy_version 19568 (0.0007)
+[2023-07-06 10:48:52,885][98493] Updated weights for policy 0, policy_version 19622 (0.0006)
+[2023-07-06 10:48:53,424][98493] Updated weights for policy 0, policy_version 19680 (0.0007)
+[2023-07-06 10:48:54,764][98243] Fps is (10 sec: 104857.4, 60 sec: 113049.8, 300 sec: 111300.1). Total num frames: 40370176. Throughput: 0: 28296.5. Samples: 10122240. Policy #0 lag: (min: 11.0, avg: 109.1, max: 267.0)
+[2023-07-06 10:48:54,765][98243] Avg episode reward: [(0, '-9.350')]
+[2023-07-06 10:48:55,243][98493] Updated weights for policy 0, policy_version 19737 (0.0007)
+[2023-07-06 10:48:55,763][98493] Updated weights for policy 0, policy_version 19795 (0.0008)
+[2023-07-06 10:48:56,064][98493] Updated weights for policy 0, policy_version 19837 (0.0006)
+[2023-07-06 10:48:57,306][98449] Signal inference workers to stop experience collection... (1000 times)
+[2023-07-06 10:48:57,347][98493] InferenceWorker_p0-w0: stopping experience collection (1000 times)
+[2023-07-06 10:48:57,384][98449] Signal inference workers to resume experience collection... (1000 times)
+[2023-07-06 10:48:57,385][98493] InferenceWorker_p0-w0: resuming experience collection (1000 times)
+[2023-07-06 10:48:57,473][98493] Updated weights for policy 0, policy_version 19880 (0.0008)
+[2023-07-06 10:48:58,227][98493] Updated weights for policy 0, policy_version 19936 (0.0007)
+[2023-07-06 10:48:59,764][98243] Fps is (10 sec: 108134.7, 60 sec: 113049.7, 300 sec: 111189.1). Total num frames: 40927232. Throughput: 0: 28228.3. Samples: 10289664. Policy #0 lag: (min: 11.0, avg: 109.1, max: 267.0)
+[2023-07-06 10:48:59,765][98243] Avg episode reward: [(0, '-9.770')]
+[2023-07-06 10:48:59,833][98493] Updated weights for policy 0, policy_version 19985 (0.0007)
+[2023-07-06 10:49:00,318][98493] Updated weights for policy 0, policy_version 20048 (0.0007)
+[2023-07-06 10:49:01,786][98493] Updated weights for policy 0, policy_version 20098 (0.0007)
+[2023-07-06 10:49:02,218][98493] Updated weights for policy 0, policy_version 20149 (0.0007)
+[2023-07-06 10:49:02,891][98493] Updated weights for policy 0, policy_version 20198 (0.0006)
+[2023-07-06 10:49:04,590][98493] Updated weights for policy 0, policy_version 20248 (0.0007)
+[2023-07-06 10:49:04,764][98243] Fps is (10 sec: 111412.6, 60 sec: 112503.7, 300 sec: 111300.1). Total num frames: 41484288. Throughput: 0: 28342.1. Samples: 10459648. Policy #0 lag: (min: 15.0, avg: 123.2, max: 271.0)
+[2023-07-06 10:49:04,764][98243] Avg episode reward: [(0, '-9.790')]
+[2023-07-06 10:49:05,154][98493] Updated weights for policy 0, policy_version 20320 (0.0007)
+[2023-07-06 10:49:06,648][98493] Updated weights for policy 0, policy_version 20358 (0.0006)
+[2023-07-06 10:49:07,101][98493] Updated weights for policy 0, policy_version 20412 (0.0007)
+[2023-07-06 10:49:07,636][98493] Updated weights for policy 0, policy_version 20451 (0.0008)
+[2023-07-06 10:49:09,198][98493] Updated weights for policy 0, policy_version 20517 (0.0007)
+[2023-07-06 10:49:09,758][98493] Updated weights for policy 0, policy_version 20576 (0.0007)
+[2023-07-06 10:49:09,764][98243] Fps is (10 sec: 121240.4, 60 sec: 113595.6, 300 sec: 111744.4). Total num frames: 42139648. Throughput: 0: 28251.0. Samples: 10542592. Policy #0 lag: (min: 15.0, avg: 123.2, max: 271.0)
+[2023-07-06 10:49:09,765][98243] Avg episode reward: [(0, '-9.750')]
+[2023-07-06 10:49:11,507][98493] Updated weights for policy 0, policy_version 20629 (0.0007)
+[2023-07-06 10:49:12,096][98493] Updated weights for policy 0, policy_version 20704 (0.0007)
+[2023-07-06 10:49:12,342][98493] Updated weights for policy 0, policy_version 20736 (0.0006)
+[2023-07-06 10:49:13,809][98493] Updated weights for policy 0, policy_version 20796 (0.0007)
+[2023-07-06 10:49:14,591][98493] Updated weights for policy 0, policy_version 20860 (0.0007)
+[2023-07-06 10:49:14,764][98243] Fps is (10 sec: 124517.2, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 42729472. Throughput: 0: 28228.4. Samples: 10712064. Policy #0 lag: (min: 15.0, avg: 123.2, max: 271.0)
+[2023-07-06 10:49:14,765][98243] Avg episode reward: [(0, '-9.670')]
+[2023-07-06 10:49:16,170][98449] Signal inference workers to stop experience collection... (1050 times)
+[2023-07-06 10:49:16,185][98493] InferenceWorker_p0-w0: stopping experience collection (1050 times)
+[2023-07-06 10:49:16,260][98449] Signal inference workers to resume experience collection... (1050 times)
+[2023-07-06 10:49:16,260][98493] InferenceWorker_p0-w0: resuming experience collection (1050 times)
+[2023-07-06 10:49:16,506][98493] Updated weights for policy 0, policy_version 20901 (0.0007)
+[2023-07-06 10:49:16,979][98493] Updated weights for policy 0, policy_version 20960 (0.0007)
+[2023-07-06 10:49:18,282][98493] Updated weights for policy 0, policy_version 21009 (0.0008)
+[2023-07-06 10:49:18,918][98493] Updated weights for policy 0, policy_version 21060 (0.0006)
+[2023-07-06 10:49:19,764][98243] Fps is (10 sec: 111409.7, 60 sec: 113049.1, 300 sec: 111966.5). Total num frames: 43253760. Throughput: 0: 28057.8. Samples: 10875392. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 10:49:19,765][98243] Avg episode reward: [(0, '-9.500')]
+[2023-07-06 10:49:20,968][98493] Updated weights for policy 0, policy_version 21136 (0.0007)
+[2023-07-06 10:49:21,518][98493] Updated weights for policy 0, policy_version 21188 (0.0007)
+[2023-07-06 10:49:21,932][98493] Updated weights for policy 0, policy_version 21243 (0.0008)
+[2023-07-06 10:49:23,116][98493] Updated weights for policy 0, policy_version 21287 (0.0007)
+[2023-07-06 10:49:23,633][98493] Updated weights for policy 0, policy_version 21348 (0.0007)
+[2023-07-06 10:49:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111957.5, 300 sec: 111966.6). Total num frames: 43778048. Throughput: 0: 28114.6. Samples: 10961920. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 10:49:24,765][98243] Avg episode reward: [(0, '-9.580')]
+[2023-07-06 10:49:25,978][98493] Updated weights for policy 0, policy_version 21392 (0.0006)
+[2023-07-06 10:49:26,617][98493] Updated weights for policy 0, policy_version 21461 (0.0035)
+[2023-07-06 10:49:27,633][98493] Updated weights for policy 0, policy_version 21520 (0.0007)
+[2023-07-06 10:49:28,227][98493] Updated weights for policy 0, policy_version 21584 (0.0007)
+[2023-07-06 10:49:28,625][98493] Updated weights for policy 0, policy_version 21629 (0.0006)
+[2023-07-06 10:49:29,764][98243] Fps is (10 sec: 104860.0, 60 sec: 111411.6, 300 sec: 111855.5). Total num frames: 44302336. Throughput: 0: 27943.8. Samples: 11122688. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 10:49:29,765][98243] Avg episode reward: [(0, '-9.570')]
+[2023-07-06 10:49:31,203][98493] Updated weights for policy 0, policy_version 21696 (0.0007)
+[2023-07-06 10:49:31,719][98493] Updated weights for policy 0, policy_version 21754 (0.0008)
+[2023-07-06 10:49:32,431][98493] Updated weights for policy 0, policy_version 21809 (0.0007)
+[2023-07-06 10:49:32,541][98449] Signal inference workers to stop experience collection... (1100 times)
+[2023-07-06 10:49:32,567][98449] Signal inference workers to resume experience collection... (1100 times)
+[2023-07-06 10:49:32,568][98493] InferenceWorker_p0-w0: stopping experience collection (1100 times)
+[2023-07-06 10:49:32,579][98493] InferenceWorker_p0-w0: resuming experience collection (1100 times)
+[2023-07-06 10:49:32,876][98493] Updated weights for policy 0, policy_version 21856 (0.0006)
+[2023-07-06 10:49:34,764][98243] Fps is (10 sec: 104857.9, 60 sec: 110865.9, 300 sec: 111522.3). Total num frames: 44826624. Throughput: 0: 27943.8. Samples: 11293696. Policy #0 lag: (min: 29.0, avg: 96.4, max: 281.0)
+[2023-07-06 10:49:34,765][98243] Avg episode reward: [(0, '-9.440')]
+[2023-07-06 10:49:35,799][98493] Updated weights for policy 0, policy_version 21894 (0.0006)
+[2023-07-06 10:49:36,383][98493] Updated weights for policy 0, policy_version 21961 (0.0008)
+[2023-07-06 10:49:36,927][98493] Updated weights for policy 0, policy_version 22019 (0.0007)
+[2023-07-06 10:49:37,415][98493] Updated weights for policy 0, policy_version 22080 (0.0006)
+[2023-07-06 10:49:37,990][98493] Updated weights for policy 0, policy_version 22144 (0.0008)
+[2023-07-06 10:49:39,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109227.0, 300 sec: 111522.3). Total num frames: 45350912. Throughput: 0: 27716.3. Samples: 11369472. Policy #0 lag: (min: 29.0, avg: 96.4, max: 281.0)
+[2023-07-06 10:49:39,765][98243] Avg episode reward: [(0, '-9.420')]
+[2023-07-06 10:49:41,104][98493] Updated weights for policy 0, policy_version 22197 (0.0007)
+[2023-07-06 10:49:41,567][98493] Updated weights for policy 0, policy_version 22256 (0.0006)
+[2023-07-06 10:49:42,049][98493] Updated weights for policy 0, policy_version 22309 (0.0007)
+[2023-07-06 10:49:42,633][98493] Updated weights for policy 0, policy_version 22377 (0.0008)
+[2023-07-06 10:49:44,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109226.6, 300 sec: 111411.2). Total num frames: 45875200. Throughput: 0: 27784.5. Samples: 11539968. Policy #0 lag: (min: 29.0, avg: 96.4, max: 281.0)
+[2023-07-06 10:49:44,765][98243] Avg episode reward: [(0, '-9.240')]
+[2023-07-06 10:49:45,478][98493] Updated weights for policy 0, policy_version 22407 (0.0007)
+[2023-07-06 10:49:46,021][98493] Updated weights for policy 0, policy_version 22470 (0.0008)
+[2023-07-06 10:49:46,623][98493] Updated weights for policy 0, policy_version 22544 (0.0009)
+[2023-07-06 10:49:47,134][98493] Updated weights for policy 0, policy_version 22596 (0.0007)
+[2023-07-06 10:49:47,548][98493] Updated weights for policy 0, policy_version 22648 (0.0008)
+[2023-07-06 10:49:49,764][98243] Fps is (10 sec: 104856.8, 60 sec: 109226.6, 300 sec: 111300.1). Total num frames: 46399488. Throughput: 0: 27807.2. Samples: 11710976. Policy #0 lag: (min: 71.0, avg: 111.4, max: 286.0)
+[2023-07-06 10:49:49,765][98243] Avg episode reward: [(0, '-9.140')]
+[2023-07-06 10:49:50,464][98449] Signal inference workers to stop experience collection... (1150 times)
+[2023-07-06 10:49:50,504][98493] InferenceWorker_p0-w0: stopping experience collection (1150 times)
+[2023-07-06 10:49:50,571][98449] Signal inference workers to resume experience collection... (1150 times)
+[2023-07-06 10:49:50,571][98493] InferenceWorker_p0-w0: resuming experience collection (1150 times)
+[2023-07-06 10:49:50,657][98493] Updated weights for policy 0, policy_version 22693 (0.0007)
+[2023-07-06 10:49:51,005][98493] Updated weights for policy 0, policy_version 22736 (0.0006)
+[2023-07-06 10:49:51,519][98493] Updated weights for policy 0, policy_version 22792 (0.0006)
+[2023-07-06 10:49:52,064][98493] Updated weights for policy 0, policy_version 22852 (0.0007)
+[2023-07-06 10:49:52,565][98493] Updated weights for policy 0, policy_version 22912 (0.0006)
+[2023-07-06 10:49:54,764][98243] Fps is (10 sec: 104855.9, 60 sec: 109226.3, 300 sec: 111077.9). Total num frames: 46923776. Throughput: 0: 27670.7. Samples: 11787776. Policy #0 lag: (min: 71.0, avg: 111.4, max: 286.0)
+[2023-07-06 10:49:54,765][98243] Avg episode reward: [(0, '-8.900')]
+[2023-07-06 10:49:55,350][98493] Updated weights for policy 0, policy_version 22962 (0.0007)
+[2023-07-06 10:49:55,930][98493] Updated weights for policy 0, policy_version 23034 (0.0008)
+[2023-07-06 10:49:56,436][98493] Updated weights for policy 0, policy_version 23090 (0.0007)
+[2023-07-06 10:49:56,883][98493] Updated weights for policy 0, policy_version 23145 (0.0008)
+[2023-07-06 10:49:59,765][98243] Fps is (10 sec: 108131.4, 60 sec: 109226.0, 300 sec: 111188.9). Total num frames: 47480832. Throughput: 0: 27693.3. Samples: 11958272. Policy #0 lag: (min: 71.0, avg: 111.4, max: 286.0)
+[2023-07-06 10:49:59,766][98243] Avg episode reward: [(0, '-8.770')]
+[2023-07-06 10:49:59,840][98493] Updated weights for policy 0, policy_version 23187 (0.0007)
+[2023-07-06 10:49:59,901][98449] Saving new best policy, reward=-8.770!
+[2023-07-06 10:50:00,514][98493] Updated weights for policy 0, policy_version 23264 (0.0007)
+[2023-07-06 10:50:01,070][98493] Updated weights for policy 0, policy_version 23328 (0.0007)
+[2023-07-06 10:50:01,600][98493] Updated weights for policy 0, policy_version 23384 (0.0007)
+[2023-07-06 10:50:01,935][98493] Updated weights for policy 0, policy_version 23424 (0.0007)
+[2023-07-06 10:50:04,764][98243] Fps is (10 sec: 114690.5, 60 sec: 109772.6, 300 sec: 111411.2). Total num frames: 48070656. Throughput: 0: 27750.5. Samples: 12124160. Policy #0 lag: (min: 161.0, avg: 251.0, max: 423.0)
+[2023-07-06 10:50:04,765][98243] Avg episode reward: [(0, '-8.720')]
+[2023-07-06 10:50:04,954][98493] Updated weights for policy 0, policy_version 23498 (0.0007)
+[2023-07-06 10:50:04,982][98449] Saving new best policy, reward=-8.720!
+[2023-07-06 10:50:05,210][98449] Signal inference workers to stop experience collection... (1200 times)
+[2023-07-06 10:50:05,256][98493] InferenceWorker_p0-w0: stopping experience collection (1200 times)
+[2023-07-06 10:50:05,297][98449] Signal inference workers to resume experience collection... (1200 times)
+[2023-07-06 10:50:05,297][98493] InferenceWorker_p0-w0: resuming experience collection (1200 times)
+[2023-07-06 10:50:05,523][98493] Updated weights for policy 0, policy_version 23560 (0.0007)
+[2023-07-06 10:50:06,087][98493] Updated weights for policy 0, policy_version 23624 (0.0009)
+[2023-07-06 10:50:06,542][98493] Updated weights for policy 0, policy_version 23676 (0.0006)
+[2023-07-06 10:50:09,640][98493] Updated weights for policy 0, policy_version 23728 (0.0006)
+[2023-07-06 10:50:09,764][98243] Fps is (10 sec: 111415.0, 60 sec: 107588.4, 300 sec: 111411.3). Total num frames: 48594944. Throughput: 0: 27545.6. Samples: 12201472. Policy #0 lag: (min: 161.0, avg: 251.0, max: 423.0)
+[2023-07-06 10:50:09,765][98243] Avg episode reward: [(0, '-8.610')]
+[2023-07-06 10:50:09,939][98449] Saving new best policy, reward=-8.610!
+[2023-07-06 10:50:10,213][98493] Updated weights for policy 0, policy_version 23792 (0.0007)
+[2023-07-06 10:50:10,716][98493] Updated weights for policy 0, policy_version 23846 (0.0008)
+[2023-07-06 10:50:11,356][98493] Updated weights for policy 0, policy_version 23920 (0.0007)
+[2023-07-06 10:50:14,395][98493] Updated weights for policy 0, policy_version 23969 (0.0007)
+[2023-07-06 10:50:14,764][98243] Fps is (10 sec: 108134.1, 60 sec: 107042.1, 300 sec: 111522.3). Total num frames: 49152000. Throughput: 0: 27784.5. Samples: 12372992. Policy #0 lag: (min: 161.0, avg: 251.0, max: 423.0)
+[2023-07-06 10:50:14,765][98243] Avg episode reward: [(0, '-8.420')]
+[2023-07-06 10:50:14,787][98493] Updated weights for policy 0, policy_version 24016 (0.0008)
+[2023-07-06 10:50:14,921][98449] Saving new best policy, reward=-8.420!
+[2023-07-06 10:50:15,430][98493] Updated weights for policy 0, policy_version 24087 (0.0007)
+[2023-07-06 10:50:15,908][98493] Updated weights for policy 0, policy_version 24144 (0.0007)
+[2023-07-06 10:50:18,700][98493] Updated weights for policy 0, policy_version 24195 (0.0007)
+[2023-07-06 10:50:19,274][98493] Updated weights for policy 0, policy_version 24261 (0.0008)
+[2023-07-06 10:50:19,709][98493] Updated weights for policy 0, policy_version 24307 (0.0006)
+[2023-07-06 10:50:19,764][98243] Fps is (10 sec: 117964.6, 60 sec: 108680.9, 300 sec: 111855.5). Total num frames: 49774592. Throughput: 0: 27636.6. Samples: 12537344. Policy #0 lag: (min: 15.0, avg: 69.8, max: 270.0)
+[2023-07-06 10:50:19,765][98243] Avg episode reward: [(0, '-8.300')]
+[2023-07-06 10:50:19,916][98449] Saving new best policy, reward=-8.300!
+[2023-07-06 10:50:20,292][98449] Signal inference workers to stop experience collection... (1250 times)
+[2023-07-06 10:50:20,330][98493] InferenceWorker_p0-w0: stopping experience collection (1250 times)
+[2023-07-06 10:50:20,387][98449] Signal inference workers to resume experience collection... (1250 times)
+[2023-07-06 10:50:20,387][98493] InferenceWorker_p0-w0: resuming experience collection (1250 times)
+[2023-07-06 10:50:20,483][98493] Updated weights for policy 0, policy_version 24393 (0.0008)
+[2023-07-06 10:50:20,888][98493] Updated weights for policy 0, policy_version 24445 (0.0007)
+[2023-07-06 10:50:23,530][98493] Updated weights for policy 0, policy_version 24509 (0.0008)
+[2023-07-06 10:50:24,208][98493] Updated weights for policy 0, policy_version 24564 (0.0007)
+[2023-07-06 10:50:24,765][98243] Fps is (10 sec: 127790.9, 60 sec: 110864.5, 300 sec: 112299.7). Total num frames: 50429952. Throughput: 0: 27761.5. Samples: 12618752. Policy #0 lag: (min: 15.0, avg: 69.8, max: 270.0)
+[2023-07-06 10:50:24,766][98243] Avg episode reward: [(0, '-8.090')]
+[2023-07-06 10:50:24,806][98493] Updated weights for policy 0, policy_version 24637 (0.0007)
+[2023-07-06 10:50:24,819][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000024640_50462720.pth...
+[2023-07-06 10:50:24,896][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000011520_23592960.pth
+[2023-07-06 10:50:24,898][98449] Saving new best policy, reward=-8.090!
+[2023-07-06 10:50:25,391][98493] Updated weights for policy 0, policy_version 24699 (0.0007)
+[2023-07-06 10:50:27,958][98493] Updated weights for policy 0, policy_version 24758 (0.0008)
+[2023-07-06 10:50:28,954][98493] Updated weights for policy 0, policy_version 24803 (0.0006)
+[2023-07-06 10:50:29,551][98493] Updated weights for policy 0, policy_version 24865 (0.0007)
+[2023-07-06 10:50:29,765][98243] Fps is (10 sec: 121238.8, 60 sec: 111410.7, 300 sec: 111966.5). Total num frames: 50987008. Throughput: 0: 27625.1. Samples: 12783104. Policy #0 lag: (min: 15.0, avg: 69.8, max: 270.0)
+[2023-07-06 10:50:29,766][98243] Avg episode reward: [(0, '-8.280')]
+[2023-07-06 10:50:30,138][98493] Updated weights for policy 0, policy_version 24931 (0.0007)
+[2023-07-06 10:50:32,325][98493] Updated weights for policy 0, policy_version 24976 (0.0006)
+[2023-07-06 10:50:32,744][98493] Updated weights for policy 0, policy_version 25024 (0.0007)
+[2023-07-06 10:50:33,709][98493] Updated weights for policy 0, policy_version 25083 (0.0008)
+[2023-07-06 10:50:34,502][98493] Updated weights for policy 0, policy_version 25136 (0.0008)
+[2023-07-06 10:50:34,764][98243] Fps is (10 sec: 108138.8, 60 sec: 111411.3, 300 sec: 111857.6). Total num frames: 51511296. Throughput: 0: 27375.0. Samples: 12942848. Policy #0 lag: (min: 15.0, avg: 69.8, max: 270.0)
+[2023-07-06 10:50:34,764][98243] Avg episode reward: [(0, '-7.850')]
+[2023-07-06 10:50:34,902][98449] Saving new best policy, reward=-7.850!
+[2023-07-06 10:50:35,164][98493] Updated weights for policy 0, policy_version 25211 (0.0007)
+[2023-07-06 10:50:37,276][98493] Updated weights for policy 0, policy_version 25273 (0.0007)
+[2023-07-06 10:50:38,323][98449] Signal inference workers to stop experience collection... (1300 times)
+[2023-07-06 10:50:38,330][98493] Updated weights for policy 0, policy_version 25314 (0.0008)
+[2023-07-06 10:50:38,348][98493] InferenceWorker_p0-w0: stopping experience collection (1300 times)
+[2023-07-06 10:50:38,403][98449] Signal inference workers to resume experience collection... (1300 times)
+[2023-07-06 10:50:38,403][98493] InferenceWorker_p0-w0: resuming experience collection (1300 times)
+[2023-07-06 10:50:38,933][98493] Updated weights for policy 0, policy_version 25369 (0.0006)
+[2023-07-06 10:50:39,359][98493] Updated weights for policy 0, policy_version 25415 (0.0007)
+[2023-07-06 10:50:39,764][98243] Fps is (10 sec: 114691.3, 60 sec: 113049.7, 300 sec: 111966.6). Total num frames: 52133888. Throughput: 0: 27636.8. Samples: 13031424. Policy #0 lag: (min: 3.0, avg: 93.4, max: 259.0)
+[2023-07-06 10:50:39,764][98243] Avg episode reward: [(0, '-7.740')]
+[2023-07-06 10:50:39,811][98449] Saving new best policy, reward=-7.740!
+[2023-07-06 10:50:39,814][98493] Updated weights for policy 0, policy_version 25472 (0.0007)
+[2023-07-06 10:50:41,840][98493] Updated weights for policy 0, policy_version 25531 (0.0007)
+[2023-07-06 10:50:43,000][98493] Updated weights for policy 0, policy_version 25584 (0.0007)
+[2023-07-06 10:50:43,505][98493] Updated weights for policy 0, policy_version 25626 (0.0012)
+[2023-07-06 10:50:44,061][98493] Updated weights for policy 0, policy_version 25685 (0.0007)
+[2023-07-06 10:50:44,390][98493] Updated weights for policy 0, policy_version 25723 (0.0006)
+[2023-07-06 10:50:44,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 52690944. Throughput: 0: 27580.0. Samples: 13199360. Policy #0 lag: (min: 3.0, avg: 93.4, max: 259.0)
+[2023-07-06 10:50:44,764][98243] Avg episode reward: [(0, '-7.740')]
+[2023-07-06 10:50:46,363][98493] Updated weights for policy 0, policy_version 25776 (0.0006)
+[2023-07-06 10:50:47,479][98493] Updated weights for policy 0, policy_version 25827 (0.0007)
+[2023-07-06 10:50:48,353][98493] Updated weights for policy 0, policy_version 25888 (0.0006)
+[2023-07-06 10:50:48,863][98493] Updated weights for policy 0, policy_version 25946 (0.0006)
+[2023-07-06 10:50:49,764][98243] Fps is (10 sec: 108134.3, 60 sec: 113595.9, 300 sec: 111966.7). Total num frames: 53215232. Throughput: 0: 27602.5. Samples: 13366272. Policy #0 lag: (min: 3.0, avg: 93.4, max: 259.0)
+[2023-07-06 10:50:49,765][98243] Avg episode reward: [(0, '-7.490')]
+[2023-07-06 10:50:49,766][98449] Saving new best policy, reward=-7.490!
+[2023-07-06 10:50:50,614][98493] Updated weights for policy 0, policy_version 25987 (0.0007)
+[2023-07-06 10:50:51,073][98493] Updated weights for policy 0, policy_version 26047 (0.0007)
+[2023-07-06 10:50:52,384][98493] Updated weights for policy 0, policy_version 26105 (0.0007)
+[2023-07-06 10:50:53,293][98493] Updated weights for policy 0, policy_version 26149 (0.0006)
+[2023-07-06 10:50:53,858][98493] Updated weights for policy 0, policy_version 26214 (0.0007)
+[2023-07-06 10:50:54,765][98243] Fps is (10 sec: 104854.5, 60 sec: 113595.6, 300 sec: 111744.4). Total num frames: 53739520. Throughput: 0: 27795.7. Samples: 13452288. Policy #0 lag: (min: 3.0, avg: 93.4, max: 259.0)
+[2023-07-06 10:50:54,765][98243] Avg episode reward: [(0, '-7.200')]
+[2023-07-06 10:50:54,768][98449] Saving new best policy, reward=-7.200!
+[2023-07-06 10:50:55,182][98493] Updated weights for policy 0, policy_version 26241 (0.0006)
+[2023-07-06 10:50:55,630][98493] Updated weights for policy 0, policy_version 26296 (0.0006)
+[2023-07-06 10:50:56,648][98449] Signal inference workers to stop experience collection... (1350 times)
+[2023-07-06 10:50:56,683][98493] InferenceWorker_p0-w0: stopping experience collection (1350 times)
+[2023-07-06 10:50:56,738][98449] Signal inference workers to resume experience collection... (1350 times)
+[2023-07-06 10:50:56,739][98493] InferenceWorker_p0-w0: resuming experience collection (1350 times)
+[2023-07-06 10:50:56,962][98493] Updated weights for policy 0, policy_version 26337 (0.0007)
+[2023-07-06 10:50:57,869][98493] Updated weights for policy 0, policy_version 26394 (0.0007)
+[2023-07-06 10:50:58,334][98493] Updated weights for policy 0, policy_version 26448 (0.0007)
+[2023-07-06 10:50:58,764][98493] Updated weights for policy 0, policy_version 26496 (0.0006)
+[2023-07-06 10:50:59,764][98243] Fps is (10 sec: 104856.5, 60 sec: 113050.1, 300 sec: 111522.3). Total num frames: 54263808. Throughput: 0: 27613.8. Samples: 13615616. Policy #0 lag: (min: 14.0, avg: 125.7, max: 270.0)
+[2023-07-06 10:50:59,765][98243] Avg episode reward: [(0, '-7.050')]
+[2023-07-06 10:50:59,766][98449] Saving new best policy, reward=-7.050!
+[2023-07-06 10:51:00,446][98493] Updated weights for policy 0, policy_version 26560 (0.0008)
+[2023-07-06 10:51:01,918][98493] Updated weights for policy 0, policy_version 26620 (0.0008)
+[2023-07-06 10:51:02,533][98493] Updated weights for policy 0, policy_version 26661 (0.0007)
+[2023-07-06 10:51:03,070][98493] Updated weights for policy 0, policy_version 26724 (0.0008)
+[2023-07-06 10:51:04,680][98493] Updated weights for policy 0, policy_version 26768 (0.0006)
+[2023-07-06 10:51:04,764][98243] Fps is (10 sec: 108137.3, 60 sec: 112503.4, 300 sec: 111411.2). Total num frames: 54820864. Throughput: 0: 27807.3. Samples: 13788672. Policy #0 lag: (min: 14.0, avg: 125.7, max: 270.0)
+[2023-07-06 10:51:04,765][98243] Avg episode reward: [(0, '-6.940')]
+[2023-07-06 10:51:04,937][98449] Saving new best policy, reward=-6.940!
+[2023-07-06 10:51:06,096][98493] Updated weights for policy 0, policy_version 26817 (0.0006)
+[2023-07-06 10:51:06,517][98493] Updated weights for policy 0, policy_version 26874 (0.0007)
+[2023-07-06 10:51:07,180][98493] Updated weights for policy 0, policy_version 26916 (0.0008)
+[2023-07-06 10:51:07,664][98493] Updated weights for policy 0, policy_version 26976 (0.0007)
+[2023-07-06 10:51:09,468][98493] Updated weights for policy 0, policy_version 27043 (0.0006)
+[2023-07-06 10:51:09,764][98243] Fps is (10 sec: 117963.0, 60 sec: 114141.4, 300 sec: 111522.2). Total num frames: 55443456. Throughput: 0: 27796.0. Samples: 13869568. Policy #0 lag: (min: 14.0, avg: 125.7, max: 270.0)
+[2023-07-06 10:51:09,765][98243] Avg episode reward: [(0, '-6.650')]
+[2023-07-06 10:51:09,771][98449] Saving new best policy, reward=-6.650!
+[2023-07-06 10:51:11,080][98493] Updated weights for policy 0, policy_version 27093 (0.0006)
+[2023-07-06 10:51:11,550][98493] Updated weights for policy 0, policy_version 27138 (0.0007)
+[2023-07-06 10:51:12,065][98493] Updated weights for policy 0, policy_version 27200 (0.0008)
+[2023-07-06 10:51:12,491][98493] Updated weights for policy 0, policy_version 27248 (0.0007)
+[2023-07-06 10:51:13,893][98449] Signal inference workers to stop experience collection... (1400 times)
+[2023-07-06 10:51:13,908][98493] InferenceWorker_p0-w0: stopping experience collection (1400 times)
+[2023-07-06 10:51:13,990][98449] Signal inference workers to resume experience collection... (1400 times)
+[2023-07-06 10:51:13,991][98493] InferenceWorker_p0-w0: resuming experience collection (1400 times)
+[2023-07-06 10:51:14,214][98493] Updated weights for policy 0, policy_version 27301 (0.0007)
+[2023-07-06 10:51:14,765][98243] Fps is (10 sec: 114684.0, 60 sec: 113595.1, 300 sec: 111522.1). Total num frames: 55967744. Throughput: 0: 27932.4. Samples: 14040064. Policy #0 lag: (min: 15.0, avg: 129.1, max: 271.0)
+[2023-07-06 10:51:14,765][98243] Avg episode reward: [(0, '-6.420')]
+[2023-07-06 10:51:14,766][98449] Saving new best policy, reward=-6.420!
+[2023-07-06 10:51:15,808][98493] Updated weights for policy 0, policy_version 27351 (0.0007)
+[2023-07-06 10:51:16,247][98493] Updated weights for policy 0, policy_version 27400 (0.0008)
+[2023-07-06 10:51:16,677][98493] Updated weights for policy 0, policy_version 27445 (0.0007)
+[2023-07-06 10:51:17,247][98493] Updated weights for policy 0, policy_version 27515 (0.0007)
+[2023-07-06 10:51:18,724][98493] Updated weights for policy 0, policy_version 27552 (0.0007)
+[2023-07-06 10:51:19,764][98243] Fps is (10 sec: 104859.3, 60 sec: 111957.2, 300 sec: 111522.3). Total num frames: 56492032. Throughput: 0: 28148.6. Samples: 14209536. Policy #0 lag: (min: 15.0, avg: 129.1, max: 271.0)
+[2023-07-06 10:51:19,765][98243] Avg episode reward: [(0, '-6.270')]
+[2023-07-06 10:51:19,773][98449] Saving new best policy, reward=-6.270!
+[2023-07-06 10:51:20,573][98493] Updated weights for policy 0, policy_version 27616 (0.0006)
+[2023-07-06 10:51:21,221][98493] Updated weights for policy 0, policy_version 27680 (0.0008)
+[2023-07-06 10:51:21,842][98493] Updated weights for policy 0, policy_version 27755 (0.0007)
+[2023-07-06 10:51:23,309][98493] Updated weights for policy 0, policy_version 27794 (0.0008)
+[2023-07-06 10:51:23,686][98493] Updated weights for policy 0, policy_version 27840 (0.0006)
+[2023-07-06 10:51:24,764][98243] Fps is (10 sec: 104861.1, 60 sec: 109773.4, 300 sec: 111522.3). Total num frames: 57016320. Throughput: 0: 27966.5. Samples: 14289920. Policy #0 lag: (min: 15.0, avg: 129.1, max: 271.0)
+[2023-07-06 10:51:24,765][98243] Avg episode reward: [(0, '-6.290')]
+[2023-07-06 10:51:25,753][98493] Updated weights for policy 0, policy_version 27904 (0.0006)
+[2023-07-06 10:51:26,311][98493] Updated weights for policy 0, policy_version 27968 (0.0009)
+[2023-07-06 10:51:26,755][98493] Updated weights for policy 0, policy_version 28016 (0.0007)
+[2023-07-06 10:51:28,071][98493] Updated weights for policy 0, policy_version 28080 (0.0007)
+[2023-07-06 10:51:29,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109227.1, 300 sec: 111300.1). Total num frames: 57540608. Throughput: 0: 27989.3. Samples: 14458880. Policy #0 lag: (min: 15.0, avg: 129.1, max: 271.0)
+[2023-07-06 10:51:29,765][98243] Avg episode reward: [(0, '-6.240')]
+[2023-07-06 10:51:29,765][98449] Saving new best policy, reward=-6.240!
+[2023-07-06 10:51:30,363][98493] Updated weights for policy 0, policy_version 28134 (0.0007)
+[2023-07-06 10:51:30,795][98493] Updated weights for policy 0, policy_version 28183 (0.0008)
+[2023-07-06 10:51:30,884][98449] Signal inference workers to stop experience collection... (1450 times)
+[2023-07-06 10:51:30,925][98493] InferenceWorker_p0-w0: stopping experience collection (1450 times)
+[2023-07-06 10:51:30,969][98449] Signal inference workers to resume experience collection... (1450 times)
+[2023-07-06 10:51:30,969][98493] InferenceWorker_p0-w0: resuming experience collection (1450 times)
+[2023-07-06 10:51:31,404][98493] Updated weights for policy 0, policy_version 28256 (0.0008)
+[2023-07-06 10:51:32,692][98493] Updated weights for policy 0, policy_version 28320 (0.0007)
+[2023-07-06 10:51:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 109226.6, 300 sec: 111189.1). Total num frames: 58064896. Throughput: 0: 28057.6. Samples: 14628864. Policy #0 lag: (min: 10.0, avg: 154.9, max: 266.0)
+[2023-07-06 10:51:34,765][98243] Avg episode reward: [(0, '-6.220')]
+[2023-07-06 10:51:34,951][98449] Saving new best policy, reward=-6.220!
+[2023-07-06 10:51:35,127][98493] Updated weights for policy 0, policy_version 28400 (0.0007)
+[2023-07-06 10:51:35,759][98493] Updated weights for policy 0, policy_version 28466 (0.0007)
+[2023-07-06 10:51:36,321][98493] Updated weights for policy 0, policy_version 28539 (0.0007)
+[2023-07-06 10:51:37,691][98493] Updated weights for policy 0, policy_version 28592 (0.0007)
+[2023-07-06 10:51:39,763][98493] Updated weights for policy 0, policy_version 28644 (0.0013)
+[2023-07-06 10:51:39,764][98243] Fps is (10 sec: 111409.9, 60 sec: 108680.2, 300 sec: 111300.1). Total num frames: 58654720. Throughput: 0: 27773.2. Samples: 14702080. Policy #0 lag: (min: 10.0, avg: 154.9, max: 266.0)
+[2023-07-06 10:51:39,765][98243] Avg episode reward: [(0, '-6.110')]
+[2023-07-06 10:51:39,975][98449] Saving new best policy, reward=-6.110!
+[2023-07-06 10:51:40,369][98493] Updated weights for policy 0, policy_version 28706 (0.0007)
+[2023-07-06 10:51:40,795][98493] Updated weights for policy 0, policy_version 28755 (0.0007)
+[2023-07-06 10:51:41,820][98493] Updated weights for policy 0, policy_version 28801 (0.0007)
+[2023-07-06 10:51:42,319][98493] Updated weights for policy 0, policy_version 28864 (0.0007)
+[2023-07-06 10:51:44,621][98493] Updated weights for policy 0, policy_version 28922 (0.0008)
+[2023-07-06 10:51:44,764][98243] Fps is (10 sec: 117964.6, 60 sec: 109226.6, 300 sec: 111522.3). Total num frames: 59244544. Throughput: 0: 28000.7. Samples: 14875648. Policy #0 lag: (min: 10.0, avg: 154.9, max: 266.0)
+[2023-07-06 10:51:44,765][98243] Avg episode reward: [(0, '-6.020')]
+[2023-07-06 10:51:44,996][98449] Saving new best policy, reward=-6.020!
+[2023-07-06 10:51:45,308][98493] Updated weights for policy 0, policy_version 28992 (0.0007)
+[2023-07-06 10:51:45,732][98493] Updated weights for policy 0, policy_version 29040 (0.0007)
+[2023-07-06 10:51:46,441][98493] Updated weights for policy 0, policy_version 29072 (0.0006)
+[2023-07-06 10:51:46,854][98493] Updated weights for policy 0, policy_version 29120 (0.0007)
+[2023-07-06 10:51:48,927][98449] Signal inference workers to stop experience collection... (1500 times)
+[2023-07-06 10:51:48,958][98493] InferenceWorker_p0-w0: stopping experience collection (1500 times)
+[2023-07-06 10:51:49,026][98449] Signal inference workers to resume experience collection... (1500 times)
+[2023-07-06 10:51:49,026][98493] InferenceWorker_p0-w0: resuming experience collection (1500 times)
+[2023-07-06 10:51:49,380][98493] Updated weights for policy 0, policy_version 29173 (0.0007)
+[2023-07-06 10:51:49,764][98243] Fps is (10 sec: 117966.0, 60 sec: 110318.8, 300 sec: 111744.4). Total num frames: 59834368. Throughput: 0: 27852.8. Samples: 15042048. Policy #0 lag: (min: 10.0, avg: 154.9, max: 266.0)
+[2023-07-06 10:51:49,765][98243] Avg episode reward: [(0, '-5.940')]
+[2023-07-06 10:51:49,947][98449] Saving new best policy, reward=-5.940!
+[2023-07-06 10:51:50,210][98493] Updated weights for policy 0, policy_version 29272 (0.0008)
+[2023-07-06 10:51:51,147][98493] Updated weights for policy 0, policy_version 29344 (0.0008)
+[2023-07-06 10:51:54,074][98493] Updated weights for policy 0, policy_version 29399 (0.0007)
+[2023-07-06 10:51:54,607][98493] Updated weights for policy 0, policy_version 29458 (0.0007)
+[2023-07-06 10:51:54,764][98243] Fps is (10 sec: 111409.8, 60 sec: 110319.2, 300 sec: 111744.5). Total num frames: 60358656. Throughput: 0: 27864.2. Samples: 15123456. Policy #0 lag: (min: 15.0, avg: 66.9, max: 271.0)
+[2023-07-06 10:51:54,765][98243] Avg episode reward: [(0, '-5.800')]
+[2023-07-06 10:51:54,938][98449] Saving new best policy, reward=-5.800!
+[2023-07-06 10:51:55,108][98493] Updated weights for policy 0, policy_version 29520 (0.0007)
+[2023-07-06 10:51:55,671][98493] Updated weights for policy 0, policy_version 29584 (0.0008)
+[2023-07-06 10:51:58,425][98493] Updated weights for policy 0, policy_version 29634 (0.0008)
+[2023-07-06 10:51:59,033][98493] Updated weights for policy 0, policy_version 29705 (0.0008)
+[2023-07-06 10:51:59,443][98493] Updated weights for policy 0, policy_version 29751 (0.0007)
+[2023-07-06 10:51:59,764][98243] Fps is (10 sec: 114688.1, 60 sec: 111957.4, 300 sec: 111855.6). Total num frames: 60981248. Throughput: 0: 27818.9. Samples: 15291904. Policy #0 lag: (min: 15.0, avg: 66.9, max: 271.0)
+[2023-07-06 10:51:59,765][98243] Avg episode reward: [(0, '-5.660')]
+[2023-07-06 10:51:59,936][98449] Saving new best policy, reward=-5.660!
+[2023-07-06 10:52:00,019][98493] Updated weights for policy 0, policy_version 29814 (0.0008)
+[2023-07-06 10:52:00,662][98493] Updated weights for policy 0, policy_version 29872 (0.0008)
+[2023-07-06 10:52:03,524][98493] Updated weights for policy 0, policy_version 29925 (0.0007)
+[2023-07-06 10:52:04,040][98493] Updated weights for policy 0, policy_version 29984 (0.0008)
+[2023-07-06 10:52:04,189][98449] Signal inference workers to stop experience collection... (1550 times)
+[2023-07-06 10:52:04,226][98493] InferenceWorker_p0-w0: stopping experience collection (1550 times)
+[2023-07-06 10:52:04,297][98449] Signal inference workers to resume experience collection... (1550 times)
+[2023-07-06 10:52:04,297][98493] InferenceWorker_p0-w0: resuming experience collection (1550 times)
+[2023-07-06 10:52:04,633][98493] Updated weights for policy 0, policy_version 30051 (0.0007)
+[2023-07-06 10:52:04,764][98243] Fps is (10 sec: 121243.4, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 61571072. Throughput: 0: 27613.9. Samples: 15452160. Policy #0 lag: (min: 15.0, avg: 66.9, max: 271.0)
+[2023-07-06 10:52:04,765][98243] Avg episode reward: [(0, '-5.460')]
+[2023-07-06 10:52:04,832][98449] Saving new best policy, reward=-5.460!
+[2023-07-06 10:52:05,272][98493] Updated weights for policy 0, policy_version 30104 (0.0006)
+[2023-07-06 10:52:07,896][98493] Updated weights for policy 0, policy_version 30147 (0.0006)
+[2023-07-06 10:52:08,476][98493] Updated weights for policy 0, policy_version 30212 (0.0008)
+[2023-07-06 10:52:08,959][98493] Updated weights for policy 0, policy_version 30272 (0.0008)
+[2023-07-06 10:52:09,493][98493] Updated weights for policy 0, policy_version 30334 (0.0007)
+[2023-07-06 10:52:09,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 62128128. Throughput: 0: 27875.5. Samples: 15544320. Policy #0 lag: (min: 15.0, avg: 66.9, max: 271.0)
+[2023-07-06 10:52:09,765][98243] Avg episode reward: [(0, '-5.200')]
+[2023-07-06 10:52:09,876][98449] Saving new best policy, reward=-5.200!
+[2023-07-06 10:52:10,257][98493] Updated weights for policy 0, policy_version 30396 (0.0008)
+[2023-07-06 10:52:12,829][98493] Updated weights for policy 0, policy_version 30448 (0.0007)
+[2023-07-06 10:52:13,320][98493] Updated weights for policy 0, policy_version 30502 (0.0007)
+[2023-07-06 10:52:13,805][98493] Updated weights for policy 0, policy_version 30560 (0.0007)
+[2023-07-06 10:52:14,764][98243] Fps is (10 sec: 108132.6, 60 sec: 111411.6, 300 sec: 111522.2). Total num frames: 62652416. Throughput: 0: 27727.6. Samples: 15706624. Policy #0 lag: (min: 64.0, avg: 170.5, max: 336.0)
+[2023-07-06 10:52:14,765][98243] Avg episode reward: [(0, '-4.810')]
+[2023-07-06 10:52:14,891][98449] Saving new best policy, reward=-4.810!
+[2023-07-06 10:52:14,892][98493] Updated weights for policy 0, policy_version 30608 (0.0007)
+[2023-07-06 10:52:17,306][98493] Updated weights for policy 0, policy_version 30677 (0.0008)
+[2023-07-06 10:52:17,858][98493] Updated weights for policy 0, policy_version 30741 (0.0007)
+[2023-07-06 10:52:18,450][98493] Updated weights for policy 0, policy_version 30809 (0.0007)
+[2023-07-06 10:52:19,426][98493] Updated weights for policy 0, policy_version 30864 (0.0007)
+[2023-07-06 10:52:19,764][98243] Fps is (10 sec: 114689.6, 60 sec: 113049.7, 300 sec: 111855.5). Total num frames: 63275008. Throughput: 0: 27591.1. Samples: 15870464. Policy #0 lag: (min: 64.0, avg: 170.5, max: 336.0)
+[2023-07-06 10:52:19,765][98243] Avg episode reward: [(0, '-4.720')]
+[2023-07-06 10:52:19,833][98449] Saving new best policy, reward=-4.720!
+[2023-07-06 10:52:21,926][98493] Updated weights for policy 0, policy_version 30914 (0.0007)
+[2023-07-06 10:52:22,044][98449] Signal inference workers to stop experience collection... (1600 times)
+[2023-07-06 10:52:22,085][98493] InferenceWorker_p0-w0: stopping experience collection (1600 times)
+[2023-07-06 10:52:22,132][98449] Signal inference workers to resume experience collection... (1600 times)
+[2023-07-06 10:52:22,132][98493] InferenceWorker_p0-w0: resuming experience collection (1600 times)
+[2023-07-06 10:52:22,537][98493] Updated weights for policy 0, policy_version 30992 (0.0008)
+[2023-07-06 10:52:23,278][98493] Updated weights for policy 0, policy_version 31041 (0.0007)
+[2023-07-06 10:52:23,706][98493] Updated weights for policy 0, policy_version 31098 (0.0007)
+[2023-07-06 10:52:24,111][98493] Updated weights for policy 0, policy_version 31137 (0.0034)
+[2023-07-06 10:52:24,764][98243] Fps is (10 sec: 117965.2, 60 sec: 113595.5, 300 sec: 111966.7). Total num frames: 63832064. Throughput: 0: 27909.7. Samples: 15958016. Policy #0 lag: (min: 64.0, avg: 170.5, max: 336.0)
+[2023-07-06 10:52:24,765][98243] Avg episode reward: [(0, '-4.620')]
+[2023-07-06 10:52:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000031168_63832064.pth...
+[2023-07-06 10:52:24,816][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000018112_37093376.pth
+[2023-07-06 10:52:24,819][98449] Saving new best policy, reward=-4.620!
+[2023-07-06 10:52:26,690][98493] Updated weights for policy 0, policy_version 31192 (0.0007)
+[2023-07-06 10:52:27,128][98493] Updated weights for policy 0, policy_version 31238 (0.0008)
+[2023-07-06 10:52:27,857][98493] Updated weights for policy 0, policy_version 31298 (0.0008)
+[2023-07-06 10:52:28,318][98493] Updated weights for policy 0, policy_version 31354 (0.0007)
+[2023-07-06 10:52:28,836][98493] Updated weights for policy 0, policy_version 31408 (0.0009)
+[2023-07-06 10:52:29,764][98243] Fps is (10 sec: 108133.7, 60 sec: 113595.6, 300 sec: 111744.4). Total num frames: 64356352. Throughput: 0: 27659.3. Samples: 16120320. Policy #0 lag: (min: 64.0, avg: 170.5, max: 336.0)
+[2023-07-06 10:52:29,765][98243] Avg episode reward: [(0, '-4.510')]
+[2023-07-06 10:52:29,765][98449] Saving new best policy, reward=-4.510!
+[2023-07-06 10:52:31,278][98493] Updated weights for policy 0, policy_version 31456 (0.0007)
+[2023-07-06 10:52:31,810][98493] Updated weights for policy 0, policy_version 31489 (0.0007)
+[2023-07-06 10:52:32,429][98493] Updated weights for policy 0, policy_version 31553 (0.0007)
+[2023-07-06 10:52:32,918][98493] Updated weights for policy 0, policy_version 31616 (0.0006)
+[2023-07-06 10:52:33,714][98493] Updated weights for policy 0, policy_version 31680 (0.0007)
+[2023-07-06 10:52:34,764][98243] Fps is (10 sec: 104858.7, 60 sec: 113595.7, 300 sec: 111522.4). Total num frames: 64880640. Throughput: 0: 27761.8. Samples: 16291328. Policy #0 lag: (min: 64.0, avg: 170.5, max: 336.0)
+[2023-07-06 10:52:34,765][98243] Avg episode reward: [(0, '-4.280')]
+[2023-07-06 10:52:34,774][98449] Saving new best policy, reward=-4.280!
+[2023-07-06 10:52:36,230][98493] Updated weights for policy 0, policy_version 31744 (0.0007)
+[2023-07-06 10:52:37,223][98493] Updated weights for policy 0, policy_version 31799 (0.0007)
+[2023-07-06 10:52:37,754][98493] Updated weights for policy 0, policy_version 31866 (0.0007)
+[2023-07-06 10:52:38,027][98449] Signal inference workers to stop experience collection... (1650 times)
+[2023-07-06 10:52:38,042][98493] InferenceWorker_p0-w0: stopping experience collection (1650 times)
+[2023-07-06 10:52:38,111][98449] Signal inference workers to resume experience collection... (1650 times)
+[2023-07-06 10:52:38,111][98493] InferenceWorker_p0-w0: resuming experience collection (1650 times)
+[2023-07-06 10:52:38,361][98493] Updated weights for policy 0, policy_version 31920 (0.0006)
+[2023-07-06 10:52:39,764][98243] Fps is (10 sec: 104858.1, 60 sec: 112503.7, 300 sec: 111522.3). Total num frames: 65404928. Throughput: 0: 27807.4. Samples: 16374784. Policy #0 lag: (min: 14.0, avg: 83.2, max: 270.0)
+[2023-07-06 10:52:39,765][98243] Avg episode reward: [(0, '-4.240')]
+[2023-07-06 10:52:39,768][98449] Saving new best policy, reward=-4.240!
+[2023-07-06 10:52:40,455][98493] Updated weights for policy 0, policy_version 31973 (0.0007)
+[2023-07-06 10:52:41,762][98493] Updated weights for policy 0, policy_version 32032 (0.0007)
+[2023-07-06 10:52:42,368][98493] Updated weights for policy 0, policy_version 32096 (0.0007)
+[2023-07-06 10:52:42,873][98493] Updated weights for policy 0, policy_version 32149 (0.0006)
+[2023-07-06 10:52:44,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.1, 300 sec: 111522.2). Total num frames: 65929216. Throughput: 0: 27807.2. Samples: 16543232. Policy #0 lag: (min: 14.0, avg: 83.2, max: 270.0)
+[2023-07-06 10:52:44,765][98243] Avg episode reward: [(0, '-4.120')]
+[2023-07-06 10:52:44,969][98449] Saving new best policy, reward=-4.120!
+[2023-07-06 10:52:44,970][98493] Updated weights for policy 0, policy_version 32224 (0.0007)
+[2023-07-06 10:52:46,740][98493] Updated weights for policy 0, policy_version 32297 (0.0007)
+[2023-07-06 10:52:47,288][98493] Updated weights for policy 0, policy_version 32357 (0.0007)
+[2023-07-06 10:52:47,871][98493] Updated weights for policy 0, policy_version 32424 (0.0008)
+[2023-07-06 10:52:49,676][98493] Updated weights for policy 0, policy_version 32466 (0.0007)
+[2023-07-06 10:52:49,764][98243] Fps is (10 sec: 111411.1, 60 sec: 111411.2, 300 sec: 111633.4). Total num frames: 66519040. Throughput: 0: 28057.6. Samples: 16714752. Policy #0 lag: (min: 14.0, avg: 83.2, max: 270.0)
+[2023-07-06 10:52:49,765][98243] Avg episode reward: [(0, '-3.950')]
+[2023-07-06 10:52:49,861][98449] Saving new best policy, reward=-3.950!
+[2023-07-06 10:52:50,849][98493] Updated weights for policy 0, policy_version 32514 (0.0006)
+[2023-07-06 10:52:51,485][98493] Updated weights for policy 0, policy_version 32592 (0.0009)
+[2023-07-06 10:52:52,188][98493] Updated weights for policy 0, policy_version 32664 (0.0008)
+[2023-07-06 10:52:54,490][98493] Updated weights for policy 0, policy_version 32705 (0.0008)
+[2023-07-06 10:52:54,764][98243] Fps is (10 sec: 111412.5, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 67043328. Throughput: 0: 27670.9. Samples: 16789504. Policy #0 lag: (min: 14.0, avg: 83.2, max: 270.0)
+[2023-07-06 10:52:54,764][98243] Avg episode reward: [(0, '-3.800')]
+[2023-07-06 10:52:55,001][98449] Saving new best policy, reward=-3.800!
+[2023-07-06 10:52:55,011][98493] Updated weights for policy 0, policy_version 32768 (0.0008)
+[2023-07-06 10:52:55,930][98449] Signal inference workers to stop experience collection... (1700 times)
+[2023-07-06 10:52:55,970][98493] InferenceWorker_p0-w0: stopping experience collection (1700 times)
+[2023-07-06 10:52:56,011][98449] Signal inference workers to resume experience collection... (1700 times)
+[2023-07-06 10:52:56,011][98493] InferenceWorker_p0-w0: resuming experience collection (1700 times)
+[2023-07-06 10:52:56,115][98493] Updated weights for policy 0, policy_version 32821 (0.0007)
+[2023-07-06 10:52:56,604][98493] Updated weights for policy 0, policy_version 32880 (0.0007)
+[2023-07-06 10:52:57,221][98493] Updated weights for policy 0, policy_version 32951 (0.0008)
+[2023-07-06 10:52:59,178][98493] Updated weights for policy 0, policy_version 32979 (0.0007)
+[2023-07-06 10:52:59,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110865.1, 300 sec: 111522.3). Total num frames: 67633152. Throughput: 0: 27898.4. Samples: 16962048. Policy #0 lag: (min: 70.0, avg: 199.1, max: 290.0)
+[2023-07-06 10:52:59,765][98243] Avg episode reward: [(0, '-3.720')]
+[2023-07-06 10:52:59,765][98449] Saving new best policy, reward=-3.720!
+[2023-07-06 10:53:00,422][98493] Updated weights for policy 0, policy_version 33031 (0.0007)
+[2023-07-06 10:53:00,885][98493] Updated weights for policy 0, policy_version 33088 (0.0008)
+[2023-07-06 10:53:01,320][98493] Updated weights for policy 0, policy_version 33136 (0.0007)
+[2023-07-06 10:53:01,814][98493] Updated weights for policy 0, policy_version 33188 (0.0009)
+[2023-07-06 10:53:03,819][98493] Updated weights for policy 0, policy_version 33248 (0.0007)
+[2023-07-06 10:53:04,764][98243] Fps is (10 sec: 111410.7, 60 sec: 109772.8, 300 sec: 111300.1). Total num frames: 68157440. Throughput: 0: 28080.4. Samples: 17134080. Policy #0 lag: (min: 70.0, avg: 199.1, max: 290.0)
+[2023-07-06 10:53:04,765][98243] Avg episode reward: [(0, '-3.590')]
+[2023-07-06 10:53:04,765][98449] Saving new best policy, reward=-3.590!
+[2023-07-06 10:53:05,239][98493] Updated weights for policy 0, policy_version 33296 (0.0007)
+[2023-07-06 10:53:05,787][98493] Updated weights for policy 0, policy_version 33360 (0.0007)
+[2023-07-06 10:53:06,277][98493] Updated weights for policy 0, policy_version 33411 (0.0007)
+[2023-07-06 10:53:06,702][98493] Updated weights for policy 0, policy_version 33464 (0.0007)
+[2023-07-06 10:53:08,373][98493] Updated weights for policy 0, policy_version 33504 (0.0007)
+[2023-07-06 10:53:09,541][98493] Updated weights for policy 0, policy_version 33540 (0.0006)
+[2023-07-06 10:53:09,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110319.2, 300 sec: 111300.1). Total num frames: 68747264. Throughput: 0: 27989.4. Samples: 17217536. Policy #0 lag: (min: 70.0, avg: 199.1, max: 290.0)
+[2023-07-06 10:53:09,765][98243] Avg episode reward: [(0, '-3.540')]
+[2023-07-06 10:53:09,889][98449] Saving new best policy, reward=-3.540!
+[2023-07-06 10:53:10,271][98493] Updated weights for policy 0, policy_version 33619 (0.0008)
+[2023-07-06 10:53:10,835][98493] Updated weights for policy 0, policy_version 33688 (0.0007)
+[2023-07-06 10:53:10,938][98449] Signal inference workers to stop experience collection... (1750 times)
+[2023-07-06 10:53:10,973][98493] InferenceWorker_p0-w0: stopping experience collection (1750 times)
+[2023-07-06 10:53:11,030][98449] Signal inference workers to resume experience collection... (1750 times)
+[2023-07-06 10:53:11,030][98493] InferenceWorker_p0-w0: resuming experience collection (1750 times)
+[2023-07-06 10:53:11,132][98493] Updated weights for policy 0, policy_version 33727 (0.0006)
+[2023-07-06 10:53:13,511][98493] Updated weights for policy 0, policy_version 33787 (0.0008)
+[2023-07-06 10:53:14,320][98493] Updated weights for policy 0, policy_version 33824 (0.0007)
+[2023-07-06 10:53:14,765][98243] Fps is (10 sec: 121239.0, 60 sec: 111957.2, 300 sec: 111522.2). Total num frames: 69369856. Throughput: 0: 28148.5. Samples: 17387008. Policy #0 lag: (min: 70.0, avg: 199.1, max: 290.0)
+[2023-07-06 10:53:14,765][98243] Avg episode reward: [(0, '-3.560')]
+[2023-07-06 10:53:14,877][98493] Updated weights for policy 0, policy_version 33888 (0.0007)
+[2023-07-06 10:53:15,260][98493] Updated weights for policy 0, policy_version 33922 (0.0007)
+[2023-07-06 10:53:17,514][98493] Updated weights for policy 0, policy_version 33985 (0.0007)
+[2023-07-06 10:53:18,002][98493] Updated weights for policy 0, policy_version 34048 (0.0007)
+[2023-07-06 10:53:19,495][98493] Updated weights for policy 0, policy_version 34115 (0.0008)
+[2023-07-06 10:53:19,764][98243] Fps is (10 sec: 117965.1, 60 sec: 110865.1, 300 sec: 111411.2). Total num frames: 69926912. Throughput: 0: 28080.4. Samples: 17554944. Policy #0 lag: (min: 25.0, avg: 112.3, max: 281.0)
+[2023-07-06 10:53:19,765][98243] Avg episode reward: [(0, '-3.680')]
+[2023-07-06 10:53:19,984][98493] Updated weights for policy 0, policy_version 34176 (0.0008)
+[2023-07-06 10:53:20,476][98493] Updated weights for policy 0, policy_version 34233 (0.0008)
+[2023-07-06 10:53:22,385][98493] Updated weights for policy 0, policy_version 34295 (0.0007)
+[2023-07-06 10:53:23,707][98493] Updated weights for policy 0, policy_version 34336 (0.0007)
+[2023-07-06 10:53:24,425][98493] Updated weights for policy 0, policy_version 34400 (0.0007)
+[2023-07-06 10:53:24,764][98243] Fps is (10 sec: 114690.5, 60 sec: 111411.4, 300 sec: 111522.4). Total num frames: 70516736. Throughput: 0: 28114.5. Samples: 17639936. Policy #0 lag: (min: 25.0, avg: 112.3, max: 281.0)
+[2023-07-06 10:53:24,765][98243] Avg episode reward: [(0, '-3.650')]
+[2023-07-06 10:53:24,855][98493] Updated weights for policy 0, policy_version 34448 (0.0007)
+[2023-07-06 10:53:26,661][98493] Updated weights for policy 0, policy_version 34498 (0.0006)
+[2023-07-06 10:53:27,094][98493] Updated weights for policy 0, policy_version 34558 (0.0006)
+[2023-07-06 10:53:28,347][98493] Updated weights for policy 0, policy_version 34617 (0.0007)
+[2023-07-06 10:53:29,164][98493] Updated weights for policy 0, policy_version 34660 (0.0019)
+[2023-07-06 10:53:29,400][98449] Signal inference workers to stop experience collection... (1800 times)
+[2023-07-06 10:53:29,404][98449] Signal inference workers to resume experience collection... (1800 times)
+[2023-07-06 10:53:29,426][98493] InferenceWorker_p0-w0: stopping experience collection (1800 times)
+[2023-07-06 10:53:29,452][98493] InferenceWorker_p0-w0: resuming experience collection (1800 times)
+[2023-07-06 10:53:29,577][98493] Updated weights for policy 0, policy_version 34704 (0.0038)
+[2023-07-06 10:53:29,764][98243] Fps is (10 sec: 117964.4, 60 sec: 112503.6, 300 sec: 111633.5). Total num frames: 71106560. Throughput: 0: 28125.9. Samples: 17808896. Policy #0 lag: (min: 25.0, avg: 112.3, max: 281.0)
+[2023-07-06 10:53:29,764][98243] Avg episode reward: [(0, '-3.580')]
+[2023-07-06 10:53:31,215][98493] Updated weights for policy 0, policy_version 34756 (0.0007)
+[2023-07-06 10:53:32,771][98493] Updated weights for policy 0, policy_version 34819 (0.0016)
+[2023-07-06 10:53:33,193][98493] Updated weights for policy 0, policy_version 34874 (0.0030)
+[2023-07-06 10:53:33,997][98493] Updated weights for policy 0, policy_version 34928 (0.0006)
+[2023-07-06 10:53:34,429][98493] Updated weights for policy 0, policy_version 34976 (0.0030)
+[2023-07-06 10:53:34,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 71696384. Throughput: 0: 27921.1. Samples: 17971200. Policy #0 lag: (min: 25.0, avg: 112.3, max: 281.0)
+[2023-07-06 10:53:34,765][98243] Avg episode reward: [(0, '-3.450')]
+[2023-07-06 10:53:34,765][98449] Saving new best policy, reward=-3.450!
+[2023-07-06 10:53:35,722][98493] Updated weights for policy 0, policy_version 35011 (0.0006)
+[2023-07-06 10:53:37,630][98493] Updated weights for policy 0, policy_version 35076 (0.0007)
+[2023-07-06 10:53:38,058][98493] Updated weights for policy 0, policy_version 35133 (0.0006)
+[2023-07-06 10:53:38,961][98493] Updated weights for policy 0, policy_version 35200 (0.0008)
+[2023-07-06 10:53:39,389][98493] Updated weights for policy 0, policy_version 35248 (0.0008)
+[2023-07-06 10:53:39,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 72220672. Throughput: 0: 28285.1. Samples: 18062336. Policy #0 lag: (min: 25.0, avg: 112.3, max: 281.0)
+[2023-07-06 10:53:39,765][98243] Avg episode reward: [(0, '-3.250')]
+[2023-07-06 10:53:39,767][98449] Saving new best policy, reward=-3.250!
+[2023-07-06 10:53:40,503][98493] Updated weights for policy 0, policy_version 35305 (0.0008)
+[2023-07-06 10:53:42,525][98493] Updated weights for policy 0, policy_version 35352 (0.0015)
+[2023-07-06 10:53:43,000][98493] Updated weights for policy 0, policy_version 35394 (0.0006)
+[2023-07-06 10:53:43,466][98493] Updated weights for policy 0, policy_version 35448 (0.0007)
+[2023-07-06 10:53:43,920][98493] Updated weights for policy 0, policy_version 35494 (0.0006)
+[2023-07-06 10:53:44,764][98243] Fps is (10 sec: 104858.3, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 72744960. Throughput: 0: 28148.6. Samples: 18228736. Policy #0 lag: (min: 1.0, avg: 78.5, max: 257.0)
+[2023-07-06 10:53:44,764][98243] Avg episode reward: [(0, '-3.200')]
+[2023-07-06 10:53:44,905][98493] Updated weights for policy 0, policy_version 35545 (0.0016)
+[2023-07-06 10:53:44,938][98449] Saving new best policy, reward=-3.200!
+[2023-07-06 10:53:47,211][98493] Updated weights for policy 0, policy_version 35600 (0.0007)
+[2023-07-06 10:53:47,876][98493] Updated weights for policy 0, policy_version 35664 (0.0007)
+[2023-07-06 10:53:47,932][98449] Signal inference workers to stop experience collection... (1850 times)
+[2023-07-06 10:53:47,962][98493] InferenceWorker_p0-w0: stopping experience collection (1850 times)
+[2023-07-06 10:53:47,999][98449] Signal inference workers to resume experience collection... (1850 times)
+[2023-07-06 10:53:47,999][98493] InferenceWorker_p0-w0: resuming experience collection (1850 times)
+[2023-07-06 10:53:48,447][98493] Updated weights for policy 0, policy_version 35714 (0.0008)
+[2023-07-06 10:53:48,920][98493] Updated weights for policy 0, policy_version 35772 (0.0007)
+[2023-07-06 10:53:49,719][98493] Updated weights for policy 0, policy_version 35824 (0.0007)
+[2023-07-06 10:53:49,764][98243] Fps is (10 sec: 114688.7, 60 sec: 114141.9, 300 sec: 111855.5). Total num frames: 73367552. Throughput: 0: 27932.5. Samples: 18391040. Policy #0 lag: (min: 1.0, avg: 78.5, max: 257.0)
+[2023-07-06 10:53:49,765][98243] Avg episode reward: [(0, '-3.170')]
+[2023-07-06 10:53:49,844][98449] Saving new best policy, reward=-3.170!
+[2023-07-06 10:53:52,053][98493] Updated weights for policy 0, policy_version 35872 (0.0007)
+[2023-07-06 10:53:52,791][98493] Updated weights for policy 0, policy_version 35944 (0.0008)
+[2023-07-06 10:53:53,424][98493] Updated weights for policy 0, policy_version 36003 (0.0007)
+[2023-07-06 10:53:54,133][98493] Updated weights for policy 0, policy_version 36049 (0.0007)
+[2023-07-06 10:53:54,764][98243] Fps is (10 sec: 117963.5, 60 sec: 114687.8, 300 sec: 111855.5). Total num frames: 73924608. Throughput: 0: 28034.8. Samples: 18479104. Policy #0 lag: (min: 1.0, avg: 78.5, max: 257.0)
+[2023-07-06 10:53:54,765][98243] Avg episode reward: [(0, '-3.110')]
+[2023-07-06 10:53:54,770][98449] Saving new best policy, reward=-3.110!
+[2023-07-06 10:53:56,404][98493] Updated weights for policy 0, policy_version 36098 (0.0006)
+[2023-07-06 10:53:56,857][98493] Updated weights for policy 0, policy_version 36156 (0.0007)
+[2023-07-06 10:53:57,484][98493] Updated weights for policy 0, policy_version 36219 (0.0007)
+[2023-07-06 10:53:58,175][98493] Updated weights for policy 0, policy_version 36272 (0.0007)
+[2023-07-06 10:53:58,942][98493] Updated weights for policy 0, policy_version 36329 (0.0007)
+[2023-07-06 10:53:59,764][98243] Fps is (10 sec: 108133.9, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 74448896. Throughput: 0: 28012.2. Samples: 18647552. Policy #0 lag: (min: 1.0, avg: 78.5, max: 257.0)
+[2023-07-06 10:53:59,765][98243] Avg episode reward: [(0, '-3.340')]
+[2023-07-06 10:54:00,924][98493] Updated weights for policy 0, policy_version 36353 (0.0006)
+[2023-07-06 10:54:01,381][98493] Updated weights for policy 0, policy_version 36415 (0.0007)
+[2023-07-06 10:54:02,093][98493] Updated weights for policy 0, policy_version 36471 (0.0008)
+[2023-07-06 10:54:02,571][98493] Updated weights for policy 0, policy_version 36503 (0.0007)
+[2023-07-06 10:54:03,484][98493] Updated weights for policy 0, policy_version 36570 (0.0007)
+[2023-07-06 10:54:04,764][98243] Fps is (10 sec: 104858.4, 60 sec: 113595.7, 300 sec: 111300.1). Total num frames: 74973184. Throughput: 0: 28069.0. Samples: 18818048. Policy #0 lag: (min: 1.0, avg: 78.5, max: 257.0)
+[2023-07-06 10:54:04,765][98243] Avg episode reward: [(0, '-3.320')]
+[2023-07-06 10:54:05,673][98493] Updated weights for policy 0, policy_version 36613 (0.0007)
+[2023-07-06 10:54:06,112][98493] Updated weights for policy 0, policy_version 36668 (0.0008)
+[2023-07-06 10:54:06,508][98449] Signal inference workers to stop experience collection... (1900 times)
+[2023-07-06 10:54:06,539][98493] InferenceWorker_p0-w0: stopping experience collection (1900 times)
+[2023-07-06 10:54:06,601][98449] Signal inference workers to resume experience collection... (1900 times)
+[2023-07-06 10:54:06,602][98493] InferenceWorker_p0-w0: resuming experience collection (1900 times)
+[2023-07-06 10:54:06,675][98493] Updated weights for policy 0, policy_version 36729 (0.0007)
+[2023-07-06 10:54:07,228][98493] Updated weights for policy 0, policy_version 36768 (0.0007)
+[2023-07-06 10:54:08,288][98493] Updated weights for policy 0, policy_version 36832 (0.0007)
+[2023-07-06 10:54:09,764][98243] Fps is (10 sec: 104855.6, 60 sec: 112503.0, 300 sec: 111077.9). Total num frames: 75497472. Throughput: 0: 28023.3. Samples: 18900992. Policy #0 lag: (min: 8.0, avg: 84.9, max: 264.0)
+[2023-07-06 10:54:09,765][98243] Avg episode reward: [(0, '-3.210')]
+[2023-07-06 10:54:10,275][98493] Updated weights for policy 0, policy_version 36880 (0.0007)
+[2023-07-06 10:54:10,650][98493] Updated weights for policy 0, policy_version 36927 (0.0008)
+[2023-07-06 10:54:11,236][98493] Updated weights for policy 0, policy_version 36977 (0.0007)
+[2023-07-06 10:54:12,090][98493] Updated weights for policy 0, policy_version 37026 (0.0006)
+[2023-07-06 10:54:12,688][98493] Updated weights for policy 0, policy_version 37072 (0.0007)
+[2023-07-06 10:54:13,112][98493] Updated weights for policy 0, policy_version 37120 (0.0007)
+[2023-07-06 10:54:14,764][98243] Fps is (10 sec: 104857.0, 60 sec: 110865.4, 300 sec: 111078.0). Total num frames: 76021760. Throughput: 0: 28091.7. Samples: 19073024. Policy #0 lag: (min: 8.0, avg: 84.9, max: 264.0)
+[2023-07-06 10:54:14,765][98243] Avg episode reward: [(0, '-3.370')]
+[2023-07-06 10:54:15,234][98493] Updated weights for policy 0, policy_version 37184 (0.0007)
+[2023-07-06 10:54:15,854][98493] Updated weights for policy 0, policy_version 37242 (0.0006)
+[2023-07-06 10:54:16,555][98493] Updated weights for policy 0, policy_version 37280 (0.0007)
+[2023-07-06 10:54:17,390][98493] Updated weights for policy 0, policy_version 37336 (0.0007)
+[2023-07-06 10:54:19,383][98493] Updated weights for policy 0, policy_version 37377 (0.0008)
+[2023-07-06 10:54:19,764][98243] Fps is (10 sec: 114691.2, 60 sec: 111957.4, 300 sec: 111411.2). Total num frames: 76644352. Throughput: 0: 28319.3. Samples: 19245568. Policy #0 lag: (min: 8.0, avg: 84.9, max: 264.0)
+[2023-07-06 10:54:19,765][98243] Avg episode reward: [(0, '-3.260')]
+[2023-07-06 10:54:19,835][98493] Updated weights for policy 0, policy_version 37436 (0.0007)
+[2023-07-06 10:54:20,365][98493] Updated weights for policy 0, policy_version 37480 (0.0006)
+[2023-07-06 10:54:21,145][98493] Updated weights for policy 0, policy_version 37520 (0.0006)
+[2023-07-06 10:54:21,562][98493] Updated weights for policy 0, policy_version 37568 (0.0006)
+[2023-07-06 10:54:22,236][98493] Updated weights for policy 0, policy_version 37628 (0.0009)
+[2023-07-06 10:54:24,669][98493] Updated weights for policy 0, policy_version 37696 (0.0007)
+[2023-07-06 10:54:24,764][98243] Fps is (10 sec: 117963.5, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 77201408. Throughput: 0: 28103.0. Samples: 19326976. Policy #0 lag: (min: 8.0, avg: 84.9, max: 264.0)
+[2023-07-06 10:54:24,766][98243] Avg episode reward: [(0, '-3.090')]
+[2023-07-06 10:54:24,941][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000037728_77266944.pth...
+[2023-07-06 10:54:25,015][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000024640_50462720.pth
+[2023-07-06 10:54:25,018][98449] Saving new best policy, reward=-3.090!
+[2023-07-06 10:54:25,707][98449] Signal inference workers to stop experience collection... (1950 times)
+[2023-07-06 10:54:25,716][98493] InferenceWorker_p0-w0: stopping experience collection (1950 times)
+[2023-07-06 10:54:25,731][98493] Updated weights for policy 0, policy_version 37762 (0.0008)
+[2023-07-06 10:54:25,802][98449] Signal inference workers to resume experience collection... (1950 times)
+[2023-07-06 10:54:25,803][98493] InferenceWorker_p0-w0: resuming experience collection (1950 times)
+[2023-07-06 10:54:26,669][98493] Updated weights for policy 0, policy_version 37828 (0.0007)
+[2023-07-06 10:54:28,827][98493] Updated weights for policy 0, policy_version 37889 (0.0007)
+[2023-07-06 10:54:29,405][98493] Updated weights for policy 0, policy_version 37959 (0.0007)
+[2023-07-06 10:54:29,764][98243] Fps is (10 sec: 117965.5, 60 sec: 111957.5, 300 sec: 111855.6). Total num frames: 77824000. Throughput: 0: 28239.7. Samples: 19499520. Policy #0 lag: (min: 8.0, avg: 84.9, max: 264.0)
+[2023-07-06 10:54:29,764][98243] Avg episode reward: [(0, '-2.880')]
+[2023-07-06 10:54:29,865][98449] Saving new best policy, reward=-2.880!
+[2023-07-06 10:54:29,891][98493] Updated weights for policy 0, policy_version 38016 (0.0011)
+[2023-07-06 10:54:31,044][98493] Updated weights for policy 0, policy_version 38078 (0.0007)
+[2023-07-06 10:54:31,957][98493] Updated weights for policy 0, policy_version 38137 (0.0007)
+[2023-07-06 10:54:33,636][98493] Updated weights for policy 0, policy_version 38178 (0.0006)
+[2023-07-06 10:54:34,260][98493] Updated weights for policy 0, policy_version 38249 (0.0006)
+[2023-07-06 10:54:34,764][98243] Fps is (10 sec: 117965.5, 60 sec: 111411.0, 300 sec: 111966.5). Total num frames: 78381056. Throughput: 0: 28262.3. Samples: 19662848. Policy #0 lag: (min: 111.0, avg: 183.0, max: 345.0)
+[2023-07-06 10:54:34,765][98243] Avg episode reward: [(0, '-2.630')]
+[2023-07-06 10:54:34,766][98449] Saving new best policy, reward=-2.630!
+[2023-07-06 10:54:35,208][98493] Updated weights for policy 0, policy_version 38294 (0.0006)
+[2023-07-06 10:54:36,174][98493] Updated weights for policy 0, policy_version 38337 (0.0007)
+[2023-07-06 10:54:36,670][98493] Updated weights for policy 0, policy_version 38400 (0.0006)
+[2023-07-06 10:54:38,646][98493] Updated weights for policy 0, policy_version 38453 (0.0008)
+[2023-07-06 10:54:39,108][98493] Updated weights for policy 0, policy_version 38512 (0.0007)
+[2023-07-06 10:54:39,764][98243] Fps is (10 sec: 111409.9, 60 sec: 111957.4, 300 sec: 112077.7). Total num frames: 78938112. Throughput: 0: 28239.7. Samples: 19749888. Policy #0 lag: (min: 111.0, avg: 183.0, max: 345.0)
+[2023-07-06 10:54:39,765][98243] Avg episode reward: [(0, '-2.640')]
+[2023-07-06 10:54:39,803][98493] Updated weights for policy 0, policy_version 38553 (0.0007)
+[2023-07-06 10:54:40,631][98493] Updated weights for policy 0, policy_version 38608 (0.0007)
+[2023-07-06 10:54:43,050][98493] Updated weights for policy 0, policy_version 38672 (0.0007)
+[2023-07-06 10:54:43,542][98493] Updated weights for policy 0, policy_version 38727 (0.0007)
+[2023-07-06 10:54:43,641][98449] Signal inference workers to stop experience collection... (2000 times)
+[2023-07-06 10:54:43,680][98493] InferenceWorker_p0-w0: stopping experience collection (2000 times)
+[2023-07-06 10:54:43,732][98449] Signal inference workers to resume experience collection... (2000 times)
+[2023-07-06 10:54:43,733][98493] InferenceWorker_p0-w0: resuming experience collection (2000 times)
+[2023-07-06 10:54:43,996][98493] Updated weights for policy 0, policy_version 38781 (0.0007)
+[2023-07-06 10:54:44,666][98493] Updated weights for policy 0, policy_version 38844 (0.0006)
+[2023-07-06 10:54:44,764][98243] Fps is (10 sec: 117966.0, 60 sec: 113595.6, 300 sec: 112410.9). Total num frames: 79560704. Throughput: 0: 28262.4. Samples: 19919360. Policy #0 lag: (min: 111.0, avg: 183.0, max: 345.0)
+[2023-07-06 10:54:44,765][98243] Avg episode reward: [(0, '-2.240')]
+[2023-07-06 10:54:44,765][98449] Saving new best policy, reward=-2.240!
+[2023-07-06 10:54:45,542][98493] Updated weights for policy 0, policy_version 38902 (0.0007)
+[2023-07-06 10:54:48,087][98493] Updated weights for policy 0, policy_version 38948 (0.0006)
+[2023-07-06 10:54:48,565][98493] Updated weights for policy 0, policy_version 39008 (0.0008)
+[2023-07-06 10:54:49,058][98493] Updated weights for policy 0, policy_version 39061 (0.0007)
+[2023-07-06 10:54:49,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111957.3, 300 sec: 112411.0). Total num frames: 80084992. Throughput: 0: 28171.4. Samples: 20085760. Policy #0 lag: (min: 111.0, avg: 183.0, max: 345.0)
+[2023-07-06 10:54:49,765][98243] Avg episode reward: [(0, '-1.620')]
+[2023-07-06 10:54:49,783][98493] Updated weights for policy 0, policy_version 39110 (0.0008)
+[2023-07-06 10:54:49,974][98449] Saving new best policy, reward=-1.620!
+[2023-07-06 10:54:52,583][98493] Updated weights for policy 0, policy_version 39170 (0.0008)
+[2023-07-06 10:54:53,181][98493] Updated weights for policy 0, policy_version 39240 (0.0007)
+[2023-07-06 10:54:53,635][98493] Updated weights for policy 0, policy_version 39296 (0.0007)
+[2023-07-06 10:54:54,450][98493] Updated weights for policy 0, policy_version 39361 (0.0007)
+[2023-07-06 10:54:54,764][98243] Fps is (10 sec: 111412.0, 60 sec: 112503.7, 300 sec: 112522.1). Total num frames: 80674816. Throughput: 0: 28319.5. Samples: 20175360. Policy #0 lag: (min: 111.0, avg: 183.0, max: 345.0)
+[2023-07-06 10:54:54,764][98243] Avg episode reward: [(0, '-1.240')]
+[2023-07-06 10:54:54,897][98449] Saving new best policy, reward=-1.240!
+[2023-07-06 10:54:57,354][98493] Updated weights for policy 0, policy_version 39428 (0.0007)
+[2023-07-06 10:54:57,850][98493] Updated weights for policy 0, policy_version 39488 (0.0008)
+[2023-07-06 10:54:58,382][98493] Updated weights for policy 0, policy_version 39541 (0.0007)
+[2023-07-06 10:54:58,828][98493] Updated weights for policy 0, policy_version 39587 (0.0008)
+[2023-07-06 10:54:59,463][98493] Updated weights for policy 0, policy_version 39648 (0.0008)
+[2023-07-06 10:54:59,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113595.6, 300 sec: 112521.9). Total num frames: 81264640. Throughput: 0: 28069.0. Samples: 20336128. Policy #0 lag: (min: 53.0, avg: 214.1, max: 309.0)
+[2023-07-06 10:54:59,765][98243] Avg episode reward: [(0, '-0.600')]
+[2023-07-06 10:54:59,765][98449] Saving new best policy, reward=-0.600!
+[2023-07-06 10:55:02,091][98449] Signal inference workers to stop experience collection... (2050 times)
+[2023-07-06 10:55:02,100][98493] InferenceWorker_p0-w0: stopping experience collection (2050 times)
+[2023-07-06 10:55:02,101][98493] Updated weights for policy 0, policy_version 39681 (0.0006)
+[2023-07-06 10:55:02,201][98449] Signal inference workers to resume experience collection... (2050 times)
+[2023-07-06 10:55:02,201][98493] InferenceWorker_p0-w0: resuming experience collection (2050 times)
+[2023-07-06 10:55:02,813][98493] Updated weights for policy 0, policy_version 39760 (0.0007)
+[2023-07-06 10:55:03,321][98493] Updated weights for policy 0, policy_version 39810 (0.0008)
+[2023-07-06 10:55:03,920][98493] Updated weights for policy 0, policy_version 39877 (0.0009)
+[2023-07-06 10:55:04,342][98493] Updated weights for policy 0, policy_version 39931 (0.0009)
+[2023-07-06 10:55:04,768][98243] Fps is (10 sec: 111369.6, 60 sec: 113588.8, 300 sec: 112520.6). Total num frames: 81788928. Throughput: 0: 27748.1. Samples: 20494336. Policy #0 lag: (min: 53.0, avg: 214.1, max: 309.0)
+[2023-07-06 10:55:04,768][98243] Avg episode reward: [(0, '-0.290')]
+[2023-07-06 10:55:04,769][98449] Saving new best policy, reward=-0.290!
+[2023-07-06 10:55:07,550][98493] Updated weights for policy 0, policy_version 40000 (0.0008)
+[2023-07-06 10:55:08,074][98493] Updated weights for policy 0, policy_version 40051 (0.0008)
+[2023-07-06 10:55:08,616][98493] Updated weights for policy 0, policy_version 40113 (0.0007)
+[2023-07-06 10:55:09,104][98493] Updated weights for policy 0, policy_version 40176 (0.0007)
+[2023-07-06 10:55:09,764][98243] Fps is (10 sec: 104858.2, 60 sec: 113596.1, 300 sec: 112410.9). Total num frames: 82313216. Throughput: 0: 27921.2. Samples: 20583424. Policy #0 lag: (min: 53.0, avg: 214.1, max: 309.0)
+[2023-07-06 10:55:09,765][98243] Avg episode reward: [(0, '1.000')]
+[2023-07-06 10:55:09,767][98449] Saving new best policy, reward=1.000!
+[2023-07-06 10:55:12,004][98493] Updated weights for policy 0, policy_version 40240 (0.0007)
+[2023-07-06 10:55:12,374][98493] Updated weights for policy 0, policy_version 40278 (0.0007)
+[2023-07-06 10:55:12,940][98493] Updated weights for policy 0, policy_version 40341 (0.0006)
+[2023-07-06 10:55:13,491][98493] Updated weights for policy 0, policy_version 40403 (0.0007)
+[2023-07-06 10:55:14,764][98243] Fps is (10 sec: 104896.2, 60 sec: 113595.9, 300 sec: 112077.7). Total num frames: 82837504. Throughput: 0: 27568.3. Samples: 20740096. Policy #0 lag: (min: 53.0, avg: 214.1, max: 309.0)
+[2023-07-06 10:55:14,765][98243] Avg episode reward: [(0, '0.490')]
+[2023-07-06 10:55:16,295][98493] Updated weights for policy 0, policy_version 40451 (0.0007)
+[2023-07-06 10:55:16,759][98493] Updated weights for policy 0, policy_version 40512 (0.0007)
+[2023-07-06 10:55:17,198][98449] Signal inference workers to stop experience collection... (2100 times)
+[2023-07-06 10:55:17,231][98493] InferenceWorker_p0-w0: stopping experience collection (2100 times)
+[2023-07-06 10:55:17,282][98449] Signal inference workers to resume experience collection... (2100 times)
+[2023-07-06 10:55:17,283][98493] InferenceWorker_p0-w0: resuming experience collection (2100 times)
+[2023-07-06 10:55:17,524][98493] Updated weights for policy 0, policy_version 40582 (0.0007)
+[2023-07-06 10:55:17,970][98493] Updated weights for policy 0, policy_version 40629 (0.0008)
+[2023-07-06 10:55:18,510][98493] Updated weights for policy 0, policy_version 40699 (0.0037)
+[2023-07-06 10:55:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111957.2, 300 sec: 111633.5). Total num frames: 83361792. Throughput: 0: 27830.1. Samples: 20915200. Policy #0 lag: (min: 53.0, avg: 214.1, max: 309.0)
+[2023-07-06 10:55:19,765][98243] Avg episode reward: [(0, '0.740')]
+[2023-07-06 10:55:21,253][98493] Updated weights for policy 0, policy_version 40752 (0.0007)
+[2023-07-06 10:55:21,721][98493] Updated weights for policy 0, policy_version 40788 (0.0007)
+[2023-07-06 10:55:22,318][98493] Updated weights for policy 0, policy_version 40864 (0.0010)
+[2023-07-06 10:55:22,846][98493] Updated weights for policy 0, policy_version 40901 (0.0007)
+[2023-07-06 10:55:24,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 83886080. Throughput: 0: 27693.5. Samples: 20996096. Policy #0 lag: (min: 9.0, avg: 73.0, max: 265.0)
+[2023-07-06 10:55:24,765][98243] Avg episode reward: [(0, '1.100')]
+[2023-07-06 10:55:24,768][98449] Saving new best policy, reward=1.100!
+[2023-07-06 10:55:25,749][98493] Updated weights for policy 0, policy_version 40964 (0.0007)
+[2023-07-06 10:55:26,304][98493] Updated weights for policy 0, policy_version 41027 (0.0007)
+[2023-07-06 10:55:26,867][98493] Updated weights for policy 0, policy_version 41097 (0.0008)
+[2023-07-06 10:55:27,632][98493] Updated weights for policy 0, policy_version 41153 (0.0007)
+[2023-07-06 10:55:28,126][98493] Updated weights for policy 0, policy_version 41214 (0.0007)
+[2023-07-06 10:55:29,764][98243] Fps is (10 sec: 104857.7, 60 sec: 109772.6, 300 sec: 111522.3). Total num frames: 84410368. Throughput: 0: 27511.5. Samples: 21157376. Policy #0 lag: (min: 9.0, avg: 73.0, max: 265.0)
+[2023-07-06 10:55:29,765][98243] Avg episode reward: [(0, '1.600')]
+[2023-07-06 10:55:29,765][98449] Saving new best policy, reward=1.600!
+[2023-07-06 10:55:31,065][98493] Updated weights for policy 0, policy_version 41281 (0.0008)
+[2023-07-06 10:55:31,546][98493] Updated weights for policy 0, policy_version 41344 (0.0008)
+[2023-07-06 10:55:32,255][98493] Updated weights for policy 0, policy_version 41398 (0.0006)
+[2023-07-06 10:55:32,816][98493] Updated weights for policy 0, policy_version 41440 (0.0007)
+[2023-07-06 10:55:34,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109226.9, 300 sec: 111189.0). Total num frames: 84934656. Throughput: 0: 27625.2. Samples: 21328896. Policy #0 lag: (min: 9.0, avg: 73.0, max: 265.0)
+[2023-07-06 10:55:34,773][98243] Avg episode reward: [(0, '1.770')]
+[2023-07-06 10:55:34,773][98449] Saving new best policy, reward=1.770!
+[2023-07-06 10:55:35,250][98493] Updated weights for policy 0, policy_version 41474 (0.0008)
+[2023-07-06 10:55:35,383][98449] Signal inference workers to stop experience collection... (2150 times)
+[2023-07-06 10:55:35,417][98493] InferenceWorker_p0-w0: stopping experience collection (2150 times)
+[2023-07-06 10:55:35,460][98449] Signal inference workers to resume experience collection... (2150 times)
+[2023-07-06 10:55:35,460][98493] InferenceWorker_p0-w0: resuming experience collection (2150 times)
+[2023-07-06 10:55:35,728][98493] Updated weights for policy 0, policy_version 41536 (0.0006)
+[2023-07-06 10:55:36,248][98493] Updated weights for policy 0, policy_version 41593 (0.0007)
+[2023-07-06 10:55:36,624][98493] Updated weights for policy 0, policy_version 41632 (0.0008)
+[2023-07-06 10:55:37,218][98493] Updated weights for policy 0, policy_version 41680 (0.0006)
+[2023-07-06 10:55:37,577][98493] Updated weights for policy 0, policy_version 41726 (0.0008)
+[2023-07-06 10:55:39,764][98243] Fps is (10 sec: 104857.6, 60 sec: 108680.5, 300 sec: 111078.0). Total num frames: 85458944. Throughput: 0: 27374.9. Samples: 21407232. Policy #0 lag: (min: 9.0, avg: 73.0, max: 265.0)
+[2023-07-06 10:55:39,765][98243] Avg episode reward: [(0, '2.100')]
+[2023-07-06 10:55:39,926][98449] Saving new best policy, reward=2.100!
+[2023-07-06 10:55:40,229][98493] Updated weights for policy 0, policy_version 41792 (0.0006)
+[2023-07-06 10:55:40,990][98493] Updated weights for policy 0, policy_version 41856 (0.0009)
+[2023-07-06 10:55:41,502][98493] Updated weights for policy 0, policy_version 41916 (0.0008)
+[2023-07-06 10:55:42,096][98493] Updated weights for policy 0, policy_version 41968 (0.0007)
+[2023-07-06 10:55:44,765][98243] Fps is (10 sec: 111406.6, 60 sec: 108133.7, 300 sec: 111299.9). Total num frames: 86048768. Throughput: 0: 27681.9. Samples: 21581824. Policy #0 lag: (min: 9.0, avg: 73.0, max: 265.0)
+[2023-07-06 10:55:44,765][98243] Avg episode reward: [(0, '1.920')]
+[2023-07-06 10:55:44,826][98493] Updated weights for policy 0, policy_version 42020 (0.0007)
+[2023-07-06 10:55:45,402][98493] Updated weights for policy 0, policy_version 42086 (0.0008)
+[2023-07-06 10:55:45,976][98493] Updated weights for policy 0, policy_version 42137 (0.0007)
+[2023-07-06 10:55:46,536][98493] Updated weights for policy 0, policy_version 42208 (0.0007)
+[2023-07-06 10:55:49,281][98493] Updated weights for policy 0, policy_version 42244 (0.0007)
+[2023-07-06 10:55:49,764][98243] Fps is (10 sec: 117965.7, 60 sec: 109226.8, 300 sec: 111522.4). Total num frames: 86638592. Throughput: 0: 27934.8. Samples: 21751296. Policy #0 lag: (min: 15.0, avg: 73.9, max: 271.0)
+[2023-07-06 10:55:49,765][98243] Avg episode reward: [(0, '2.410')]
+[2023-07-06 10:55:49,821][98493] Updated weights for policy 0, policy_version 42306 (0.0006)
+[2023-07-06 10:55:49,897][98449] Saving new best policy, reward=2.410!
+[2023-07-06 10:55:50,317][98493] Updated weights for policy 0, policy_version 42366 (0.0006)
+[2023-07-06 10:55:51,051][98449] Signal inference workers to stop experience collection... (2200 times)
+[2023-07-06 10:55:51,080][98493] InferenceWorker_p0-w0: stopping experience collection (2200 times)
+[2023-07-06 10:55:51,087][98493] Updated weights for policy 0, policy_version 42424 (0.0008)
+[2023-07-06 10:55:51,121][98449] Signal inference workers to resume experience collection... (2200 times)
+[2023-07-06 10:55:51,121][98493] InferenceWorker_p0-w0: resuming experience collection (2200 times)
+[2023-07-06 10:55:51,644][98493] Updated weights for policy 0, policy_version 42488 (0.0032)
+[2023-07-06 10:55:54,500][98493] Updated weights for policy 0, policy_version 42550 (0.0006)
+[2023-07-06 10:55:54,764][98243] Fps is (10 sec: 114692.5, 60 sec: 108680.4, 300 sec: 111633.4). Total num frames: 87195648. Throughput: 0: 27739.0. Samples: 21831680. Policy #0 lag: (min: 15.0, avg: 73.9, max: 271.0)
+[2023-07-06 10:55:54,765][98243] Avg episode reward: [(0, '2.610')]
+[2023-07-06 10:55:54,990][98449] Saving new best policy, reward=2.610!
+[2023-07-06 10:55:55,069][98493] Updated weights for policy 0, policy_version 42613 (0.0007)
+[2023-07-06 10:55:55,630][98493] Updated weights for policy 0, policy_version 42672 (0.0008)
+[2023-07-06 10:55:56,068][98493] Updated weights for policy 0, policy_version 42720 (0.0007)
+[2023-07-06 10:55:58,850][98493] Updated weights for policy 0, policy_version 42777 (0.0006)
+[2023-07-06 10:55:59,372][98493] Updated weights for policy 0, policy_version 42835 (0.0007)
+[2023-07-06 10:55:59,764][98243] Fps is (10 sec: 117963.5, 60 sec: 109226.8, 300 sec: 111855.5). Total num frames: 87818240. Throughput: 0: 28069.0. Samples: 22003200. Policy #0 lag: (min: 15.0, avg: 73.9, max: 271.0)
+[2023-07-06 10:55:59,765][98243] Avg episode reward: [(0, '1.790')]
+[2023-07-06 10:55:59,917][98493] Updated weights for policy 0, policy_version 42882 (0.0007)
+[2023-07-06 10:56:00,285][98493] Updated weights for policy 0, policy_version 42928 (0.0009)
+[2023-07-06 10:56:00,710][98493] Updated weights for policy 0, policy_version 42968 (0.0007)
+[2023-07-06 10:56:03,305][98493] Updated weights for policy 0, policy_version 43024 (0.0006)
+[2023-07-06 10:56:03,869][98493] Updated weights for policy 0, policy_version 43088 (0.0008)
+[2023-07-06 10:56:04,693][98493] Updated weights for policy 0, policy_version 43152 (0.0008)
+[2023-07-06 10:56:04,764][98243] Fps is (10 sec: 117965.3, 60 sec: 109779.6, 300 sec: 111633.4). Total num frames: 88375296. Throughput: 0: 27841.4. Samples: 22168064. Policy #0 lag: (min: 15.0, avg: 73.9, max: 271.0)
+[2023-07-06 10:56:04,765][98243] Avg episode reward: [(0, '1.430')]
+[2023-07-06 10:56:05,256][98493] Updated weights for policy 0, policy_version 43203 (0.0007)
+[2023-07-06 10:56:05,688][98493] Updated weights for policy 0, policy_version 43262 (0.0006)
+[2023-07-06 10:56:08,457][98493] Updated weights for policy 0, policy_version 43316 (0.0006)
+[2023-07-06 10:56:08,714][98449] Signal inference workers to stop experience collection... (2250 times)
+[2023-07-06 10:56:08,752][98493] InferenceWorker_p0-w0: stopping experience collection (2250 times)
+[2023-07-06 10:56:08,798][98449] Signal inference workers to resume experience collection... (2250 times)
+[2023-07-06 10:56:08,799][98493] InferenceWorker_p0-w0: resuming experience collection (2250 times)
+[2023-07-06 10:56:09,015][98493] Updated weights for policy 0, policy_version 43386 (0.0007)
+[2023-07-06 10:56:09,764][98243] Fps is (10 sec: 114687.2, 60 sec: 110864.9, 300 sec: 111855.6). Total num frames: 88965120. Throughput: 0: 27977.9. Samples: 22255104. Policy #0 lag: (min: 15.0, avg: 73.9, max: 271.0)
+[2023-07-06 10:56:09,765][98243] Avg episode reward: [(0, '1.900')]
+[2023-07-06 10:56:09,839][98493] Updated weights for policy 0, policy_version 43444 (0.0008)
+[2023-07-06 10:56:10,425][98493] Updated weights for policy 0, policy_version 43514 (0.0009)
+[2023-07-06 10:56:12,863][98493] Updated weights for policy 0, policy_version 43568 (0.0006)
+[2023-07-06 10:56:13,697][98493] Updated weights for policy 0, policy_version 43621 (0.0006)
+[2023-07-06 10:56:14,181][98493] Updated weights for policy 0, policy_version 43680 (0.0006)
+[2023-07-06 10:56:14,599][98493] Updated weights for policy 0, policy_version 43721 (0.0007)
+[2023-07-06 10:56:14,764][98243] Fps is (10 sec: 121241.3, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 89587712. Throughput: 0: 27989.3. Samples: 22416896. Policy #0 lag: (min: 15.0, avg: 73.9, max: 271.0)
+[2023-07-06 10:56:14,765][98243] Avg episode reward: [(0, '1.900')]
+[2023-07-06 10:56:15,016][98493] Updated weights for policy 0, policy_version 43772 (0.0007)
+[2023-07-06 10:56:17,481][98493] Updated weights for policy 0, policy_version 43814 (0.0006)
+[2023-07-06 10:56:18,327][98493] Updated weights for policy 0, policy_version 43872 (0.0007)
+[2023-07-06 10:56:18,852][98493] Updated weights for policy 0, policy_version 43929 (0.0007)
+[2023-07-06 10:56:19,392][98493] Updated weights for policy 0, policy_version 43988 (0.0007)
+[2023-07-06 10:56:19,764][98243] Fps is (10 sec: 121241.8, 60 sec: 113595.6, 300 sec: 112410.9). Total num frames: 90177536. Throughput: 0: 27830.0. Samples: 22581248. Policy #0 lag: (min: 11.0, avg: 86.2, max: 267.0)
+[2023-07-06 10:56:19,765][98243] Avg episode reward: [(0, '1.900')]
+[2023-07-06 10:56:21,905][98493] Updated weights for policy 0, policy_version 44033 (0.0007)
+[2023-07-06 10:56:22,340][98493] Updated weights for policy 0, policy_version 44088 (0.0007)
+[2023-07-06 10:56:23,125][98493] Updated weights for policy 0, policy_version 44131 (0.0007)
+[2023-07-06 10:56:23,565][98493] Updated weights for policy 0, policy_version 44180 (0.0007)
+[2023-07-06 10:56:24,198][98493] Updated weights for policy 0, policy_version 44256 (0.0008)
+[2023-07-06 10:56:24,242][98449] Signal inference workers to stop experience collection... (2300 times)
+[2023-07-06 10:56:24,290][98493] InferenceWorker_p0-w0: stopping experience collection (2300 times)
+[2023-07-06 10:56:24,324][98449] Signal inference workers to resume experience collection... (2300 times)
+[2023-07-06 10:56:24,324][98493] InferenceWorker_p0-w0: resuming experience collection (2300 times)
+[2023-07-06 10:56:24,764][98243] Fps is (10 sec: 111411.0, 60 sec: 113595.8, 300 sec: 112410.9). Total num frames: 90701824. Throughput: 0: 28148.6. Samples: 22673920. Policy #0 lag: (min: 11.0, avg: 86.2, max: 267.0)
+[2023-07-06 10:56:24,765][98243] Avg episode reward: [(0, '2.620')]
+[2023-07-06 10:56:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000044288_90701824.pth...
+[2023-07-06 10:56:24,803][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000031168_63832064.pth
+[2023-07-06 10:56:24,806][98449] Saving new best policy, reward=2.620!
+[2023-07-06 10:56:26,909][98493] Updated weights for policy 0, policy_version 44314 (0.0008)
+[2023-07-06 10:56:27,438][98493] Updated weights for policy 0, policy_version 44371 (0.0007)
+[2023-07-06 10:56:27,920][98493] Updated weights for policy 0, policy_version 44419 (0.0007)
+[2023-07-06 10:56:28,341][98493] Updated weights for policy 0, policy_version 44475 (0.0006)
+[2023-07-06 10:56:28,875][98493] Updated weights for policy 0, policy_version 44518 (0.0006)
+[2023-07-06 10:56:29,764][98243] Fps is (10 sec: 104858.4, 60 sec: 113595.7, 300 sec: 112410.9). Total num frames: 91226112. Throughput: 0: 27875.8. Samples: 22836224. Policy #0 lag: (min: 11.0, avg: 86.2, max: 267.0)
+[2023-07-06 10:56:29,765][98243] Avg episode reward: [(0, '2.460')]
+[2023-07-06 10:56:31,539][98493] Updated weights for policy 0, policy_version 44583 (0.0006)
+[2023-07-06 10:56:32,009][98493] Updated weights for policy 0, policy_version 44640 (0.0007)
+[2023-07-06 10:56:32,890][98493] Updated weights for policy 0, policy_version 44675 (0.0006)
+[2023-07-06 10:56:33,234][98493] Updated weights for policy 0, policy_version 44720 (0.0006)
+[2023-07-06 10:56:33,752][98493] Updated weights for policy 0, policy_version 44773 (0.0007)
+[2023-07-06 10:56:34,764][98243] Fps is (10 sec: 104858.0, 60 sec: 113595.8, 300 sec: 112188.8). Total num frames: 91750400. Throughput: 0: 27966.5. Samples: 23009792. Policy #0 lag: (min: 11.0, avg: 86.2, max: 267.0)
+[2023-07-06 10:56:34,765][98243] Avg episode reward: [(0, '2.180')]
+[2023-07-06 10:56:36,090][98493] Updated weights for policy 0, policy_version 44823 (0.0006)
+[2023-07-06 10:56:36,652][98493] Updated weights for policy 0, policy_version 44885 (0.0009)
+[2023-07-06 10:56:37,638][98493] Updated weights for policy 0, policy_version 44944 (0.0007)
+[2023-07-06 10:56:38,296][98493] Updated weights for policy 0, policy_version 45014 (0.0009)
+[2023-07-06 10:56:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 92274688. Throughput: 0: 28046.2. Samples: 23093760. Policy #0 lag: (min: 11.0, avg: 86.2, max: 267.0)
+[2023-07-06 10:56:39,765][98243] Avg episode reward: [(0, '2.230')]
+[2023-07-06 10:56:40,873][98493] Updated weights for policy 0, policy_version 45088 (0.0007)
+[2023-07-06 10:56:41,395][98493] Updated weights for policy 0, policy_version 45145 (0.0010)
+[2023-07-06 10:56:42,340][98493] Updated weights for policy 0, policy_version 45193 (0.0007)
+[2023-07-06 10:56:42,437][98449] Signal inference workers to stop experience collection... (2350 times)
+[2023-07-06 10:56:42,464][98493] InferenceWorker_p0-w0: stopping experience collection (2350 times)
+[2023-07-06 10:56:42,540][98449] Signal inference workers to resume experience collection... (2350 times)
+[2023-07-06 10:56:42,540][98493] InferenceWorker_p0-w0: resuming experience collection (2350 times)
+[2023-07-06 10:56:42,929][98493] Updated weights for policy 0, policy_version 45252 (0.0008)
+[2023-07-06 10:56:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 112504.2, 300 sec: 111744.4). Total num frames: 92798976. Throughput: 0: 27875.6. Samples: 23257600. Policy #0 lag: (min: 11.0, avg: 86.2, max: 267.0)
+[2023-07-06 10:56:44,765][98243] Avg episode reward: [(0, '2.440')]
+[2023-07-06 10:56:45,451][98493] Updated weights for policy 0, policy_version 45313 (0.0006)
+[2023-07-06 10:56:46,085][98493] Updated weights for policy 0, policy_version 45392 (0.0007)
+[2023-07-06 10:56:46,508][98493] Updated weights for policy 0, policy_version 45438 (0.0006)
+[2023-07-06 10:56:47,467][98493] Updated weights for policy 0, policy_version 45497 (0.0007)
+[2023-07-06 10:56:47,949][98493] Updated weights for policy 0, policy_version 45554 (0.0008)
+[2023-07-06 10:56:49,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.1, 300 sec: 111744.5). Total num frames: 93323264. Throughput: 0: 28069.0. Samples: 23431168. Policy #0 lag: (min: 31.0, avg: 103.2, max: 287.0)
+[2023-07-06 10:56:49,765][98243] Avg episode reward: [(0, '1.950')]
+[2023-07-06 10:56:50,116][98493] Updated weights for policy 0, policy_version 45600 (0.0007)
+[2023-07-06 10:56:50,805][98493] Updated weights for policy 0, policy_version 45657 (0.0007)
+[2023-07-06 10:56:51,484][98493] Updated weights for policy 0, policy_version 45698 (0.0006)
+[2023-07-06 10:56:52,081][98493] Updated weights for policy 0, policy_version 45762 (0.0008)
+[2023-07-06 10:56:52,511][98493] Updated weights for policy 0, policy_version 45820 (0.0007)
+[2023-07-06 10:56:54,764][98243] Fps is (10 sec: 111409.5, 60 sec: 111957.1, 300 sec: 111633.3). Total num frames: 93913088. Throughput: 0: 27852.8. Samples: 23508480. Policy #0 lag: (min: 31.0, avg: 103.2, max: 287.0)
+[2023-07-06 10:56:54,765][98243] Avg episode reward: [(0, '1.570')]
+[2023-07-06 10:56:54,773][98493] Updated weights for policy 0, policy_version 45860 (0.0006)
+[2023-07-06 10:56:55,478][98493] Updated weights for policy 0, policy_version 45904 (0.0006)
+[2023-07-06 10:56:56,144][98493] Updated weights for policy 0, policy_version 45957 (0.0007)
+[2023-07-06 10:56:56,693][98493] Updated weights for policy 0, policy_version 46020 (0.0006)
+[2023-07-06 10:56:57,162][98493] Updated weights for policy 0, policy_version 46080 (0.0007)
+[2023-07-06 10:56:59,601][98493] Updated weights for policy 0, policy_version 46137 (0.0008)
+[2023-07-06 10:56:59,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111411.3, 300 sec: 111633.4). Total num frames: 94502912. Throughput: 0: 28114.5. Samples: 23682048. Policy #0 lag: (min: 31.0, avg: 103.2, max: 287.0)
+[2023-07-06 10:56:59,765][98243] Avg episode reward: [(0, '1.940')]
+[2023-07-06 10:57:00,209][98449] Signal inference workers to stop experience collection... (2400 times)
+[2023-07-06 10:57:00,253][98493] InferenceWorker_p0-w0: stopping experience collection (2400 times)
+[2023-07-06 10:57:00,290][98449] Signal inference workers to resume experience collection... (2400 times)
+[2023-07-06 10:57:00,290][98493] InferenceWorker_p0-w0: resuming experience collection (2400 times)
+[2023-07-06 10:57:00,431][98493] Updated weights for policy 0, policy_version 46192 (0.0007)
+[2023-07-06 10:57:01,141][98493] Updated weights for policy 0, policy_version 46256 (0.0007)
+[2023-07-06 10:57:01,592][98493] Updated weights for policy 0, policy_version 46304 (0.0007)
+[2023-07-06 10:57:04,195][98493] Updated weights for policy 0, policy_version 46368 (0.0007)
+[2023-07-06 10:57:04,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110864.9, 300 sec: 111522.3). Total num frames: 95027200. Throughput: 0: 28182.8. Samples: 23849472. Policy #0 lag: (min: 31.0, avg: 103.2, max: 287.0)
+[2023-07-06 10:57:04,765][98243] Avg episode reward: [(0, '2.610')]
+[2023-07-06 10:57:04,796][98493] Updated weights for policy 0, policy_version 46407 (0.0007)
+[2023-07-06 10:57:05,360][98493] Updated weights for policy 0, policy_version 46469 (0.0009)
+[2023-07-06 10:57:05,795][98493] Updated weights for policy 0, policy_version 46526 (0.0007)
+[2023-07-06 10:57:06,477][98493] Updated weights for policy 0, policy_version 46585 (0.0007)
+[2023-07-06 10:57:09,087][98493] Updated weights for policy 0, policy_version 46640 (0.0007)
+[2023-07-06 10:57:09,764][98243] Fps is (10 sec: 108132.8, 60 sec: 110318.9, 300 sec: 111633.4). Total num frames: 95584256. Throughput: 0: 27932.4. Samples: 23930880. Policy #0 lag: (min: 31.0, avg: 103.2, max: 287.0)
+[2023-07-06 10:57:09,765][98243] Avg episode reward: [(0, '2.430')]
+[2023-07-06 10:57:09,801][98493] Updated weights for policy 0, policy_version 46688 (0.0006)
+[2023-07-06 10:57:10,307][98493] Updated weights for policy 0, policy_version 46742 (0.0008)
+[2023-07-06 10:57:10,790][98493] Updated weights for policy 0, policy_version 46800 (0.0008)
+[2023-07-06 10:57:13,393][98493] Updated weights for policy 0, policy_version 46849 (0.0007)
+[2023-07-06 10:57:13,858][98493] Updated weights for policy 0, policy_version 46907 (0.0008)
+[2023-07-06 10:57:14,714][98493] Updated weights for policy 0, policy_version 46964 (0.0007)
+[2023-07-06 10:57:14,764][98243] Fps is (10 sec: 114688.9, 60 sec: 109772.8, 300 sec: 111522.3). Total num frames: 96174080. Throughput: 0: 28103.1. Samples: 24100864. Policy #0 lag: (min: 31.0, avg: 103.2, max: 287.0)
+[2023-07-06 10:57:14,765][98243] Avg episode reward: [(0, '1.480')]
+[2023-07-06 10:57:15,191][98493] Updated weights for policy 0, policy_version 47024 (0.0008)
+[2023-07-06 10:57:15,756][98493] Updated weights for policy 0, policy_version 47088 (0.0029)
+[2023-07-06 10:57:17,939][98449] Signal inference workers to stop experience collection... (2450 times)
+[2023-07-06 10:57:17,959][98493] InferenceWorker_p0-w0: stopping experience collection (2450 times)
+[2023-07-06 10:57:18,028][98449] Signal inference workers to resume experience collection... (2450 times)
+[2023-07-06 10:57:18,028][98493] InferenceWorker_p0-w0: resuming experience collection (2450 times)
+[2023-07-06 10:57:18,258][98493] Updated weights for policy 0, policy_version 47143 (0.0006)
+[2023-07-06 10:57:19,111][98493] Updated weights for policy 0, policy_version 47184 (0.0007)
+[2023-07-06 10:57:19,642][98493] Updated weights for policy 0, policy_version 47238 (0.0008)
+[2023-07-06 10:57:19,764][98243] Fps is (10 sec: 117966.0, 60 sec: 109773.0, 300 sec: 111633.4). Total num frames: 96763904. Throughput: 0: 27909.7. Samples: 24265728. Policy #0 lag: (min: 50.0, avg: 150.8, max: 306.0)
+[2023-07-06 10:57:19,773][98243] Avg episode reward: [(0, '1.500')]
+[2023-07-06 10:57:20,088][98493] Updated weights for policy 0, policy_version 47284 (0.0008)
+[2023-07-06 10:57:20,560][98493] Updated weights for policy 0, policy_version 47344 (0.0007)
+[2023-07-06 10:57:22,912][98493] Updated weights for policy 0, policy_version 47384 (0.0006)
+[2023-07-06 10:57:23,927][98493] Updated weights for policy 0, policy_version 47440 (0.0007)
+[2023-07-06 10:57:24,442][98493] Updated weights for policy 0, policy_version 47494 (0.0007)
+[2023-07-06 10:57:24,765][98243] Fps is (10 sec: 117962.0, 60 sec: 110864.7, 300 sec: 111855.4). Total num frames: 97353728. Throughput: 0: 28000.6. Samples: 24353792. Policy #0 lag: (min: 50.0, avg: 150.8, max: 306.0)
+[2023-07-06 10:57:24,765][98243] Avg episode reward: [(0, '2.150')]
+[2023-07-06 10:57:25,019][98493] Updated weights for policy 0, policy_version 47568 (0.0008)
+[2023-07-06 10:57:27,223][98493] Updated weights for policy 0, policy_version 47618 (0.0007)
+[2023-07-06 10:57:27,732][98493] Updated weights for policy 0, policy_version 47680 (0.0006)
+[2023-07-06 10:57:28,923][98493] Updated weights for policy 0, policy_version 47729 (0.0007)
+[2023-07-06 10:57:29,475][98493] Updated weights for policy 0, policy_version 47800 (0.0007)
+[2023-07-06 10:57:29,764][98243] Fps is (10 sec: 117965.7, 60 sec: 111957.5, 300 sec: 112077.7). Total num frames: 97943552. Throughput: 0: 28023.5. Samples: 24518656. Policy #0 lag: (min: 50.0, avg: 150.8, max: 306.0)
+[2023-07-06 10:57:29,765][98243] Avg episode reward: [(0, '2.080')]
+[2023-07-06 10:57:29,980][98493] Updated weights for policy 0, policy_version 47849 (0.0007)
+[2023-07-06 10:57:32,159][98493] Updated weights for policy 0, policy_version 47904 (0.0007)
+[2023-07-06 10:57:33,382][98493] Updated weights for policy 0, policy_version 47968 (0.0008)
+[2023-07-06 10:57:33,873][98493] Updated weights for policy 0, policy_version 48022 (0.0008)
+[2023-07-06 10:57:34,006][98449] Signal inference workers to stop experience collection... (2500 times)
+[2023-07-06 10:57:34,044][98493] InferenceWorker_p0-w0: stopping experience collection (2500 times)
+[2023-07-06 10:57:34,113][98449] Signal inference workers to resume experience collection... (2500 times)
+[2023-07-06 10:57:34,114][98493] InferenceWorker_p0-w0: resuming experience collection (2500 times)
+[2023-07-06 10:57:34,386][98493] Updated weights for policy 0, policy_version 48067 (0.0007)
+[2023-07-06 10:57:34,754][98493] Updated weights for policy 0, policy_version 48114 (0.0007)
+[2023-07-06 10:57:34,764][98243] Fps is (10 sec: 117967.8, 60 sec: 113049.6, 300 sec: 112299.8). Total num frames: 98533376. Throughput: 0: 27773.2. Samples: 24680960. Policy #0 lag: (min: 50.0, avg: 150.8, max: 306.0)
+[2023-07-06 10:57:34,764][98243] Avg episode reward: [(0, '1.870')]
+[2023-07-06 10:57:36,842][98493] Updated weights for policy 0, policy_version 48149 (0.0006)
+[2023-07-06 10:57:37,217][98493] Updated weights for policy 0, policy_version 48192 (0.0007)
+[2023-07-06 10:57:38,318][98493] Updated weights for policy 0, policy_version 48256 (0.0007)
+[2023-07-06 10:57:38,830][98493] Updated weights for policy 0, policy_version 48314 (0.0007)
+[2023-07-06 10:57:39,398][98493] Updated weights for policy 0, policy_version 48368 (0.0007)
+[2023-07-06 10:57:39,764][98243] Fps is (10 sec: 114685.3, 60 sec: 113595.4, 300 sec: 112410.9). Total num frames: 99090432. Throughput: 0: 28103.1. Samples: 24773120. Policy #0 lag: (min: 50.0, avg: 150.8, max: 306.0)
+[2023-07-06 10:57:39,765][98243] Avg episode reward: [(0, '2.130')]
+[2023-07-06 10:57:41,653][98493] Updated weights for policy 0, policy_version 48416 (0.0007)
+[2023-07-06 10:57:42,386][98493] Updated weights for policy 0, policy_version 48453 (0.0008)
+[2023-07-06 10:57:42,954][98493] Updated weights for policy 0, policy_version 48514 (0.0007)
+[2023-07-06 10:57:43,415][98493] Updated weights for policy 0, policy_version 48572 (0.0006)
+[2023-07-06 10:57:44,200][98493] Updated weights for policy 0, policy_version 48634 (0.0008)
+[2023-07-06 10:57:44,764][98243] Fps is (10 sec: 108134.5, 60 sec: 113595.8, 300 sec: 112188.8). Total num frames: 99614720. Throughput: 0: 27875.5. Samples: 24936448. Policy #0 lag: (min: 50.0, avg: 150.8, max: 306.0)
+[2023-07-06 10:57:44,765][98243] Avg episode reward: [(0, '2.270')]
+[2023-07-06 10:57:46,622][98493] Updated weights for policy 0, policy_version 48698 (0.0007)
+[2023-07-06 10:57:47,411][98493] Updated weights for policy 0, policy_version 48752 (0.0007)
+[2023-07-06 10:57:48,043][98493] Updated weights for policy 0, policy_version 48824 (0.0007)
+[2023-07-06 10:57:48,868][98493] Updated weights for policy 0, policy_version 48864 (0.0006)
+[2023-07-06 10:57:49,764][98243] Fps is (10 sec: 104859.5, 60 sec: 113595.8, 300 sec: 112188.7). Total num frames: 100139008. Throughput: 0: 27864.2. Samples: 25103360. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 10:57:49,765][98243] Avg episode reward: [(0, '1.600')]
+[2023-07-06 10:57:51,026][98493] Updated weights for policy 0, policy_version 48928 (0.0006)
+[2023-07-06 10:57:51,640][98493] Updated weights for policy 0, policy_version 48963 (0.0006)
+[2023-07-06 10:57:52,172][98449] Signal inference workers to stop experience collection... (2550 times)
+[2023-07-06 10:57:52,221][98493] InferenceWorker_p0-w0: stopping experience collection (2550 times)
+[2023-07-06 10:57:52,224][98493] Updated weights for policy 0, policy_version 49027 (0.0008)
+[2023-07-06 10:57:52,289][98449] Signal inference workers to resume experience collection... (2550 times)
+[2023-07-06 10:57:52,289][98493] InferenceWorker_p0-w0: resuming experience collection (2550 times)
+[2023-07-06 10:57:53,410][98493] Updated weights for policy 0, policy_version 49090 (0.0006)
+[2023-07-06 10:57:53,763][98493] Updated weights for policy 0, policy_version 49136 (0.0008)
+[2023-07-06 10:57:54,764][98243] Fps is (10 sec: 104856.3, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 100663296. Throughput: 0: 27852.8. Samples: 25184256. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 10:57:54,765][98243] Avg episode reward: [(0, '1.900')]
+[2023-07-06 10:57:55,707][98493] Updated weights for policy 0, policy_version 49189 (0.0008)
+[2023-07-06 10:57:56,518][98493] Updated weights for policy 0, policy_version 49248 (0.0007)
+[2023-07-06 10:57:57,026][98493] Updated weights for policy 0, policy_version 49298 (0.0007)
+[2023-07-06 10:57:57,880][98493] Updated weights for policy 0, policy_version 49351 (0.0006)
+[2023-07-06 10:57:58,383][98493] Updated weights for policy 0, policy_version 49408 (0.0007)
+[2023-07-06 10:57:59,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 101187584. Throughput: 0: 27898.3. Samples: 25356288. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 10:57:59,765][98243] Avg episode reward: [(0, '2.400')]
+[2023-07-06 10:58:00,531][98493] Updated weights for policy 0, policy_version 49471 (0.0007)
+[2023-07-06 10:58:01,390][98493] Updated weights for policy 0, policy_version 49529 (0.0007)
+[2023-07-06 10:58:01,889][98493] Updated weights for policy 0, policy_version 49577 (0.0007)
+[2023-07-06 10:58:02,621][98493] Updated weights for policy 0, policy_version 49616 (0.0007)
+[2023-07-06 10:58:04,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 101711872. Throughput: 0: 28057.6. Samples: 25528320. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 10:58:04,765][98243] Avg episode reward: [(0, '2.630')]
+[2023-07-06 10:58:04,765][98449] Saving new best policy, reward=2.630!
+[2023-07-06 10:58:05,089][98493] Updated weights for policy 0, policy_version 49687 (0.0007)
+[2023-07-06 10:58:05,409][98493] Updated weights for policy 0, policy_version 49728 (0.0007)
+[2023-07-06 10:58:06,196][98493] Updated weights for policy 0, policy_version 49781 (0.0007)
+[2023-07-06 10:58:06,735][98493] Updated weights for policy 0, policy_version 49852 (0.0006)
+[2023-07-06 10:58:07,812][98493] Updated weights for policy 0, policy_version 49917 (0.0007)
+[2023-07-06 10:58:09,764][98243] Fps is (10 sec: 114687.9, 60 sec: 112503.6, 300 sec: 111744.5). Total num frames: 102334464. Throughput: 0: 27807.4. Samples: 25605120. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 10:58:09,765][98243] Avg episode reward: [(0, '2.640')]
+[2023-07-06 10:58:09,788][98493] Updated weights for policy 0, policy_version 49977 (0.0007)
+[2023-07-06 10:58:09,833][98449] Saving new best policy, reward=2.640!
+[2023-07-06 10:58:10,992][98493] Updated weights for policy 0, policy_version 50032 (0.0008)
+[2023-07-06 10:58:11,062][98449] Signal inference workers to stop experience collection... (2600 times)
+[2023-07-06 10:58:11,087][98493] InferenceWorker_p0-w0: stopping experience collection (2600 times)
+[2023-07-06 10:58:11,152][98449] Signal inference workers to resume experience collection... (2600 times)
+[2023-07-06 10:58:11,152][98493] InferenceWorker_p0-w0: resuming experience collection (2600 times)
+[2023-07-06 10:58:11,527][98493] Updated weights for policy 0, policy_version 50089 (0.0009)
+[2023-07-06 10:58:12,258][98493] Updated weights for policy 0, policy_version 50148 (0.0007)
+[2023-07-06 10:58:13,969][98493] Updated weights for policy 0, policy_version 50199 (0.0007)
+[2023-07-06 10:58:14,764][98243] Fps is (10 sec: 117965.8, 60 sec: 111957.4, 300 sec: 111744.4). Total num frames: 102891520. Throughput: 0: 27943.8. Samples: 25776128. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 10:58:14,765][98243] Avg episode reward: [(0, '2.470')]
+[2023-07-06 10:58:15,302][98493] Updated weights for policy 0, policy_version 50256 (0.0007)
+[2023-07-06 10:58:15,831][98493] Updated weights for policy 0, policy_version 50313 (0.0008)
+[2023-07-06 10:58:16,257][98493] Updated weights for policy 0, policy_version 50362 (0.0007)
+[2023-07-06 10:58:17,320][98493] Updated weights for policy 0, policy_version 50426 (0.0008)
+[2023-07-06 10:58:18,951][98493] Updated weights for policy 0, policy_version 50465 (0.0007)
+[2023-07-06 10:58:19,765][98243] Fps is (10 sec: 108132.0, 60 sec: 110864.6, 300 sec: 111522.2). Total num frames: 103415808. Throughput: 0: 28125.7. Samples: 25946624. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:19,765][98243] Avg episode reward: [(0, '2.600')]
+[2023-07-06 10:58:19,883][98493] Updated weights for policy 0, policy_version 50497 (0.0006)
+[2023-07-06 10:58:20,371][98493] Updated weights for policy 0, policy_version 50552 (0.0007)
+[2023-07-06 10:58:20,915][98493] Updated weights for policy 0, policy_version 50617 (0.0008)
+[2023-07-06 10:58:21,777][98493] Updated weights for policy 0, policy_version 50659 (0.0007)
+[2023-07-06 10:58:23,188][98493] Updated weights for policy 0, policy_version 50704 (0.0006)
+[2023-07-06 10:58:23,576][98493] Updated weights for policy 0, policy_version 50750 (0.0006)
+[2023-07-06 10:58:24,764][98243] Fps is (10 sec: 111410.9, 60 sec: 110865.5, 300 sec: 111522.3). Total num frames: 104005632. Throughput: 0: 27955.3. Samples: 26031104. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:24,765][98243] Avg episode reward: [(0, '2.550')]
+[2023-07-06 10:58:24,983][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000050816_104071168.pth...
+[2023-07-06 10:58:24,985][98493] Updated weights for policy 0, policy_version 50816 (0.0008)
+[2023-07-06 10:58:25,048][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000037728_77266944.pth
+[2023-07-06 10:58:26,179][98493] Updated weights for policy 0, policy_version 50882 (0.0006)
+[2023-07-06 10:58:28,037][98493] Updated weights for policy 0, policy_version 50947 (0.0008)
+[2023-07-06 10:58:28,480][98493] Updated weights for policy 0, policy_version 51006 (0.0006)
+[2023-07-06 10:58:29,210][98449] Signal inference workers to stop experience collection... (2650 times)
+[2023-07-06 10:58:29,250][98493] InferenceWorker_p0-w0: stopping experience collection (2650 times)
+[2023-07-06 10:58:29,293][98449] Signal inference workers to resume experience collection... (2650 times)
+[2023-07-06 10:58:29,293][98493] InferenceWorker_p0-w0: resuming experience collection (2650 times)
+[2023-07-06 10:58:29,533][98493] Updated weights for policy 0, policy_version 51059 (0.0007)
+[2023-07-06 10:58:29,764][98243] Fps is (10 sec: 121244.6, 60 sec: 111411.1, 300 sec: 111633.4). Total num frames: 104628224. Throughput: 0: 28046.2. Samples: 26198528. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:29,765][98243] Avg episode reward: [(0, '2.450')]
+[2023-07-06 10:58:30,023][98493] Updated weights for policy 0, policy_version 51120 (0.0007)
+[2023-07-06 10:58:31,134][98493] Updated weights for policy 0, policy_version 51172 (0.0008)
+[2023-07-06 10:58:32,713][98493] Updated weights for policy 0, policy_version 51232 (0.0006)
+[2023-07-06 10:58:34,057][98493] Updated weights for policy 0, policy_version 51296 (0.0008)
+[2023-07-06 10:58:34,640][98493] Updated weights for policy 0, policy_version 51360 (0.0007)
+[2023-07-06 10:58:34,764][98243] Fps is (10 sec: 117965.7, 60 sec: 110865.2, 300 sec: 111744.5). Total num frames: 105185280. Throughput: 0: 28000.7. Samples: 26363392. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:34,764][98243] Avg episode reward: [(0, '2.530')]
+[2023-07-06 10:58:35,502][98493] Updated weights for policy 0, policy_version 51397 (0.0007)
+[2023-07-06 10:58:35,929][98493] Updated weights for policy 0, policy_version 51454 (0.0007)
+[2023-07-06 10:58:37,733][98493] Updated weights for policy 0, policy_version 51504 (0.0006)
+[2023-07-06 10:58:38,694][98493] Updated weights for policy 0, policy_version 51556 (0.0007)
+[2023-07-06 10:58:39,127][98493] Updated weights for policy 0, policy_version 51601 (0.0008)
+[2023-07-06 10:58:39,458][98493] Updated weights for policy 0, policy_version 51644 (0.0006)
+[2023-07-06 10:58:39,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111411.5, 300 sec: 111966.6). Total num frames: 105775104. Throughput: 0: 28182.8. Samples: 26452480. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:39,765][98243] Avg episode reward: [(0, '2.740')]
+[2023-07-06 10:58:39,780][98449] Saving new best policy, reward=2.740!
+[2023-07-06 10:58:40,499][98493] Updated weights for policy 0, policy_version 51696 (0.0007)
+[2023-07-06 10:58:42,262][98493] Updated weights for policy 0, policy_version 51760 (0.0007)
+[2023-07-06 10:58:43,312][98493] Updated weights for policy 0, policy_version 51814 (0.0008)
+[2023-07-06 10:58:43,808][98493] Updated weights for policy 0, policy_version 51872 (0.0028)
+[2023-07-06 10:58:44,764][98243] Fps is (10 sec: 111410.6, 60 sec: 111411.2, 300 sec: 111633.4). Total num frames: 106299392. Throughput: 0: 28034.8. Samples: 26617856. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:44,765][98243] Avg episode reward: [(0, '3.090')]
+[2023-07-06 10:58:44,765][98449] Saving new best policy, reward=3.090!
+[2023-07-06 10:58:45,106][98493] Updated weights for policy 0, policy_version 51928 (0.0007)
+[2023-07-06 10:58:45,394][98493] Updated weights for policy 0, policy_version 51964 (0.0006)
+[2023-07-06 10:58:46,951][98449] Signal inference workers to stop experience collection... (2700 times)
+[2023-07-06 10:58:46,980][98493] InferenceWorker_p0-w0: stopping experience collection (2700 times)
+[2023-07-06 10:58:47,036][98449] Signal inference workers to resume experience collection... (2700 times)
+[2023-07-06 10:58:47,037][98493] InferenceWorker_p0-w0: resuming experience collection (2700 times)
+[2023-07-06 10:58:47,177][98493] Updated weights for policy 0, policy_version 52032 (0.0007)
+[2023-07-06 10:58:48,138][98493] Updated weights for policy 0, policy_version 52083 (0.0007)
+[2023-07-06 10:58:48,702][98493] Updated weights for policy 0, policy_version 52152 (0.0007)
+[2023-07-06 10:58:49,664][98493] Updated weights for policy 0, policy_version 52195 (0.0007)
+[2023-07-06 10:58:49,764][98243] Fps is (10 sec: 114688.7, 60 sec: 113049.7, 300 sec: 111855.6). Total num frames: 106921984. Throughput: 0: 27921.2. Samples: 26784768. Policy #0 lag: (min: 10.0, avg: 114.4, max: 266.0)
+[2023-07-06 10:58:49,764][98243] Avg episode reward: [(0, '3.240')]
+[2023-07-06 10:58:49,865][98449] Saving new best policy, reward=3.240!
+[2023-07-06 10:58:51,562][98493] Updated weights for policy 0, policy_version 52229 (0.0007)
+[2023-07-06 10:58:52,053][98493] Updated weights for policy 0, policy_version 52287 (0.0007)
+[2023-07-06 10:58:52,606][98493] Updated weights for policy 0, policy_version 52348 (0.0008)
+[2023-07-06 10:58:53,261][98493] Updated weights for policy 0, policy_version 52411 (0.0007)
+[2023-07-06 10:58:54,364][98493] Updated weights for policy 0, policy_version 52449 (0.0006)
+[2023-07-06 10:58:54,764][98243] Fps is (10 sec: 117962.3, 60 sec: 113595.5, 300 sec: 111966.5). Total num frames: 107479040. Throughput: 0: 28182.6. Samples: 26873344. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:58:54,765][98243] Avg episode reward: [(0, '3.440')]
+[2023-07-06 10:58:54,776][98449] Saving new best policy, reward=3.440!
+[2023-07-06 10:58:56,399][98493] Updated weights for policy 0, policy_version 52512 (0.0006)
+[2023-07-06 10:58:56,875][98493] Updated weights for policy 0, policy_version 52560 (0.0007)
+[2023-07-06 10:58:57,379][98493] Updated weights for policy 0, policy_version 52612 (0.0007)
+[2023-07-06 10:58:57,838][98493] Updated weights for policy 0, policy_version 52672 (0.0007)
+[2023-07-06 10:58:59,387][98493] Updated weights for policy 0, policy_version 52729 (0.0007)
+[2023-07-06 10:58:59,764][98243] Fps is (10 sec: 108133.7, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 108003328. Throughput: 0: 28103.1. Samples: 27040768. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:58:59,765][98243] Avg episode reward: [(0, '3.430')]
+[2023-07-06 10:59:01,102][98493] Updated weights for policy 0, policy_version 52771 (0.0006)
+[2023-07-06 10:59:01,791][98493] Updated weights for policy 0, policy_version 52855 (0.0007)
+[2023-07-06 10:59:02,359][98493] Updated weights for policy 0, policy_version 52899 (0.0007)
+[2023-07-06 10:59:03,885][98493] Updated weights for policy 0, policy_version 52944 (0.0007)
+[2023-07-06 10:59:04,084][98449] Signal inference workers to stop experience collection... (2750 times)
+[2023-07-06 10:59:04,108][98493] InferenceWorker_p0-w0: stopping experience collection (2750 times)
+[2023-07-06 10:59:04,182][98449] Signal inference workers to resume experience collection... (2750 times)
+[2023-07-06 10:59:04,182][98493] InferenceWorker_p0-w0: resuming experience collection (2750 times)
+[2023-07-06 10:59:04,318][98493] Updated weights for policy 0, policy_version 52992 (0.0006)
+[2023-07-06 10:59:04,764][98243] Fps is (10 sec: 104858.9, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 108527616. Throughput: 0: 28046.3. Samples: 27208704. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:59:04,765][98243] Avg episode reward: [(0, '3.900')]
+[2023-07-06 10:59:04,766][98449] Saving new best policy, reward=3.900!
+[2023-07-06 10:59:05,907][98493] Updated weights for policy 0, policy_version 53052 (0.0007)
+[2023-07-06 10:59:06,704][98493] Updated weights for policy 0, policy_version 53113 (0.0007)
+[2023-07-06 10:59:07,204][98493] Updated weights for policy 0, policy_version 53177 (0.0007)
+[2023-07-06 10:59:08,634][98493] Updated weights for policy 0, policy_version 53216 (0.0006)
+[2023-07-06 10:59:09,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111957.3, 300 sec: 111966.6). Total num frames: 109051904. Throughput: 0: 27978.0. Samples: 27290112. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:59:09,765][98243] Avg episode reward: [(0, '3.880')]
+[2023-07-06 10:59:10,301][98493] Updated weights for policy 0, policy_version 53280 (0.0007)
+[2023-07-06 10:59:11,191][98493] Updated weights for policy 0, policy_version 53329 (0.0006)
+[2023-07-06 10:59:11,742][98493] Updated weights for policy 0, policy_version 53395 (0.0008)
+[2023-07-06 10:59:13,279][98493] Updated weights for policy 0, policy_version 53441 (0.0007)
+[2023-07-06 10:59:13,784][98493] Updated weights for policy 0, policy_version 53504 (0.0007)
+[2023-07-06 10:59:14,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 109576192. Throughput: 0: 28012.1. Samples: 27459072. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:59:14,765][98243] Avg episode reward: [(0, '3.870')]
+[2023-07-06 10:59:15,226][98493] Updated weights for policy 0, policy_version 53560 (0.0007)
+[2023-07-06 10:59:16,024][98493] Updated weights for policy 0, policy_version 53616 (0.0006)
+[2023-07-06 10:59:16,496][98493] Updated weights for policy 0, policy_version 53668 (0.0007)
+[2023-07-06 10:59:17,951][98493] Updated weights for policy 0, policy_version 53728 (0.0007)
+[2023-07-06 10:59:19,764][98243] Fps is (10 sec: 111410.8, 60 sec: 112503.8, 300 sec: 111744.5). Total num frames: 110166016. Throughput: 0: 28194.1. Samples: 27632128. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:59:19,765][98243] Avg episode reward: [(0, '4.030')]
+[2023-07-06 10:59:19,833][98493] Updated weights for policy 0, policy_version 53799 (0.0007)
+[2023-07-06 10:59:19,872][98449] Saving new best policy, reward=4.030!
+[2023-07-06 10:59:20,230][98493] Updated weights for policy 0, policy_version 53840 (0.0008)
+[2023-07-06 10:59:20,621][98493] Updated weights for policy 0, policy_version 53881 (0.0007)
+[2023-07-06 10:59:21,137][98493] Updated weights for policy 0, policy_version 53929 (0.0006)
+[2023-07-06 10:59:22,450][98449] Signal inference workers to stop experience collection... (2800 times)
+[2023-07-06 10:59:22,480][98493] InferenceWorker_p0-w0: stopping experience collection (2800 times)
+[2023-07-06 10:59:22,550][98449] Signal inference workers to resume experience collection... (2800 times)
+[2023-07-06 10:59:22,550][98493] InferenceWorker_p0-w0: resuming experience collection (2800 times)
+[2023-07-06 10:59:22,674][98493] Updated weights for policy 0, policy_version 53984 (0.0006)
+[2023-07-06 10:59:24,173][98493] Updated weights for policy 0, policy_version 54032 (0.0007)
+[2023-07-06 10:59:24,674][98493] Updated weights for policy 0, policy_version 54082 (0.0008)
+[2023-07-06 10:59:24,764][98243] Fps is (10 sec: 121240.6, 60 sec: 113049.5, 300 sec: 111744.4). Total num frames: 110788608. Throughput: 0: 28034.8. Samples: 27714048. Policy #0 lag: (min: 5.0, avg: 84.6, max: 261.0)
+[2023-07-06 10:59:24,765][98243] Avg episode reward: [(0, '4.320')]
+[2023-07-06 10:59:24,907][98449] Saving new best policy, reward=4.320!
+[2023-07-06 10:59:25,254][98493] Updated weights for policy 0, policy_version 54144 (0.0007)
+[2023-07-06 10:59:26,016][98493] Updated weights for policy 0, policy_version 54203 (0.0007)
+[2023-07-06 10:59:27,467][98493] Updated weights for policy 0, policy_version 54252 (0.0007)
+[2023-07-06 10:59:28,723][98493] Updated weights for policy 0, policy_version 54296 (0.0006)
+[2023-07-06 10:59:29,338][98493] Updated weights for policy 0, policy_version 54337 (0.0006)
+[2023-07-06 10:59:29,764][98243] Fps is (10 sec: 121242.2, 60 sec: 112503.5, 300 sec: 111855.6). Total num frames: 111378432. Throughput: 0: 28171.4. Samples: 27885568. Policy #0 lag: (min: 68.0, avg: 162.7, max: 302.0)
+[2023-07-06 10:59:29,765][98243] Avg episode reward: [(0, '4.360')]
+[2023-07-06 10:59:29,809][98493] Updated weights for policy 0, policy_version 54395 (0.0007)
+[2023-07-06 10:59:29,847][98449] Saving new best policy, reward=4.360!
+[2023-07-06 10:59:30,726][98493] Updated weights for policy 0, policy_version 54457 (0.0007)
+[2023-07-06 10:59:32,076][98493] Updated weights for policy 0, policy_version 54503 (0.0006)
+[2023-07-06 10:59:33,122][98493] Updated weights for policy 0, policy_version 54537 (0.0006)
+[2023-07-06 10:59:33,910][98493] Updated weights for policy 0, policy_version 54593 (0.0026)
+[2023-07-06 10:59:34,764][98243] Fps is (10 sec: 114689.0, 60 sec: 112503.4, 300 sec: 111855.5). Total num frames: 111935488. Throughput: 0: 28194.1. Samples: 28053504. Policy #0 lag: (min: 68.0, avg: 162.7, max: 302.0)
+[2023-07-06 10:59:34,765][98243] Avg episode reward: [(0, '4.390')]
+[2023-07-06 10:59:34,765][98449] Saving new best policy, reward=4.390!
+[2023-07-06 10:59:35,018][98493] Updated weights for policy 0, policy_version 54657 (0.0006)
+[2023-07-06 10:59:35,469][98493] Updated weights for policy 0, policy_version 54714 (0.0008)
+[2023-07-06 10:59:36,791][98493] Updated weights for policy 0, policy_version 54760 (0.0007)
+[2023-07-06 10:59:37,938][98493] Updated weights for policy 0, policy_version 54812 (0.0006)
+[2023-07-06 10:59:38,597][98493] Updated weights for policy 0, policy_version 54880 (0.0008)
+[2023-07-06 10:59:38,879][98493] Updated weights for policy 0, policy_version 54912 (0.0013)
+[2023-07-06 10:59:39,764][98243] Fps is (10 sec: 108132.1, 60 sec: 111410.8, 300 sec: 111522.2). Total num frames: 112459776. Throughput: 0: 28160.0. Samples: 28140544. Policy #0 lag: (min: 68.0, avg: 162.7, max: 302.0)
+[2023-07-06 10:59:39,765][98243] Avg episode reward: [(0, '4.500')]
+[2023-07-06 10:59:39,999][98449] Saving new best policy, reward=4.500!
+[2023-07-06 10:59:41,259][98493] Updated weights for policy 0, policy_version 54977 (0.0007)
+[2023-07-06 10:59:41,400][98449] Signal inference workers to stop experience collection... (2850 times)
+[2023-07-06 10:59:41,432][98493] InferenceWorker_p0-w0: stopping experience collection (2850 times)
+[2023-07-06 10:59:41,478][98449] Signal inference workers to resume experience collection... (2850 times)
+[2023-07-06 10:59:41,478][98493] InferenceWorker_p0-w0: resuming experience collection (2850 times)
+[2023-07-06 10:59:41,716][98493] Updated weights for policy 0, policy_version 55036 (0.0006)
+[2023-07-06 10:59:42,727][98493] Updated weights for policy 0, policy_version 55089 (0.0007)
+[2023-07-06 10:59:43,174][98493] Updated weights for policy 0, policy_version 55136 (0.0006)
+[2023-07-06 10:59:44,405][98493] Updated weights for policy 0, policy_version 55174 (0.0006)
+[2023-07-06 10:59:44,764][98243] Fps is (10 sec: 114688.9, 60 sec: 113049.7, 300 sec: 111855.5). Total num frames: 113082368. Throughput: 0: 28103.2. Samples: 28305408. Policy #0 lag: (min: 68.0, avg: 162.7, max: 302.0)
+[2023-07-06 10:59:44,764][98243] Avg episode reward: [(0, '5.190')]
+[2023-07-06 10:59:44,849][98493] Updated weights for policy 0, policy_version 55226 (0.0008)
+[2023-07-06 10:59:44,898][98449] Saving new best policy, reward=5.190!
+[2023-07-06 10:59:46,209][98493] Updated weights for policy 0, policy_version 55289 (0.0008)
+[2023-07-06 10:59:47,265][98493] Updated weights for policy 0, policy_version 55334 (0.0007)
+[2023-07-06 10:59:47,926][98493] Updated weights for policy 0, policy_version 55396 (0.0007)
+[2023-07-06 10:59:49,195][98493] Updated weights for policy 0, policy_version 55447 (0.0006)
+[2023-07-06 10:59:49,508][98493] Updated weights for policy 0, policy_version 55488 (0.0006)
+[2023-07-06 10:59:49,764][98243] Fps is (10 sec: 117967.3, 60 sec: 111957.3, 300 sec: 111744.4). Total num frames: 113639424. Throughput: 0: 28205.6. Samples: 28477952. Policy #0 lag: (min: 68.0, avg: 162.7, max: 302.0)
+[2023-07-06 10:59:49,765][98243] Avg episode reward: [(0, '5.780')]
+[2023-07-06 10:59:49,765][98449] Saving new best policy, reward=5.780!
+[2023-07-06 10:59:51,685][98493] Updated weights for policy 0, policy_version 55557 (0.0007)
+[2023-07-06 10:59:52,100][98493] Updated weights for policy 0, policy_version 55606 (0.0007)
+[2023-07-06 10:59:52,580][98493] Updated weights for policy 0, policy_version 55648 (0.0007)
+[2023-07-06 10:59:53,877][98493] Updated weights for policy 0, policy_version 55698 (0.0016)
+[2023-07-06 10:59:54,764][98243] Fps is (10 sec: 108133.3, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 114163712. Throughput: 0: 28251.0. Samples: 28561408. Policy #0 lag: (min: 68.0, avg: 162.7, max: 302.0)
+[2023-07-06 10:59:54,765][98243] Avg episode reward: [(0, '5.990')]
+[2023-07-06 10:59:54,780][98493] Updated weights for policy 0, policy_version 55747 (0.0006)
+[2023-07-06 10:59:54,972][98449] Saving new best policy, reward=5.990!
+[2023-07-06 10:59:56,282][98493] Updated weights for policy 0, policy_version 55824 (0.0007)
+[2023-07-06 10:59:56,929][98493] Updated weights for policy 0, policy_version 55873 (0.0007)
+[2023-07-06 10:59:57,432][98493] Updated weights for policy 0, policy_version 55936 (0.0007)
+[2023-07-06 10:59:58,986][98493] Updated weights for policy 0, policy_version 55993 (0.0007)
+[2023-07-06 10:59:59,749][98493] Updated weights for policy 0, policy_version 56048 (0.0007)
+[2023-07-06 10:59:59,764][98243] Fps is (10 sec: 114688.8, 60 sec: 113049.8, 300 sec: 111856.9). Total num frames: 114786304. Throughput: 0: 28319.3. Samples: 28733440. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 10:59:59,764][98243] Avg episode reward: [(0, '6.530')]
+[2023-07-06 10:59:59,897][98449] Saving new best policy, reward=6.530!
+[2023-07-06 11:00:01,022][98449] Signal inference workers to stop experience collection... (2900 times)
+[2023-07-06 11:00:01,032][98493] InferenceWorker_p0-w0: stopping experience collection (2900 times)
+[2023-07-06 11:00:01,109][98449] Signal inference workers to resume experience collection... (2900 times)
+[2023-07-06 11:00:01,110][98493] InferenceWorker_p0-w0: resuming experience collection (2900 times)
+[2023-07-06 11:00:01,336][98493] Updated weights for policy 0, policy_version 56103 (0.0007)
+[2023-07-06 11:00:01,655][98493] Updated weights for policy 0, policy_version 56132 (0.0007)
+[2023-07-06 11:00:02,100][98493] Updated weights for policy 0, policy_version 56190 (0.0008)
+[2023-07-06 11:00:03,563][98493] Updated weights for policy 0, policy_version 56248 (0.0008)
+[2023-07-06 11:00:04,252][98493] Updated weights for policy 0, policy_version 56290 (0.0007)
+[2023-07-06 11:00:04,764][98243] Fps is (10 sec: 117965.9, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 115343360. Throughput: 0: 28137.3. Samples: 28898304. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:04,764][98243] Avg episode reward: [(0, '7.050')]
+[2023-07-06 11:00:04,765][98449] Saving new best policy, reward=7.050!
+[2023-07-06 11:00:06,178][98493] Updated weights for policy 0, policy_version 56353 (0.0006)
+[2023-07-06 11:00:06,622][98493] Updated weights for policy 0, policy_version 56404 (0.0015)
+[2023-07-06 11:00:07,940][98493] Updated weights for policy 0, policy_version 56472 (0.0007)
+[2023-07-06 11:00:08,250][98493] Updated weights for policy 0, policy_version 56512 (0.0008)
+[2023-07-06 11:00:09,036][98493] Updated weights for policy 0, policy_version 56570 (0.0007)
+[2023-07-06 11:00:09,764][98243] Fps is (10 sec: 108132.6, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 115867648. Throughput: 0: 28239.6. Samples: 28984832. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:09,765][98243] Avg episode reward: [(0, '6.830')]
+[2023-07-06 11:00:10,672][98493] Updated weights for policy 0, policy_version 56608 (0.0007)
+[2023-07-06 11:00:11,174][98493] Updated weights for policy 0, policy_version 56663 (0.0007)
+[2023-07-06 11:00:12,484][98493] Updated weights for policy 0, policy_version 56720 (0.0007)
+[2023-07-06 11:00:13,322][98493] Updated weights for policy 0, policy_version 56784 (0.0007)
+[2023-07-06 11:00:14,764][98243] Fps is (10 sec: 104855.6, 60 sec: 113595.5, 300 sec: 111966.6). Total num frames: 116391936. Throughput: 0: 28103.0. Samples: 29150208. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:14,765][98243] Avg episode reward: [(0, '6.990')]
+[2023-07-06 11:00:15,465][98493] Updated weights for policy 0, policy_version 56848 (0.0008)
+[2023-07-06 11:00:15,975][98493] Updated weights for policy 0, policy_version 56901 (0.0006)
+[2023-07-06 11:00:16,428][98493] Updated weights for policy 0, policy_version 56955 (0.0008)
+[2023-07-06 11:00:17,189][98493] Updated weights for policy 0, policy_version 57001 (0.0007)
+[2023-07-06 11:00:17,890][98449] Signal inference workers to stop experience collection... (2950 times)
+[2023-07-06 11:00:17,917][98493] Updated weights for policy 0, policy_version 57043 (0.0007)
+[2023-07-06 11:00:17,926][98493] InferenceWorker_p0-w0: stopping experience collection (2950 times)
+[2023-07-06 11:00:17,984][98449] Signal inference workers to resume experience collection... (2950 times)
+[2023-07-06 11:00:17,984][98493] InferenceWorker_p0-w0: resuming experience collection (2950 times)
+[2023-07-06 11:00:19,764][98243] Fps is (10 sec: 104858.3, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 116916224. Throughput: 0: 28273.8. Samples: 29325824. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:19,765][98243] Avg episode reward: [(0, '7.180')]
+[2023-07-06 11:00:19,765][98449] Saving new best policy, reward=7.180!
+[2023-07-06 11:00:19,980][98493] Updated weights for policy 0, policy_version 57089 (0.0006)
+[2023-07-06 11:00:20,415][98493] Updated weights for policy 0, policy_version 57139 (0.0007)
+[2023-07-06 11:00:20,917][98493] Updated weights for policy 0, policy_version 57204 (0.0007)
+[2023-07-06 11:00:21,860][98493] Updated weights for policy 0, policy_version 57264 (0.0007)
+[2023-07-06 11:00:22,760][98493] Updated weights for policy 0, policy_version 57312 (0.0006)
+[2023-07-06 11:00:24,538][98493] Updated weights for policy 0, policy_version 57347 (0.0007)
+[2023-07-06 11:00:24,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111957.3, 300 sec: 112188.7). Total num frames: 117506048. Throughput: 0: 28114.5. Samples: 29405696. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:24,765][98243] Avg episode reward: [(0, '7.580')]
+[2023-07-06 11:00:24,877][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000057392_117538816.pth...
+[2023-07-06 11:00:24,931][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000044288_90701824.pth
+[2023-07-06 11:00:24,934][98449] Saving new best policy, reward=7.580!
+[2023-07-06 11:00:25,262][98493] Updated weights for policy 0, policy_version 57424 (0.0006)
+[2023-07-06 11:00:25,687][98493] Updated weights for policy 0, policy_version 57472 (0.0007)
+[2023-07-06 11:00:26,542][98493] Updated weights for policy 0, policy_version 57530 (0.0007)
+[2023-07-06 11:00:27,680][98493] Updated weights for policy 0, policy_version 57594 (0.0007)
+[2023-07-06 11:00:29,605][98493] Updated weights for policy 0, policy_version 57640 (0.0007)
+[2023-07-06 11:00:29,764][98243] Fps is (10 sec: 114687.7, 60 sec: 111411.1, 300 sec: 112299.8). Total num frames: 118063104. Throughput: 0: 28239.6. Samples: 29576192. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:29,765][98243] Avg episode reward: [(0, '7.640')]
+[2023-07-06 11:00:29,949][98449] Saving new best policy, reward=7.640!
+[2023-07-06 11:00:30,117][98493] Updated weights for policy 0, policy_version 57696 (0.0007)
+[2023-07-06 11:00:30,794][98493] Updated weights for policy 0, policy_version 57760 (0.0007)
+[2023-07-06 11:00:31,857][98493] Updated weights for policy 0, policy_version 57799 (0.0006)
+[2023-07-06 11:00:32,336][98493] Updated weights for policy 0, policy_version 57856 (0.0007)
+[2023-07-06 11:00:34,276][98493] Updated weights for policy 0, policy_version 57893 (0.0007)
+[2023-07-06 11:00:34,764][98243] Fps is (10 sec: 114690.4, 60 sec: 111957.5, 300 sec: 112522.0). Total num frames: 118652928. Throughput: 0: 28148.7. Samples: 29744640. Policy #0 lag: (min: 45.0, avg: 170.0, max: 301.0)
+[2023-07-06 11:00:34,764][98243] Avg episode reward: [(0, '7.820')]
+[2023-07-06 11:00:34,911][98449] Saving new best policy, reward=7.820!
+[2023-07-06 11:00:34,912][98493] Updated weights for policy 0, policy_version 57968 (0.0007)
+[2023-07-06 11:00:35,511][98449] Signal inference workers to stop experience collection... (3000 times)
+[2023-07-06 11:00:35,544][98493] Updated weights for policy 0, policy_version 58021 (0.0007)
+[2023-07-06 11:00:35,551][98493] InferenceWorker_p0-w0: stopping experience collection (3000 times)
+[2023-07-06 11:00:35,600][98449] Signal inference workers to resume experience collection... (3000 times)
+[2023-07-06 11:00:35,601][98493] InferenceWorker_p0-w0: resuming experience collection (3000 times)
+[2023-07-06 11:00:36,723][98493] Updated weights for policy 0, policy_version 58073 (0.0007)
+[2023-07-06 11:00:38,669][98493] Updated weights for policy 0, policy_version 58114 (0.0007)
+[2023-07-06 11:00:39,242][98493] Updated weights for policy 0, policy_version 58181 (0.0006)
+[2023-07-06 11:00:39,764][98243] Fps is (10 sec: 121242.2, 60 sec: 113596.1, 300 sec: 112633.2). Total num frames: 119275520. Throughput: 0: 28216.9. Samples: 29831168. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:00:39,765][98243] Avg episode reward: [(0, '7.680')]
+[2023-07-06 11:00:39,914][98493] Updated weights for policy 0, policy_version 58243 (0.0007)
+[2023-07-06 11:00:40,324][98493] Updated weights for policy 0, policy_version 58297 (0.0007)
+[2023-07-06 11:00:41,517][98493] Updated weights for policy 0, policy_version 58352 (0.0008)
+[2023-07-06 11:00:43,628][98493] Updated weights for policy 0, policy_version 58416 (0.0008)
+[2023-07-06 11:00:44,143][98493] Updated weights for policy 0, policy_version 58468 (0.0007)
+[2023-07-06 11:00:44,764][98243] Fps is (10 sec: 114687.0, 60 sec: 111957.2, 300 sec: 112410.9). Total num frames: 119799808. Throughput: 0: 28114.4. Samples: 29998592. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:00:44,764][98243] Avg episode reward: [(0, '7.950')]
+[2023-07-06 11:00:44,876][98493] Updated weights for policy 0, policy_version 58521 (0.0007)
+[2023-07-06 11:00:44,905][98449] Saving new best policy, reward=7.950!
+[2023-07-06 11:00:46,253][98493] Updated weights for policy 0, policy_version 58592 (0.0007)
+[2023-07-06 11:00:47,986][98493] Updated weights for policy 0, policy_version 58627 (0.0007)
+[2023-07-06 11:00:48,430][98493] Updated weights for policy 0, policy_version 58677 (0.0007)
+[2023-07-06 11:00:48,853][98493] Updated weights for policy 0, policy_version 58726 (0.0007)
+[2023-07-06 11:00:49,617][98493] Updated weights for policy 0, policy_version 58775 (0.0007)
+[2023-07-06 11:00:49,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.5, 300 sec: 112522.0). Total num frames: 120389632. Throughput: 0: 28114.5. Samples: 30163456. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:00:49,765][98243] Avg episode reward: [(0, '7.950')]
+[2023-07-06 11:00:50,744][98493] Updated weights for policy 0, policy_version 58818 (0.0007)
+[2023-07-06 11:00:52,439][98493] Updated weights for policy 0, policy_version 58881 (0.0007)
+[2023-07-06 11:00:52,894][98493] Updated weights for policy 0, policy_version 58939 (0.0007)
+[2023-07-06 11:00:53,455][98493] Updated weights for policy 0, policy_version 59001 (0.0007)
+[2023-07-06 11:00:54,274][98449] Signal inference workers to stop experience collection... (3050 times)
+[2023-07-06 11:00:54,290][98493] InferenceWorker_p0-w0: stopping experience collection (3050 times)
+[2023-07-06 11:00:54,369][98449] Signal inference workers to resume experience collection... (3050 times)
+[2023-07-06 11:00:54,369][98493] InferenceWorker_p0-w0: resuming experience collection (3050 times)
+[2023-07-06 11:00:54,648][98493] Updated weights for policy 0, policy_version 59056 (0.0006)
+[2023-07-06 11:00:54,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113595.7, 300 sec: 112410.9). Total num frames: 120979456. Throughput: 0: 28080.4. Samples: 30248448. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:00:54,765][98243] Avg episode reward: [(0, '7.980')]
+[2023-07-06 11:00:54,768][98449] Saving new best policy, reward=7.980!
+[2023-07-06 11:00:55,968][98493] Updated weights for policy 0, policy_version 59112 (0.0007)
+[2023-07-06 11:00:57,266][98493] Updated weights for policy 0, policy_version 59146 (0.0006)
+[2023-07-06 11:00:57,710][98493] Updated weights for policy 0, policy_version 59191 (0.0007)
+[2023-07-06 11:00:58,270][98493] Updated weights for policy 0, policy_version 59257 (0.0007)
+[2023-07-06 11:00:59,205][98493] Updated weights for policy 0, policy_version 59312 (0.0007)
+[2023-07-06 11:00:59,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111957.2, 300 sec: 112299.8). Total num frames: 121503744. Throughput: 0: 28125.9. Samples: 30415872. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:00:59,765][98243] Avg episode reward: [(0, '7.830')]
+[2023-07-06 11:01:00,684][98493] Updated weights for policy 0, policy_version 59364 (0.0007)
+[2023-07-06 11:01:01,841][98493] Updated weights for policy 0, policy_version 59408 (0.0006)
+[2023-07-06 11:01:02,453][98493] Updated weights for policy 0, policy_version 59472 (0.0007)
+[2023-07-06 11:01:03,444][98493] Updated weights for policy 0, policy_version 59522 (0.0006)
+[2023-07-06 11:01:03,864][98493] Updated weights for policy 0, policy_version 59582 (0.0006)
+[2023-07-06 11:01:04,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.1, 300 sec: 112077.7). Total num frames: 122028032. Throughput: 0: 27955.2. Samples: 30583808. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:01:04,765][98243] Avg episode reward: [(0, '7.830')]
+[2023-07-06 11:01:05,592][98493] Updated weights for policy 0, policy_version 59642 (0.0010)
+[2023-07-06 11:01:06,597][98493] Updated weights for policy 0, policy_version 59680 (0.0007)
+[2023-07-06 11:01:07,154][98493] Updated weights for policy 0, policy_version 59736 (0.0007)
+[2023-07-06 11:01:08,206][98493] Updated weights for policy 0, policy_version 59777 (0.0008)
+[2023-07-06 11:01:09,765][98243] Fps is (10 sec: 104849.4, 60 sec: 111409.9, 300 sec: 111744.1). Total num frames: 122552320. Throughput: 0: 28023.1. Samples: 30666752. Policy #0 lag: (min: 25.0, avg: 163.7, max: 281.0)
+[2023-07-06 11:01:09,766][98243] Avg episode reward: [(0, '7.930')]
+[2023-07-06 11:01:10,016][98493] Updated weights for policy 0, policy_version 59846 (0.0007)
+[2023-07-06 11:01:10,518][98493] Updated weights for policy 0, policy_version 59904 (0.0006)
+[2023-07-06 11:01:11,295][98493] Updated weights for policy 0, policy_version 59959 (0.0007)
+[2023-07-06 11:01:11,758][98449] Signal inference workers to stop experience collection... (3100 times)
+[2023-07-06 11:01:11,805][98493] Updated weights for policy 0, policy_version 60007 (0.0007)
+[2023-07-06 11:01:11,812][98493] InferenceWorker_p0-w0: stopping experience collection (3100 times)
+[2023-07-06 11:01:11,849][98449] Signal inference workers to resume experience collection... (3100 times)
+[2023-07-06 11:01:11,849][98493] InferenceWorker_p0-w0: resuming experience collection (3100 times)
+[2023-07-06 11:01:13,283][98493] Updated weights for policy 0, policy_version 60064 (0.0006)
+[2023-07-06 11:01:14,731][98493] Updated weights for policy 0, policy_version 60112 (0.0007)
+[2023-07-06 11:01:14,764][98243] Fps is (10 sec: 108135.2, 60 sec: 111957.7, 300 sec: 111633.4). Total num frames: 123109376. Throughput: 0: 27989.4. Samples: 30835712. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:14,764][98243] Avg episode reward: [(0, '7.800')]
+[2023-07-06 11:01:15,469][98493] Updated weights for policy 0, policy_version 60163 (0.0007)
+[2023-07-06 11:01:15,958][98493] Updated weights for policy 0, policy_version 60224 (0.0008)
+[2023-07-06 11:01:16,524][98493] Updated weights for policy 0, policy_version 60282 (0.0007)
+[2023-07-06 11:01:18,112][98493] Updated weights for policy 0, policy_version 60324 (0.0007)
+[2023-07-06 11:01:19,579][98493] Updated weights for policy 0, policy_version 60384 (0.0007)
+[2023-07-06 11:01:19,764][98243] Fps is (10 sec: 114697.7, 60 sec: 113049.8, 300 sec: 111855.5). Total num frames: 123699200. Throughput: 0: 28034.8. Samples: 31006208. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:19,764][98243] Avg episode reward: [(0, '7.870')]
+[2023-07-06 11:01:19,997][98493] Updated weights for policy 0, policy_version 60417 (0.0007)
+[2023-07-06 11:01:20,520][98493] Updated weights for policy 0, policy_version 60480 (0.0008)
+[2023-07-06 11:01:21,142][98493] Updated weights for policy 0, policy_version 60538 (0.0007)
+[2023-07-06 11:01:23,233][98493] Updated weights for policy 0, policy_version 60583 (0.0007)
+[2023-07-06 11:01:24,360][98493] Updated weights for policy 0, policy_version 60645 (0.0007)
+[2023-07-06 11:01:24,764][98243] Fps is (10 sec: 117963.6, 60 sec: 113049.7, 300 sec: 112077.7). Total num frames: 124289024. Throughput: 0: 27989.3. Samples: 31090688. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:24,765][98243] Avg episode reward: [(0, '7.650')]
+[2023-07-06 11:01:24,924][98493] Updated weights for policy 0, policy_version 60708 (0.0008)
+[2023-07-06 11:01:25,782][98493] Updated weights for policy 0, policy_version 60772 (0.0008)
+[2023-07-06 11:01:28,053][98493] Updated weights for policy 0, policy_version 60832 (0.0007)
+[2023-07-06 11:01:28,711][98493] Updated weights for policy 0, policy_version 60870 (0.0007)
+[2023-07-06 11:01:29,213][98493] Updated weights for policy 0, policy_version 60928 (0.0008)
+[2023-07-06 11:01:29,709][98493] Updated weights for policy 0, policy_version 60985 (0.0007)
+[2023-07-06 11:01:29,764][98243] Fps is (10 sec: 121240.9, 60 sec: 114142.0, 300 sec: 112410.9). Total num frames: 124911616. Throughput: 0: 27921.1. Samples: 31255040. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:29,765][98243] Avg episode reward: [(0, '7.530')]
+[2023-07-06 11:01:30,730][98449] Signal inference workers to stop experience collection... (3150 times)
+[2023-07-06 11:01:30,777][98493] Updated weights for policy 0, policy_version 61029 (0.0007)
+[2023-07-06 11:01:30,785][98493] InferenceWorker_p0-w0: stopping experience collection (3150 times)
+[2023-07-06 11:01:30,845][98449] Signal inference workers to resume experience collection... (3150 times)
+[2023-07-06 11:01:30,846][98493] InferenceWorker_p0-w0: resuming experience collection (3150 times)
+[2023-07-06 11:01:32,314][98493] Updated weights for policy 0, policy_version 61057 (0.0006)
+[2023-07-06 11:01:32,766][98493] Updated weights for policy 0, policy_version 61111 (0.0006)
+[2023-07-06 11:01:33,497][98493] Updated weights for policy 0, policy_version 61152 (0.0006)
+[2023-07-06 11:01:34,162][98493] Updated weights for policy 0, policy_version 61219 (0.0007)
+[2023-07-06 11:01:34,764][98243] Fps is (10 sec: 114686.3, 60 sec: 113049.1, 300 sec: 112410.8). Total num frames: 125435904. Throughput: 0: 27909.6. Samples: 31419392. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:34,765][98243] Avg episode reward: [(0, '7.640')]
+[2023-07-06 11:01:35,372][98493] Updated weights for policy 0, policy_version 61264 (0.0007)
+[2023-07-06 11:01:37,159][98493] Updated weights for policy 0, policy_version 61328 (0.0007)
+[2023-07-06 11:01:37,964][98493] Updated weights for policy 0, policy_version 61379 (0.0007)
+[2023-07-06 11:01:38,474][98493] Updated weights for policy 0, policy_version 61437 (0.0007)
+[2023-07-06 11:01:38,923][98493] Updated weights for policy 0, policy_version 61488 (0.0007)
+[2023-07-06 11:01:39,765][98243] Fps is (10 sec: 104854.7, 60 sec: 111410.7, 300 sec: 112410.8). Total num frames: 125960192. Throughput: 0: 27943.7. Samples: 31505920. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:39,766][98243] Avg episode reward: [(0, '7.630')]
+[2023-07-06 11:01:40,115][98493] Updated weights for policy 0, policy_version 61540 (0.0006)
+[2023-07-06 11:01:42,085][98493] Updated weights for policy 0, policy_version 61600 (0.0007)
+[2023-07-06 11:01:43,087][98493] Updated weights for policy 0, policy_version 61651 (0.0008)
+[2023-07-06 11:01:43,651][98493] Updated weights for policy 0, policy_version 61716 (0.0008)
+[2023-07-06 11:01:44,379][98493] Updated weights for policy 0, policy_version 61762 (0.0006)
+[2023-07-06 11:01:44,764][98243] Fps is (10 sec: 114691.6, 60 sec: 113049.8, 300 sec: 112744.2). Total num frames: 126582784. Throughput: 0: 27864.3. Samples: 31669760. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:44,764][98243] Avg episode reward: [(0, '7.860')]
+[2023-07-06 11:01:44,889][98493] Updated weights for policy 0, policy_version 61824 (0.0007)
+[2023-07-06 11:01:47,126][98493] Updated weights for policy 0, policy_version 61888 (0.0007)
+[2023-07-06 11:01:47,850][98493] Updated weights for policy 0, policy_version 61936 (0.0008)
+[2023-07-06 11:01:48,272][98493] Updated weights for policy 0, policy_version 61977 (0.0007)
+[2023-07-06 11:01:49,082][98449] Signal inference workers to stop experience collection... (3200 times)
+[2023-07-06 11:01:49,094][98493] InferenceWorker_p0-w0: stopping experience collection (3200 times)
+[2023-07-06 11:01:49,172][98449] Signal inference workers to resume experience collection... (3200 times)
+[2023-07-06 11:01:49,173][98493] InferenceWorker_p0-w0: resuming experience collection (3200 times)
+[2023-07-06 11:01:49,382][98493] Updated weights for policy 0, policy_version 62051 (0.0007)
+[2023-07-06 11:01:49,764][98243] Fps is (10 sec: 117966.7, 60 sec: 112503.2, 300 sec: 112633.1). Total num frames: 127139840. Throughput: 0: 27830.0. Samples: 31836160. Policy #0 lag: (min: 2.0, avg: 124.5, max: 258.0)
+[2023-07-06 11:01:49,765][98243] Avg episode reward: [(0, '7.820')]
+[2023-07-06 11:01:51,538][98493] Updated weights for policy 0, policy_version 62100 (0.0006)
+[2023-07-06 11:01:51,869][98493] Updated weights for policy 0, policy_version 62144 (0.0007)
+[2023-07-06 11:01:52,567][98493] Updated weights for policy 0, policy_version 62208 (0.0006)
+[2023-07-06 11:01:53,282][98493] Updated weights for policy 0, policy_version 62269 (0.0007)
+[2023-07-06 11:01:54,085][98493] Updated weights for policy 0, policy_version 62309 (0.0007)
+[2023-07-06 11:01:54,764][98243] Fps is (10 sec: 108132.6, 60 sec: 111411.2, 300 sec: 112410.9). Total num frames: 127664128. Throughput: 0: 27887.4. Samples: 31921664. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:01:54,765][98243] Avg episode reward: [(0, '7.420')]
+[2023-07-06 11:01:56,264][98493] Updated weights for policy 0, policy_version 62360 (0.0008)
+[2023-07-06 11:01:56,578][98493] Updated weights for policy 0, policy_version 62400 (0.0007)
+[2023-07-06 11:01:57,479][98493] Updated weights for policy 0, policy_version 62457 (0.0007)
+[2023-07-06 11:01:57,956][98493] Updated weights for policy 0, policy_version 62512 (0.0007)
+[2023-07-06 11:01:58,665][98493] Updated weights for policy 0, policy_version 62562 (0.0007)
+[2023-07-06 11:01:59,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.2, 300 sec: 112410.9). Total num frames: 128188416. Throughput: 0: 27818.6. Samples: 32087552. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:01:59,765][98243] Avg episode reward: [(0, '7.530')]
+[2023-07-06 11:02:00,955][98493] Updated weights for policy 0, policy_version 62626 (0.0007)
+[2023-07-06 11:02:02,119][98493] Updated weights for policy 0, policy_version 62688 (0.0007)
+[2023-07-06 11:02:02,807][98493] Updated weights for policy 0, policy_version 62758 (0.0007)
+[2023-07-06 11:02:03,268][98493] Updated weights for policy 0, policy_version 62807 (0.0008)
+[2023-07-06 11:02:04,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111410.9, 300 sec: 112299.8). Total num frames: 128712704. Throughput: 0: 27750.3. Samples: 32254976. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:02:04,765][98243] Avg episode reward: [(0, '7.740')]
+[2023-07-06 11:02:05,482][98493] Updated weights for policy 0, policy_version 62855 (0.0007)
+[2023-07-06 11:02:05,920][98493] Updated weights for policy 0, policy_version 62911 (0.0007)
+[2023-07-06 11:02:07,159][98493] Updated weights for policy 0, policy_version 62965 (0.0007)
+[2023-07-06 11:02:07,393][98449] Signal inference workers to stop experience collection... (3250 times)
+[2023-07-06 11:02:07,440][98493] InferenceWorker_p0-w0: stopping experience collection (3250 times)
+[2023-07-06 11:02:07,483][98449] Signal inference workers to resume experience collection... (3250 times)
+[2023-07-06 11:02:07,483][98493] InferenceWorker_p0-w0: resuming experience collection (3250 times)
+[2023-07-06 11:02:07,623][98493] Updated weights for policy 0, policy_version 63024 (0.0008)
+[2023-07-06 11:02:08,152][98493] Updated weights for policy 0, policy_version 63077 (0.0007)
+[2023-07-06 11:02:09,764][98243] Fps is (10 sec: 104855.6, 60 sec: 111412.2, 300 sec: 112077.6). Total num frames: 129236992. Throughput: 0: 27682.0. Samples: 32336384. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:02:09,765][98243] Avg episode reward: [(0, '7.370')]
+[2023-07-06 11:02:10,342][98493] Updated weights for policy 0, policy_version 63136 (0.0010)
+[2023-07-06 11:02:11,601][98493] Updated weights for policy 0, policy_version 63187 (0.0007)
+[2023-07-06 11:02:12,236][98493] Updated weights for policy 0, policy_version 63264 (0.0008)
+[2023-07-06 11:02:12,811][98493] Updated weights for policy 0, policy_version 63328 (0.0007)
+[2023-07-06 11:02:14,764][98243] Fps is (10 sec: 104858.5, 60 sec: 110864.8, 300 sec: 111855.5). Total num frames: 129761280. Throughput: 0: 27693.5. Samples: 32501248. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:02:14,765][98243] Avg episode reward: [(0, '7.350')]
+[2023-07-06 11:02:15,209][98493] Updated weights for policy 0, policy_version 63382 (0.0007)
+[2023-07-06 11:02:16,055][98493] Updated weights for policy 0, policy_version 63426 (0.0007)
+[2023-07-06 11:02:16,730][98493] Updated weights for policy 0, policy_version 63506 (0.0008)
+[2023-07-06 11:02:17,491][98493] Updated weights for policy 0, policy_version 63568 (0.0006)
+[2023-07-06 11:02:19,764][98243] Fps is (10 sec: 104859.0, 60 sec: 109772.5, 300 sec: 111633.4). Total num frames: 130285568. Throughput: 0: 27830.1. Samples: 32671744. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:02:19,765][98243] Avg episode reward: [(0, '7.420')]
+[2023-07-06 11:02:19,918][98493] Updated weights for policy 0, policy_version 63620 (0.0006)
+[2023-07-06 11:02:20,855][98493] Updated weights for policy 0, policy_version 63696 (0.0008)
+[2023-07-06 11:02:21,371][98493] Updated weights for policy 0, policy_version 63749 (0.0009)
+[2023-07-06 11:02:22,142][98493] Updated weights for policy 0, policy_version 63809 (0.0008)
+[2023-07-06 11:02:22,595][98493] Updated weights for policy 0, policy_version 63865 (0.0007)
+[2023-07-06 11:02:24,764][98243] Fps is (10 sec: 111411.8, 60 sec: 109772.8, 300 sec: 111633.3). Total num frames: 130875392. Throughput: 0: 27614.0. Samples: 32748544. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:02:24,765][98243] Avg episode reward: [(0, '7.510')]
+[2023-07-06 11:02:24,898][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000063920_130908160.pth...
+[2023-07-06 11:02:24,899][98493] Updated weights for policy 0, policy_version 63920 (0.0007)
+[2023-07-06 11:02:24,918][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000050816_104071168.pth
+[2023-07-06 11:02:24,920][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000063920_130908160.pth
+[2023-07-06 11:02:25,704][98449] Signal inference workers to stop experience collection... (3300 times)
+[2023-07-06 11:02:25,732][98493] InferenceWorker_p0-w0: stopping experience collection (3300 times)
+[2023-07-06 11:02:25,782][98449] Signal inference workers to resume experience collection... (3300 times)
+[2023-07-06 11:02:25,783][98493] InferenceWorker_p0-w0: resuming experience collection (3300 times)
+[2023-07-06 11:02:25,916][98493] Updated weights for policy 0, policy_version 63984 (0.0008)
+[2023-07-06 11:02:26,559][98493] Updated weights for policy 0, policy_version 64055 (0.0007)
+[2023-07-06 11:02:27,438][98493] Updated weights for policy 0, policy_version 64120 (0.0007)
+[2023-07-06 11:02:29,672][98493] Updated weights for policy 0, policy_version 64164 (0.0007)
+[2023-07-06 11:02:29,765][98243] Fps is (10 sec: 114686.3, 60 sec: 108680.1, 300 sec: 111522.2). Total num frames: 131432448. Throughput: 0: 27716.0. Samples: 32916992. Policy #0 lag: (min: 15.0, avg: 90.5, max: 271.0)
+[2023-07-06 11:02:29,765][98243] Avg episode reward: [(0, '7.530')]
+[2023-07-06 11:02:30,264][98493] Updated weights for policy 0, policy_version 64208 (0.0006)
+[2023-07-06 11:02:30,799][98493] Updated weights for policy 0, policy_version 64261 (0.0007)
+[2023-07-06 11:02:31,232][98493] Updated weights for policy 0, policy_version 64316 (0.0038)
+[2023-07-06 11:02:32,186][98493] Updated weights for policy 0, policy_version 64378 (0.0007)
+[2023-07-06 11:02:34,334][98493] Updated weights for policy 0, policy_version 64416 (0.0006)
+[2023-07-06 11:02:34,764][98243] Fps is (10 sec: 111411.6, 60 sec: 109227.0, 300 sec: 111522.3). Total num frames: 131989504. Throughput: 0: 27796.0. Samples: 33086976. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:02:34,765][98243] Avg episode reward: [(0, '7.360')]
+[2023-07-06 11:02:34,939][98493] Updated weights for policy 0, policy_version 64480 (0.0008)
+[2023-07-06 11:02:35,342][98493] Updated weights for policy 0, policy_version 64518 (0.0007)
+[2023-07-06 11:02:35,792][98493] Updated weights for policy 0, policy_version 64572 (0.0008)
+[2023-07-06 11:02:36,993][98493] Updated weights for policy 0, policy_version 64635 (0.0007)
+[2023-07-06 11:02:38,986][98493] Updated weights for policy 0, policy_version 64674 (0.0009)
+[2023-07-06 11:02:39,427][98493] Updated weights for policy 0, policy_version 64720 (0.0006)
+[2023-07-06 11:02:39,765][98243] Fps is (10 sec: 117964.6, 60 sec: 110865.1, 300 sec: 111855.4). Total num frames: 132612096. Throughput: 0: 27716.1. Samples: 33168896. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:02:39,766][98243] Avg episode reward: [(0, '7.300')]
+[2023-07-06 11:02:39,979][98493] Updated weights for policy 0, policy_version 64770 (0.0007)
+[2023-07-06 11:02:40,422][98493] Updated weights for policy 0, policy_version 64823 (0.0009)
+[2023-07-06 11:02:41,471][98493] Updated weights for policy 0, policy_version 64868 (0.0007)
+[2023-07-06 11:02:43,344][98493] Updated weights for policy 0, policy_version 64912 (0.0007)
+[2023-07-06 11:02:43,753][98449] Signal inference workers to stop experience collection... (3350 times)
+[2023-07-06 11:02:43,780][98493] InferenceWorker_p0-w0: stopping experience collection (3350 times)
+[2023-07-06 11:02:43,802][98449] Signal inference workers to resume experience collection... (3350 times)
+[2023-07-06 11:02:43,805][98493] InferenceWorker_p0-w0: resuming experience collection (3350 times)
+[2023-07-06 11:02:43,807][98493] Updated weights for policy 0, policy_version 64960 (0.0008)
+[2023-07-06 11:02:44,298][98493] Updated weights for policy 0, policy_version 65014 (0.0007)
+[2023-07-06 11:02:44,717][98493] Updated weights for policy 0, policy_version 65045 (0.0006)
+[2023-07-06 11:02:44,764][98243] Fps is (10 sec: 121241.5, 60 sec: 110318.7, 300 sec: 112077.7). Total num frames: 133201920. Throughput: 0: 27852.8. Samples: 33340928. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:02:44,765][98243] Avg episode reward: [(0, '7.090')]
+[2023-07-06 11:02:46,184][98493] Updated weights for policy 0, policy_version 65120 (0.0007)
+[2023-07-06 11:02:47,932][98493] Updated weights for policy 0, policy_version 65184 (0.0007)
+[2023-07-06 11:02:48,665][98493] Updated weights for policy 0, policy_version 65232 (0.0007)
+[2023-07-06 11:02:49,146][98493] Updated weights for policy 0, policy_version 65283 (0.0007)
+[2023-07-06 11:02:49,567][98493] Updated weights for policy 0, policy_version 65341 (0.0007)
+[2023-07-06 11:02:49,764][98243] Fps is (10 sec: 121243.4, 60 sec: 111411.2, 300 sec: 112410.9). Total num frames: 133824512. Throughput: 0: 27818.7. Samples: 33506816. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:02:49,765][98243] Avg episode reward: [(0, '6.680')]
+[2023-07-06 11:02:50,869][98493] Updated weights for policy 0, policy_version 65364 (0.0007)
+[2023-07-06 11:02:52,486][98493] Updated weights for policy 0, policy_version 65424 (0.0007)
+[2023-07-06 11:02:52,870][98493] Updated weights for policy 0, policy_version 65466 (0.0017)
+[2023-07-06 11:02:53,360][98493] Updated weights for policy 0, policy_version 65505 (0.0008)
+[2023-07-06 11:02:53,713][98493] Updated weights for policy 0, policy_version 65552 (0.0007)
+[2023-07-06 11:02:54,068][98493] Updated weights for policy 0, policy_version 65595 (0.0007)
+[2023-07-06 11:02:54,764][98243] Fps is (10 sec: 114686.7, 60 sec: 111411.0, 300 sec: 112410.9). Total num frames: 134348800. Throughput: 0: 28012.2. Samples: 33596928. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:02:54,765][98243] Avg episode reward: [(0, '6.720')]
+[2023-07-06 11:02:55,646][98493] Updated weights for policy 0, policy_version 65648 (0.0007)
+[2023-07-06 11:02:57,282][98493] Updated weights for policy 0, policy_version 65712 (0.0008)
+[2023-07-06 11:02:58,097][98493] Updated weights for policy 0, policy_version 65765 (0.0007)
+[2023-07-06 11:02:58,474][98493] Updated weights for policy 0, policy_version 65808 (0.0006)
+[2023-07-06 11:02:59,764][98243] Fps is (10 sec: 104858.6, 60 sec: 111411.2, 300 sec: 112410.9). Total num frames: 134873088. Throughput: 0: 28046.3. Samples: 33763328. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:02:59,765][98243] Avg episode reward: [(0, '7.070')]
+[2023-07-06 11:03:00,006][98493] Updated weights for policy 0, policy_version 65860 (0.0007)
+[2023-07-06 11:03:00,448][98493] Updated weights for policy 0, policy_version 65917 (0.0006)
+[2023-07-06 11:03:01,758][98449] Signal inference workers to stop experience collection... (3400 times)
+[2023-07-06 11:03:01,793][98493] InferenceWorker_p0-w0: stopping experience collection (3400 times)
+[2023-07-06 11:03:01,850][98449] Signal inference workers to resume experience collection... (3400 times)
+[2023-07-06 11:03:01,851][98493] InferenceWorker_p0-w0: resuming experience collection (3400 times)
+[2023-07-06 11:03:01,931][98493] Updated weights for policy 0, policy_version 65955 (0.0007)
+[2023-07-06 11:03:02,534][98493] Updated weights for policy 0, policy_version 66005 (0.0006)
+[2023-07-06 11:03:02,973][98493] Updated weights for policy 0, policy_version 66052 (0.0007)
+[2023-07-06 11:03:03,433][98493] Updated weights for policy 0, policy_version 66112 (0.0007)
+[2023-07-06 11:03:04,764][98243] Fps is (10 sec: 108136.2, 60 sec: 111957.7, 300 sec: 112188.8). Total num frames: 135430144. Throughput: 0: 28114.6. Samples: 33936896. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:03:04,764][98243] Avg episode reward: [(0, '7.350')]
+[2023-07-06 11:03:05,176][98493] Updated weights for policy 0, policy_version 66176 (0.0007)
+[2023-07-06 11:03:06,696][98493] Updated weights for policy 0, policy_version 66234 (0.0006)
+[2023-07-06 11:03:07,495][98493] Updated weights for policy 0, policy_version 66289 (0.0007)
+[2023-07-06 11:03:07,994][98493] Updated weights for policy 0, policy_version 66352 (0.0009)
+[2023-07-06 11:03:09,765][98243] Fps is (10 sec: 111408.2, 60 sec: 112503.4, 300 sec: 112188.6). Total num frames: 135987200. Throughput: 0: 28182.6. Samples: 34016768. Policy #0 lag: (min: 78.0, avg: 174.7, max: 334.0)
+[2023-07-06 11:03:09,765][98243] Avg episode reward: [(0, '7.360')]
+[2023-07-06 11:03:09,773][98493] Updated weights for policy 0, policy_version 66406 (0.0007)
+[2023-07-06 11:03:11,019][98493] Updated weights for policy 0, policy_version 66438 (0.0007)
+[2023-07-06 11:03:11,473][98493] Updated weights for policy 0, policy_version 66496 (0.0007)
+[2023-07-06 11:03:12,421][98493] Updated weights for policy 0, policy_version 66576 (0.0007)
+[2023-07-06 11:03:12,799][98493] Updated weights for policy 0, policy_version 66620 (0.0006)
+[2023-07-06 11:03:14,328][98493] Updated weights for policy 0, policy_version 66660 (0.0007)
+[2023-07-06 11:03:14,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.9, 300 sec: 112411.0). Total num frames: 136577024. Throughput: 0: 28194.3. Samples: 34185728. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:14,765][98243] Avg episode reward: [(0, '7.230')]
+[2023-07-06 11:03:16,297][98493] Updated weights for policy 0, policy_version 66722 (0.0008)
+[2023-07-06 11:03:16,796][98493] Updated weights for policy 0, policy_version 66784 (0.0008)
+[2023-07-06 11:03:17,310][98493] Updated weights for policy 0, policy_version 66833 (0.0008)
+[2023-07-06 11:03:18,761][98493] Updated weights for policy 0, policy_version 66886 (0.0007)
+[2023-07-06 11:03:18,864][98449] Signal inference workers to stop experience collection... (3450 times)
+[2023-07-06 11:03:18,898][98493] InferenceWorker_p0-w0: stopping experience collection (3450 times)
+[2023-07-06 11:03:18,943][98449] Signal inference workers to resume experience collection... (3450 times)
+[2023-07-06 11:03:18,943][98493] InferenceWorker_p0-w0: resuming experience collection (3450 times)
+[2023-07-06 11:03:19,211][98493] Updated weights for policy 0, policy_version 66942 (0.0007)
+[2023-07-06 11:03:19,765][98243] Fps is (10 sec: 111410.2, 60 sec: 113595.2, 300 sec: 112188.6). Total num frames: 137101312. Throughput: 0: 28114.3. Samples: 34352128. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:19,765][98243] Avg episode reward: [(0, '7.170')]
+[2023-07-06 11:03:21,193][98493] Updated weights for policy 0, policy_version 66995 (0.0007)
+[2023-07-06 11:03:21,752][98493] Updated weights for policy 0, policy_version 67061 (0.0008)
+[2023-07-06 11:03:22,295][98493] Updated weights for policy 0, policy_version 67128 (0.0008)
+[2023-07-06 11:03:23,364][98493] Updated weights for policy 0, policy_version 67168 (0.0006)
+[2023-07-06 11:03:24,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.5, 300 sec: 111855.5). Total num frames: 137625600. Throughput: 0: 28126.0. Samples: 34434560. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:24,765][98243] Avg episode reward: [(0, '7.140')]
+[2023-07-06 11:03:25,590][98493] Updated weights for policy 0, policy_version 67232 (0.0008)
+[2023-07-06 11:03:26,087][98493] Updated weights for policy 0, policy_version 67284 (0.0008)
+[2023-07-06 11:03:26,693][98493] Updated weights for policy 0, policy_version 67360 (0.0007)
+[2023-07-06 11:03:27,792][98493] Updated weights for policy 0, policy_version 67417 (0.0007)
+[2023-07-06 11:03:29,764][98243] Fps is (10 sec: 104859.9, 60 sec: 111957.5, 300 sec: 111744.4). Total num frames: 138149888. Throughput: 0: 28080.3. Samples: 34604544. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:29,765][98243] Avg episode reward: [(0, '7.000')]
+[2023-07-06 11:03:29,885][98493] Updated weights for policy 0, policy_version 67472 (0.0007)
+[2023-07-06 11:03:30,740][98493] Updated weights for policy 0, policy_version 67523 (0.0006)
+[2023-07-06 11:03:31,174][98493] Updated weights for policy 0, policy_version 67574 (0.0008)
+[2023-07-06 11:03:31,673][98493] Updated weights for policy 0, policy_version 67632 (0.0007)
+[2023-07-06 11:03:32,542][98493] Updated weights for policy 0, policy_version 67682 (0.0006)
+[2023-07-06 11:03:34,605][98493] Updated weights for policy 0, policy_version 67744 (0.0007)
+[2023-07-06 11:03:34,765][98243] Fps is (10 sec: 114685.4, 60 sec: 113049.1, 300 sec: 111855.4). Total num frames: 138772480. Throughput: 0: 28228.2. Samples: 34777088. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:34,765][98243] Avg episode reward: [(0, '7.070')]
+[2023-07-06 11:03:34,882][98493] Updated weights for policy 0, policy_version 67776 (0.0007)
+[2023-07-06 11:03:35,919][98449] Signal inference workers to stop experience collection... (3500 times)
+[2023-07-06 11:03:35,959][98493] InferenceWorker_p0-w0: stopping experience collection (3500 times)
+[2023-07-06 11:03:35,964][98493] Updated weights for policy 0, policy_version 67849 (0.0007)
+[2023-07-06 11:03:35,994][98449] Signal inference workers to resume experience collection... (3500 times)
+[2023-07-06 11:03:35,995][98493] InferenceWorker_p0-w0: resuming experience collection (3500 times)
+[2023-07-06 11:03:36,359][98493] Updated weights for policy 0, policy_version 67898 (0.0007)
+[2023-07-06 11:03:37,379][98493] Updated weights for policy 0, policy_version 67952 (0.0006)
+[2023-07-06 11:03:39,320][98493] Updated weights for policy 0, policy_version 68001 (0.0008)
+[2023-07-06 11:03:39,764][98243] Fps is (10 sec: 117966.0, 60 sec: 111957.7, 300 sec: 111966.6). Total num frames: 139329536. Throughput: 0: 27943.9. Samples: 34854400. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:39,765][98243] Avg episode reward: [(0, '7.120')]
+[2023-07-06 11:03:40,308][98493] Updated weights for policy 0, policy_version 68051 (0.0007)
+[2023-07-06 11:03:40,662][98493] Updated weights for policy 0, policy_version 68096 (0.0007)
+[2023-07-06 11:03:41,178][98493] Updated weights for policy 0, policy_version 68157 (0.0007)
+[2023-07-06 11:03:42,303][98493] Updated weights for policy 0, policy_version 68220 (0.0008)
+[2023-07-06 11:03:44,125][98493] Updated weights for policy 0, policy_version 68279 (0.0011)
+[2023-07-06 11:03:44,764][98243] Fps is (10 sec: 108136.8, 60 sec: 110865.0, 300 sec: 111633.3). Total num frames: 139853824. Throughput: 0: 28125.9. Samples: 35028992. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:44,765][98243] Avg episode reward: [(0, '7.270')]
+[2023-07-06 11:03:44,995][98493] Updated weights for policy 0, policy_version 68311 (0.0007)
+[2023-07-06 11:03:45,418][98493] Updated weights for policy 0, policy_version 68359 (0.0007)
+[2023-07-06 11:03:45,853][98493] Updated weights for policy 0, policy_version 68412 (0.0008)
+[2023-07-06 11:03:46,796][98493] Updated weights for policy 0, policy_version 68474 (0.0007)
+[2023-07-06 11:03:48,606][98493] Updated weights for policy 0, policy_version 68513 (0.0007)
+[2023-07-06 11:03:48,831][98493] Updated weights for policy 0, policy_version 68544 (0.0007)
+[2023-07-06 11:03:49,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110319.0, 300 sec: 111744.5). Total num frames: 140443648. Throughput: 0: 28057.5. Samples: 35199488. Policy #0 lag: (min: 10.0, avg: 121.7, max: 266.0)
+[2023-07-06 11:03:49,765][98243] Avg episode reward: [(0, '7.170')]
+[2023-07-06 11:03:50,158][98493] Updated weights for policy 0, policy_version 68624 (0.0008)
+[2023-07-06 11:03:50,895][98493] Updated weights for policy 0, policy_version 68675 (0.0007)
+[2023-07-06 11:03:51,360][98493] Updated weights for policy 0, policy_version 68732 (0.0006)
+[2023-07-06 11:03:53,213][98493] Updated weights for policy 0, policy_version 68795 (0.0006)
+[2023-07-06 11:03:54,656][98449] Signal inference workers to stop experience collection... (3550 times)
+[2023-07-06 11:03:54,684][98493] InferenceWorker_p0-w0: stopping experience collection (3550 times)
+[2023-07-06 11:03:54,753][98449] Signal inference workers to resume experience collection... (3550 times)
+[2023-07-06 11:03:54,754][98493] InferenceWorker_p0-w0: resuming experience collection (3550 times)
+[2023-07-06 11:03:54,764][98243] Fps is (10 sec: 114689.1, 60 sec: 110865.4, 300 sec: 111855.5). Total num frames: 141000704. Throughput: 0: 28126.1. Samples: 35282432. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:03:54,765][98243] Avg episode reward: [(0, '7.090')]
+[2023-07-06 11:03:54,895][98493] Updated weights for policy 0, policy_version 68864 (0.0025)
+[2023-07-06 11:03:55,553][98493] Updated weights for policy 0, policy_version 68937 (0.0008)
+[2023-07-06 11:03:55,976][98493] Updated weights for policy 0, policy_version 68990 (0.0007)
+[2023-07-06 11:03:58,115][98493] Updated weights for policy 0, policy_version 69049 (0.0007)
+[2023-07-06 11:03:59,490][98493] Updated weights for policy 0, policy_version 69092 (0.0008)
+[2023-07-06 11:03:59,764][98243] Fps is (10 sec: 111409.7, 60 sec: 111410.9, 300 sec: 111966.6). Total num frames: 141557760. Throughput: 0: 28046.1. Samples: 35447808. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:03:59,765][98243] Avg episode reward: [(0, '7.260')]
+[2023-07-06 11:04:00,088][98493] Updated weights for policy 0, policy_version 69160 (0.0007)
+[2023-07-06 11:04:00,617][98493] Updated weights for policy 0, policy_version 69220 (0.0007)
+[2023-07-06 11:04:02,386][98493] Updated weights for policy 0, policy_version 69254 (0.0006)
+[2023-07-06 11:04:02,815][98493] Updated weights for policy 0, policy_version 69312 (0.0007)
+[2023-07-06 11:04:04,442][98493] Updated weights for policy 0, policy_version 69379 (0.0007)
+[2023-07-06 11:04:04,764][98243] Fps is (10 sec: 114688.0, 60 sec: 111957.4, 300 sec: 112188.8). Total num frames: 142147584. Throughput: 0: 27966.9. Samples: 35610624. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:04,764][98243] Avg episode reward: [(0, '7.360')]
+[2023-07-06 11:04:04,894][98493] Updated weights for policy 0, policy_version 69440 (0.0007)
+[2023-07-06 11:04:05,385][98493] Updated weights for policy 0, policy_version 69498 (0.0006)
+[2023-07-06 11:04:07,554][98493] Updated weights for policy 0, policy_version 69564 (0.0006)
+[2023-07-06 11:04:08,648][98493] Updated weights for policy 0, policy_version 69625 (0.0006)
+[2023-07-06 11:04:09,678][98493] Updated weights for policy 0, policy_version 69683 (0.0007)
+[2023-07-06 11:04:09,764][98243] Fps is (10 sec: 117965.7, 60 sec: 112503.8, 300 sec: 112410.9). Total num frames: 142737408. Throughput: 0: 28023.4. Samples: 35695616. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:09,765][98243] Avg episode reward: [(0, '7.440')]
+[2023-07-06 11:04:10,132][98493] Updated weights for policy 0, policy_version 69735 (0.0008)
+[2023-07-06 11:04:11,906][98449] Signal inference workers to stop experience collection... (3600 times)
+[2023-07-06 11:04:11,946][98493] InferenceWorker_p0-w0: stopping experience collection (3600 times)
+[2023-07-06 11:04:12,003][98449] Signal inference workers to resume experience collection... (3600 times)
+[2023-07-06 11:04:12,004][98493] InferenceWorker_p0-w0: resuming experience collection (3600 times)
+[2023-07-06 11:04:12,087][98493] Updated weights for policy 0, policy_version 69781 (0.0007)
+[2023-07-06 11:04:13,042][98493] Updated weights for policy 0, policy_version 69856 (0.0006)
+[2023-07-06 11:04:14,270][98493] Updated weights for policy 0, policy_version 69911 (0.0007)
+[2023-07-06 11:04:14,764][98243] Fps is (10 sec: 114686.1, 60 sec: 111957.2, 300 sec: 112299.8). Total num frames: 143294464. Throughput: 0: 27921.1. Samples: 35860992. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:14,765][98243] Avg episode reward: [(0, '7.340')]
+[2023-07-06 11:04:14,832][98493] Updated weights for policy 0, policy_version 69976 (0.0014)
+[2023-07-06 11:04:16,759][98493] Updated weights for policy 0, policy_version 70041 (0.0007)
+[2023-07-06 11:04:17,483][98493] Updated weights for policy 0, policy_version 70081 (0.0007)
+[2023-07-06 11:04:17,935][98493] Updated weights for policy 0, policy_version 70135 (0.0008)
+[2023-07-06 11:04:19,230][98493] Updated weights for policy 0, policy_version 70200 (0.0008)
+[2023-07-06 11:04:19,633][98493] Updated weights for policy 0, policy_version 70246 (0.0008)
+[2023-07-06 11:04:19,764][98243] Fps is (10 sec: 114689.5, 60 sec: 113050.3, 300 sec: 112188.8). Total num frames: 143884288. Throughput: 0: 27716.4. Samples: 36024320. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:19,765][98243] Avg episode reward: [(0, '7.400')]
+[2023-07-06 11:04:21,472][98493] Updated weights for policy 0, policy_version 70275 (0.0007)
+[2023-07-06 11:04:22,113][98493] Updated weights for policy 0, policy_version 70352 (0.0007)
+[2023-07-06 11:04:22,492][98493] Updated weights for policy 0, policy_version 70397 (0.0006)
+[2023-07-06 11:04:24,081][98493] Updated weights for policy 0, policy_version 70449 (0.0007)
+[2023-07-06 11:04:24,557][98493] Updated weights for policy 0, policy_version 70512 (0.0006)
+[2023-07-06 11:04:24,764][98243] Fps is (10 sec: 114688.7, 60 sec: 113595.7, 300 sec: 112077.7). Total num frames: 144441344. Throughput: 0: 27841.4. Samples: 36107264. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:24,765][98243] Avg episode reward: [(0, '7.600')]
+[2023-07-06 11:04:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000070528_144441344.pth...
+[2023-07-06 11:04:24,797][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000057392_117538816.pth
+[2023-07-06 11:04:26,636][98493] Updated weights for policy 0, policy_version 70564 (0.0007)
+[2023-07-06 11:04:27,242][98493] Updated weights for policy 0, policy_version 70640 (0.0008)
+[2023-07-06 11:04:28,914][98449] Signal inference workers to stop experience collection... (3650 times)
+[2023-07-06 11:04:28,943][98493] InferenceWorker_p0-w0: stopping experience collection (3650 times)
+[2023-07-06 11:04:28,951][98493] Updated weights for policy 0, policy_version 70713 (0.0008)
+[2023-07-06 11:04:28,981][98449] Signal inference workers to resume experience collection... (3650 times)
+[2023-07-06 11:04:28,981][98493] InferenceWorker_p0-w0: resuming experience collection (3650 times)
+[2023-07-06 11:04:29,470][98493] Updated weights for policy 0, policy_version 70776 (0.0007)
+[2023-07-06 11:04:29,764][98243] Fps is (10 sec: 108134.3, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 144965632. Throughput: 0: 27704.9. Samples: 36275712. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:29,765][98243] Avg episode reward: [(0, '7.930')]
+[2023-07-06 11:04:31,305][98493] Updated weights for policy 0, policy_version 70820 (0.0008)
+[2023-07-06 11:04:31,751][98493] Updated weights for policy 0, policy_version 70871 (0.0006)
+[2023-07-06 11:04:32,952][98493] Updated weights for policy 0, policy_version 70917 (0.0007)
+[2023-07-06 11:04:33,524][98493] Updated weights for policy 0, policy_version 70978 (0.0025)
+[2023-07-06 11:04:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111957.8, 300 sec: 111966.7). Total num frames: 145489920. Throughput: 0: 27557.0. Samples: 36439552. Policy #0 lag: (min: 15.0, avg: 94.4, max: 271.0)
+[2023-07-06 11:04:34,765][98243] Avg episode reward: [(0, '8.500')]
+[2023-07-06 11:04:34,765][98449] Saving new best policy, reward=8.500!
+[2023-07-06 11:04:35,762][98493] Updated weights for policy 0, policy_version 71056 (0.0007)
+[2023-07-06 11:04:36,393][98493] Updated weights for policy 0, policy_version 71120 (0.0007)
+[2023-07-06 11:04:37,764][98493] Updated weights for policy 0, policy_version 71173 (0.0007)
+[2023-07-06 11:04:38,301][98493] Updated weights for policy 0, policy_version 71232 (0.0008)
+[2023-07-06 11:04:38,721][98493] Updated weights for policy 0, policy_version 71280 (0.0007)
+[2023-07-06 11:04:39,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.3, 300 sec: 111633.3). Total num frames: 146014208. Throughput: 0: 27625.2. Samples: 36525568. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:04:39,765][98243] Avg episode reward: [(0, '8.580')]
+[2023-07-06 11:04:39,767][98449] Saving new best policy, reward=8.580!
+[2023-07-06 11:04:40,602][98493] Updated weights for policy 0, policy_version 71333 (0.0006)
+[2023-07-06 11:04:41,191][98493] Updated weights for policy 0, policy_version 71378 (0.0007)
+[2023-07-06 11:04:42,264][98493] Updated weights for policy 0, policy_version 71431 (0.0007)
+[2023-07-06 11:04:42,727][98493] Updated weights for policy 0, policy_version 71488 (0.0007)
+[2023-07-06 11:04:43,475][98493] Updated weights for policy 0, policy_version 71537 (0.0007)
+[2023-07-06 11:04:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 146538496. Throughput: 0: 27625.4. Samples: 36690944. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:04:44,765][98243] Avg episode reward: [(0, '8.600')]
+[2023-07-06 11:04:44,765][98449] Saving new best policy, reward=8.600!
+[2023-07-06 11:04:45,287][98493] Updated weights for policy 0, policy_version 71600 (0.0008)
+[2023-07-06 11:04:46,052][98493] Updated weights for policy 0, policy_version 71664 (0.0008)
+[2023-07-06 11:04:47,138][98449] Signal inference workers to stop experience collection... (3700 times)
+[2023-07-06 11:04:47,177][98493] Updated weights for policy 0, policy_version 71699 (0.0007)
+[2023-07-06 11:04:47,186][98493] InferenceWorker_p0-w0: stopping experience collection (3700 times)
+[2023-07-06 11:04:47,239][98449] Signal inference workers to resume experience collection... (3700 times)
+[2023-07-06 11:04:47,239][98493] InferenceWorker_p0-w0: resuming experience collection (3700 times)
+[2023-07-06 11:04:47,870][98493] Updated weights for policy 0, policy_version 71760 (0.0008)
+[2023-07-06 11:04:49,464][98493] Updated weights for policy 0, policy_version 71814 (0.0007)
+[2023-07-06 11:04:49,764][98243] Fps is (10 sec: 111412.3, 60 sec: 111411.5, 300 sec: 111744.5). Total num frames: 147128320. Throughput: 0: 27841.4. Samples: 36863488. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:04:49,764][98243] Avg episode reward: [(0, '8.570')]
+[2023-07-06 11:04:49,925][98493] Updated weights for policy 0, policy_version 71872 (0.0007)
+[2023-07-06 11:04:50,544][98493] Updated weights for policy 0, policy_version 71924 (0.0007)
+[2023-07-06 11:04:52,014][98493] Updated weights for policy 0, policy_version 71968 (0.0006)
+[2023-07-06 11:04:52,535][98493] Updated weights for policy 0, policy_version 72020 (0.0007)
+[2023-07-06 11:04:54,041][98493] Updated weights for policy 0, policy_version 72066 (0.0007)
+[2023-07-06 11:04:54,521][98493] Updated weights for policy 0, policy_version 72124 (0.0006)
+[2023-07-06 11:04:54,764][98243] Fps is (10 sec: 121241.7, 60 sec: 112503.3, 300 sec: 111744.4). Total num frames: 147750912. Throughput: 0: 27818.7. Samples: 36947456. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:04:54,765][98243] Avg episode reward: [(0, '8.730')]
+[2023-07-06 11:04:54,969][98449] Saving new best policy, reward=8.730!
+[2023-07-06 11:04:54,970][98493] Updated weights for policy 0, policy_version 72176 (0.0007)
+[2023-07-06 11:04:56,741][98493] Updated weights for policy 0, policy_version 72224 (0.0006)
+[2023-07-06 11:04:57,278][98493] Updated weights for policy 0, policy_version 72281 (0.0008)
+[2023-07-06 11:04:58,964][98493] Updated weights for policy 0, policy_version 72345 (0.0007)
+[2023-07-06 11:04:59,449][98493] Updated weights for policy 0, policy_version 72388 (0.0006)
+[2023-07-06 11:04:59,764][98243] Fps is (10 sec: 117964.1, 60 sec: 112503.9, 300 sec: 111744.4). Total num frames: 148307968. Throughput: 0: 27966.7. Samples: 37119488. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:04:59,764][98243] Avg episode reward: [(0, '8.800')]
+[2023-07-06 11:04:59,910][98493] Updated weights for policy 0, policy_version 72443 (0.0008)
+[2023-07-06 11:04:59,937][98449] Saving new best policy, reward=8.800!
+[2023-07-06 11:05:01,465][98493] Updated weights for policy 0, policy_version 72507 (0.0008)
+[2023-07-06 11:05:02,374][98493] Updated weights for policy 0, policy_version 72575 (0.0009)
+[2023-07-06 11:05:03,819][98493] Updated weights for policy 0, policy_version 72624 (0.0008)
+[2023-07-06 11:05:04,304][98449] Signal inference workers to stop experience collection... (3750 times)
+[2023-07-06 11:05:04,330][98493] Updated weights for policy 0, policy_version 72678 (0.0007)
+[2023-07-06 11:05:04,336][98493] InferenceWorker_p0-w0: stopping experience collection (3750 times)
+[2023-07-06 11:05:04,388][98449] Signal inference workers to resume experience collection... (3750 times)
+[2023-07-06 11:05:04,389][98493] InferenceWorker_p0-w0: resuming experience collection (3750 times)
+[2023-07-06 11:05:04,764][98243] Fps is (10 sec: 114688.3, 60 sec: 112503.4, 300 sec: 111966.6). Total num frames: 148897792. Throughput: 0: 27955.2. Samples: 37282304. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:05:04,764][98243] Avg episode reward: [(0, '8.740')]
+[2023-07-06 11:05:05,854][98493] Updated weights for policy 0, policy_version 72707 (0.0006)
+[2023-07-06 11:05:06,314][98493] Updated weights for policy 0, policy_version 72764 (0.0007)
+[2023-07-06 11:05:07,052][98493] Updated weights for policy 0, policy_version 72816 (0.0007)
+[2023-07-06 11:05:08,278][98493] Updated weights for policy 0, policy_version 72869 (0.0007)
+[2023-07-06 11:05:08,716][98493] Updated weights for policy 0, policy_version 72915 (0.0008)
+[2023-07-06 11:05:09,085][98493] Updated weights for policy 0, policy_version 72960 (0.0008)
+[2023-07-06 11:05:09,764][98243] Fps is (10 sec: 111410.8, 60 sec: 111411.4, 300 sec: 111966.6). Total num frames: 149422080. Throughput: 0: 28057.6. Samples: 37369856. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:05:09,765][98243] Avg episode reward: [(0, '8.710')]
+[2023-07-06 11:05:10,917][98493] Updated weights for policy 0, policy_version 73019 (0.0007)
+[2023-07-06 11:05:11,978][98493] Updated weights for policy 0, policy_version 73088 (0.0007)
+[2023-07-06 11:05:13,198][98493] Updated weights for policy 0, policy_version 73138 (0.0006)
+[2023-07-06 11:05:13,579][98493] Updated weights for policy 0, policy_version 73184 (0.0007)
+[2023-07-06 11:05:14,764][98243] Fps is (10 sec: 104856.8, 60 sec: 110865.1, 300 sec: 111966.6). Total num frames: 149946368. Throughput: 0: 27966.5. Samples: 37534208. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:05:14,765][98243] Avg episode reward: [(0, '8.780')]
+[2023-07-06 11:05:15,324][98493] Updated weights for policy 0, policy_version 73248 (0.0006)
+[2023-07-06 11:05:16,442][98493] Updated weights for policy 0, policy_version 73296 (0.0006)
+[2023-07-06 11:05:17,380][98493] Updated weights for policy 0, policy_version 73348 (0.0007)
+[2023-07-06 11:05:17,868][98493] Updated weights for policy 0, policy_version 73408 (0.0007)
+[2023-07-06 11:05:18,368][98493] Updated weights for policy 0, policy_version 73465 (0.0006)
+[2023-07-06 11:05:19,764][98243] Fps is (10 sec: 104855.8, 60 sec: 109772.4, 300 sec: 111744.4). Total num frames: 150470656. Throughput: 0: 28137.1. Samples: 37705728. Policy #0 lag: (min: 31.0, avg: 133.7, max: 287.0)
+[2023-07-06 11:05:19,765][98243] Avg episode reward: [(0, '8.700')]
+[2023-07-06 11:05:20,225][98493] Updated weights for policy 0, policy_version 73532 (0.0007)
+[2023-07-06 11:05:21,486][98493] Updated weights for policy 0, policy_version 73571 (0.0007)
+[2023-07-06 11:05:22,175][98493] Updated weights for policy 0, policy_version 73622 (0.0006)
+[2023-07-06 11:05:22,560][98449] Signal inference workers to stop experience collection... (3800 times)
+[2023-07-06 11:05:22,591][98493] InferenceWorker_p0-w0: stopping experience collection (3800 times)
+[2023-07-06 11:05:22,663][98449] Signal inference workers to resume experience collection... (3800 times)
+[2023-07-06 11:05:22,663][98493] InferenceWorker_p0-w0: resuming experience collection (3800 times)
+[2023-07-06 11:05:22,664][98493] Updated weights for policy 0, policy_version 73680 (0.0006)
+[2023-07-06 11:05:24,543][98493] Updated weights for policy 0, policy_version 73736 (0.0008)
+[2023-07-06 11:05:24,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110318.9, 300 sec: 111855.5). Total num frames: 151060480. Throughput: 0: 28000.7. Samples: 37785600. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:24,765][98243] Avg episode reward: [(0, '8.630')]
+[2023-07-06 11:05:24,972][98493] Updated weights for policy 0, policy_version 73791 (0.0007)
+[2023-07-06 11:05:26,382][98493] Updated weights for policy 0, policy_version 73849 (0.0007)
+[2023-07-06 11:05:27,115][98493] Updated weights for policy 0, policy_version 73904 (0.0006)
+[2023-07-06 11:05:27,766][98493] Updated weights for policy 0, policy_version 73977 (0.0007)
+[2023-07-06 11:05:29,627][98493] Updated weights for policy 0, policy_version 74032 (0.0008)
+[2023-07-06 11:05:29,764][98243] Fps is (10 sec: 117967.7, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 151650304. Throughput: 0: 28057.6. Samples: 37953536. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:29,764][98243] Avg episode reward: [(0, '8.600')]
+[2023-07-06 11:05:30,933][98493] Updated weights for policy 0, policy_version 74080 (0.0009)
+[2023-07-06 11:05:31,495][98493] Updated weights for policy 0, policy_version 74135 (0.0007)
+[2023-07-06 11:05:32,015][98493] Updated weights for policy 0, policy_version 74179 (0.0007)
+[2023-07-06 11:05:34,100][98493] Updated weights for policy 0, policy_version 74242 (0.0007)
+[2023-07-06 11:05:34,551][98493] Updated weights for policy 0, policy_version 74297 (0.0008)
+[2023-07-06 11:05:34,764][98243] Fps is (10 sec: 111411.5, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 152174592. Throughput: 0: 27977.9. Samples: 38122496. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:34,765][98243] Avg episode reward: [(0, '8.750')]
+[2023-07-06 11:05:35,612][98493] Updated weights for policy 0, policy_version 74340 (0.0007)
+[2023-07-06 11:05:36,167][98493] Updated weights for policy 0, policy_version 74400 (0.0008)
+[2023-07-06 11:05:36,614][98493] Updated weights for policy 0, policy_version 74433 (0.0006)
+[2023-07-06 11:05:37,087][98493] Updated weights for policy 0, policy_version 74496 (0.0007)
+[2023-07-06 11:05:38,928][98493] Updated weights for policy 0, policy_version 74555 (0.0006)
+[2023-07-06 11:05:39,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 152698880. Throughput: 0: 27955.2. Samples: 38205440. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:39,765][98243] Avg episode reward: [(0, '8.930')]
+[2023-07-06 11:05:39,771][98449] Saving new best policy, reward=8.930!
+[2023-07-06 11:05:40,425][98493] Updated weights for policy 0, policy_version 74608 (0.0008)
+[2023-07-06 11:05:40,854][98493] Updated weights for policy 0, policy_version 74656 (0.0008)
+[2023-07-06 11:05:40,915][98449] Signal inference workers to stop experience collection... (3850 times)
+[2023-07-06 11:05:40,950][98493] InferenceWorker_p0-w0: stopping experience collection (3850 times)
+[2023-07-06 11:05:40,990][98449] Signal inference workers to resume experience collection... (3850 times)
+[2023-07-06 11:05:40,990][98493] InferenceWorker_p0-w0: resuming experience collection (3850 times)
+[2023-07-06 11:05:41,492][98493] Updated weights for policy 0, policy_version 74706 (0.0007)
+[2023-07-06 11:05:43,342][98493] Updated weights for policy 0, policy_version 74768 (0.0008)
+[2023-07-06 11:05:43,757][98493] Updated weights for policy 0, policy_version 74816 (0.0007)
+[2023-07-06 11:05:44,764][98243] Fps is (10 sec: 104855.6, 60 sec: 111410.8, 300 sec: 111300.0). Total num frames: 153223168. Throughput: 0: 27864.0. Samples: 38373376. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:44,765][98243] Avg episode reward: [(0, '8.860')]
+[2023-07-06 11:05:45,334][98493] Updated weights for policy 0, policy_version 74880 (0.0008)
+[2023-07-06 11:05:45,890][98493] Updated weights for policy 0, policy_version 74937 (0.0007)
+[2023-07-06 11:05:46,420][98493] Updated weights for policy 0, policy_version 75001 (0.0008)
+[2023-07-06 11:05:48,270][98493] Updated weights for policy 0, policy_version 75057 (0.0007)
+[2023-07-06 11:05:49,764][98243] Fps is (10 sec: 111411.9, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 153812992. Throughput: 0: 28012.1. Samples: 38542848. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:49,765][98243] Avg episode reward: [(0, '8.710')]
+[2023-07-06 11:05:49,854][98493] Updated weights for policy 0, policy_version 75120 (0.0006)
+[2023-07-06 11:05:50,484][98493] Updated weights for policy 0, policy_version 75174 (0.0006)
+[2023-07-06 11:05:51,094][98493] Updated weights for policy 0, policy_version 75248 (0.0008)
+[2023-07-06 11:05:53,011][98493] Updated weights for policy 0, policy_version 75301 (0.0007)
+[2023-07-06 11:05:54,369][98493] Updated weights for policy 0, policy_version 75344 (0.0006)
+[2023-07-06 11:05:54,764][98243] Fps is (10 sec: 114690.9, 60 sec: 110319.0, 300 sec: 111411.2). Total num frames: 154370048. Throughput: 0: 27887.0. Samples: 38624768. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:54,764][98243] Avg episode reward: [(0, '8.630')]
+[2023-07-06 11:05:54,898][98493] Updated weights for policy 0, policy_version 75408 (0.0011)
+[2023-07-06 11:05:55,374][98493] Updated weights for policy 0, policy_version 75458 (0.0008)
+[2023-07-06 11:05:55,854][98493] Updated weights for policy 0, policy_version 75520 (0.0007)
+[2023-07-06 11:05:57,742][98493] Updated weights for policy 0, policy_version 75573 (0.0006)
+[2023-07-06 11:05:59,405][98493] Updated weights for policy 0, policy_version 75606 (0.0006)
+[2023-07-06 11:05:59,513][98449] Signal inference workers to stop experience collection... (3900 times)
+[2023-07-06 11:05:59,547][98493] InferenceWorker_p0-w0: stopping experience collection (3900 times)
+[2023-07-06 11:05:59,614][98449] Signal inference workers to resume experience collection... (3900 times)
+[2023-07-06 11:05:59,615][98493] InferenceWorker_p0-w0: resuming experience collection (3900 times)
+[2023-07-06 11:05:59,764][98243] Fps is (10 sec: 111411.7, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 154927104. Throughput: 0: 27989.4. Samples: 38793728. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:05:59,765][98243] Avg episode reward: [(0, '8.630')]
+[2023-07-06 11:05:59,969][98493] Updated weights for policy 0, policy_version 75666 (0.0007)
+[2023-07-06 11:06:00,401][98493] Updated weights for policy 0, policy_version 75718 (0.0007)
+[2023-07-06 11:06:02,123][98493] Updated weights for policy 0, policy_version 75783 (0.0007)
+[2023-07-06 11:06:04,015][98493] Updated weights for policy 0, policy_version 75843 (0.0006)
+[2023-07-06 11:06:04,462][98493] Updated weights for policy 0, policy_version 75893 (0.0008)
+[2023-07-06 11:06:04,764][98243] Fps is (10 sec: 111410.2, 60 sec: 109772.7, 300 sec: 111633.6). Total num frames: 155484160. Throughput: 0: 27875.7. Samples: 38960128. Policy #0 lag: (min: 63.0, avg: 187.3, max: 325.0)
+[2023-07-06 11:06:04,765][98243] Avg episode reward: [(0, '8.600')]
+[2023-07-06 11:06:04,948][98493] Updated weights for policy 0, policy_version 75952 (0.0006)
+[2023-07-06 11:06:05,446][98493] Updated weights for policy 0, policy_version 76007 (0.0007)
+[2023-07-06 11:06:06,816][98493] Updated weights for policy 0, policy_version 76051 (0.0007)
+[2023-07-06 11:06:08,630][98493] Updated weights for policy 0, policy_version 76100 (0.0007)
+[2023-07-06 11:06:09,046][98493] Updated weights for policy 0, policy_version 76146 (0.0007)
+[2023-07-06 11:06:09,503][98493] Updated weights for policy 0, policy_version 76200 (0.0007)
+[2023-07-06 11:06:09,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 156106752. Throughput: 0: 27955.3. Samples: 39043584. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:09,764][98243] Avg episode reward: [(0, '8.610')]
+[2023-07-06 11:06:09,961][98493] Updated weights for policy 0, policy_version 76256 (0.0006)
+[2023-07-06 11:06:11,263][98493] Updated weights for policy 0, policy_version 76304 (0.0007)
+[2023-07-06 11:06:11,711][98493] Updated weights for policy 0, policy_version 76352 (0.0006)
+[2023-07-06 11:06:13,581][98493] Updated weights for policy 0, policy_version 76400 (0.0006)
+[2023-07-06 11:06:14,153][98493] Updated weights for policy 0, policy_version 76464 (0.0008)
+[2023-07-06 11:06:14,639][98449] Signal inference workers to stop experience collection... (3950 times)
+[2023-07-06 11:06:14,671][98493] InferenceWorker_p0-w0: stopping experience collection (3950 times)
+[2023-07-06 11:06:14,673][98493] Updated weights for policy 0, policy_version 76518 (0.0007)
+[2023-07-06 11:06:14,722][98449] Signal inference workers to resume experience collection... (3950 times)
+[2023-07-06 11:06:14,723][98493] InferenceWorker_p0-w0: resuming experience collection (3950 times)
+[2023-07-06 11:06:14,764][98243] Fps is (10 sec: 124517.7, 60 sec: 113049.5, 300 sec: 111966.5). Total num frames: 156729344. Throughput: 0: 28000.6. Samples: 39213568. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:14,765][98243] Avg episode reward: [(0, '8.690')]
+[2023-07-06 11:06:16,040][98493] Updated weights for policy 0, policy_version 76576 (0.0014)
+[2023-07-06 11:06:17,976][98493] Updated weights for policy 0, policy_version 76614 (0.0006)
+[2023-07-06 11:06:18,403][98493] Updated weights for policy 0, policy_version 76661 (0.0007)
+[2023-07-06 11:06:18,822][98493] Updated weights for policy 0, policy_version 76708 (0.0008)
+[2023-07-06 11:06:19,436][98493] Updated weights for policy 0, policy_version 76784 (0.0007)
+[2023-07-06 11:06:19,764][98243] Fps is (10 sec: 117964.0, 60 sec: 113596.1, 300 sec: 111855.5). Total num frames: 157286400. Throughput: 0: 27898.3. Samples: 39377920. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:19,765][98243] Avg episode reward: [(0, '8.610')]
+[2023-07-06 11:06:20,835][98493] Updated weights for policy 0, policy_version 76832 (0.0006)
+[2023-07-06 11:06:22,735][98493] Updated weights for policy 0, policy_version 76896 (0.0007)
+[2023-07-06 11:06:23,384][98493] Updated weights for policy 0, policy_version 76967 (0.0008)
+[2023-07-06 11:06:23,914][98493] Updated weights for policy 0, policy_version 77026 (0.0007)
+[2023-07-06 11:06:24,764][98243] Fps is (10 sec: 108134.8, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 157810688. Throughput: 0: 28080.4. Samples: 39469056. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:24,765][98243] Avg episode reward: [(0, '8.520')]
+[2023-07-06 11:06:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000077056_157810688.pth...
+[2023-07-06 11:06:24,797][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000063920_130908160.pth
+[2023-07-06 11:06:25,661][98493] Updated weights for policy 0, policy_version 77092 (0.0007)
+[2023-07-06 11:06:27,742][98493] Updated weights for policy 0, policy_version 77160 (0.0007)
+[2023-07-06 11:06:28,296][98493] Updated weights for policy 0, policy_version 77222 (0.0008)
+[2023-07-06 11:06:28,715][98493] Updated weights for policy 0, policy_version 77270 (0.0008)
+[2023-07-06 11:06:29,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 158334976. Throughput: 0: 27830.1. Samples: 39625728. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:29,765][98243] Avg episode reward: [(0, '8.600')]
+[2023-07-06 11:06:29,992][98493] Updated weights for policy 0, policy_version 77314 (0.0006)
+[2023-07-06 11:06:30,467][98493] Updated weights for policy 0, policy_version 77376 (0.0006)
+[2023-07-06 11:06:32,674][98449] Signal inference workers to stop experience collection... (4000 times)
+[2023-07-06 11:06:32,694][98493] Updated weights for policy 0, policy_version 77443 (0.0008)
+[2023-07-06 11:06:32,726][98493] InferenceWorker_p0-w0: stopping experience collection (4000 times)
+[2023-07-06 11:06:32,764][98449] Signal inference workers to resume experience collection... (4000 times)
+[2023-07-06 11:06:32,765][98493] InferenceWorker_p0-w0: resuming experience collection (4000 times)
+[2023-07-06 11:06:33,134][98493] Updated weights for policy 0, policy_version 77490 (0.0008)
+[2023-07-06 11:06:33,651][98493] Updated weights for policy 0, policy_version 77552 (0.0008)
+[2023-07-06 11:06:34,641][98493] Updated weights for policy 0, policy_version 77604 (0.0008)
+[2023-07-06 11:06:34,765][98243] Fps is (10 sec: 114678.5, 60 sec: 113047.9, 300 sec: 111855.3). Total num frames: 158957568. Throughput: 0: 27772.6. Samples: 39792640. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:34,766][98243] Avg episode reward: [(0, '8.690')]
+[2023-07-06 11:06:37,100][98493] Updated weights for policy 0, policy_version 77664 (0.0007)
+[2023-07-06 11:06:37,654][98493] Updated weights for policy 0, policy_version 77728 (0.0009)
+[2023-07-06 11:06:38,205][98493] Updated weights for policy 0, policy_version 77792 (0.0007)
+[2023-07-06 11:06:39,090][98493] Updated weights for policy 0, policy_version 77848 (0.0006)
+[2023-07-06 11:06:39,765][98243] Fps is (10 sec: 117958.7, 60 sec: 113594.8, 300 sec: 111633.1). Total num frames: 159514624. Throughput: 0: 27852.4. Samples: 39878144. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:39,765][98243] Avg episode reward: [(0, '8.710')]
+[2023-07-06 11:06:41,709][98493] Updated weights for policy 0, policy_version 77892 (0.0006)
+[2023-07-06 11:06:42,288][98493] Updated weights for policy 0, policy_version 77956 (0.0008)
+[2023-07-06 11:06:42,789][98493] Updated weights for policy 0, policy_version 78016 (0.0007)
+[2023-07-06 11:06:43,275][98493] Updated weights for policy 0, policy_version 78074 (0.0008)
+[2023-07-06 11:06:44,061][98493] Updated weights for policy 0, policy_version 78137 (0.0008)
+[2023-07-06 11:06:44,764][98243] Fps is (10 sec: 108144.1, 60 sec: 113596.1, 300 sec: 111522.3). Total num frames: 160038912. Throughput: 0: 27739.0. Samples: 40041984. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:44,768][98243] Avg episode reward: [(0, '8.590')]
+[2023-07-06 11:06:46,820][98493] Updated weights for policy 0, policy_version 78208 (0.0008)
+[2023-07-06 11:06:47,329][98493] Updated weights for policy 0, policy_version 78264 (0.0007)
+[2023-07-06 11:06:47,722][98493] Updated weights for policy 0, policy_version 78304 (0.0008)
+[2023-07-06 11:06:48,584][98449] Signal inference workers to stop experience collection... (4050 times)
+[2023-07-06 11:06:48,619][98493] InferenceWorker_p0-w0: stopping experience collection (4050 times)
+[2023-07-06 11:06:48,624][98493] Updated weights for policy 0, policy_version 78361 (0.0006)
+[2023-07-06 11:06:48,658][98449] Signal inference workers to resume experience collection... (4050 times)
+[2023-07-06 11:06:48,658][98493] InferenceWorker_p0-w0: resuming experience collection (4050 times)
+[2023-07-06 11:06:49,764][98243] Fps is (10 sec: 104863.3, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 160563200. Throughput: 0: 27795.9. Samples: 40210944. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:49,765][98243] Avg episode reward: [(0, '8.530')]
+[2023-07-06 11:06:51,102][98493] Updated weights for policy 0, policy_version 78407 (0.0007)
+[2023-07-06 11:06:51,673][98493] Updated weights for policy 0, policy_version 78467 (0.0007)
+[2023-07-06 11:06:52,351][98493] Updated weights for policy 0, policy_version 78544 (0.0007)
+[2023-07-06 11:06:52,932][98493] Updated weights for policy 0, policy_version 78594 (0.0009)
+[2023-07-06 11:06:53,384][98493] Updated weights for policy 0, policy_version 78651 (0.0007)
+[2023-07-06 11:06:54,764][98243] Fps is (10 sec: 104857.0, 60 sec: 111957.1, 300 sec: 111522.3). Total num frames: 161087488. Throughput: 0: 27739.0. Samples: 40291840. Policy #0 lag: (min: 55.0, avg: 130.1, max: 311.0)
+[2023-07-06 11:06:54,765][98243] Avg episode reward: [(0, '8.500')]
+[2023-07-06 11:06:56,074][98493] Updated weights for policy 0, policy_version 78695 (0.0007)
+[2023-07-06 11:06:56,628][98493] Updated weights for policy 0, policy_version 78758 (0.0008)
+[2023-07-06 11:06:57,282][98493] Updated weights for policy 0, policy_version 78808 (0.0006)
+[2023-07-06 11:06:57,690][98493] Updated weights for policy 0, policy_version 78848 (0.0008)
+[2023-07-06 11:06:58,253][98493] Updated weights for policy 0, policy_version 78912 (0.0008)
+[2023-07-06 11:06:59,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 161611776. Throughput: 0: 27693.6. Samples: 40459776. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:06:59,765][98243] Avg episode reward: [(0, '8.380')]
+[2023-07-06 11:07:00,933][98493] Updated weights for policy 0, policy_version 78980 (0.0007)
+[2023-07-06 11:07:01,354][98493] Updated weights for policy 0, policy_version 79037 (0.0006)
+[2023-07-06 11:07:02,234][98493] Updated weights for policy 0, policy_version 79097 (0.0007)
+[2023-07-06 11:07:02,965][98493] Updated weights for policy 0, policy_version 79162 (0.0006)
+[2023-07-06 11:07:04,764][98243] Fps is (10 sec: 104857.8, 60 sec: 110865.1, 300 sec: 111522.4). Total num frames: 162136064. Throughput: 0: 27864.2. Samples: 40631808. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:04,765][98243] Avg episode reward: [(0, '8.340')]
+[2023-07-06 11:07:05,536][98493] Updated weights for policy 0, policy_version 79217 (0.0008)
+[2023-07-06 11:07:05,985][98493] Updated weights for policy 0, policy_version 79267 (0.0006)
+[2023-07-06 11:07:06,596][98449] Signal inference workers to stop experience collection... (4100 times)
+[2023-07-06 11:07:06,639][98493] InferenceWorker_p0-w0: stopping experience collection (4100 times)
+[2023-07-06 11:07:06,647][98493] Updated weights for policy 0, policy_version 79320 (0.0006)
+[2023-07-06 11:07:06,682][98449] Signal inference workers to resume experience collection... (4100 times)
+[2023-07-06 11:07:06,683][98493] InferenceWorker_p0-w0: resuming experience collection (4100 times)
+[2023-07-06 11:07:07,218][98493] Updated weights for policy 0, policy_version 79364 (0.0006)
+[2023-07-06 11:07:07,676][98493] Updated weights for policy 0, policy_version 79423 (0.0007)
+[2023-07-06 11:07:09,764][98243] Fps is (10 sec: 104856.6, 60 sec: 109226.4, 300 sec: 111522.3). Total num frames: 162660352. Throughput: 0: 27545.6. Samples: 40708608. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:09,765][98243] Avg episode reward: [(0, '8.480')]
+[2023-07-06 11:07:10,254][98493] Updated weights for policy 0, policy_version 79473 (0.0007)
+[2023-07-06 11:07:10,805][98493] Updated weights for policy 0, policy_version 79542 (0.0007)
+[2023-07-06 11:07:11,316][98493] Updated weights for policy 0, policy_version 79573 (0.0007)
+[2023-07-06 11:07:12,173][98493] Updated weights for policy 0, policy_version 79641 (0.0007)
+[2023-07-06 11:07:14,738][98493] Updated weights for policy 0, policy_version 79681 (0.0006)
+[2023-07-06 11:07:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 107588.4, 300 sec: 111522.3). Total num frames: 163184640. Throughput: 0: 27852.8. Samples: 40879104. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:14,765][98243] Avg episode reward: [(0, '8.570')]
+[2023-07-06 11:07:15,373][98493] Updated weights for policy 0, policy_version 79760 (0.0007)
+[2023-07-06 11:07:15,941][98493] Updated weights for policy 0, policy_version 79824 (0.0007)
+[2023-07-06 11:07:16,344][98493] Updated weights for policy 0, policy_version 79869 (0.0007)
+[2023-07-06 11:07:17,186][98493] Updated weights for policy 0, policy_version 79931 (0.0007)
+[2023-07-06 11:07:19,705][98493] Updated weights for policy 0, policy_version 79984 (0.0007)
+[2023-07-06 11:07:19,764][98243] Fps is (10 sec: 114688.9, 60 sec: 108680.5, 300 sec: 111633.4). Total num frames: 163807232. Throughput: 0: 27853.3. Samples: 41046016. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:19,765][98243] Avg episode reward: [(0, '8.700')]
+[2023-07-06 11:07:20,191][98493] Updated weights for policy 0, policy_version 80035 (0.0007)
+[2023-07-06 11:07:20,637][98493] Updated weights for policy 0, policy_version 80084 (0.0009)
+[2023-07-06 11:07:21,789][98493] Updated weights for policy 0, policy_version 80160 (0.0007)
+[2023-07-06 11:07:23,858][98493] Updated weights for policy 0, policy_version 80193 (0.0007)
+[2023-07-06 11:07:24,323][98493] Updated weights for policy 0, policy_version 80255 (0.0007)
+[2023-07-06 11:07:24,666][98449] Signal inference workers to stop experience collection... (4150 times)
+[2023-07-06 11:07:24,703][98493] InferenceWorker_p0-w0: stopping experience collection (4150 times)
+[2023-07-06 11:07:24,742][98449] Signal inference workers to resume experience collection... (4150 times)
+[2023-07-06 11:07:24,743][98493] InferenceWorker_p0-w0: resuming experience collection (4150 times)
+[2023-07-06 11:07:24,764][98243] Fps is (10 sec: 124519.1, 60 sec: 110319.1, 300 sec: 111855.6). Total num frames: 164429824. Throughput: 0: 27750.8. Samples: 41126912. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:24,765][98243] Avg episode reward: [(0, '8.640')]
+[2023-07-06 11:07:24,918][98493] Updated weights for policy 0, policy_version 80304 (0.0008)
+[2023-07-06 11:07:25,650][98493] Updated weights for policy 0, policy_version 80368 (0.0008)
+[2023-07-06 11:07:26,503][98493] Updated weights for policy 0, policy_version 80432 (0.0007)
+[2023-07-06 11:07:29,015][98493] Updated weights for policy 0, policy_version 80484 (0.0007)
+[2023-07-06 11:07:29,516][98493] Updated weights for policy 0, policy_version 80544 (0.0008)
+[2023-07-06 11:07:29,764][98243] Fps is (10 sec: 117964.7, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 164986880. Throughput: 0: 27932.4. Samples: 41298944. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:29,765][98243] Avg episode reward: [(0, '8.560')]
+[2023-07-06 11:07:30,077][98493] Updated weights for policy 0, policy_version 80592 (0.0007)
+[2023-07-06 11:07:30,472][98493] Updated weights for policy 0, policy_version 80637 (0.0008)
+[2023-07-06 11:07:31,228][98493] Updated weights for policy 0, policy_version 80689 (0.0008)
+[2023-07-06 11:07:33,435][98493] Updated weights for policy 0, policy_version 80720 (0.0006)
+[2023-07-06 11:07:34,109][98493] Updated weights for policy 0, policy_version 80769 (0.0008)
+[2023-07-06 11:07:34,711][98493] Updated weights for policy 0, policy_version 80840 (0.0008)
+[2023-07-06 11:07:34,764][98243] Fps is (10 sec: 114688.3, 60 sec: 110320.7, 300 sec: 111744.6). Total num frames: 165576704. Throughput: 0: 27739.1. Samples: 41459200. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:34,765][98243] Avg episode reward: [(0, '8.450')]
+[2023-07-06 11:07:35,180][98493] Updated weights for policy 0, policy_version 80896 (0.0007)
+[2023-07-06 11:07:35,845][98493] Updated weights for policy 0, policy_version 80954 (0.0008)
+[2023-07-06 11:07:38,612][98493] Updated weights for policy 0, policy_version 81008 (0.0006)
+[2023-07-06 11:07:39,268][98493] Updated weights for policy 0, policy_version 81064 (0.0007)
+[2023-07-06 11:07:39,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110319.9, 300 sec: 111633.4). Total num frames: 166133760. Throughput: 0: 27875.6. Samples: 41546240. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:39,765][98243] Avg episode reward: [(0, '8.450')]
+[2023-07-06 11:07:39,806][98493] Updated weights for policy 0, policy_version 81126 (0.0008)
+[2023-07-06 11:07:40,545][98493] Updated weights for policy 0, policy_version 81189 (0.0007)
+[2023-07-06 11:07:43,379][98493] Updated weights for policy 0, policy_version 81253 (0.0007)
+[2023-07-06 11:07:43,550][98449] Signal inference workers to stop experience collection... (4200 times)
+[2023-07-06 11:07:43,574][98449] Signal inference workers to resume experience collection... (4200 times)
+[2023-07-06 11:07:43,581][98493] InferenceWorker_p0-w0: stopping experience collection (4200 times)
+[2023-07-06 11:07:43,608][98493] InferenceWorker_p0-w0: resuming experience collection (4200 times)
+[2023-07-06 11:07:43,960][98493] Updated weights for policy 0, policy_version 81318 (0.0007)
+[2023-07-06 11:07:44,514][98493] Updated weights for policy 0, policy_version 81383 (0.0007)
+[2023-07-06 11:07:44,765][98243] Fps is (10 sec: 114681.3, 60 sec: 111410.2, 300 sec: 111522.1). Total num frames: 166723584. Throughput: 0: 27807.0. Samples: 41711104. Policy #0 lag: (min: 15.0, avg: 147.8, max: 271.0)
+[2023-07-06 11:07:44,766][98243] Avg episode reward: [(0, '8.450')]
+[2023-07-06 11:07:44,985][98493] Updated weights for policy 0, policy_version 81432 (0.0008)
+[2023-07-06 11:07:47,839][98493] Updated weights for policy 0, policy_version 81475 (0.0006)
+[2023-07-06 11:07:48,259][98493] Updated weights for policy 0, policy_version 81528 (0.0007)
+[2023-07-06 11:07:48,625][98493] Updated weights for policy 0, policy_version 81568 (0.0007)
+[2023-07-06 11:07:49,190][98493] Updated weights for policy 0, policy_version 81632 (0.0008)
+[2023-07-06 11:07:49,712][98493] Updated weights for policy 0, policy_version 81680 (0.0007)
+[2023-07-06 11:07:49,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111957.3, 300 sec: 111633.4). Total num frames: 167280640. Throughput: 0: 27579.7. Samples: 41872896. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:07:49,765][98243] Avg episode reward: [(0, '8.500')]
+[2023-07-06 11:07:52,669][98493] Updated weights for policy 0, policy_version 81750 (0.0007)
+[2023-07-06 11:07:53,071][98493] Updated weights for policy 0, policy_version 81793 (0.0007)
+[2023-07-06 11:07:53,549][98493] Updated weights for policy 0, policy_version 81856 (0.0008)
+[2023-07-06 11:07:54,197][98493] Updated weights for policy 0, policy_version 81920 (0.0007)
+[2023-07-06 11:07:54,764][98243] Fps is (10 sec: 114691.9, 60 sec: 113049.3, 300 sec: 111855.4). Total num frames: 167870464. Throughput: 0: 27875.5. Samples: 41963008. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:07:54,766][98243] Avg episode reward: [(0, '8.550')]
+[2023-07-06 11:07:54,776][98493] Updated weights for policy 0, policy_version 81979 (0.0007)
+[2023-07-06 11:07:57,382][98493] Updated weights for policy 0, policy_version 82032 (0.0007)
+[2023-07-06 11:07:58,044][98493] Updated weights for policy 0, policy_version 82096 (0.0008)
+[2023-07-06 11:07:58,751][98493] Updated weights for policy 0, policy_version 82144 (0.0006)
+[2023-07-06 11:07:59,504][98493] Updated weights for policy 0, policy_version 82200 (0.0007)
+[2023-07-06 11:07:59,764][98243] Fps is (10 sec: 111411.3, 60 sec: 113049.6, 300 sec: 111744.4). Total num frames: 168394752. Throughput: 0: 27704.9. Samples: 42125824. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:07:59,765][98243] Avg episode reward: [(0, '8.660')]
+[2023-07-06 11:07:59,834][98493] Updated weights for policy 0, policy_version 82240 (0.0007)
+[2023-07-06 11:08:01,534][98449] Signal inference workers to stop experience collection... (4250 times)
+[2023-07-06 11:08:01,549][98493] InferenceWorker_p0-w0: stopping experience collection (4250 times)
+[2023-07-06 11:08:01,611][98449] Signal inference workers to resume experience collection... (4250 times)
+[2023-07-06 11:08:01,611][98493] InferenceWorker_p0-w0: resuming experience collection (4250 times)
+[2023-07-06 11:08:01,931][98493] Updated weights for policy 0, policy_version 82294 (0.0007)
+[2023-07-06 11:08:02,301][98493] Updated weights for policy 0, policy_version 82326 (0.0007)
+[2023-07-06 11:08:02,694][98493] Updated weights for policy 0, policy_version 82367 (0.0006)
+[2023-07-06 11:08:03,573][98493] Updated weights for policy 0, policy_version 82421 (0.0007)
+[2023-07-06 11:08:04,026][98493] Updated weights for policy 0, policy_version 82449 (0.0007)
+[2023-07-06 11:08:04,340][98493] Updated weights for policy 0, policy_version 82493 (0.0009)
+[2023-07-06 11:08:04,764][98243] Fps is (10 sec: 108135.3, 60 sec: 113595.6, 300 sec: 111744.5). Total num frames: 168951808. Throughput: 0: 27784.5. Samples: 42296320. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:04,765][98243] Avg episode reward: [(0, '8.520')]
+[2023-07-06 11:08:06,418][98493] Updated weights for policy 0, policy_version 82535 (0.0007)
+[2023-07-06 11:08:06,996][98493] Updated weights for policy 0, policy_version 82599 (0.0006)
+[2023-07-06 11:08:07,756][98493] Updated weights for policy 0, policy_version 82632 (0.0006)
+[2023-07-06 11:08:08,191][98493] Updated weights for policy 0, policy_version 82688 (0.0007)
+[2023-07-06 11:08:08,897][98493] Updated weights for policy 0, policy_version 82746 (0.0006)
+[2023-07-06 11:08:09,764][98243] Fps is (10 sec: 108134.2, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 169476096. Throughput: 0: 27966.5. Samples: 42385408. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:09,765][98243] Avg episode reward: [(0, '8.570')]
+[2023-07-06 11:08:11,101][98493] Updated weights for policy 0, policy_version 82808 (0.0008)
+[2023-07-06 11:08:11,605][98493] Updated weights for policy 0, policy_version 82854 (0.0007)
+[2023-07-06 11:08:12,933][98493] Updated weights for policy 0, policy_version 82919 (0.0007)
+[2023-07-06 11:08:13,497][98493] Updated weights for policy 0, policy_version 82979 (0.0009)
+[2023-07-06 11:08:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113595.6, 300 sec: 111522.4). Total num frames: 170000384. Throughput: 0: 27807.3. Samples: 42550272. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:14,765][98243] Avg episode reward: [(0, '8.480')]
+[2023-07-06 11:08:15,045][98493] Updated weights for policy 0, policy_version 83013 (0.0007)
+[2023-07-06 11:08:15,477][98493] Updated weights for policy 0, policy_version 83065 (0.0006)
+[2023-07-06 11:08:16,002][98493] Updated weights for policy 0, policy_version 83107 (0.0006)
+[2023-07-06 11:08:17,621][98493] Updated weights for policy 0, policy_version 83170 (0.0006)
+[2023-07-06 11:08:18,273][98493] Updated weights for policy 0, policy_version 83216 (0.0006)
+[2023-07-06 11:08:19,596][98449] Signal inference workers to stop experience collection... (4300 times)
+[2023-07-06 11:08:19,617][98493] Updated weights for policy 0, policy_version 83268 (0.0006)
+[2023-07-06 11:08:19,641][98493] InferenceWorker_p0-w0: stopping experience collection (4300 times)
+[2023-07-06 11:08:19,698][98449] Signal inference workers to resume experience collection... (4300 times)
+[2023-07-06 11:08:19,698][98493] InferenceWorker_p0-w0: resuming experience collection (4300 times)
+[2023-07-06 11:08:19,764][98243] Fps is (10 sec: 108134.3, 60 sec: 112503.5, 300 sec: 111633.4). Total num frames: 170557440. Throughput: 0: 28103.1. Samples: 42723840. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:19,765][98243] Avg episode reward: [(0, '8.750')]
+[2023-07-06 11:08:20,063][98493] Updated weights for policy 0, policy_version 83323 (0.0007)
+[2023-07-06 11:08:20,454][98493] Updated weights for policy 0, policy_version 83360 (0.0007)
+[2023-07-06 11:08:22,040][98493] Updated weights for policy 0, policy_version 83408 (0.0008)
+[2023-07-06 11:08:23,002][98493] Updated weights for policy 0, policy_version 83457 (0.0006)
+[2023-07-06 11:08:23,434][98493] Updated weights for policy 0, policy_version 83515 (0.0007)
+[2023-07-06 11:08:24,723][98493] Updated weights for policy 0, policy_version 83557 (0.0007)
+[2023-07-06 11:08:24,764][98243] Fps is (10 sec: 111412.5, 60 sec: 111411.2, 300 sec: 111744.5). Total num frames: 171114496. Throughput: 0: 27989.4. Samples: 42805760. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:24,764][98243] Avg episode reward: [(0, '8.680')]
+[2023-07-06 11:08:24,913][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000083584_171180032.pth...
+[2023-07-06 11:08:24,995][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000070528_144441344.pth
+[2023-07-06 11:08:25,460][98493] Updated weights for policy 0, policy_version 83645 (0.0008)
+[2023-07-06 11:08:27,150][98493] Updated weights for policy 0, policy_version 83705 (0.0007)
+[2023-07-06 11:08:28,160][98493] Updated weights for policy 0, policy_version 83760 (0.0007)
+[2023-07-06 11:08:29,387][98493] Updated weights for policy 0, policy_version 83824 (0.0007)
+[2023-07-06 11:08:29,764][98243] Fps is (10 sec: 117965.5, 60 sec: 112503.6, 300 sec: 111744.5). Total num frames: 171737088. Throughput: 0: 28046.6. Samples: 42973184. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:29,764][98243] Avg episode reward: [(0, '8.830')]
+[2023-07-06 11:08:29,910][98493] Updated weights for policy 0, policy_version 83880 (0.0007)
+[2023-07-06 11:08:31,401][98493] Updated weights for policy 0, policy_version 83928 (0.0007)
+[2023-07-06 11:08:32,567][98493] Updated weights for policy 0, policy_version 83970 (0.0007)
+[2023-07-06 11:08:33,053][98493] Updated weights for policy 0, policy_version 84032 (0.0007)
+[2023-07-06 11:08:34,336][98493] Updated weights for policy 0, policy_version 84089 (0.0006)
+[2023-07-06 11:08:34,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111957.2, 300 sec: 111744.5). Total num frames: 172294144. Throughput: 0: 28080.4. Samples: 43136512. Policy #0 lag: (min: 15.0, avg: 77.7, max: 271.0)
+[2023-07-06 11:08:34,764][98243] Avg episode reward: [(0, '8.720')]
+[2023-07-06 11:08:34,768][98493] Updated weights for policy 0, policy_version 84144 (0.0006)
+[2023-07-06 11:08:36,259][98493] Updated weights for policy 0, policy_version 84202 (0.0007)
+[2023-07-06 11:08:37,407][98449] Signal inference workers to stop experience collection... (4350 times)
+[2023-07-06 11:08:37,417][98493] Updated weights for policy 0, policy_version 84242 (0.0006)
+[2023-07-06 11:08:37,443][98493] InferenceWorker_p0-w0: stopping experience collection (4350 times)
+[2023-07-06 11:08:37,502][98449] Signal inference workers to resume experience collection... (4350 times)
+[2023-07-06 11:08:37,503][98493] InferenceWorker_p0-w0: resuming experience collection (4350 times)
+[2023-07-06 11:08:37,742][98493] Updated weights for policy 0, policy_version 84283 (0.0010)
+[2023-07-06 11:08:39,010][98493] Updated weights for policy 0, policy_version 84337 (0.0008)
+[2023-07-06 11:08:39,498][98493] Updated weights for policy 0, policy_version 84400 (0.0008)
+[2023-07-06 11:08:39,764][98243] Fps is (10 sec: 114687.6, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 172883968. Throughput: 0: 28023.6. Samples: 43224064. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:08:39,765][98243] Avg episode reward: [(0, '8.780')]
+[2023-07-06 11:08:40,765][98493] Updated weights for policy 0, policy_version 84454 (0.0007)
+[2023-07-06 11:08:42,191][98493] Updated weights for policy 0, policy_version 84500 (0.0006)
+[2023-07-06 11:08:42,528][98493] Updated weights for policy 0, policy_version 84544 (0.0006)
+[2023-07-06 11:08:43,859][98493] Updated weights for policy 0, policy_version 84624 (0.0008)
+[2023-07-06 11:08:44,269][98493] Updated weights for policy 0, policy_version 84672 (0.0007)
+[2023-07-06 11:08:44,764][98243] Fps is (10 sec: 111409.1, 60 sec: 111411.8, 300 sec: 111744.4). Total num frames: 173408256. Throughput: 0: 28171.3. Samples: 43393536. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:08:44,765][98243] Avg episode reward: [(0, '8.830')]
+[2023-07-06 11:08:46,485][98493] Updated weights for policy 0, policy_version 84739 (0.0007)
+[2023-07-06 11:08:48,237][98493] Updated weights for policy 0, policy_version 84816 (0.0008)
+[2023-07-06 11:08:48,773][98493] Updated weights for policy 0, policy_version 84880 (0.0007)
+[2023-07-06 11:08:49,137][98493] Updated weights for policy 0, policy_version 84921 (0.0008)
+[2023-07-06 11:08:49,764][98243] Fps is (10 sec: 111411.6, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 173998080. Throughput: 0: 28057.7. Samples: 43558912. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:08:49,765][98243] Avg episode reward: [(0, '8.800')]
+[2023-07-06 11:08:49,946][98493] Updated weights for policy 0, policy_version 84984 (0.0008)
+[2023-07-06 11:08:51,481][98493] Updated weights for policy 0, policy_version 85040 (0.0008)
+[2023-07-06 11:08:53,271][98493] Updated weights for policy 0, policy_version 85089 (0.0007)
+[2023-07-06 11:08:53,792][98493] Updated weights for policy 0, policy_version 85152 (0.0007)
+[2023-07-06 11:08:54,521][98493] Updated weights for policy 0, policy_version 85201 (0.0007)
+[2023-07-06 11:08:54,654][98449] Signal inference workers to stop experience collection... (4400 times)
+[2023-07-06 11:08:54,700][98493] InferenceWorker_p0-w0: stopping experience collection (4400 times)
+[2023-07-06 11:08:54,735][98449] Signal inference workers to resume experience collection... (4400 times)
+[2023-07-06 11:08:54,735][98493] InferenceWorker_p0-w0: resuming experience collection (4400 times)
+[2023-07-06 11:08:54,764][98243] Fps is (10 sec: 114690.0, 60 sec: 111411.5, 300 sec: 111855.6). Total num frames: 174555136. Throughput: 0: 27989.3. Samples: 43644928. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:08:54,765][98243] Avg episode reward: [(0, '8.870')]
+[2023-07-06 11:08:56,041][98493] Updated weights for policy 0, policy_version 85251 (0.0008)
+[2023-07-06 11:08:56,478][98493] Updated weights for policy 0, policy_version 85310 (0.0006)
+[2023-07-06 11:08:58,004][98493] Updated weights for policy 0, policy_version 85367 (0.0007)
+[2023-07-06 11:08:58,511][98493] Updated weights for policy 0, policy_version 85433 (0.0008)
+[2023-07-06 11:08:59,463][98493] Updated weights for policy 0, policy_version 85488 (0.0009)
+[2023-07-06 11:08:59,764][98243] Fps is (10 sec: 111409.2, 60 sec: 111957.1, 300 sec: 111744.4). Total num frames: 175112192. Throughput: 0: 27943.8. Samples: 43807744. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:08:59,765][98243] Avg episode reward: [(0, '8.890')]
+[2023-07-06 11:09:01,205][98493] Updated weights for policy 0, policy_version 85522 (0.0007)
+[2023-07-06 11:09:02,269][98493] Updated weights for policy 0, policy_version 85576 (0.0007)
+[2023-07-06 11:09:02,812][98493] Updated weights for policy 0, policy_version 85635 (0.0008)
+[2023-07-06 11:09:03,242][98493] Updated weights for policy 0, policy_version 85693 (0.0007)
+[2023-07-06 11:09:04,008][98493] Updated weights for policy 0, policy_version 85753 (0.0007)
+[2023-07-06 11:09:04,764][98243] Fps is (10 sec: 108133.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 175636480. Throughput: 0: 27807.2. Samples: 43975168. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:09:04,765][98243] Avg episode reward: [(0, '8.900')]
+[2023-07-06 11:09:05,947][98493] Updated weights for policy 0, policy_version 85792 (0.0006)
+[2023-07-06 11:09:07,201][98493] Updated weights for policy 0, policy_version 85856 (0.0008)
+[2023-07-06 11:09:07,768][98493] Updated weights for policy 0, policy_version 85920 (0.0008)
+[2023-07-06 11:09:08,306][98493] Updated weights for policy 0, policy_version 85957 (0.0006)
+[2023-07-06 11:09:09,764][98243] Fps is (10 sec: 104858.8, 60 sec: 111411.2, 300 sec: 111411.2). Total num frames: 176160768. Throughput: 0: 27875.5. Samples: 44060160. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:09:09,765][98243] Avg episode reward: [(0, '9.090')]
+[2023-07-06 11:09:09,768][98449] Saving new best policy, reward=9.090!
+[2023-07-06 11:09:10,304][98493] Updated weights for policy 0, policy_version 86017 (0.0007)
+[2023-07-06 11:09:10,732][98493] Updated weights for policy 0, policy_version 86077 (0.0006)
+[2023-07-06 11:09:11,927][98493] Updated weights for policy 0, policy_version 86128 (0.0007)
+[2023-07-06 11:09:12,489][98493] Updated weights for policy 0, policy_version 86192 (0.0007)
+[2023-07-06 11:09:13,066][98449] Signal inference workers to stop experience collection... (4450 times)
+[2023-07-06 11:09:13,107][98493] InferenceWorker_p0-w0: stopping experience collection (4450 times)
+[2023-07-06 11:09:13,159][98449] Signal inference workers to resume experience collection... (4450 times)
+[2023-07-06 11:09:13,160][98493] InferenceWorker_p0-w0: resuming experience collection (4450 times)
+[2023-07-06 11:09:13,367][98493] Updated weights for policy 0, policy_version 86245 (0.0019)
+[2023-07-06 11:09:14,764][98243] Fps is (10 sec: 104858.7, 60 sec: 111411.3, 300 sec: 111189.0). Total num frames: 176685056. Throughput: 0: 27830.0. Samples: 44225536. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:09:14,765][98243] Avg episode reward: [(0, '9.180')]
+[2023-07-06 11:09:14,765][98449] Saving new best policy, reward=9.180!
+[2023-07-06 11:09:15,361][98493] Updated weights for policy 0, policy_version 86306 (0.0008)
+[2023-07-06 11:09:16,507][98493] Updated weights for policy 0, policy_version 86368 (0.0007)
+[2023-07-06 11:09:17,173][98493] Updated weights for policy 0, policy_version 86438 (0.0008)
+[2023-07-06 11:09:18,143][98493] Updated weights for policy 0, policy_version 86501 (0.0007)
+[2023-07-06 11:09:19,765][98243] Fps is (10 sec: 104852.9, 60 sec: 110864.2, 300 sec: 111077.8). Total num frames: 177209344. Throughput: 0: 28000.4. Samples: 44396544. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:09:19,766][98243] Avg episode reward: [(0, '9.090')]
+[2023-07-06 11:09:20,036][98493] Updated weights for policy 0, policy_version 86550 (0.0008)
+[2023-07-06 11:09:20,928][98493] Updated weights for policy 0, policy_version 86594 (0.0006)
+[2023-07-06 11:09:21,320][98493] Updated weights for policy 0, policy_version 86640 (0.0009)
+[2023-07-06 11:09:21,855][98493] Updated weights for policy 0, policy_version 86704 (0.0007)
+[2023-07-06 11:09:22,705][98493] Updated weights for policy 0, policy_version 86752 (0.0007)
+[2023-07-06 11:09:24,764][98243] Fps is (10 sec: 108134.2, 60 sec: 110865.0, 300 sec: 111189.0). Total num frames: 177766400. Throughput: 0: 27852.8. Samples: 44477440. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:09:24,765][98243] Avg episode reward: [(0, '9.040')]
+[2023-07-06 11:09:24,846][98493] Updated weights for policy 0, policy_version 86816 (0.0007)
+[2023-07-06 11:09:25,525][98493] Updated weights for policy 0, policy_version 86849 (0.0009)
+[2023-07-06 11:09:26,025][98493] Updated weights for policy 0, policy_version 86912 (0.0007)
+[2023-07-06 11:09:26,542][98493] Updated weights for policy 0, policy_version 86968 (0.0008)
+[2023-07-06 11:09:27,432][98493] Updated weights for policy 0, policy_version 87024 (0.0007)
+[2023-07-06 11:09:29,248][98493] Updated weights for policy 0, policy_version 87072 (0.0006)
+[2023-07-06 11:09:29,764][98243] Fps is (10 sec: 117970.3, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 178388992. Throughput: 0: 27921.2. Samples: 44649984. Policy #0 lag: (min: 47.0, avg: 140.3, max: 287.0)
+[2023-07-06 11:09:29,765][98243] Avg episode reward: [(0, '9.080')]
+[2023-07-06 11:09:30,450][98493] Updated weights for policy 0, policy_version 87129 (0.0007)
+[2023-07-06 11:09:30,947][98493] Updated weights for policy 0, policy_version 87184 (0.0007)
+[2023-07-06 11:09:30,998][98449] Signal inference workers to stop experience collection... (4500 times)
+[2023-07-06 11:09:31,040][98493] InferenceWorker_p0-w0: stopping experience collection (4500 times)
+[2023-07-06 11:09:31,084][98449] Signal inference workers to resume experience collection... (4500 times)
+[2023-07-06 11:09:31,084][98493] InferenceWorker_p0-w0: resuming experience collection (4500 times)
+[2023-07-06 11:09:31,749][98493] Updated weights for policy 0, policy_version 87235 (0.0007)
+[2023-07-06 11:09:32,199][98493] Updated weights for policy 0, policy_version 87290 (0.0008)
+[2023-07-06 11:09:33,963][98493] Updated weights for policy 0, policy_version 87353 (0.0007)
+[2023-07-06 11:09:34,764][98243] Fps is (10 sec: 114689.0, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 178913280. Throughput: 0: 28023.5. Samples: 44819968. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:09:34,765][98243] Avg episode reward: [(0, '8.970')]
+[2023-07-06 11:09:35,278][98493] Updated weights for policy 0, policy_version 87417 (0.0007)
+[2023-07-06 11:09:35,932][98493] Updated weights for policy 0, policy_version 87482 (0.0007)
+[2023-07-06 11:09:36,802][98493] Updated weights for policy 0, policy_version 87536 (0.0006)
+[2023-07-06 11:09:38,428][98493] Updated weights for policy 0, policy_version 87588 (0.0007)
+[2023-07-06 11:09:39,764][98243] Fps is (10 sec: 108133.9, 60 sec: 109772.7, 300 sec: 111633.3). Total num frames: 179470336. Throughput: 0: 27898.3. Samples: 44900352. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:09:39,765][98243] Avg episode reward: [(0, '8.870')]
+[2023-07-06 11:09:39,956][98493] Updated weights for policy 0, policy_version 87658 (0.0007)
+[2023-07-06 11:09:40,621][98493] Updated weights for policy 0, policy_version 87712 (0.0006)
+[2023-07-06 11:09:41,075][98493] Updated weights for policy 0, policy_version 87747 (0.0007)
+[2023-07-06 11:09:42,844][98493] Updated weights for policy 0, policy_version 87809 (0.0007)
+[2023-07-06 11:09:43,304][98493] Updated weights for policy 0, policy_version 87867 (0.0008)
+[2023-07-06 11:09:44,564][98493] Updated weights for policy 0, policy_version 87909 (0.0007)
+[2023-07-06 11:09:44,764][98243] Fps is (10 sec: 117962.9, 60 sec: 111411.3, 300 sec: 111744.4). Total num frames: 180092928. Throughput: 0: 28012.1. Samples: 45068288. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:09:44,765][98243] Avg episode reward: [(0, '8.940')]
+[2023-07-06 11:09:45,295][98493] Updated weights for policy 0, policy_version 87952 (0.0007)
+[2023-07-06 11:09:45,859][98493] Updated weights for policy 0, policy_version 88016 (0.0008)
+[2023-07-06 11:09:46,289][98493] Updated weights for policy 0, policy_version 88064 (0.0009)
+[2023-07-06 11:09:47,979][98493] Updated weights for policy 0, policy_version 88128 (0.0008)
+[2023-07-06 11:09:49,467][98493] Updated weights for policy 0, policy_version 88182 (0.0007)
+[2023-07-06 11:09:49,764][98243] Fps is (10 sec: 114688.9, 60 sec: 110318.9, 300 sec: 111411.2). Total num frames: 180617216. Throughput: 0: 28057.7. Samples: 45237760. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:09:49,765][98243] Avg episode reward: [(0, '9.120')]
+[2023-07-06 11:09:50,074][98493] Updated weights for policy 0, policy_version 88209 (0.0007)
+[2023-07-06 11:09:50,220][98449] Signal inference workers to stop experience collection... (4550 times)
+[2023-07-06 11:09:50,258][98493] InferenceWorker_p0-w0: stopping experience collection (4550 times)
+[2023-07-06 11:09:50,286][98449] Signal inference workers to resume experience collection... (4550 times)
+[2023-07-06 11:09:50,286][98493] InferenceWorker_p0-w0: resuming experience collection (4550 times)
+[2023-07-06 11:09:50,568][98493] Updated weights for policy 0, policy_version 88272 (0.0007)
+[2023-07-06 11:09:52,278][98493] Updated weights for policy 0, policy_version 88322 (0.0007)
+[2023-07-06 11:09:52,734][98493] Updated weights for policy 0, policy_version 88379 (0.0007)
+[2023-07-06 11:09:54,041][98493] Updated weights for policy 0, policy_version 88423 (0.0006)
+[2023-07-06 11:09:54,526][98493] Updated weights for policy 0, policy_version 88473 (0.0007)
+[2023-07-06 11:09:54,764][98243] Fps is (10 sec: 114689.0, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 181239808. Throughput: 0: 27989.3. Samples: 45319680. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:09:54,765][98243] Avg episode reward: [(0, '9.100')]
+[2023-07-06 11:09:54,960][98493] Updated weights for policy 0, policy_version 88517 (0.0007)
+[2023-07-06 11:09:55,388][98493] Updated weights for policy 0, policy_version 88573 (0.0007)
+[2023-07-06 11:09:57,253][98493] Updated weights for policy 0, policy_version 88613 (0.0008)
+[2023-07-06 11:09:58,563][98493] Updated weights for policy 0, policy_version 88662 (0.0007)
+[2023-07-06 11:09:59,058][98493] Updated weights for policy 0, policy_version 88720 (0.0007)
+[2023-07-06 11:09:59,623][98493] Updated weights for policy 0, policy_version 88784 (0.0009)
+[2023-07-06 11:09:59,764][98243] Fps is (10 sec: 124517.5, 60 sec: 112503.6, 300 sec: 111744.4). Total num frames: 181862400. Throughput: 0: 28171.4. Samples: 45493248. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:09:59,765][98243] Avg episode reward: [(0, '8.990')]
+[2023-07-06 11:10:01,527][98493] Updated weights for policy 0, policy_version 88834 (0.0007)
+[2023-07-06 11:10:03,128][98493] Updated weights for policy 0, policy_version 88897 (0.0006)
+[2023-07-06 11:10:03,630][98493] Updated weights for policy 0, policy_version 88957 (0.0007)
+[2023-07-06 11:10:04,104][98493] Updated weights for policy 0, policy_version 88995 (0.0006)
+[2023-07-06 11:10:04,733][98493] Updated weights for policy 0, policy_version 89072 (0.0008)
+[2023-07-06 11:10:04,764][98243] Fps is (10 sec: 117964.9, 60 sec: 113049.8, 300 sec: 111855.5). Total num frames: 182419456. Throughput: 0: 27944.1. Samples: 45654016. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:10:04,765][98243] Avg episode reward: [(0, '9.040')]
+[2023-07-06 11:10:06,538][98493] Updated weights for policy 0, policy_version 89129 (0.0007)
+[2023-07-06 11:10:08,105][98493] Updated weights for policy 0, policy_version 89184 (0.0007)
+[2023-07-06 11:10:08,150][98449] Signal inference workers to stop experience collection... (4600 times)
+[2023-07-06 11:10:08,190][98493] InferenceWorker_p0-w0: stopping experience collection (4600 times)
+[2023-07-06 11:10:08,237][98449] Signal inference workers to resume experience collection... (4600 times)
+[2023-07-06 11:10:08,238][98493] InferenceWorker_p0-w0: resuming experience collection (4600 times)
+[2023-07-06 11:10:08,905][98493] Updated weights for policy 0, policy_version 89234 (0.0008)
+[2023-07-06 11:10:09,377][98493] Updated weights for policy 0, policy_version 89286 (0.0007)
+[2023-07-06 11:10:09,777][98243] Fps is (10 sec: 107995.4, 60 sec: 113025.3, 300 sec: 111850.6). Total num frames: 182943744. Throughput: 0: 28129.2. Samples: 45743616. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:10:09,778][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:10:09,821][98493] Updated weights for policy 0, policy_version 89339 (0.0006)
+[2023-07-06 11:10:09,857][98449] Saving new best policy, reward=9.200!
+[2023-07-06 11:10:11,053][98493] Updated weights for policy 0, policy_version 89392 (0.0007)
+[2023-07-06 11:10:12,972][98493] Updated weights for policy 0, policy_version 89444 (0.0007)
+[2023-07-06 11:10:13,380][98493] Updated weights for policy 0, policy_version 89494 (0.0006)
+[2023-07-06 11:10:13,858][98493] Updated weights for policy 0, policy_version 89552 (0.0006)
+[2023-07-06 11:10:14,238][98493] Updated weights for policy 0, policy_version 89599 (0.0006)
+[2023-07-06 11:10:14,764][98243] Fps is (10 sec: 108133.1, 60 sec: 113595.5, 300 sec: 111966.6). Total num frames: 183500800. Throughput: 0: 27921.0. Samples: 45906432. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:10:14,765][98243] Avg episode reward: [(0, '9.190')]
+[2023-07-06 11:10:15,793][98493] Updated weights for policy 0, policy_version 89658 (0.0007)
+[2023-07-06 11:10:17,647][98493] Updated weights for policy 0, policy_version 89703 (0.0007)
+[2023-07-06 11:10:18,136][98493] Updated weights for policy 0, policy_version 89760 (0.0029)
+[2023-07-06 11:10:18,743][98493] Updated weights for policy 0, policy_version 89824 (0.0007)
+[2023-07-06 11:10:19,764][98243] Fps is (10 sec: 108274.1, 60 sec: 113596.6, 300 sec: 111744.4). Total num frames: 184025088. Throughput: 0: 27886.9. Samples: 46074880. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:10:19,765][98243] Avg episode reward: [(0, '8.980')]
+[2023-07-06 11:10:20,206][98493] Updated weights for policy 0, policy_version 89879 (0.0006)
+[2023-07-06 11:10:21,806][98493] Updated weights for policy 0, policy_version 89936 (0.0006)
+[2023-07-06 11:10:22,889][98493] Updated weights for policy 0, policy_version 90000 (0.0007)
+[2023-07-06 11:10:23,414][98493] Updated weights for policy 0, policy_version 90050 (0.0007)
+[2023-07-06 11:10:23,828][98493] Updated weights for policy 0, policy_version 90108 (0.0006)
+[2023-07-06 11:10:24,764][98243] Fps is (10 sec: 104857.1, 60 sec: 113049.3, 300 sec: 111522.2). Total num frames: 184549376. Throughput: 0: 28046.2. Samples: 46162432. Policy #0 lag: (min: 6.0, avg: 153.1, max: 262.0)
+[2023-07-06 11:10:24,765][98243] Avg episode reward: [(0, '8.840')]
+[2023-07-06 11:10:25,001][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000090144_184614912.pth...
+[2023-07-06 11:10:25,086][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000077056_157810688.pth
+[2023-07-06 11:10:25,088][98449] Signal inference workers to stop experience collection... (4650 times)
+[2023-07-06 11:10:25,112][98493] InferenceWorker_p0-w0: stopping experience collection (4650 times)
+[2023-07-06 11:10:25,197][98449] Signal inference workers to resume experience collection... (4650 times)
+[2023-07-06 11:10:25,198][98493] InferenceWorker_p0-w0: resuming experience collection (4650 times)
+[2023-07-06 11:10:25,286][98493] Updated weights for policy 0, policy_version 90171 (0.0007)
+[2023-07-06 11:10:26,916][98493] Updated weights for policy 0, policy_version 90238 (0.0006)
+[2023-07-06 11:10:27,832][98493] Updated weights for policy 0, policy_version 90298 (0.0007)
+[2023-07-06 11:10:28,373][98493] Updated weights for policy 0, policy_version 90352 (0.0008)
+[2023-07-06 11:10:29,764][98243] Fps is (10 sec: 108134.7, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 185106432. Throughput: 0: 27875.6. Samples: 46322688. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:29,765][98243] Avg episode reward: [(0, '9.030')]
+[2023-07-06 11:10:29,889][98493] Updated weights for policy 0, policy_version 90401 (0.0007)
+[2023-07-06 11:10:31,446][98493] Updated weights for policy 0, policy_version 90448 (0.0006)
+[2023-07-06 11:10:31,915][98493] Updated weights for policy 0, policy_version 90498 (0.0029)
+[2023-07-06 11:10:32,418][98493] Updated weights for policy 0, policy_version 90560 (0.0010)
+[2023-07-06 11:10:33,179][98493] Updated weights for policy 0, policy_version 90621 (0.0007)
+[2023-07-06 11:10:34,764][98243] Fps is (10 sec: 111413.2, 60 sec: 112503.4, 300 sec: 111744.5). Total num frames: 185663488. Throughput: 0: 27852.8. Samples: 46491136. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:34,764][98243] Avg episode reward: [(0, '9.100')]
+[2023-07-06 11:10:34,866][98493] Updated weights for policy 0, policy_version 90682 (0.0006)
+[2023-07-06 11:10:36,412][98493] Updated weights for policy 0, policy_version 90737 (0.0007)
+[2023-07-06 11:10:36,831][98493] Updated weights for policy 0, policy_version 90774 (0.0012)
+[2023-07-06 11:10:37,442][98493] Updated weights for policy 0, policy_version 90848 (0.0008)
+[2023-07-06 11:10:39,457][98493] Updated weights for policy 0, policy_version 90904 (0.0007)
+[2023-07-06 11:10:39,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112503.6, 300 sec: 111855.6). Total num frames: 186220544. Throughput: 0: 27830.1. Samples: 46572032. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:39,764][98243] Avg episode reward: [(0, '9.000')]
+[2023-07-06 11:10:40,885][98493] Updated weights for policy 0, policy_version 90960 (0.0006)
+[2023-07-06 11:10:41,381][98493] Updated weights for policy 0, policy_version 91010 (0.0007)
+[2023-07-06 11:10:41,877][98493] Updated weights for policy 0, policy_version 91072 (0.0007)
+[2023-07-06 11:10:42,181][98449] Signal inference workers to stop experience collection... (4700 times)
+[2023-07-06 11:10:42,240][98493] InferenceWorker_p0-w0: stopping experience collection (4700 times)
+[2023-07-06 11:10:42,287][98449] Signal inference workers to resume experience collection... (4700 times)
+[2023-07-06 11:10:42,287][98493] InferenceWorker_p0-w0: resuming experience collection (4700 times)
+[2023-07-06 11:10:42,357][98493] Updated weights for policy 0, policy_version 91127 (0.0007)
+[2023-07-06 11:10:44,236][98493] Updated weights for policy 0, policy_version 91184 (0.0007)
+[2023-07-06 11:10:44,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.4, 300 sec: 111744.4). Total num frames: 186777600. Throughput: 0: 27864.2. Samples: 46747136. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:44,765][98243] Avg episode reward: [(0, '8.820')]
+[2023-07-06 11:10:45,662][98493] Updated weights for policy 0, policy_version 91220 (0.0006)
+[2023-07-06 11:10:46,218][98493] Updated weights for policy 0, policy_version 91283 (0.0008)
+[2023-07-06 11:10:46,652][98493] Updated weights for policy 0, policy_version 91331 (0.0007)
+[2023-07-06 11:10:47,117][98493] Updated weights for policy 0, policy_version 91392 (0.0006)
+[2023-07-06 11:10:49,059][98493] Updated weights for policy 0, policy_version 91456 (0.0006)
+[2023-07-06 11:10:49,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 187301888. Throughput: 0: 28069.0. Samples: 46917120. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:49,765][98243] Avg episode reward: [(0, '8.910')]
+[2023-07-06 11:10:50,582][98493] Updated weights for policy 0, policy_version 91509 (0.0007)
+[2023-07-06 11:10:51,145][98493] Updated weights for policy 0, policy_version 91573 (0.0007)
+[2023-07-06 11:10:51,617][98493] Updated weights for policy 0, policy_version 91622 (0.0007)
+[2023-07-06 11:10:53,297][98493] Updated weights for policy 0, policy_version 91664 (0.0010)
+[2023-07-06 11:10:54,765][98243] Fps is (10 sec: 104854.1, 60 sec: 109772.2, 300 sec: 111522.1). Total num frames: 187826176. Throughput: 0: 27894.7. Samples: 46998528. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:54,766][98243] Avg episode reward: [(0, '8.890')]
+[2023-07-06 11:10:54,817][98493] Updated weights for policy 0, policy_version 91713 (0.0015)
+[2023-07-06 11:10:55,271][98493] Updated weights for policy 0, policy_version 91765 (0.0007)
+[2023-07-06 11:10:55,765][98493] Updated weights for policy 0, policy_version 91824 (0.0008)
+[2023-07-06 11:10:56,325][98493] Updated weights for policy 0, policy_version 91888 (0.0007)
+[2023-07-06 11:10:58,055][98493] Updated weights for policy 0, policy_version 91927 (0.0007)
+[2023-07-06 11:10:59,494][98493] Updated weights for policy 0, policy_version 91970 (0.0020)
+[2023-07-06 11:10:59,764][98243] Fps is (10 sec: 111411.2, 60 sec: 109226.7, 300 sec: 111633.4). Total num frames: 188416000. Throughput: 0: 28034.9. Samples: 47168000. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:10:59,765][98243] Avg episode reward: [(0, '8.960')]
+[2023-07-06 11:11:00,016][98449] Signal inference workers to stop experience collection... (4750 times)
+[2023-07-06 11:11:00,047][98493] InferenceWorker_p0-w0: stopping experience collection (4750 times)
+[2023-07-06 11:11:00,047][98493] Updated weights for policy 0, policy_version 92036 (0.0008)
+[2023-07-06 11:11:00,115][98449] Signal inference workers to resume experience collection... (4750 times)
+[2023-07-06 11:11:00,115][98493] InferenceWorker_p0-w0: resuming experience collection (4750 times)
+[2023-07-06 11:11:00,495][98493] Updated weights for policy 0, policy_version 92083 (0.0007)
+[2023-07-06 11:11:00,989][98493] Updated weights for policy 0, policy_version 92144 (0.0007)
+[2023-07-06 11:11:02,660][98493] Updated weights for policy 0, policy_version 92181 (0.0007)
+[2023-07-06 11:11:02,997][98493] Updated weights for policy 0, policy_version 92224 (0.0007)
+[2023-07-06 11:11:04,624][98493] Updated weights for policy 0, policy_version 92288 (0.0007)
+[2023-07-06 11:11:04,764][98243] Fps is (10 sec: 121245.6, 60 sec: 110319.0, 300 sec: 111633.3). Total num frames: 189038592. Throughput: 0: 28012.1. Samples: 47335424. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:11:04,765][98243] Avg episode reward: [(0, '8.960')]
+[2023-07-06 11:11:05,162][98493] Updated weights for policy 0, policy_version 92346 (0.0007)
+[2023-07-06 11:11:05,615][98493] Updated weights for policy 0, policy_version 92389 (0.0006)
+[2023-07-06 11:11:07,199][98493] Updated weights for policy 0, policy_version 92442 (0.0007)
+[2023-07-06 11:11:08,986][98493] Updated weights for policy 0, policy_version 92514 (0.0007)
+[2023-07-06 11:11:09,515][98493] Updated weights for policy 0, policy_version 92576 (0.0008)
+[2023-07-06 11:11:09,764][98243] Fps is (10 sec: 121240.9, 60 sec: 111435.1, 300 sec: 111522.3). Total num frames: 189628416. Throughput: 0: 27955.3. Samples: 47420416. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:11:09,765][98243] Avg episode reward: [(0, '8.910')]
+[2023-07-06 11:11:10,160][98493] Updated weights for policy 0, policy_version 92640 (0.0007)
+[2023-07-06 11:11:11,858][98493] Updated weights for policy 0, policy_version 92673 (0.0007)
+[2023-07-06 11:11:13,391][98493] Updated weights for policy 0, policy_version 92752 (0.0006)
+[2023-07-06 11:11:14,086][98493] Updated weights for policy 0, policy_version 92804 (0.0007)
+[2023-07-06 11:11:14,596][98493] Updated weights for policy 0, policy_version 92864 (0.0007)
+[2023-07-06 11:11:14,764][98243] Fps is (10 sec: 114685.3, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 190185472. Throughput: 0: 28068.8. Samples: 47585792. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:11:14,765][98243] Avg episode reward: [(0, '8.970')]
+[2023-07-06 11:11:15,341][98493] Updated weights for policy 0, policy_version 92926 (0.0007)
+[2023-07-06 11:11:17,066][98493] Updated weights for policy 0, policy_version 92976 (0.0008)
+[2023-07-06 11:11:18,106][98449] Signal inference workers to stop experience collection... (4800 times)
+[2023-07-06 11:11:18,149][98493] InferenceWorker_p0-w0: stopping experience collection (4800 times)
+[2023-07-06 11:11:18,186][98449] Signal inference workers to resume experience collection... (4800 times)
+[2023-07-06 11:11:18,187][98493] InferenceWorker_p0-w0: resuming experience collection (4800 times)
+[2023-07-06 11:11:18,276][98493] Updated weights for policy 0, policy_version 93031 (0.0007)
+[2023-07-06 11:11:18,753][98493] Updated weights for policy 0, policy_version 93062 (0.0006)
+[2023-07-06 11:11:19,172][98493] Updated weights for policy 0, policy_version 93109 (0.0008)
+[2023-07-06 11:11:19,708][98493] Updated weights for policy 0, policy_version 93177 (0.0006)
+[2023-07-06 11:11:19,764][98243] Fps is (10 sec: 121243.0, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 190840832. Throughput: 0: 27978.0. Samples: 47750144. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 11:11:19,764][98243] Avg episode reward: [(0, '8.790')]
+[2023-07-06 11:11:21,648][98493] Updated weights for policy 0, policy_version 93222 (0.0007)
+[2023-07-06 11:11:22,841][98493] Updated weights for policy 0, policy_version 93280 (0.0007)
+[2023-07-06 11:11:23,500][98493] Updated weights for policy 0, policy_version 93328 (0.0007)
+[2023-07-06 11:11:24,153][98493] Updated weights for policy 0, policy_version 93392 (0.0007)
+[2023-07-06 11:11:24,764][98243] Fps is (10 sec: 117967.4, 60 sec: 113596.1, 300 sec: 111966.6). Total num frames: 191365120. Throughput: 0: 28239.6. Samples: 47842816. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:24,765][98243] Avg episode reward: [(0, '8.740')]
+[2023-07-06 11:11:25,956][98493] Updated weights for policy 0, policy_version 93442 (0.0007)
+[2023-07-06 11:11:26,413][98493] Updated weights for policy 0, policy_version 93500 (0.0006)
+[2023-07-06 11:11:27,829][98493] Updated weights for policy 0, policy_version 93568 (0.0007)
+[2023-07-06 11:11:28,624][98493] Updated weights for policy 0, policy_version 93626 (0.0006)
+[2023-07-06 11:11:29,186][98493] Updated weights for policy 0, policy_version 93665 (0.0007)
+[2023-07-06 11:11:29,764][98243] Fps is (10 sec: 104856.6, 60 sec: 113049.5, 300 sec: 111633.7). Total num frames: 191889408. Throughput: 0: 27921.0. Samples: 48003584. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:29,765][98243] Avg episode reward: [(0, '8.770')]
+[2023-07-06 11:11:30,822][98493] Updated weights for policy 0, policy_version 93714 (0.0007)
+[2023-07-06 11:11:32,098][98493] Updated weights for policy 0, policy_version 93776 (0.0008)
+[2023-07-06 11:11:32,543][98493] Updated weights for policy 0, policy_version 93824 (0.0007)
+[2023-07-06 11:11:33,234][98493] Updated weights for policy 0, policy_version 93882 (0.0007)
+[2023-07-06 11:11:33,692][98493] Updated weights for policy 0, policy_version 93925 (0.0006)
+[2023-07-06 11:11:34,764][98243] Fps is (10 sec: 104856.7, 60 sec: 112503.3, 300 sec: 111522.5). Total num frames: 192413696. Throughput: 0: 27966.5. Samples: 48175616. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:34,765][98243] Avg episode reward: [(0, '8.850')]
+[2023-07-06 11:11:35,534][98493] Updated weights for policy 0, policy_version 93990 (0.0008)
+[2023-07-06 11:11:36,630][98449] Signal inference workers to stop experience collection... (4850 times)
+[2023-07-06 11:11:36,670][98493] InferenceWorker_p0-w0: stopping experience collection (4850 times)
+[2023-07-06 11:11:36,678][98493] Updated weights for policy 0, policy_version 94039 (0.0009)
+[2023-07-06 11:11:36,718][98449] Signal inference workers to resume experience collection... (4850 times)
+[2023-07-06 11:11:36,718][98493] InferenceWorker_p0-w0: resuming experience collection (4850 times)
+[2023-07-06 11:11:37,024][98493] Updated weights for policy 0, policy_version 94080 (0.0007)
+[2023-07-06 11:11:37,978][98493] Updated weights for policy 0, policy_version 94139 (0.0008)
+[2023-07-06 11:11:38,487][98493] Updated weights for policy 0, policy_version 94193 (0.0008)
+[2023-07-06 11:11:39,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111957.0, 300 sec: 111522.2). Total num frames: 192937984. Throughput: 0: 28057.7. Samples: 48261120. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:39,765][98243] Avg episode reward: [(0, '8.890')]
+[2023-07-06 11:11:40,066][98493] Updated weights for policy 0, policy_version 94243 (0.0006)
+[2023-07-06 11:11:41,355][98493] Updated weights for policy 0, policy_version 94288 (0.0007)
+[2023-07-06 11:11:41,777][98493] Updated weights for policy 0, policy_version 94336 (0.0006)
+[2023-07-06 11:11:42,599][98493] Updated weights for policy 0, policy_version 94391 (0.0007)
+[2023-07-06 11:11:43,009][98493] Updated weights for policy 0, policy_version 94441 (0.0007)
+[2023-07-06 11:11:44,466][98493] Updated weights for policy 0, policy_version 94483 (0.0007)
+[2023-07-06 11:11:44,764][98243] Fps is (10 sec: 114689.1, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 193560576. Throughput: 0: 28023.5. Samples: 48429056. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:44,764][98243] Avg episode reward: [(0, '8.950')]
+[2023-07-06 11:11:46,160][98493] Updated weights for policy 0, policy_version 94544 (0.0006)
+[2023-07-06 11:11:46,609][98493] Updated weights for policy 0, policy_version 94592 (0.0006)
+[2023-07-06 11:11:47,366][98493] Updated weights for policy 0, policy_version 94649 (0.0008)
+[2023-07-06 11:11:47,886][98493] Updated weights for policy 0, policy_version 94704 (0.0008)
+[2023-07-06 11:11:49,085][98493] Updated weights for policy 0, policy_version 94752 (0.0007)
+[2023-07-06 11:11:49,764][98243] Fps is (10 sec: 117965.1, 60 sec: 113595.5, 300 sec: 111966.6). Total num frames: 194117632. Throughput: 0: 28091.7. Samples: 48599552. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:49,765][98243] Avg episode reward: [(0, '8.850')]
+[2023-07-06 11:11:50,761][98493] Updated weights for policy 0, policy_version 94800 (0.0007)
+[2023-07-06 11:11:51,554][98493] Updated weights for policy 0, policy_version 94850 (0.0030)
+[2023-07-06 11:11:52,042][98493] Updated weights for policy 0, policy_version 94912 (0.0007)
+[2023-07-06 11:11:52,478][98493] Updated weights for policy 0, policy_version 94960 (0.0007)
+[2023-07-06 11:11:53,762][98449] Signal inference workers to stop experience collection... (4900 times)
+[2023-07-06 11:11:53,803][98493] InferenceWorker_p0-w0: stopping experience collection (4900 times)
+[2023-07-06 11:11:53,804][98493] Updated weights for policy 0, policy_version 95016 (0.0007)
+[2023-07-06 11:11:53,845][98449] Signal inference workers to resume experience collection... (4900 times)
+[2023-07-06 11:11:53,845][98493] InferenceWorker_p0-w0: resuming experience collection (4900 times)
+[2023-07-06 11:11:54,764][98243] Fps is (10 sec: 108132.8, 60 sec: 113596.1, 300 sec: 111966.5). Total num frames: 194641920. Throughput: 0: 28080.3. Samples: 48684032. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:54,765][98243] Avg episode reward: [(0, '8.850')]
+[2023-07-06 11:11:55,422][98493] Updated weights for policy 0, policy_version 95072 (0.0007)
+[2023-07-06 11:11:56,219][98493] Updated weights for policy 0, policy_version 95120 (0.0006)
+[2023-07-06 11:11:56,888][98493] Updated weights for policy 0, policy_version 95200 (0.0009)
+[2023-07-06 11:11:58,235][98493] Updated weights for policy 0, policy_version 95248 (0.0007)
+[2023-07-06 11:11:58,665][98493] Updated weights for policy 0, policy_version 95293 (0.0006)
+[2023-07-06 11:11:59,764][98243] Fps is (10 sec: 104858.8, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 195166208. Throughput: 0: 28160.1. Samples: 48852992. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:11:59,765][98243] Avg episode reward: [(0, '8.860')]
+[2023-07-06 11:12:00,363][98493] Updated weights for policy 0, policy_version 95334 (0.0006)
+[2023-07-06 11:12:00,903][98493] Updated weights for policy 0, policy_version 95376 (0.0007)
+[2023-07-06 11:12:01,464][98493] Updated weights for policy 0, policy_version 95440 (0.0008)
+[2023-07-06 11:12:02,632][98493] Updated weights for policy 0, policy_version 95489 (0.0007)
+[2023-07-06 11:12:03,073][98493] Updated weights for policy 0, policy_version 95543 (0.0006)
+[2023-07-06 11:12:04,764][98243] Fps is (10 sec: 104858.9, 60 sec: 110865.0, 300 sec: 111966.6). Total num frames: 195690496. Throughput: 0: 28421.6. Samples: 49029120. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:12:04,765][98243] Avg episode reward: [(0, '8.880')]
+[2023-07-06 11:12:05,061][98493] Updated weights for policy 0, policy_version 95591 (0.0007)
+[2023-07-06 11:12:05,696][98493] Updated weights for policy 0, policy_version 95635 (0.0007)
+[2023-07-06 11:12:06,274][98493] Updated weights for policy 0, policy_version 95699 (0.0007)
+[2023-07-06 11:12:07,020][98493] Updated weights for policy 0, policy_version 95746 (0.0008)
+[2023-07-06 11:12:07,459][98493] Updated weights for policy 0, policy_version 95804 (0.0007)
+[2023-07-06 11:12:09,764][98243] Fps is (10 sec: 111409.4, 60 sec: 110864.9, 300 sec: 112188.7). Total num frames: 196280320. Throughput: 0: 28057.5. Samples: 49105408. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:12:09,765][98243] Avg episode reward: [(0, '8.870')]
+[2023-07-06 11:12:09,834][98493] Updated weights for policy 0, policy_version 95856 (0.0017)
+[2023-07-06 11:12:10,601][98493] Updated weights for policy 0, policy_version 95920 (0.0006)
+[2023-07-06 11:12:11,196][98493] Updated weights for policy 0, policy_version 95984 (0.0007)
+[2023-07-06 11:12:11,663][98449] Signal inference workers to stop experience collection... (4950 times)
+[2023-07-06 11:12:11,706][98493] InferenceWorker_p0-w0: stopping experience collection (4950 times)
+[2023-07-06 11:12:11,752][98449] Signal inference workers to resume experience collection... (4950 times)
+[2023-07-06 11:12:11,752][98493] InferenceWorker_p0-w0: resuming experience collection (4950 times)
+[2023-07-06 11:12:11,838][98493] Updated weights for policy 0, policy_version 96021 (0.0007)
+[2023-07-06 11:12:14,276][98493] Updated weights for policy 0, policy_version 96080 (0.0009)
+[2023-07-06 11:12:14,764][98243] Fps is (10 sec: 117962.5, 60 sec: 111411.2, 300 sec: 112077.6). Total num frames: 196870144. Throughput: 0: 28353.3. Samples: 49279488. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:12:14,765][98243] Avg episode reward: [(0, '8.880')]
+[2023-07-06 11:12:15,144][98493] Updated weights for policy 0, policy_version 96150 (0.0007)
+[2023-07-06 11:12:15,754][98493] Updated weights for policy 0, policy_version 96212 (0.0007)
+[2023-07-06 11:12:16,427][98493] Updated weights for policy 0, policy_version 96261 (0.0007)
+[2023-07-06 11:12:16,930][98493] Updated weights for policy 0, policy_version 96320 (0.0007)
+[2023-07-06 11:12:19,126][98493] Updated weights for policy 0, policy_version 96384 (0.0008)
+[2023-07-06 11:12:19,765][98243] Fps is (10 sec: 111407.6, 60 sec: 109225.7, 300 sec: 111744.2). Total num frames: 197394432. Throughput: 0: 28273.5. Samples: 49447936. Policy #0 lag: (min: 22.0, avg: 108.7, max: 278.0)
+[2023-07-06 11:12:19,766][98243] Avg episode reward: [(0, '8.900')]
+[2023-07-06 11:12:20,316][98493] Updated weights for policy 0, policy_version 96437 (0.0007)
+[2023-07-06 11:12:20,845][98493] Updated weights for policy 0, policy_version 96506 (0.0007)
+[2023-07-06 11:12:21,437][98493] Updated weights for policy 0, policy_version 96569 (0.0008)
+[2023-07-06 11:12:23,461][98493] Updated weights for policy 0, policy_version 96612 (0.0006)
+[2023-07-06 11:12:24,686][98493] Updated weights for policy 0, policy_version 96665 (0.0007)
+[2023-07-06 11:12:24,764][98243] Fps is (10 sec: 111412.9, 60 sec: 110318.8, 300 sec: 111855.5). Total num frames: 197984256. Throughput: 0: 28171.4. Samples: 49528832. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:24,765][98243] Avg episode reward: [(0, '8.900')]
+[2023-07-06 11:12:24,855][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000096688_198017024.pth...
+[2023-07-06 11:12:24,919][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000083584_171180032.pth
+[2023-07-06 11:12:25,165][98493] Updated weights for policy 0, policy_version 96720 (0.0006)
+[2023-07-06 11:12:25,671][98493] Updated weights for policy 0, policy_version 96769 (0.0007)
+[2023-07-06 11:12:26,161][98493] Updated weights for policy 0, policy_version 96832 (0.0006)
+[2023-07-06 11:12:28,041][98493] Updated weights for policy 0, policy_version 96891 (0.0007)
+[2023-07-06 11:12:29,651][98493] Updated weights for policy 0, policy_version 96934 (0.0009)
+[2023-07-06 11:12:29,758][98449] Signal inference workers to stop experience collection... (5000 times)
+[2023-07-06 11:12:29,764][98243] Fps is (10 sec: 114693.9, 60 sec: 110865.2, 300 sec: 111744.4). Total num frames: 198541312. Throughput: 0: 28194.1. Samples: 49697792. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:29,764][98243] Avg episode reward: [(0, '9.010')]
+[2023-07-06 11:12:29,790][98493] InferenceWorker_p0-w0: stopping experience collection (5000 times)
+[2023-07-06 11:12:29,838][98449] Signal inference workers to resume experience collection... (5000 times)
+[2023-07-06 11:12:29,838][98493] InferenceWorker_p0-w0: resuming experience collection (5000 times)
+[2023-07-06 11:12:30,078][98493] Updated weights for policy 0, policy_version 96981 (0.0010)
+[2023-07-06 11:12:30,633][98493] Updated weights for policy 0, policy_version 97041 (0.0007)
+[2023-07-06 11:12:30,987][98493] Updated weights for policy 0, policy_version 97088 (0.0007)
+[2023-07-06 11:12:32,970][98493] Updated weights for policy 0, policy_version 97145 (0.0007)
+[2023-07-06 11:12:34,373][98493] Updated weights for policy 0, policy_version 97200 (0.0006)
+[2023-07-06 11:12:34,764][98243] Fps is (10 sec: 114688.5, 60 sec: 111957.5, 300 sec: 111855.5). Total num frames: 199131136. Throughput: 0: 28091.8. Samples: 49863680. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:34,765][98243] Avg episode reward: [(0, '8.980')]
+[2023-07-06 11:12:34,872][98493] Updated weights for policy 0, policy_version 97251 (0.0008)
+[2023-07-06 11:12:35,468][98493] Updated weights for policy 0, policy_version 97328 (0.0008)
+[2023-07-06 11:12:37,507][98493] Updated weights for policy 0, policy_version 97402 (0.0007)
+[2023-07-06 11:12:39,130][98493] Updated weights for policy 0, policy_version 97456 (0.0009)
+[2023-07-06 11:12:39,746][98493] Updated weights for policy 0, policy_version 97524 (0.0009)
+[2023-07-06 11:12:39,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113049.9, 300 sec: 111855.7). Total num frames: 199720960. Throughput: 0: 28046.3. Samples: 49946112. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:39,764][98243] Avg episode reward: [(0, '8.980')]
+[2023-07-06 11:12:40,283][98493] Updated weights for policy 0, policy_version 97596 (0.0007)
+[2023-07-06 11:12:42,408][98493] Updated weights for policy 0, policy_version 97648 (0.0006)
+[2023-07-06 11:12:43,651][98493] Updated weights for policy 0, policy_version 97700 (0.0024)
+[2023-07-06 11:12:44,072][98493] Updated weights for policy 0, policy_version 97747 (0.0006)
+[2023-07-06 11:12:44,684][98493] Updated weights for policy 0, policy_version 97799 (0.0006)
+[2023-07-06 11:12:44,764][98243] Fps is (10 sec: 117965.7, 60 sec: 112503.6, 300 sec: 111966.6). Total num frames: 200310784. Throughput: 0: 28012.1. Samples: 50113536. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:44,764][98243] Avg episode reward: [(0, '8.980')]
+[2023-07-06 11:12:45,110][98493] Updated weights for policy 0, policy_version 97854 (0.0008)
+[2023-07-06 11:12:46,768][98449] Signal inference workers to stop experience collection... (5050 times)
+[2023-07-06 11:12:46,800][98493] InferenceWorker_p0-w0: stopping experience collection (5050 times)
+[2023-07-06 11:12:46,845][98449] Signal inference workers to resume experience collection... (5050 times)
+[2023-07-06 11:12:46,846][98493] InferenceWorker_p0-w0: resuming experience collection (5050 times)
+[2023-07-06 11:12:47,087][98493] Updated weights for policy 0, policy_version 97913 (0.0007)
+[2023-07-06 11:12:48,348][98493] Updated weights for policy 0, policy_version 97954 (0.0007)
+[2023-07-06 11:12:48,804][98493] Updated weights for policy 0, policy_version 98006 (0.0008)
+[2023-07-06 11:12:49,348][98493] Updated weights for policy 0, policy_version 98064 (0.0008)
+[2023-07-06 11:12:49,740][98493] Updated weights for policy 0, policy_version 98105 (0.0007)
+[2023-07-06 11:12:49,764][98243] Fps is (10 sec: 117965.0, 60 sec: 113049.9, 300 sec: 111966.7). Total num frames: 200900608. Throughput: 0: 27784.6. Samples: 50279424. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:49,764][98243] Avg episode reward: [(0, '8.990')]
+[2023-07-06 11:12:51,355][98493] Updated weights for policy 0, policy_version 98149 (0.0007)
+[2023-07-06 11:12:52,910][98493] Updated weights for policy 0, policy_version 98208 (0.0007)
+[2023-07-06 11:12:53,451][98493] Updated weights for policy 0, policy_version 98264 (0.0007)
+[2023-07-06 11:12:53,813][98493] Updated weights for policy 0, policy_version 98304 (0.0007)
+[2023-07-06 11:12:54,336][98493] Updated weights for policy 0, policy_version 98363 (0.0008)
+[2023-07-06 11:12:54,764][98243] Fps is (10 sec: 114687.3, 60 sec: 113596.0, 300 sec: 112077.7). Total num frames: 201457664. Throughput: 0: 28137.3. Samples: 50371584. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:54,765][98243] Avg episode reward: [(0, '9.110')]
+[2023-07-06 11:12:55,859][98493] Updated weights for policy 0, policy_version 98409 (0.0007)
+[2023-07-06 11:12:57,622][98493] Updated weights for policy 0, policy_version 98464 (0.0006)
+[2023-07-06 11:12:58,099][98493] Updated weights for policy 0, policy_version 98515 (0.0007)
+[2023-07-06 11:12:58,814][98493] Updated weights for policy 0, policy_version 98599 (0.0008)
+[2023-07-06 11:12:59,764][98243] Fps is (10 sec: 108131.8, 60 sec: 113595.3, 300 sec: 111966.5). Total num frames: 201981952. Throughput: 0: 27852.8. Samples: 50532864. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:12:59,765][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:13:00,436][98493] Updated weights for policy 0, policy_version 98664 (0.0006)
+[2023-07-06 11:13:02,473][98493] Updated weights for policy 0, policy_version 98698 (0.0007)
+[2023-07-06 11:13:02,957][98493] Updated weights for policy 0, policy_version 98752 (0.0008)
+[2023-07-06 11:13:03,409][98449] Signal inference workers to stop experience collection... (5100 times)
+[2023-07-06 11:13:03,439][98493] InferenceWorker_p0-w0: stopping experience collection (5100 times)
+[2023-07-06 11:13:03,439][98493] Updated weights for policy 0, policy_version 98804 (0.0007)
+[2023-07-06 11:13:03,498][98449] Signal inference workers to resume experience collection... (5100 times)
+[2023-07-06 11:13:03,498][98493] InferenceWorker_p0-w0: resuming experience collection (5100 times)
+[2023-07-06 11:13:03,939][98493] Updated weights for policy 0, policy_version 98864 (0.0007)
+[2023-07-06 11:13:04,764][98243] Fps is (10 sec: 104857.4, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 202506240. Throughput: 0: 27910.0. Samples: 50703872. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:13:04,765][98243] Avg episode reward: [(0, '9.120')]
+[2023-07-06 11:13:04,924][98493] Updated weights for policy 0, policy_version 98884 (0.0007)
+[2023-07-06 11:13:05,390][98493] Updated weights for policy 0, policy_version 98944 (0.0007)
+[2023-07-06 11:13:07,359][98493] Updated weights for policy 0, policy_version 98993 (0.0008)
+[2023-07-06 11:13:07,788][98493] Updated weights for policy 0, policy_version 99047 (0.0009)
+[2023-07-06 11:13:08,366][98493] Updated weights for policy 0, policy_version 99120 (0.0007)
+[2023-07-06 11:13:09,764][98243] Fps is (10 sec: 111413.8, 60 sec: 113596.1, 300 sec: 112188.8). Total num frames: 203096064. Throughput: 0: 28023.5. Samples: 50789888. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:13:09,765][98243] Avg episode reward: [(0, '9.110')]
+[2023-07-06 11:13:09,851][98493] Updated weights for policy 0, policy_version 99176 (0.0039)
+[2023-07-06 11:13:11,640][98493] Updated weights for policy 0, policy_version 99216 (0.0006)
+[2023-07-06 11:13:12,202][98493] Updated weights for policy 0, policy_version 99280 (0.0008)
+[2023-07-06 11:13:12,619][98493] Updated weights for policy 0, policy_version 99328 (0.0008)
+[2023-07-06 11:13:13,185][98493] Updated weights for policy 0, policy_version 99392 (0.0009)
+[2023-07-06 11:13:14,764][98243] Fps is (10 sec: 114689.2, 60 sec: 113050.2, 300 sec: 112188.8). Total num frames: 203653120. Throughput: 0: 27932.5. Samples: 50954752. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:13:14,764][98243] Avg episode reward: [(0, '8.850')]
+[2023-07-06 11:13:14,834][98493] Updated weights for policy 0, policy_version 99449 (0.0007)
+[2023-07-06 11:13:16,439][98493] Updated weights for policy 0, policy_version 99489 (0.0008)
+[2023-07-06 11:13:16,924][98493] Updated weights for policy 0, policy_version 99552 (0.0007)
+[2023-07-06 11:13:17,465][98493] Updated weights for policy 0, policy_version 99600 (0.0007)
+[2023-07-06 11:13:17,850][98493] Updated weights for policy 0, policy_version 99645 (0.0008)
+[2023-07-06 11:13:19,472][98493] Updated weights for policy 0, policy_version 99696 (0.0007)
+[2023-07-06 11:13:19,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113596.6, 300 sec: 112188.7). Total num frames: 204210176. Throughput: 0: 28034.8. Samples: 51125248. Policy #0 lag: (min: 127.0, avg: 208.7, max: 359.0)
+[2023-07-06 11:13:19,765][98243] Avg episode reward: [(0, '8.930')]
+[2023-07-06 11:13:20,838][98493] Updated weights for policy 0, policy_version 99734 (0.0007)
+[2023-07-06 11:13:20,955][98449] Signal inference workers to stop experience collection... (5150 times)
+[2023-07-06 11:13:20,989][98493] InferenceWorker_p0-w0: stopping experience collection (5150 times)
+[2023-07-06 11:13:21,041][98449] Signal inference workers to resume experience collection... (5150 times)
+[2023-07-06 11:13:21,042][98493] InferenceWorker_p0-w0: resuming experience collection (5150 times)
+[2023-07-06 11:13:21,398][98493] Updated weights for policy 0, policy_version 99796 (0.0008)
+[2023-07-06 11:13:22,116][98493] Updated weights for policy 0, policy_version 99861 (0.0008)
+[2023-07-06 11:13:23,929][98493] Updated weights for policy 0, policy_version 99907 (0.0006)
+[2023-07-06 11:13:24,340][98493] Updated weights for policy 0, policy_version 99965 (0.0007)
+[2023-07-06 11:13:24,764][98243] Fps is (10 sec: 108133.0, 60 sec: 112503.5, 300 sec: 111855.5). Total num frames: 204734464. Throughput: 0: 28046.2. Samples: 51208192. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:24,765][98243] Avg episode reward: [(0, '9.060')]
+[2023-07-06 11:13:25,624][98493] Updated weights for policy 0, policy_version 100016 (0.0007)
+[2023-07-06 11:13:26,158][98493] Updated weights for policy 0, policy_version 100070 (0.0007)
+[2023-07-06 11:13:26,845][98493] Updated weights for policy 0, policy_version 100119 (0.0007)
+[2023-07-06 11:13:28,544][98493] Updated weights for policy 0, policy_version 100161 (0.0007)
+[2023-07-06 11:13:28,969][98493] Updated weights for policy 0, policy_version 100217 (0.0006)
+[2023-07-06 11:13:29,764][98243] Fps is (10 sec: 104855.4, 60 sec: 111956.8, 300 sec: 111744.3). Total num frames: 205258752. Throughput: 0: 28091.6. Samples: 51377664. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:29,765][98243] Avg episode reward: [(0, '8.970')]
+[2023-07-06 11:13:30,251][98493] Updated weights for policy 0, policy_version 100263 (0.0007)
+[2023-07-06 11:13:30,698][98493] Updated weights for policy 0, policy_version 100314 (0.0006)
+[2023-07-06 11:13:31,283][98493] Updated weights for policy 0, policy_version 100356 (0.0006)
+[2023-07-06 11:13:31,704][98493] Updated weights for policy 0, policy_version 100410 (0.0007)
+[2023-07-06 11:13:33,550][98493] Updated weights for policy 0, policy_version 100475 (0.0007)
+[2023-07-06 11:13:34,764][98243] Fps is (10 sec: 111411.8, 60 sec: 111957.4, 300 sec: 111744.4). Total num frames: 205848576. Throughput: 0: 28251.0. Samples: 51550720. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:34,765][98243] Avg episode reward: [(0, '8.880')]
+[2023-07-06 11:13:34,794][98493] Updated weights for policy 0, policy_version 100520 (0.0007)
+[2023-07-06 11:13:35,411][98493] Updated weights for policy 0, policy_version 100592 (0.0007)
+[2023-07-06 11:13:36,449][98493] Updated weights for policy 0, policy_version 100663 (0.0007)
+[2023-07-06 11:13:38,021][98493] Updated weights for policy 0, policy_version 100706 (0.0007)
+[2023-07-06 11:13:39,119][98449] Signal inference workers to stop experience collection... (5200 times)
+[2023-07-06 11:13:39,161][98493] InferenceWorker_p0-w0: stopping experience collection (5200 times)
+[2023-07-06 11:13:39,212][98449] Signal inference workers to resume experience collection... (5200 times)
+[2023-07-06 11:13:39,212][98493] InferenceWorker_p0-w0: resuming experience collection (5200 times)
+[2023-07-06 11:13:39,290][98493] Updated weights for policy 0, policy_version 100755 (0.0007)
+[2023-07-06 11:13:39,764][98243] Fps is (10 sec: 117964.5, 60 sec: 111956.8, 300 sec: 111966.6). Total num frames: 206438400. Throughput: 0: 28046.1. Samples: 51633664. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:39,765][98243] Avg episode reward: [(0, '9.020')]
+[2023-07-06 11:13:39,765][98493] Updated weights for policy 0, policy_version 100809 (0.0006)
+[2023-07-06 11:13:40,227][98493] Updated weights for policy 0, policy_version 100864 (0.0007)
+[2023-07-06 11:13:41,036][98493] Updated weights for policy 0, policy_version 100912 (0.0008)
+[2023-07-06 11:13:42,614][98493] Updated weights for policy 0, policy_version 100953 (0.0007)
+[2023-07-06 11:13:43,656][98493] Updated weights for policy 0, policy_version 101010 (0.0008)
+[2023-07-06 11:13:44,407][98493] Updated weights for policy 0, policy_version 101060 (0.0008)
+[2023-07-06 11:13:44,765][98243] Fps is (10 sec: 121236.3, 60 sec: 112502.6, 300 sec: 112077.5). Total num frames: 207060992. Throughput: 0: 28239.5. Samples: 51803648. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:44,765][98243] Avg episode reward: [(0, '8.920')]
+[2023-07-06 11:13:44,859][98493] Updated weights for policy 0, policy_version 101117 (0.0008)
+[2023-07-06 11:13:45,569][98493] Updated weights for policy 0, policy_version 101168 (0.0006)
+[2023-07-06 11:13:47,185][98493] Updated weights for policy 0, policy_version 101216 (0.0007)
+[2023-07-06 11:13:48,524][98493] Updated weights for policy 0, policy_version 101288 (0.0007)
+[2023-07-06 11:13:49,374][98493] Updated weights for policy 0, policy_version 101344 (0.0007)
+[2023-07-06 11:13:49,764][98243] Fps is (10 sec: 117967.7, 60 sec: 111957.3, 300 sec: 112077.7). Total num frames: 207618048. Throughput: 0: 28137.3. Samples: 51970048. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:49,765][98243] Avg episode reward: [(0, '8.880')]
+[2023-07-06 11:13:50,003][98493] Updated weights for policy 0, policy_version 101392 (0.0009)
+[2023-07-06 11:13:51,399][98493] Updated weights for policy 0, policy_version 101445 (0.0007)
+[2023-07-06 11:13:51,867][98493] Updated weights for policy 0, policy_version 101504 (0.0006)
+[2023-07-06 11:13:53,428][98493] Updated weights for policy 0, policy_version 101562 (0.0007)
+[2023-07-06 11:13:54,192][98493] Updated weights for policy 0, policy_version 101627 (0.0007)
+[2023-07-06 11:13:54,764][98243] Fps is (10 sec: 111416.2, 60 sec: 111957.4, 300 sec: 112077.7). Total num frames: 208175104. Throughput: 0: 28171.4. Samples: 52057600. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:54,765][98243] Avg episode reward: [(0, '9.010')]
+[2023-07-06 11:13:54,984][98493] Updated weights for policy 0, policy_version 101667 (0.0007)
+[2023-07-06 11:13:56,095][98493] Updated weights for policy 0, policy_version 101719 (0.0007)
+[2023-07-06 11:13:57,823][98493] Updated weights for policy 0, policy_version 101762 (0.0006)
+[2023-07-06 11:13:57,971][98449] Signal inference workers to stop experience collection... (5250 times)
+[2023-07-06 11:13:58,002][98493] InferenceWorker_p0-w0: stopping experience collection (5250 times)
+[2023-07-06 11:13:58,044][98449] Signal inference workers to resume experience collection... (5250 times)
+[2023-07-06 11:13:58,044][98493] InferenceWorker_p0-w0: resuming experience collection (5250 times)
+[2023-07-06 11:13:58,334][98493] Updated weights for policy 0, policy_version 101821 (0.0007)
+[2023-07-06 11:13:58,768][98493] Updated weights for policy 0, policy_version 101872 (0.0006)
+[2023-07-06 11:13:59,572][98493] Updated weights for policy 0, policy_version 101928 (0.0007)
+[2023-07-06 11:13:59,764][98243] Fps is (10 sec: 117964.4, 60 sec: 113596.1, 300 sec: 112410.9). Total num frames: 208797696. Throughput: 0: 28182.7. Samples: 52222976. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:13:59,765][98243] Avg episode reward: [(0, '9.290')]
+[2023-07-06 11:13:59,766][98449] Saving new best policy, reward=9.290!
+[2023-07-06 11:14:00,719][98493] Updated weights for policy 0, policy_version 101974 (0.0007)
+[2023-07-06 11:14:02,559][98493] Updated weights for policy 0, policy_version 102032 (0.0007)
+[2023-07-06 11:14:03,019][98493] Updated weights for policy 0, policy_version 102079 (0.0012)
+[2023-07-06 11:14:03,588][98493] Updated weights for policy 0, policy_version 102144 (0.0007)
+[2023-07-06 11:14:04,673][98493] Updated weights for policy 0, policy_version 102206 (0.0008)
+[2023-07-06 11:14:04,765][98243] Fps is (10 sec: 114684.2, 60 sec: 113595.2, 300 sec: 112410.8). Total num frames: 209321984. Throughput: 0: 28114.3. Samples: 52390400. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:14:04,765][98243] Avg episode reward: [(0, '9.180')]
+[2023-07-06 11:14:05,594][98493] Updated weights for policy 0, policy_version 102262 (0.0007)
+[2023-07-06 11:14:07,365][98493] Updated weights for policy 0, policy_version 102306 (0.0007)
+[2023-07-06 11:14:08,102][98493] Updated weights for policy 0, policy_version 102360 (0.0007)
+[2023-07-06 11:14:08,431][98493] Updated weights for policy 0, policy_version 102400 (0.0006)
+[2023-07-06 11:14:09,150][98493] Updated weights for policy 0, policy_version 102464 (0.0007)
+[2023-07-06 11:14:09,765][98243] Fps is (10 sec: 104855.5, 60 sec: 112503.0, 300 sec: 112410.8). Total num frames: 209846272. Throughput: 0: 28228.1. Samples: 52478464. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:14:09,766][98243] Avg episode reward: [(0, '9.090')]
+[2023-07-06 11:14:10,257][98493] Updated weights for policy 0, policy_version 102513 (0.0006)
+[2023-07-06 11:14:11,725][98493] Updated weights for policy 0, policy_version 102531 (0.0007)
+[2023-07-06 11:14:12,576][98493] Updated weights for policy 0, policy_version 102596 (0.0006)
+[2023-07-06 11:14:13,000][98493] Updated weights for policy 0, policy_version 102650 (0.0008)
+[2023-07-06 11:14:13,708][98493] Updated weights for policy 0, policy_version 102713 (0.0007)
+[2023-07-06 11:14:14,764][98243] Fps is (10 sec: 108137.0, 60 sec: 112503.2, 300 sec: 112522.1). Total num frames: 210403328. Throughput: 0: 28091.8. Samples: 52641792. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:14:14,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:14:14,970][98493] Updated weights for policy 0, policy_version 102757 (0.0007)
+[2023-07-06 11:14:16,446][98493] Updated weights for policy 0, policy_version 102789 (0.0006)
+[2023-07-06 11:14:16,554][98449] Signal inference workers to stop experience collection... (5300 times)
+[2023-07-06 11:14:16,598][98493] InferenceWorker_p0-w0: stopping experience collection (5300 times)
+[2023-07-06 11:14:16,652][98449] Signal inference workers to resume experience collection... (5300 times)
+[2023-07-06 11:14:16,652][98493] InferenceWorker_p0-w0: resuming experience collection (5300 times)
+[2023-07-06 11:14:16,908][98493] Updated weights for policy 0, policy_version 102846 (0.0008)
+[2023-07-06 11:14:17,563][98493] Updated weights for policy 0, policy_version 102910 (0.0008)
+[2023-07-06 11:14:18,346][98493] Updated weights for policy 0, policy_version 102973 (0.0007)
+[2023-07-06 11:14:19,764][98243] Fps is (10 sec: 111413.1, 60 sec: 112503.4, 300 sec: 112522.0). Total num frames: 210960384. Throughput: 0: 28046.2. Samples: 52812800. Policy #0 lag: (min: 25.0, avg: 107.9, max: 281.0)
+[2023-07-06 11:14:19,765][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:14:19,846][98493] Updated weights for policy 0, policy_version 103031 (0.0008)
+[2023-07-06 11:14:21,013][98493] Updated weights for policy 0, policy_version 103059 (0.0007)
+[2023-07-06 11:14:21,818][98493] Updated weights for policy 0, policy_version 103136 (0.0006)
+[2023-07-06 11:14:22,575][98493] Updated weights for policy 0, policy_version 103170 (0.0007)
+[2023-07-06 11:14:23,036][98493] Updated weights for policy 0, policy_version 103232 (0.0007)
+[2023-07-06 11:14:24,764][98243] Fps is (10 sec: 108135.0, 60 sec: 112503.5, 300 sec: 112188.7). Total num frames: 211484672. Throughput: 0: 28091.9. Samples: 52897792. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:24,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:14:24,901][98493] Updated weights for policy 0, policy_version 103293 (0.0006)
+[2023-07-06 11:14:24,935][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000103296_211550208.pth...
+[2023-07-06 11:14:24,967][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000090144_184614912.pth
+[2023-07-06 11:14:26,234][98493] Updated weights for policy 0, policy_version 103347 (0.0007)
+[2023-07-06 11:14:26,696][98493] Updated weights for policy 0, policy_version 103398 (0.0007)
+[2023-07-06 11:14:27,462][98493] Updated weights for policy 0, policy_version 103456 (0.0007)
+[2023-07-06 11:14:29,047][98493] Updated weights for policy 0, policy_version 103494 (0.0007)
+[2023-07-06 11:14:29,480][98493] Updated weights for policy 0, policy_version 103552 (0.0007)
+[2023-07-06 11:14:29,764][98243] Fps is (10 sec: 111411.1, 60 sec: 113596.0, 300 sec: 112410.9). Total num frames: 212074496. Throughput: 0: 28092.0. Samples: 53067776. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:29,765][98243] Avg episode reward: [(0, '9.150')]
+[2023-07-06 11:14:30,796][98493] Updated weights for policy 0, policy_version 103611 (0.0006)
+[2023-07-06 11:14:31,417][98493] Updated weights for policy 0, policy_version 103664 (0.0007)
+[2023-07-06 11:14:32,077][98493] Updated weights for policy 0, policy_version 103733 (0.0008)
+[2023-07-06 11:14:34,025][98493] Updated weights for policy 0, policy_version 103783 (0.0011)
+[2023-07-06 11:14:34,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.4, 300 sec: 112299.8). Total num frames: 212598784. Throughput: 0: 28125.9. Samples: 53235712. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:34,765][98243] Avg episode reward: [(0, '9.050')]
+[2023-07-06 11:14:35,344][98449] Signal inference workers to stop experience collection... (5350 times)
+[2023-07-06 11:14:35,392][98493] InferenceWorker_p0-w0: stopping experience collection (5350 times)
+[2023-07-06 11:14:35,437][98449] Signal inference workers to resume experience collection... (5350 times)
+[2023-07-06 11:14:35,437][98493] InferenceWorker_p0-w0: resuming experience collection (5350 times)
+[2023-07-06 11:14:35,502][98493] Updated weights for policy 0, policy_version 103841 (0.0016)
+[2023-07-06 11:14:35,929][98493] Updated weights for policy 0, policy_version 103888 (0.0008)
+[2023-07-06 11:14:36,480][98493] Updated weights for policy 0, policy_version 103952 (0.0007)
+[2023-07-06 11:14:36,894][98493] Updated weights for policy 0, policy_version 103996 (0.0014)
+[2023-07-06 11:14:38,684][98493] Updated weights for policy 0, policy_version 104057 (0.0007)
+[2023-07-06 11:14:39,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.5, 300 sec: 111966.6). Total num frames: 213123072. Throughput: 0: 28000.6. Samples: 53317632. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:39,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:14:40,190][98493] Updated weights for policy 0, policy_version 104104 (0.0008)
+[2023-07-06 11:14:40,645][98493] Updated weights for policy 0, policy_version 104144 (0.0007)
+[2023-07-06 11:14:41,216][98493] Updated weights for policy 0, policy_version 104208 (0.0007)
+[2023-07-06 11:14:41,618][98493] Updated weights for policy 0, policy_version 104256 (0.0007)
+[2023-07-06 11:14:43,328][98493] Updated weights for policy 0, policy_version 104311 (0.0007)
+[2023-07-06 11:14:44,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109773.6, 300 sec: 111966.6). Total num frames: 213647360. Throughput: 0: 28080.4. Samples: 53486592. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:44,764][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:14:44,870][98493] Updated weights for policy 0, policy_version 104343 (0.0014)
+[2023-07-06 11:14:44,913][98449] Saving new best policy, reward=9.300!
+[2023-07-06 11:14:45,456][98493] Updated weights for policy 0, policy_version 104405 (0.0007)
+[2023-07-06 11:14:46,060][98493] Updated weights for policy 0, policy_version 104480 (0.0009)
+[2023-07-06 11:14:47,792][98493] Updated weights for policy 0, policy_version 104536 (0.0007)
+[2023-07-06 11:14:49,506][98493] Updated weights for policy 0, policy_version 104601 (0.0007)
+[2023-07-06 11:14:49,764][98243] Fps is (10 sec: 114688.3, 60 sec: 110864.9, 300 sec: 111966.6). Total num frames: 214269952. Throughput: 0: 28057.7. Samples: 53652992. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:49,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:14:50,115][98493] Updated weights for policy 0, policy_version 104641 (0.0006)
+[2023-07-06 11:14:50,575][98493] Updated weights for policy 0, policy_version 104694 (0.0008)
+[2023-07-06 11:14:51,106][98493] Updated weights for policy 0, policy_version 104764 (0.0008)
+[2023-07-06 11:14:52,275][98449] Signal inference workers to stop experience collection... (5400 times)
+[2023-07-06 11:14:52,297][98493] InferenceWorker_p0-w0: stopping experience collection (5400 times)
+[2023-07-06 11:14:52,367][98449] Signal inference workers to resume experience collection... (5400 times)
+[2023-07-06 11:14:52,367][98493] InferenceWorker_p0-w0: resuming experience collection (5400 times)
+[2023-07-06 11:14:52,720][98493] Updated weights for policy 0, policy_version 104826 (0.0007)
+[2023-07-06 11:14:54,396][98493] Updated weights for policy 0, policy_version 104880 (0.0006)
+[2023-07-06 11:14:54,764][98243] Fps is (10 sec: 117962.1, 60 sec: 110864.6, 300 sec: 111744.4). Total num frames: 214827008. Throughput: 0: 27875.6. Samples: 53732864. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:54,765][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:14:55,114][98493] Updated weights for policy 0, policy_version 104933 (0.0007)
+[2023-07-06 11:14:55,589][98493] Updated weights for policy 0, policy_version 104992 (0.0008)
+[2023-07-06 11:14:57,063][98493] Updated weights for policy 0, policy_version 105043 (0.0006)
+[2023-07-06 11:14:57,393][98493] Updated weights for policy 0, policy_version 105088 (0.0006)
+[2023-07-06 11:14:59,526][98493] Updated weights for policy 0, policy_version 105158 (0.0007)
+[2023-07-06 11:14:59,764][98243] Fps is (10 sec: 114688.6, 60 sec: 110319.0, 300 sec: 111855.5). Total num frames: 215416832. Throughput: 0: 28137.3. Samples: 53907968. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:14:59,765][98243] Avg episode reward: [(0, '9.090')]
+[2023-07-06 11:15:00,086][98493] Updated weights for policy 0, policy_version 105221 (0.0009)
+[2023-07-06 11:15:00,507][98493] Updated weights for policy 0, policy_version 105275 (0.0006)
+[2023-07-06 11:15:01,938][98493] Updated weights for policy 0, policy_version 105328 (0.0006)
+[2023-07-06 11:15:03,513][98493] Updated weights for policy 0, policy_version 105376 (0.0007)
+[2023-07-06 11:15:04,365][98493] Updated weights for policy 0, policy_version 105443 (0.0008)
+[2023-07-06 11:15:04,764][98243] Fps is (10 sec: 121241.9, 60 sec: 111957.6, 300 sec: 112193.6). Total num frames: 216039424. Throughput: 0: 27875.5. Samples: 54067200. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:15:04,765][98243] Avg episode reward: [(0, '9.020')]
+[2023-07-06 11:15:04,971][98493] Updated weights for policy 0, policy_version 105520 (0.0007)
+[2023-07-06 11:15:06,654][98493] Updated weights for policy 0, policy_version 105575 (0.0007)
+[2023-07-06 11:15:08,303][98493] Updated weights for policy 0, policy_version 105621 (0.0007)
+[2023-07-06 11:15:08,953][98493] Updated weights for policy 0, policy_version 105696 (0.0009)
+[2023-07-06 11:15:09,446][98493] Updated weights for policy 0, policy_version 105734 (0.0007)
+[2023-07-06 11:15:09,553][98449] Signal inference workers to stop experience collection... (5450 times)
+[2023-07-06 11:15:09,578][98493] InferenceWorker_p0-w0: stopping experience collection (5450 times)
+[2023-07-06 11:15:09,630][98449] Signal inference workers to resume experience collection... (5450 times)
+[2023-07-06 11:15:09,630][98493] InferenceWorker_p0-w0: resuming experience collection (5450 times)
+[2023-07-06 11:15:09,764][98243] Fps is (10 sec: 121241.1, 60 sec: 113049.9, 300 sec: 112299.8). Total num frames: 216629248. Throughput: 0: 27966.6. Samples: 54156288. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:15:09,765][98243] Avg episode reward: [(0, '8.960')]
+[2023-07-06 11:15:09,855][98493] Updated weights for policy 0, policy_version 105782 (0.0007)
+[2023-07-06 11:15:11,080][98493] Updated weights for policy 0, policy_version 105813 (0.0007)
+[2023-07-06 11:15:12,651][98493] Updated weights for policy 0, policy_version 105872 (0.0008)
+[2023-07-06 11:15:13,051][98493] Updated weights for policy 0, policy_version 105919 (0.0006)
+[2023-07-06 11:15:13,585][98493] Updated weights for policy 0, policy_version 105977 (0.0007)
+[2023-07-06 11:15:14,222][98493] Updated weights for policy 0, policy_version 106019 (0.0006)
+[2023-07-06 11:15:14,764][98243] Fps is (10 sec: 114690.0, 60 sec: 113049.7, 300 sec: 112410.9). Total num frames: 217186304. Throughput: 0: 27966.6. Samples: 54326272. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:15:14,765][98243] Avg episode reward: [(0, '9.000')]
+[2023-07-06 11:15:15,952][98493] Updated weights for policy 0, policy_version 106086 (0.0007)
+[2023-07-06 11:15:17,463][98493] Updated weights for policy 0, policy_version 106135 (0.0007)
+[2023-07-06 11:15:17,902][98493] Updated weights for policy 0, policy_version 106179 (0.0008)
+[2023-07-06 11:15:18,315][98493] Updated weights for policy 0, policy_version 106229 (0.0007)
+[2023-07-06 11:15:18,813][98493] Updated weights for policy 0, policy_version 106272 (0.0006)
+[2023-07-06 11:15:19,764][98243] Fps is (10 sec: 108134.9, 60 sec: 112503.6, 300 sec: 112411.0). Total num frames: 217710592. Throughput: 0: 27966.6. Samples: 54494208. Policy #0 lag: (min: 34.0, avg: 123.5, max: 290.0)
+[2023-07-06 11:15:19,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:15:20,170][98493] Updated weights for policy 0, policy_version 106305 (0.0006)
+[2023-07-06 11:15:20,610][98493] Updated weights for policy 0, policy_version 106366 (0.0007)
+[2023-07-06 11:15:22,256][98493] Updated weights for policy 0, policy_version 106404 (0.0006)
+[2023-07-06 11:15:22,659][98493] Updated weights for policy 0, policy_version 106448 (0.0007)
+[2023-07-06 11:15:23,278][98493] Updated weights for policy 0, policy_version 106497 (0.0008)
+[2023-07-06 11:15:23,711][98493] Updated weights for policy 0, policy_version 106556 (0.0007)
+[2023-07-06 11:15:24,764][98243] Fps is (10 sec: 104855.4, 60 sec: 112503.1, 300 sec: 112299.7). Total num frames: 218234880. Throughput: 0: 28091.7. Samples: 54581760. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:24,765][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:15:25,348][98493] Updated weights for policy 0, policy_version 106620 (0.0008)
+[2023-07-06 11:15:26,910][98493] Updated weights for policy 0, policy_version 106672 (0.0006)
+[2023-07-06 11:15:27,596][98493] Updated weights for policy 0, policy_version 106720 (0.0006)
+[2023-07-06 11:15:27,835][98449] Signal inference workers to stop experience collection... (5500 times)
+[2023-07-06 11:15:27,869][98493] InferenceWorker_p0-w0: stopping experience collection (5500 times)
+[2023-07-06 11:15:27,890][98449] Signal inference workers to resume experience collection... (5500 times)
+[2023-07-06 11:15:27,892][98493] InferenceWorker_p0-w0: resuming experience collection (5500 times)
+[2023-07-06 11:15:28,047][98493] Updated weights for policy 0, policy_version 106768 (0.0008)
+[2023-07-06 11:15:29,595][98493] Updated weights for policy 0, policy_version 106819 (0.0007)
+[2023-07-06 11:15:29,764][98243] Fps is (10 sec: 108134.9, 60 sec: 111957.5, 300 sec: 112299.8). Total num frames: 218791936. Throughput: 0: 27955.2. Samples: 54744576. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:29,764][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:15:30,021][98493] Updated weights for policy 0, policy_version 106873 (0.0006)
+[2023-07-06 11:15:31,478][98493] Updated weights for policy 0, policy_version 106923 (0.0006)
+[2023-07-06 11:15:32,192][98493] Updated weights for policy 0, policy_version 106945 (0.0007)
+[2023-07-06 11:15:32,718][98493] Updated weights for policy 0, policy_version 107008 (0.0007)
+[2023-07-06 11:15:33,235][98493] Updated weights for policy 0, policy_version 107067 (0.0007)
+[2023-07-06 11:15:34,504][98493] Updated weights for policy 0, policy_version 107108 (0.0008)
+[2023-07-06 11:15:34,764][98243] Fps is (10 sec: 117965.7, 60 sec: 113595.5, 300 sec: 112521.9). Total num frames: 219414528. Throughput: 0: 28046.2. Samples: 54915072. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:34,765][98243] Avg episode reward: [(0, '9.110')]
+[2023-07-06 11:15:35,929][98493] Updated weights for policy 0, policy_version 107154 (0.0008)
+[2023-07-06 11:15:36,814][98493] Updated weights for policy 0, policy_version 107202 (0.0006)
+[2023-07-06 11:15:37,319][98493] Updated weights for policy 0, policy_version 107264 (0.0007)
+[2023-07-06 11:15:37,713][98493] Updated weights for policy 0, policy_version 107302 (0.0006)
+[2023-07-06 11:15:39,156][98493] Updated weights for policy 0, policy_version 107360 (0.0008)
+[2023-07-06 11:15:39,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113595.8, 300 sec: 112410.9). Total num frames: 219938816. Throughput: 0: 28148.7. Samples: 54999552. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:39,765][98243] Avg episode reward: [(0, '9.040')]
+[2023-07-06 11:15:40,522][98493] Updated weights for policy 0, policy_version 107424 (0.0007)
+[2023-07-06 11:15:41,420][98493] Updated weights for policy 0, policy_version 107460 (0.0007)
+[2023-07-06 11:15:42,031][98493] Updated weights for policy 0, policy_version 107536 (0.0007)
+[2023-07-06 11:15:43,632][98493] Updated weights for policy 0, policy_version 107590 (0.0007)
+[2023-07-06 11:15:44,064][98493] Updated weights for policy 0, policy_version 107646 (0.0006)
+[2023-07-06 11:15:44,764][98243] Fps is (10 sec: 104858.8, 60 sec: 113595.6, 300 sec: 112410.9). Total num frames: 220463104. Throughput: 0: 28069.0. Samples: 55171072. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:44,765][98243] Avg episode reward: [(0, '8.990')]
+[2023-07-06 11:15:45,457][98493] Updated weights for policy 0, policy_version 107697 (0.0007)
+[2023-07-06 11:15:46,057][98449] Signal inference workers to stop experience collection... (5550 times)
+[2023-07-06 11:15:46,096][98493] InferenceWorker_p0-w0: stopping experience collection (5550 times)
+[2023-07-06 11:15:46,096][98493] Updated weights for policy 0, policy_version 107735 (0.0006)
+[2023-07-06 11:15:46,151][98449] Signal inference workers to resume experience collection... (5550 times)
+[2023-07-06 11:15:46,152][98493] InferenceWorker_p0-w0: resuming experience collection (5550 times)
+[2023-07-06 11:15:46,615][98493] Updated weights for policy 0, policy_version 107792 (0.0007)
+[2023-07-06 11:15:48,284][98493] Updated weights for policy 0, policy_version 107841 (0.0007)
+[2023-07-06 11:15:49,722][98493] Updated weights for policy 0, policy_version 107906 (0.0007)
+[2023-07-06 11:15:49,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111957.4, 300 sec: 112411.0). Total num frames: 220987392. Throughput: 0: 28308.0. Samples: 55341056. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:49,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:15:50,157][98493] Updated weights for policy 0, policy_version 107962 (0.0007)
+[2023-07-06 11:15:50,956][98493] Updated weights for policy 0, policy_version 108005 (0.0007)
+[2023-07-06 11:15:51,459][98493] Updated weights for policy 0, policy_version 108064 (0.0007)
+[2023-07-06 11:15:53,217][98493] Updated weights for policy 0, policy_version 108119 (0.0007)
+[2023-07-06 11:15:54,360][98493] Updated weights for policy 0, policy_version 108161 (0.0008)
+[2023-07-06 11:15:54,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113050.0, 300 sec: 112522.0). Total num frames: 221609984. Throughput: 0: 28171.4. Samples: 55424000. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:54,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:15:54,802][98493] Updated weights for policy 0, policy_version 108219 (0.0009)
+[2023-07-06 11:15:55,601][98493] Updated weights for policy 0, policy_version 108272 (0.0008)
+[2023-07-06 11:15:55,990][98493] Updated weights for policy 0, policy_version 108309 (0.0007)
+[2023-07-06 11:15:57,977][98493] Updated weights for policy 0, policy_version 108376 (0.0008)
+[2023-07-06 11:15:58,295][98493] Updated weights for policy 0, policy_version 108416 (0.0006)
+[2023-07-06 11:15:59,315][98493] Updated weights for policy 0, policy_version 108452 (0.0007)
+[2023-07-06 11:15:59,764][98243] Fps is (10 sec: 117964.9, 60 sec: 112503.4, 300 sec: 112299.8). Total num frames: 222167040. Throughput: 0: 28160.0. Samples: 55593472. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:15:59,765][98243] Avg episode reward: [(0, '9.080')]
+[2023-07-06 11:16:00,136][98493] Updated weights for policy 0, policy_version 108512 (0.0008)
+[2023-07-06 11:16:00,555][98493] Updated weights for policy 0, policy_version 108552 (0.0007)
+[2023-07-06 11:16:00,990][98493] Updated weights for policy 0, policy_version 108608 (0.0007)
+[2023-07-06 11:16:03,068][98493] Updated weights for policy 0, policy_version 108672 (0.0008)
+[2023-07-06 11:16:04,018][98449] Signal inference workers to stop experience collection... (5600 times)
+[2023-07-06 11:16:04,042][98493] InferenceWorker_p0-w0: stopping experience collection (5600 times)
+[2023-07-06 11:16:04,086][98449] Signal inference workers to resume experience collection... (5600 times)
+[2023-07-06 11:16:04,086][98493] InferenceWorker_p0-w0: resuming experience collection (5600 times)
+[2023-07-06 11:16:04,087][98493] Updated weights for policy 0, policy_version 108720 (0.0008)
+[2023-07-06 11:16:04,747][98493] Updated weights for policy 0, policy_version 108768 (0.0007)
+[2023-07-06 11:16:04,764][98243] Fps is (10 sec: 114686.3, 60 sec: 111957.4, 300 sec: 112299.8). Total num frames: 222756864. Throughput: 0: 28114.4. Samples: 55759360. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:16:04,765][98243] Avg episode reward: [(0, '8.970')]
+[2023-07-06 11:16:05,263][98493] Updated weights for policy 0, policy_version 108821 (0.0007)
+[2023-07-06 11:16:05,597][98493] Updated weights for policy 0, policy_version 108863 (0.0006)
+[2023-07-06 11:16:07,766][98493] Updated weights for policy 0, policy_version 108923 (0.0008)
+[2023-07-06 11:16:08,843][98493] Updated weights for policy 0, policy_version 108988 (0.0006)
+[2023-07-06 11:16:09,764][98243] Fps is (10 sec: 111412.1, 60 sec: 110865.3, 300 sec: 112188.8). Total num frames: 223281152. Throughput: 0: 28046.4. Samples: 55843840. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:16:09,764][98243] Avg episode reward: [(0, '8.930')]
+[2023-07-06 11:16:09,868][98493] Updated weights for policy 0, policy_version 109048 (0.0008)
+[2023-07-06 11:16:10,290][98493] Updated weights for policy 0, policy_version 109095 (0.0006)
+[2023-07-06 11:16:12,115][98493] Updated weights for policy 0, policy_version 109152 (0.0006)
+[2023-07-06 11:16:12,982][98493] Updated weights for policy 0, policy_version 109200 (0.0006)
+[2023-07-06 11:16:13,359][98493] Updated weights for policy 0, policy_version 109246 (0.0007)
+[2023-07-06 11:16:14,536][98493] Updated weights for policy 0, policy_version 109298 (0.0007)
+[2023-07-06 11:16:14,764][98243] Fps is (10 sec: 114688.1, 60 sec: 111957.1, 300 sec: 112077.6). Total num frames: 223903744. Throughput: 0: 28182.6. Samples: 56012800. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:16:14,765][98243] Avg episode reward: [(0, '8.990')]
+[2023-07-06 11:16:15,121][98493] Updated weights for policy 0, policy_version 109372 (0.0008)
+[2023-07-06 11:16:17,072][98493] Updated weights for policy 0, policy_version 109424 (0.0008)
+[2023-07-06 11:16:17,831][98493] Updated weights for policy 0, policy_version 109488 (0.0006)
+[2023-07-06 11:16:19,082][98493] Updated weights for policy 0, policy_version 109536 (0.0007)
+[2023-07-06 11:16:19,608][98493] Updated weights for policy 0, policy_version 109588 (0.0006)
+[2023-07-06 11:16:19,764][98243] Fps is (10 sec: 117963.0, 60 sec: 112503.3, 300 sec: 112188.7). Total num frames: 224460800. Throughput: 0: 28069.0. Samples: 56178176. Policy #0 lag: (min: 4.0, avg: 84.0, max: 260.0)
+[2023-07-06 11:16:19,765][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:16:21,393][98493] Updated weights for policy 0, policy_version 109636 (0.0007)
+[2023-07-06 11:16:22,209][98449] Signal inference workers to stop experience collection... (5650 times)
+[2023-07-06 11:16:22,240][98493] Updated weights for policy 0, policy_version 109701 (0.0007)
+[2023-07-06 11:16:22,248][98493] InferenceWorker_p0-w0: stopping experience collection (5650 times)
+[2023-07-06 11:16:22,293][98449] Signal inference workers to resume experience collection... (5650 times)
+[2023-07-06 11:16:22,294][98493] InferenceWorker_p0-w0: resuming experience collection (5650 times)
+[2023-07-06 11:16:22,691][98493] Updated weights for policy 0, policy_version 109760 (0.0006)
+[2023-07-06 11:16:23,901][98493] Updated weights for policy 0, policy_version 109821 (0.0007)
+[2023-07-06 11:16:24,592][98493] Updated weights for policy 0, policy_version 109882 (0.0006)
+[2023-07-06 11:16:24,764][98243] Fps is (10 sec: 114689.4, 60 sec: 113596.1, 300 sec: 112410.9). Total num frames: 225050624. Throughput: 0: 28046.3. Samples: 56261632. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:24,765][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:16:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000109888_225050624.pth...
+[2023-07-06 11:16:24,798][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000096688_198017024.pth
+[2023-07-06 11:16:26,207][98493] Updated weights for policy 0, policy_version 109926 (0.0007)
+[2023-07-06 11:16:26,600][98493] Updated weights for policy 0, policy_version 109955 (0.0007)
+[2023-07-06 11:16:28,009][98493] Updated weights for policy 0, policy_version 110018 (0.0007)
+[2023-07-06 11:16:28,808][98493] Updated weights for policy 0, policy_version 110084 (0.0007)
+[2023-07-06 11:16:29,235][98493] Updated weights for policy 0, policy_version 110138 (0.0008)
+[2023-07-06 11:16:29,764][98243] Fps is (10 sec: 111411.7, 60 sec: 113049.4, 300 sec: 112410.9). Total num frames: 225574912. Throughput: 0: 28057.6. Samples: 56433664. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:29,765][98243] Avg episode reward: [(0, '9.130')]
+[2023-07-06 11:16:31,343][98493] Updated weights for policy 0, policy_version 110208 (0.0008)
+[2023-07-06 11:16:31,839][98493] Updated weights for policy 0, policy_version 110267 (0.0008)
+[2023-07-06 11:16:33,334][98493] Updated weights for policy 0, policy_version 110329 (0.0008)
+[2023-07-06 11:16:33,868][98493] Updated weights for policy 0, policy_version 110387 (0.0008)
+[2023-07-06 11:16:34,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.4, 300 sec: 112410.9). Total num frames: 226099200. Throughput: 0: 27978.0. Samples: 56600064. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:34,765][98243] Avg episode reward: [(0, '9.260')]
+[2023-07-06 11:16:35,648][98493] Updated weights for policy 0, policy_version 110424 (0.0007)
+[2023-07-06 11:16:36,247][98493] Updated weights for policy 0, policy_version 110496 (0.0007)
+[2023-07-06 11:16:37,621][98493] Updated weights for policy 0, policy_version 110544 (0.0006)
+[2023-07-06 11:16:38,206][98493] Updated weights for policy 0, policy_version 110608 (0.0007)
+[2023-07-06 11:16:39,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.2, 300 sec: 112077.6). Total num frames: 226623488. Throughput: 0: 28000.6. Samples: 56684032. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:39,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:16:40,139][98493] Updated weights for policy 0, policy_version 110663 (0.0006)
+[2023-07-06 11:16:40,217][98449] Signal inference workers to stop experience collection... (5700 times)
+[2023-07-06 11:16:40,274][98493] InferenceWorker_p0-w0: stopping experience collection (5700 times)
+[2023-07-06 11:16:40,336][98449] Signal inference workers to resume experience collection... (5700 times)
+[2023-07-06 11:16:40,336][98493] InferenceWorker_p0-w0: resuming experience collection (5700 times)
+[2023-07-06 11:16:40,694][98493] Updated weights for policy 0, policy_version 110721 (0.0007)
+[2023-07-06 11:16:41,204][98493] Updated weights for policy 0, policy_version 110784 (0.0007)
+[2023-07-06 11:16:42,480][98493] Updated weights for policy 0, policy_version 110833 (0.0007)
+[2023-07-06 11:16:43,202][98493] Updated weights for policy 0, policy_version 110886 (0.0007)
+[2023-07-06 11:16:44,765][98243] Fps is (10 sec: 104854.5, 60 sec: 111410.6, 300 sec: 111966.5). Total num frames: 227147776. Throughput: 0: 27909.5. Samples: 56849408. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:44,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:16:45,019][98493] Updated weights for policy 0, policy_version 110930 (0.0008)
+[2023-07-06 11:16:45,498][98493] Updated weights for policy 0, policy_version 110978 (0.0007)
+[2023-07-06 11:16:45,973][98493] Updated weights for policy 0, policy_version 111040 (0.0007)
+[2023-07-06 11:16:46,950][98493] Updated weights for policy 0, policy_version 111088 (0.0008)
+[2023-07-06 11:16:47,814][98493] Updated weights for policy 0, policy_version 111140 (0.0007)
+[2023-07-06 11:16:49,621][98493] Updated weights for policy 0, policy_version 111184 (0.0007)
+[2023-07-06 11:16:49,765][98243] Fps is (10 sec: 111408.5, 60 sec: 112502.9, 300 sec: 112188.7). Total num frames: 227737600. Throughput: 0: 28034.7. Samples: 57020928. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:49,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:16:50,016][98493] Updated weights for policy 0, policy_version 111232 (0.0007)
+[2023-07-06 11:16:50,640][98493] Updated weights for policy 0, policy_version 111287 (0.0008)
+[2023-07-06 11:16:51,619][98493] Updated weights for policy 0, policy_version 111334 (0.0007)
+[2023-07-06 11:16:52,125][98493] Updated weights for policy 0, policy_version 111365 (0.0007)
+[2023-07-06 11:16:52,556][98493] Updated weights for policy 0, policy_version 111417 (0.0007)
+[2023-07-06 11:16:54,442][98493] Updated weights for policy 0, policy_version 111456 (0.0007)
+[2023-07-06 11:16:54,764][98243] Fps is (10 sec: 117966.5, 60 sec: 111957.0, 300 sec: 112410.8). Total num frames: 228327424. Throughput: 0: 27977.8. Samples: 57102848. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:54,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:16:54,959][98493] Updated weights for policy 0, policy_version 111506 (0.0007)
+[2023-07-06 11:16:56,202][98493] Updated weights for policy 0, policy_version 111574 (0.0008)
+[2023-07-06 11:16:57,019][98493] Updated weights for policy 0, policy_version 111637 (0.0008)
+[2023-07-06 11:16:58,886][98449] Signal inference workers to stop experience collection... (5750 times)
+[2023-07-06 11:16:58,914][98493] InferenceWorker_p0-w0: stopping experience collection (5750 times)
+[2023-07-06 11:16:58,939][98493] Updated weights for policy 0, policy_version 111687 (0.0008)
+[2023-07-06 11:16:58,982][98449] Signal inference workers to resume experience collection... (5750 times)
+[2023-07-06 11:16:58,982][98493] InferenceWorker_p0-w0: resuming experience collection (5750 times)
+[2023-07-06 11:16:59,354][98493] Updated weights for policy 0, policy_version 111739 (0.0007)
+[2023-07-06 11:16:59,764][98243] Fps is (10 sec: 117969.3, 60 sec: 112503.6, 300 sec: 112633.1). Total num frames: 228917248. Throughput: 0: 28057.7. Samples: 57275392. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:16:59,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:16:59,873][98493] Updated weights for policy 0, policy_version 111792 (0.0007)
+[2023-07-06 11:17:01,107][98493] Updated weights for policy 0, policy_version 111843 (0.0007)
+[2023-07-06 11:17:01,420][98493] Updated weights for policy 0, policy_version 111873 (0.0007)
+[2023-07-06 11:17:01,870][98493] Updated weights for policy 0, policy_version 111929 (0.0008)
+[2023-07-06 11:17:04,026][98493] Updated weights for policy 0, policy_version 111997 (0.0007)
+[2023-07-06 11:17:04,478][98493] Updated weights for policy 0, policy_version 112035 (0.0007)
+[2023-07-06 11:17:04,764][98243] Fps is (10 sec: 117965.4, 60 sec: 112503.5, 300 sec: 112633.1). Total num frames: 229507072. Throughput: 0: 28023.4. Samples: 57439232. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:17:04,765][98243] Avg episode reward: [(0, '9.150')]
+[2023-07-06 11:17:05,834][98493] Updated weights for policy 0, policy_version 112096 (0.0007)
+[2023-07-06 11:17:06,329][98493] Updated weights for policy 0, policy_version 112151 (0.0007)
+[2023-07-06 11:17:08,058][98493] Updated weights for policy 0, policy_version 112196 (0.0007)
+[2023-07-06 11:17:08,493][98493] Updated weights for policy 0, policy_version 112250 (0.0007)
+[2023-07-06 11:17:09,220][98493] Updated weights for policy 0, policy_version 112290 (0.0007)
+[2023-07-06 11:17:09,764][98243] Fps is (10 sec: 111410.5, 60 sec: 112503.4, 300 sec: 112411.0). Total num frames: 230031360. Throughput: 0: 28125.9. Samples: 57527296. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:17:09,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:17:10,449][98493] Updated weights for policy 0, policy_version 112359 (0.0007)
+[2023-07-06 11:17:10,908][98493] Updated weights for policy 0, policy_version 112408 (0.0007)
+[2023-07-06 11:17:12,901][98493] Updated weights for policy 0, policy_version 112473 (0.0007)
+[2023-07-06 11:17:13,575][98493] Updated weights for policy 0, policy_version 112514 (0.0007)
+[2023-07-06 11:17:14,069][98493] Updated weights for policy 0, policy_version 112576 (0.0006)
+[2023-07-06 11:17:14,764][98243] Fps is (10 sec: 104859.0, 60 sec: 110865.3, 300 sec: 112411.1). Total num frames: 230555648. Throughput: 0: 27989.4. Samples: 57693184. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:17:14,765][98243] Avg episode reward: [(0, '9.130')]
+[2023-07-06 11:17:15,484][98449] Signal inference workers to stop experience collection... (5800 times)
+[2023-07-06 11:17:15,515][98493] InferenceWorker_p0-w0: stopping experience collection (5800 times)
+[2023-07-06 11:17:15,561][98449] Signal inference workers to resume experience collection... (5800 times)
+[2023-07-06 11:17:15,561][98493] InferenceWorker_p0-w0: resuming experience collection (5800 times)
+[2023-07-06 11:17:15,562][98493] Updated weights for policy 0, policy_version 112640 (0.0008)
+[2023-07-06 11:17:16,055][98493] Updated weights for policy 0, policy_version 112700 (0.0008)
+[2023-07-06 11:17:17,717][98493] Updated weights for policy 0, policy_version 112763 (0.0006)
+[2023-07-06 11:17:18,723][98493] Updated weights for policy 0, policy_version 112828 (0.0007)
+[2023-07-06 11:17:19,764][98243] Fps is (10 sec: 108134.3, 60 sec: 110865.2, 300 sec: 112299.8). Total num frames: 231112704. Throughput: 0: 28069.0. Samples: 57863168. Policy #0 lag: (min: 4.0, avg: 113.2, max: 260.0)
+[2023-07-06 11:17:19,765][98243] Avg episode reward: [(0, '9.060')]
+[2023-07-06 11:17:20,151][98493] Updated weights for policy 0, policy_version 112889 (0.0007)
+[2023-07-06 11:17:20,584][98493] Updated weights for policy 0, policy_version 112934 (0.0007)
+[2023-07-06 11:17:22,161][98493] Updated weights for policy 0, policy_version 112998 (0.0007)
+[2023-07-06 11:17:22,817][98493] Updated weights for policy 0, policy_version 113027 (0.0006)
+[2023-07-06 11:17:23,301][98493] Updated weights for policy 0, policy_version 113085 (0.0007)
+[2023-07-06 11:17:24,666][98493] Updated weights for policy 0, policy_version 113122 (0.0007)
+[2023-07-06 11:17:24,764][98243] Fps is (10 sec: 114688.2, 60 sec: 110865.1, 300 sec: 112410.9). Total num frames: 231702528. Throughput: 0: 28057.7. Samples: 57946624. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:24,765][98243] Avg episode reward: [(0, '9.010')]
+[2023-07-06 11:17:25,203][98493] Updated weights for policy 0, policy_version 113175 (0.0007)
+[2023-07-06 11:17:26,468][98493] Updated weights for policy 0, policy_version 113232 (0.0006)
+[2023-07-06 11:17:27,447][98493] Updated weights for policy 0, policy_version 113296 (0.0006)
+[2023-07-06 11:17:28,983][98493] Updated weights for policy 0, policy_version 113347 (0.0008)
+[2023-07-06 11:17:29,455][98493] Updated weights for policy 0, policy_version 113407 (0.0007)
+[2023-07-06 11:17:29,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111411.3, 300 sec: 112299.8). Total num frames: 232259584. Throughput: 0: 28137.4. Samples: 58115584. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:29,764][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:17:30,144][98493] Updated weights for policy 0, policy_version 113467 (0.0007)
+[2023-07-06 11:17:31,553][98493] Updated weights for policy 0, policy_version 113523 (0.0006)
+[2023-07-06 11:17:32,442][98493] Updated weights for policy 0, policy_version 113571 (0.0006)
+[2023-07-06 11:17:33,793][98493] Updated weights for policy 0, policy_version 113616 (0.0007)
+[2023-07-06 11:17:34,177][98449] Signal inference workers to stop experience collection... (5850 times)
+[2023-07-06 11:17:34,197][98493] InferenceWorker_p0-w0: stopping experience collection (5850 times)
+[2023-07-06 11:17:34,225][98449] Signal inference workers to resume experience collection... (5850 times)
+[2023-07-06 11:17:34,226][98493] InferenceWorker_p0-w0: resuming experience collection (5850 times)
+[2023-07-06 11:17:34,297][98493] Updated weights for policy 0, policy_version 113665 (0.0029)
+[2023-07-06 11:17:34,752][98493] Updated weights for policy 0, policy_version 113725 (0.0007)
+[2023-07-06 11:17:34,764][98243] Fps is (10 sec: 117964.9, 60 sec: 113049.7, 300 sec: 112410.9). Total num frames: 232882176. Throughput: 0: 27989.6. Samples: 58280448. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:34,764][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:17:36,410][98493] Updated weights for policy 0, policy_version 113787 (0.0006)
+[2023-07-06 11:17:36,981][98493] Updated weights for policy 0, policy_version 113827 (0.0007)
+[2023-07-06 11:17:38,403][98493] Updated weights for policy 0, policy_version 113874 (0.0007)
+[2023-07-06 11:17:38,941][98493] Updated weights for policy 0, policy_version 113921 (0.0006)
+[2023-07-06 11:17:39,443][98493] Updated weights for policy 0, policy_version 113984 (0.0019)
+[2023-07-06 11:17:39,764][98243] Fps is (10 sec: 117963.0, 60 sec: 113595.6, 300 sec: 112299.7). Total num frames: 233439232. Throughput: 0: 28091.8. Samples: 58366976. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:39,765][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:17:39,769][98449] Saving new best policy, reward=9.320!
+[2023-07-06 11:17:41,231][98493] Updated weights for policy 0, policy_version 114042 (0.0006)
+[2023-07-06 11:17:41,795][98493] Updated weights for policy 0, policy_version 114096 (0.0007)
+[2023-07-06 11:17:43,256][98493] Updated weights for policy 0, policy_version 114134 (0.0007)
+[2023-07-06 11:17:43,902][98493] Updated weights for policy 0, policy_version 114180 (0.0006)
+[2023-07-06 11:17:44,374][98493] Updated weights for policy 0, policy_version 114240 (0.0007)
+[2023-07-06 11:17:44,764][98243] Fps is (10 sec: 108134.0, 60 sec: 113596.3, 300 sec: 112077.6). Total num frames: 233963520. Throughput: 0: 27921.0. Samples: 58531840. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:44,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:17:46,014][98493] Updated weights for policy 0, policy_version 114292 (0.0007)
+[2023-07-06 11:17:46,442][98493] Updated weights for policy 0, policy_version 114339 (0.0007)
+[2023-07-06 11:17:47,971][98493] Updated weights for policy 0, policy_version 114403 (0.0007)
+[2023-07-06 11:17:48,708][98493] Updated weights for policy 0, policy_version 114448 (0.0008)
+[2023-07-06 11:17:49,764][98243] Fps is (10 sec: 104859.5, 60 sec: 112504.1, 300 sec: 111966.6). Total num frames: 234487808. Throughput: 0: 28023.6. Samples: 58700288. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:49,765][98243] Avg episode reward: [(0, '9.190')]
+[2023-07-06 11:17:50,312][98493] Updated weights for policy 0, policy_version 114512 (0.0007)
+[2023-07-06 11:17:50,827][98493] Updated weights for policy 0, policy_version 114569 (0.0008)
+[2023-07-06 11:17:52,344][98493] Updated weights for policy 0, policy_version 114633 (0.0008)
+[2023-07-06 11:17:52,580][98449] Signal inference workers to stop experience collection... (5900 times)
+[2023-07-06 11:17:52,613][98493] InferenceWorker_p0-w0: stopping experience collection (5900 times)
+[2023-07-06 11:17:52,656][98449] Signal inference workers to resume experience collection... (5900 times)
+[2023-07-06 11:17:52,656][98493] InferenceWorker_p0-w0: resuming experience collection (5900 times)
+[2023-07-06 11:17:52,773][98493] Updated weights for policy 0, policy_version 114688 (0.0006)
+[2023-07-06 11:17:53,809][98493] Updated weights for policy 0, policy_version 114737 (0.0007)
+[2023-07-06 11:17:54,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.5, 300 sec: 111966.7). Total num frames: 235012096. Throughput: 0: 27886.9. Samples: 58782208. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:54,765][98243] Avg episode reward: [(0, '9.190')]
+[2023-07-06 11:17:55,137][98493] Updated weights for policy 0, policy_version 114771 (0.0006)
+[2023-07-06 11:17:55,659][98493] Updated weights for policy 0, policy_version 114832 (0.0007)
+[2023-07-06 11:17:56,839][98493] Updated weights for policy 0, policy_version 114882 (0.0008)
+[2023-07-06 11:17:57,307][98493] Updated weights for policy 0, policy_version 114939 (0.0007)
+[2023-07-06 11:17:58,465][98493] Updated weights for policy 0, policy_version 114979 (0.0007)
+[2023-07-06 11:17:59,536][98493] Updated weights for policy 0, policy_version 115013 (0.0007)
+[2023-07-06 11:17:59,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.1, 300 sec: 112188.8). Total num frames: 235601920. Throughput: 0: 28000.7. Samples: 58953216. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:17:59,765][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:18:00,091][98493] Updated weights for policy 0, policy_version 115075 (0.0007)
+[2023-07-06 11:18:00,554][98493] Updated weights for policy 0, policy_version 115132 (0.0006)
+[2023-07-06 11:18:01,804][98493] Updated weights for policy 0, policy_version 115193 (0.0007)
+[2023-07-06 11:18:03,209][98493] Updated weights for policy 0, policy_version 115232 (0.0006)
+[2023-07-06 11:18:04,217][98493] Updated weights for policy 0, policy_version 115267 (0.0006)
+[2023-07-06 11:18:04,727][98493] Updated weights for policy 0, policy_version 115326 (0.0007)
+[2023-07-06 11:18:04,764][98243] Fps is (10 sec: 117965.2, 60 sec: 111411.5, 300 sec: 112188.7). Total num frames: 236191744. Throughput: 0: 27921.1. Samples: 59119616. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:18:04,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:18:05,254][98493] Updated weights for policy 0, policy_version 115388 (0.0007)
+[2023-07-06 11:18:06,606][98493] Updated weights for policy 0, policy_version 115452 (0.0006)
+[2023-07-06 11:18:08,106][98493] Updated weights for policy 0, policy_version 115505 (0.0006)
+[2023-07-06 11:18:09,142][98493] Updated weights for policy 0, policy_version 115568 (0.0007)
+[2023-07-06 11:18:09,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111957.1, 300 sec: 112188.7). Total num frames: 236748800. Throughput: 0: 27966.5. Samples: 59205120. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:18:09,765][98243] Avg episode reward: [(0, '8.970')]
+[2023-07-06 11:18:09,886][98493] Updated weights for policy 0, policy_version 115616 (0.0007)
+[2023-07-06 11:18:11,160][98449] Signal inference workers to stop experience collection... (5950 times)
+[2023-07-06 11:18:11,198][98493] InferenceWorker_p0-w0: stopping experience collection (5950 times)
+[2023-07-06 11:18:11,236][98449] Signal inference workers to resume experience collection... (5950 times)
+[2023-07-06 11:18:11,236][98493] InferenceWorker_p0-w0: resuming experience collection (5950 times)
+[2023-07-06 11:18:11,237][98493] Updated weights for policy 0, policy_version 115680 (0.0007)
+[2023-07-06 11:18:12,441][98493] Updated weights for policy 0, policy_version 115736 (0.0008)
+[2023-07-06 11:18:12,730][98493] Updated weights for policy 0, policy_version 115774 (0.0006)
+[2023-07-06 11:18:13,865][98493] Updated weights for policy 0, policy_version 115832 (0.0007)
+[2023-07-06 11:18:14,510][98493] Updated weights for policy 0, policy_version 115872 (0.0006)
+[2023-07-06 11:18:14,764][98243] Fps is (10 sec: 114688.1, 60 sec: 113049.7, 300 sec: 112299.8). Total num frames: 237338624. Throughput: 0: 27898.3. Samples: 59371008. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:18:14,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:18:15,787][98493] Updated weights for policy 0, policy_version 115928 (0.0018)
+[2023-07-06 11:18:17,272][98493] Updated weights for policy 0, policy_version 115984 (0.0008)
+[2023-07-06 11:18:18,247][98493] Updated weights for policy 0, policy_version 116064 (0.0007)
+[2023-07-06 11:18:19,268][98493] Updated weights for policy 0, policy_version 116118 (0.0006)
+[2023-07-06 11:18:19,764][98243] Fps is (10 sec: 114689.4, 60 sec: 113049.6, 300 sec: 112410.9). Total num frames: 237895680. Throughput: 0: 27898.3. Samples: 59535872. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:18:19,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:18:20,393][98493] Updated weights for policy 0, policy_version 116176 (0.0007)
+[2023-07-06 11:18:21,999][98493] Updated weights for policy 0, policy_version 116226 (0.0006)
+[2023-07-06 11:18:22,449][98493] Updated weights for policy 0, policy_version 116284 (0.0006)
+[2023-07-06 11:18:23,191][98493] Updated weights for policy 0, policy_version 116346 (0.0008)
+[2023-07-06 11:18:23,984][98493] Updated weights for policy 0, policy_version 116409 (0.0006)
+[2023-07-06 11:18:24,764][98243] Fps is (10 sec: 108132.2, 60 sec: 111957.0, 300 sec: 112410.9). Total num frames: 238419968. Throughput: 0: 27864.2. Samples: 59620864. Policy #0 lag: (min: 15.0, avg: 114.4, max: 271.0)
+[2023-07-06 11:18:24,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:18:24,777][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000116416_238419968.pth...
+[2023-07-06 11:18:24,826][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000103296_211550208.pth
+[2023-07-06 11:18:25,469][98493] Updated weights for policy 0, policy_version 116452 (0.0007)
+[2023-07-06 11:18:26,832][98493] Updated weights for policy 0, policy_version 116496 (0.0007)
+[2023-07-06 11:18:27,574][98493] Updated weights for policy 0, policy_version 116551 (0.0007)
+[2023-07-06 11:18:28,005][98493] Updated weights for policy 0, policy_version 116598 (0.0007)
+[2023-07-06 11:18:28,527][98493] Updated weights for policy 0, policy_version 116657 (0.0007)
+[2023-07-06 11:18:29,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.2, 300 sec: 112188.7). Total num frames: 238944256. Throughput: 0: 27875.6. Samples: 59786240. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:29,765][98243] Avg episode reward: [(0, '9.060')]
+[2023-07-06 11:18:30,120][98449] Signal inference workers to stop experience collection... (6000 times)
+[2023-07-06 11:18:30,143][98493] Updated weights for policy 0, policy_version 116708 (0.0007)
+[2023-07-06 11:18:30,150][98493] InferenceWorker_p0-w0: stopping experience collection (6000 times)
+[2023-07-06 11:18:30,204][98449] Signal inference workers to resume experience collection... (6000 times)
+[2023-07-06 11:18:30,204][98493] InferenceWorker_p0-w0: resuming experience collection (6000 times)
+[2023-07-06 11:18:31,810][98493] Updated weights for policy 0, policy_version 116757 (0.0008)
+[2023-07-06 11:18:32,378][98493] Updated weights for policy 0, policy_version 116818 (0.0008)
+[2023-07-06 11:18:32,843][98493] Updated weights for policy 0, policy_version 116868 (0.0008)
+[2023-07-06 11:18:33,278][98493] Updated weights for policy 0, policy_version 116926 (0.0008)
+[2023-07-06 11:18:34,764][98243] Fps is (10 sec: 108136.7, 60 sec: 110319.0, 300 sec: 112077.8). Total num frames: 239501312. Throughput: 0: 27909.7. Samples: 59956224. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:34,764][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:18:35,006][98493] Updated weights for policy 0, policy_version 116988 (0.0007)
+[2023-07-06 11:18:36,753][98493] Updated weights for policy 0, policy_version 117026 (0.0007)
+[2023-07-06 11:18:37,188][98493] Updated weights for policy 0, policy_version 117073 (0.0007)
+[2023-07-06 11:18:37,626][98493] Updated weights for policy 0, policy_version 117124 (0.0007)
+[2023-07-06 11:18:38,053][98493] Updated weights for policy 0, policy_version 117181 (0.0007)
+[2023-07-06 11:18:39,610][98493] Updated weights for policy 0, policy_version 117232 (0.0007)
+[2023-07-06 11:18:39,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111411.5, 300 sec: 112077.8). Total num frames: 240123904. Throughput: 0: 27898.3. Samples: 60037632. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:39,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:18:41,585][98493] Updated weights for policy 0, policy_version 117299 (0.0007)
+[2023-07-06 11:18:42,079][98493] Updated weights for policy 0, policy_version 117360 (0.0007)
+[2023-07-06 11:18:42,617][98493] Updated weights for policy 0, policy_version 117424 (0.0008)
+[2023-07-06 11:18:44,324][98493] Updated weights for policy 0, policy_version 117472 (0.0006)
+[2023-07-06 11:18:44,764][98243] Fps is (10 sec: 114687.2, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 240648192. Throughput: 0: 27841.4. Samples: 60206080. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:44,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:18:45,713][98493] Updated weights for policy 0, policy_version 117520 (0.0006)
+[2023-07-06 11:18:46,337][98493] Updated weights for policy 0, policy_version 117569 (0.0008)
+[2023-07-06 11:18:46,834][98493] Updated weights for policy 0, policy_version 117632 (0.0006)
+[2023-07-06 11:18:46,879][98449] Signal inference workers to stop experience collection... (6050 times)
+[2023-07-06 11:18:46,924][98493] InferenceWorker_p0-w0: stopping experience collection (6050 times)
+[2023-07-06 11:18:46,965][98449] Signal inference workers to resume experience collection... (6050 times)
+[2023-07-06 11:18:46,965][98493] InferenceWorker_p0-w0: resuming experience collection (6050 times)
+[2023-07-06 11:18:48,661][98493] Updated weights for policy 0, policy_version 117697 (0.0007)
+[2023-07-06 11:18:49,143][98493] Updated weights for policy 0, policy_version 117759 (0.0007)
+[2023-07-06 11:18:49,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.1, 300 sec: 111855.5). Total num frames: 241172480. Throughput: 0: 27898.3. Samples: 60375040. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:49,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:18:51,041][98493] Updated weights for policy 0, policy_version 117811 (0.0007)
+[2023-07-06 11:18:51,535][98493] Updated weights for policy 0, policy_version 117860 (0.0007)
+[2023-07-06 11:18:52,016][98493] Updated weights for policy 0, policy_version 117907 (0.0007)
+[2023-07-06 11:18:53,492][98493] Updated weights for policy 0, policy_version 117978 (0.0007)
+[2023-07-06 11:18:53,798][98493] Updated weights for policy 0, policy_version 118016 (0.0007)
+[2023-07-06 11:18:54,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 241696768. Throughput: 0: 27796.0. Samples: 60455936. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:54,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:18:55,951][98493] Updated weights for policy 0, policy_version 118080 (0.0007)
+[2023-07-06 11:18:56,453][98493] Updated weights for policy 0, policy_version 118133 (0.0007)
+[2023-07-06 11:18:56,914][98493] Updated weights for policy 0, policy_version 118192 (0.0008)
+[2023-07-06 11:18:58,135][98493] Updated weights for policy 0, policy_version 118229 (0.0008)
+[2023-07-06 11:18:58,479][98493] Updated weights for policy 0, policy_version 118272 (0.0008)
+[2023-07-06 11:18:59,764][98243] Fps is (10 sec: 104857.9, 60 sec: 110319.0, 300 sec: 111522.4). Total num frames: 242221056. Throughput: 0: 27886.9. Samples: 60625920. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:18:59,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:19:00,628][98493] Updated weights for policy 0, policy_version 118336 (0.0006)
+[2023-07-06 11:19:01,155][98493] Updated weights for policy 0, policy_version 118393 (0.0007)
+[2023-07-06 11:19:01,604][98493] Updated weights for policy 0, policy_version 118436 (0.0007)
+[2023-07-06 11:19:02,863][98493] Updated weights for policy 0, policy_version 118496 (0.0007)
+[2023-07-06 11:19:04,765][98243] Fps is (10 sec: 108124.5, 60 sec: 109771.1, 300 sec: 111633.1). Total num frames: 242778112. Throughput: 0: 28000.1. Samples: 60795904. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:19:04,766][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:19:04,843][98449] Signal inference workers to stop experience collection... (6100 times)
+[2023-07-06 11:19:04,874][98493] InferenceWorker_p0-w0: stopping experience collection (6100 times)
+[2023-07-06 11:19:04,948][98449] Signal inference workers to resume experience collection... (6100 times)
+[2023-07-06 11:19:04,948][98493] InferenceWorker_p0-w0: resuming experience collection (6100 times)
+[2023-07-06 11:19:04,949][98493] Updated weights for policy 0, policy_version 118576 (0.0007)
+[2023-07-06 11:19:05,494][98493] Updated weights for policy 0, policy_version 118629 (0.0007)
+[2023-07-06 11:19:05,946][98493] Updated weights for policy 0, policy_version 118681 (0.0007)
+[2023-07-06 11:19:07,513][98493] Updated weights for policy 0, policy_version 118721 (0.0006)
+[2023-07-06 11:19:08,017][98493] Updated weights for policy 0, policy_version 118784 (0.0006)
+[2023-07-06 11:19:09,713][98493] Updated weights for policy 0, policy_version 118848 (0.0006)
+[2023-07-06 11:19:09,765][98243] Fps is (10 sec: 117961.5, 60 sec: 110864.8, 300 sec: 111855.4). Total num frames: 243400704. Throughput: 0: 27886.9. Samples: 60875776. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:19:09,765][98243] Avg episode reward: [(0, '9.150')]
+[2023-07-06 11:19:10,464][98493] Updated weights for policy 0, policy_version 118921 (0.0010)
+[2023-07-06 11:19:10,892][98493] Updated weights for policy 0, policy_version 118976 (0.0007)
+[2023-07-06 11:19:12,695][98493] Updated weights for policy 0, policy_version 119035 (0.0006)
+[2023-07-06 11:19:14,304][98493] Updated weights for policy 0, policy_version 119097 (0.0008)
+[2023-07-06 11:19:14,764][98243] Fps is (10 sec: 117977.0, 60 sec: 110319.1, 300 sec: 111855.6). Total num frames: 243957760. Throughput: 0: 27943.9. Samples: 61043712. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:19:14,764][98243] Avg episode reward: [(0, '9.110')]
+[2023-07-06 11:19:15,006][98493] Updated weights for policy 0, policy_version 119152 (0.0007)
+[2023-07-06 11:19:15,510][98493] Updated weights for policy 0, policy_version 119204 (0.0007)
+[2023-07-06 11:19:17,197][98493] Updated weights for policy 0, policy_version 119264 (0.0008)
+[2023-07-06 11:19:18,681][98493] Updated weights for policy 0, policy_version 119312 (0.0007)
+[2023-07-06 11:19:19,546][98493] Updated weights for policy 0, policy_version 119376 (0.0011)
+[2023-07-06 11:19:19,764][98243] Fps is (10 sec: 111414.1, 60 sec: 110318.9, 300 sec: 111966.6). Total num frames: 244514816. Throughput: 0: 27773.1. Samples: 61206016. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:19:19,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:19:20,150][98493] Updated weights for policy 0, policy_version 119432 (0.0014)
+[2023-07-06 11:19:20,559][98493] Updated weights for policy 0, policy_version 119478 (0.0008)
+[2023-07-06 11:19:21,814][98493] Updated weights for policy 0, policy_version 119523 (0.0006)
+[2023-07-06 11:19:23,173][98449] Signal inference workers to stop experience collection... (6150 times)
+[2023-07-06 11:19:23,184][98493] InferenceWorker_p0-w0: stopping experience collection (6150 times)
+[2023-07-06 11:19:23,255][98449] Signal inference workers to resume experience collection... (6150 times)
+[2023-07-06 11:19:23,255][98493] InferenceWorker_p0-w0: resuming experience collection (6150 times)
+[2023-07-06 11:19:23,349][98493] Updated weights for policy 0, policy_version 119575 (0.0007)
+[2023-07-06 11:19:24,074][98493] Updated weights for policy 0, policy_version 119619 (0.0006)
+[2023-07-06 11:19:24,526][98493] Updated weights for policy 0, policy_version 119675 (0.0006)
+[2023-07-06 11:19:24,764][98243] Fps is (10 sec: 114686.6, 60 sec: 111411.5, 300 sec: 111966.6). Total num frames: 245104640. Throughput: 0: 27875.5. Samples: 61292032. Policy #0 lag: (min: 63.0, avg: 176.2, max: 319.0)
+[2023-07-06 11:19:24,765][98243] Avg episode reward: [(0, '9.310')]
+[2023-07-06 11:19:25,253][98493] Updated weights for policy 0, policy_version 119740 (0.0008)
+[2023-07-06 11:19:26,603][98493] Updated weights for policy 0, policy_version 119802 (0.0007)
+[2023-07-06 11:19:28,285][98493] Updated weights for policy 0, policy_version 119866 (0.0007)
+[2023-07-06 11:19:29,106][98493] Updated weights for policy 0, policy_version 119911 (0.0006)
+[2023-07-06 11:19:29,644][98493] Updated weights for policy 0, policy_version 119968 (0.0006)
+[2023-07-06 11:19:29,764][98243] Fps is (10 sec: 117965.3, 60 sec: 112503.6, 300 sec: 112188.8). Total num frames: 245694464. Throughput: 0: 27875.6. Samples: 61460480. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:29,764][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:19:31,043][98493] Updated weights for policy 0, policy_version 120002 (0.0006)
+[2023-07-06 11:19:31,519][98493] Updated weights for policy 0, policy_version 120064 (0.0007)
+[2023-07-06 11:19:33,122][98493] Updated weights for policy 0, policy_version 120103 (0.0007)
+[2023-07-06 11:19:33,693][98493] Updated weights for policy 0, policy_version 120166 (0.0007)
+[2023-07-06 11:19:34,091][98493] Updated weights for policy 0, policy_version 120208 (0.0007)
+[2023-07-06 11:19:34,764][98243] Fps is (10 sec: 117963.3, 60 sec: 113049.3, 300 sec: 112410.9). Total num frames: 246284288. Throughput: 0: 27761.7. Samples: 61624320. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:34,765][98243] Avg episode reward: [(0, '9.130')]
+[2023-07-06 11:19:35,594][98493] Updated weights for policy 0, policy_version 120259 (0.0007)
+[2023-07-06 11:19:37,560][98493] Updated weights for policy 0, policy_version 120336 (0.0008)
+[2023-07-06 11:19:38,171][98493] Updated weights for policy 0, policy_version 120400 (0.0006)
+[2023-07-06 11:19:38,844][98493] Updated weights for policy 0, policy_version 120450 (0.0006)
+[2023-07-06 11:19:39,302][98493] Updated weights for policy 0, policy_version 120507 (0.0006)
+[2023-07-06 11:19:39,764][98243] Fps is (10 sec: 111410.9, 60 sec: 111411.2, 300 sec: 112410.9). Total num frames: 246808576. Throughput: 0: 27943.8. Samples: 61713408. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:39,765][98243] Avg episode reward: [(0, '9.100')]
+[2023-07-06 11:19:40,472][98449] Signal inference workers to stop experience collection... (6200 times)
+[2023-07-06 11:19:40,503][98493] InferenceWorker_p0-w0: stopping experience collection (6200 times)
+[2023-07-06 11:19:40,549][98449] Signal inference workers to resume experience collection... (6200 times)
+[2023-07-06 11:19:40,549][98493] InferenceWorker_p0-w0: resuming experience collection (6200 times)
+[2023-07-06 11:19:40,638][98493] Updated weights for policy 0, policy_version 120573 (0.0007)
+[2023-07-06 11:19:42,662][98493] Updated weights for policy 0, policy_version 120624 (0.0007)
+[2023-07-06 11:19:43,069][98493] Updated weights for policy 0, policy_version 120660 (0.0007)
+[2023-07-06 11:19:43,643][98493] Updated weights for policy 0, policy_version 120729 (0.0007)
+[2023-07-06 11:19:44,765][98243] Fps is (10 sec: 104856.6, 60 sec: 111410.8, 300 sec: 112077.6). Total num frames: 247332864. Throughput: 0: 27738.9. Samples: 61874176. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:44,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:19:44,947][98493] Updated weights for policy 0, policy_version 120784 (0.0008)
+[2023-07-06 11:19:46,961][98493] Updated weights for policy 0, policy_version 120836 (0.0006)
+[2023-07-06 11:19:47,460][98493] Updated weights for policy 0, policy_version 120896 (0.0006)
+[2023-07-06 11:19:48,147][98493] Updated weights for policy 0, policy_version 120946 (0.0007)
+[2023-07-06 11:19:48,718][98493] Updated weights for policy 0, policy_version 121018 (0.0007)
+[2023-07-06 11:19:49,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 247922688. Throughput: 0: 27773.7. Samples: 62045696. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:49,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:19:49,790][98493] Updated weights for policy 0, policy_version 121060 (0.0008)
+[2023-07-06 11:19:51,959][98493] Updated weights for policy 0, policy_version 121130 (0.0007)
+[2023-07-06 11:19:52,529][98493] Updated weights for policy 0, policy_version 121193 (0.0007)
+[2023-07-06 11:19:53,022][98493] Updated weights for policy 0, policy_version 121248 (0.0007)
+[2023-07-06 11:19:54,406][98493] Updated weights for policy 0, policy_version 121318 (0.0008)
+[2023-07-06 11:19:54,764][98243] Fps is (10 sec: 117967.4, 60 sec: 113595.7, 300 sec: 112188.7). Total num frames: 248512512. Throughput: 0: 27864.3. Samples: 62129664. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:54,765][98243] Avg episode reward: [(0, '9.350')]
+[2023-07-06 11:19:54,776][98449] Saving new best policy, reward=9.350!
+[2023-07-06 11:19:56,688][98493] Updated weights for policy 0, policy_version 121366 (0.0007)
+[2023-07-06 11:19:57,243][98493] Updated weights for policy 0, policy_version 121440 (0.0007)
+[2023-07-06 11:19:57,591][98449] Signal inference workers to stop experience collection... (6250 times)
+[2023-07-06 11:19:57,624][98493] InferenceWorker_p0-w0: stopping experience collection (6250 times)
+[2023-07-06 11:19:57,676][98449] Signal inference workers to resume experience collection... (6250 times)
+[2023-07-06 11:19:57,677][98493] InferenceWorker_p0-w0: resuming experience collection (6250 times)
+[2023-07-06 11:19:57,759][98493] Updated weights for policy 0, policy_version 121490 (0.0007)
+[2023-07-06 11:19:59,089][98493] Updated weights for policy 0, policy_version 121557 (0.0007)
+[2023-07-06 11:19:59,436][98493] Updated weights for policy 0, policy_version 121600 (0.0006)
+[2023-07-06 11:19:59,764][98243] Fps is (10 sec: 111410.9, 60 sec: 113595.7, 300 sec: 111855.6). Total num frames: 249036800. Throughput: 0: 27841.3. Samples: 62296576. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:19:59,765][98243] Avg episode reward: [(0, '9.380')]
+[2023-07-06 11:19:59,765][98449] Saving new best policy, reward=9.380!
+[2023-07-06 11:20:01,709][98493] Updated weights for policy 0, policy_version 121651 (0.0007)
+[2023-07-06 11:20:02,172][98493] Updated weights for policy 0, policy_version 121704 (0.0007)
+[2023-07-06 11:20:02,649][98493] Updated weights for policy 0, policy_version 121760 (0.0007)
+[2023-07-06 11:20:03,482][98493] Updated weights for policy 0, policy_version 121796 (0.0006)
+[2023-07-06 11:20:03,933][98493] Updated weights for policy 0, policy_version 121849 (0.0007)
+[2023-07-06 11:20:04,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113051.3, 300 sec: 111633.4). Total num frames: 249561088. Throughput: 0: 28000.7. Samples: 62466048. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:20:04,765][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:20:06,094][98493] Updated weights for policy 0, policy_version 121891 (0.0006)
+[2023-07-06 11:20:06,670][98493] Updated weights for policy 0, policy_version 121956 (0.0007)
+[2023-07-06 11:20:07,111][98493] Updated weights for policy 0, policy_version 122004 (0.0006)
+[2023-07-06 11:20:08,079][98493] Updated weights for policy 0, policy_version 122064 (0.0007)
+[2023-07-06 11:20:08,486][98493] Updated weights for policy 0, policy_version 122112 (0.0008)
+[2023-07-06 11:20:09,765][98243] Fps is (10 sec: 104855.2, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 250085376. Throughput: 0: 27852.7. Samples: 62545408. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:20:09,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:20:10,751][98493] Updated weights for policy 0, policy_version 122160 (0.0006)
+[2023-07-06 11:20:11,427][98493] Updated weights for policy 0, policy_version 122208 (0.0007)
+[2023-07-06 11:20:11,921][98493] Updated weights for policy 0, policy_version 122259 (0.0007)
+[2023-07-06 11:20:12,674][98493] Updated weights for policy 0, policy_version 122310 (0.0007)
+[2023-07-06 11:20:13,109][98493] Updated weights for policy 0, policy_version 122364 (0.0008)
+[2023-07-06 11:20:14,764][98243] Fps is (10 sec: 104855.4, 60 sec: 110864.5, 300 sec: 111522.2). Total num frames: 250609664. Throughput: 0: 27920.9. Samples: 62716928. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:20:14,765][98243] Avg episode reward: [(0, '9.340')]
+[2023-07-06 11:20:15,435][98493] Updated weights for policy 0, policy_version 122416 (0.0010)
+[2023-07-06 11:20:15,913][98449] Signal inference workers to stop experience collection... (6300 times)
+[2023-07-06 11:20:15,942][98493] InferenceWorker_p0-w0: stopping experience collection (6300 times)
+[2023-07-06 11:20:15,993][98449] Signal inference workers to resume experience collection... (6300 times)
+[2023-07-06 11:20:15,994][98493] InferenceWorker_p0-w0: resuming experience collection (6300 times)
+[2023-07-06 11:20:16,263][98493] Updated weights for policy 0, policy_version 122480 (0.0007)
+[2023-07-06 11:20:16,870][98493] Updated weights for policy 0, policy_version 122555 (0.0011)
+[2023-07-06 11:20:17,547][98493] Updated weights for policy 0, policy_version 122596 (0.0007)
+[2023-07-06 11:20:19,764][98243] Fps is (10 sec: 104859.9, 60 sec: 110318.9, 300 sec: 111522.3). Total num frames: 251133952. Throughput: 0: 28148.7. Samples: 62891008. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:20:19,765][98243] Avg episode reward: [(0, '9.400')]
+[2023-07-06 11:20:19,765][98449] Saving new best policy, reward=9.400!
+[2023-07-06 11:20:20,132][98493] Updated weights for policy 0, policy_version 122644 (0.0006)
+[2023-07-06 11:20:20,721][98493] Updated weights for policy 0, policy_version 122720 (0.0007)
+[2023-07-06 11:20:21,362][98493] Updated weights for policy 0, policy_version 122791 (0.0008)
+[2023-07-06 11:20:22,090][98493] Updated weights for policy 0, policy_version 122864 (0.0007)
+[2023-07-06 11:20:24,764][98243] Fps is (10 sec: 104859.7, 60 sec: 109226.7, 300 sec: 111411.2). Total num frames: 251658240. Throughput: 0: 27784.5. Samples: 62963712. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:20:24,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:20:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000122880_251658240.pth...
+[2023-07-06 11:20:24,800][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000109888_225050624.pth
+[2023-07-06 11:20:25,275][98493] Updated weights for policy 0, policy_version 122928 (0.0009)
+[2023-07-06 11:20:25,796][98493] Updated weights for policy 0, policy_version 122980 (0.0007)
+[2023-07-06 11:20:26,423][98493] Updated weights for policy 0, policy_version 123056 (0.0007)
+[2023-07-06 11:20:27,038][98493] Updated weights for policy 0, policy_version 123129 (0.0007)
+[2023-07-06 11:20:29,764][98243] Fps is (10 sec: 104857.7, 60 sec: 108134.3, 300 sec: 111078.0). Total num frames: 252182528. Throughput: 0: 27978.1. Samples: 63133184. Policy #0 lag: (min: 1.0, avg: 94.5, max: 257.0)
+[2023-07-06 11:20:29,765][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:20:30,168][98493] Updated weights for policy 0, policy_version 123192 (0.0007)
+[2023-07-06 11:20:30,763][98493] Updated weights for policy 0, policy_version 123264 (0.0008)
+[2023-07-06 11:20:31,228][98449] Signal inference workers to stop experience collection... (6350 times)
+[2023-07-06 11:20:31,284][98493] InferenceWorker_p0-w0: stopping experience collection (6350 times)
+[2023-07-06 11:20:31,285][98493] Updated weights for policy 0, policy_version 123318 (0.0008)
+[2023-07-06 11:20:31,342][98449] Signal inference workers to resume experience collection... (6350 times)
+[2023-07-06 11:20:31,342][98493] InferenceWorker_p0-w0: resuming experience collection (6350 times)
+[2023-07-06 11:20:31,849][98493] Updated weights for policy 0, policy_version 123387 (0.0007)
+[2023-07-06 11:20:34,658][98493] Updated weights for policy 0, policy_version 123440 (0.0006)
+[2023-07-06 11:20:34,764][98243] Fps is (10 sec: 114689.4, 60 sec: 108681.0, 300 sec: 111411.3). Total num frames: 252805120. Throughput: 0: 27887.0. Samples: 63300608. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:20:34,764][98243] Avg episode reward: [(0, '9.040')]
+[2023-07-06 11:20:35,219][98493] Updated weights for policy 0, policy_version 123504 (0.0007)
+[2023-07-06 11:20:35,896][98493] Updated weights for policy 0, policy_version 123552 (0.0007)
+[2023-07-06 11:20:36,396][98493] Updated weights for policy 0, policy_version 123602 (0.0008)
+[2023-07-06 11:20:38,940][98493] Updated weights for policy 0, policy_version 123664 (0.0008)
+[2023-07-06 11:20:39,437][98493] Updated weights for policy 0, policy_version 123715 (0.0008)
+[2023-07-06 11:20:39,764][98243] Fps is (10 sec: 124518.5, 60 sec: 110318.9, 300 sec: 111744.4). Total num frames: 253427712. Throughput: 0: 27830.0. Samples: 63382016. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:20:39,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:20:39,846][98493] Updated weights for policy 0, policy_version 123770 (0.0006)
+[2023-07-06 11:20:40,561][98493] Updated weights for policy 0, policy_version 123808 (0.0007)
+[2023-07-06 11:20:41,083][98493] Updated weights for policy 0, policy_version 123863 (0.0006)
+[2023-07-06 11:20:43,651][98493] Updated weights for policy 0, policy_version 123929 (0.0007)
+[2023-07-06 11:20:44,265][98493] Updated weights for policy 0, policy_version 124000 (0.0007)
+[2023-07-06 11:20:44,764][98243] Fps is (10 sec: 121237.9, 60 sec: 111411.3, 300 sec: 111966.5). Total num frames: 254017536. Throughput: 0: 27921.0. Samples: 63553024. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:20:44,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:20:44,973][98493] Updated weights for policy 0, policy_version 124036 (0.0006)
+[2023-07-06 11:20:45,695][98493] Updated weights for policy 0, policy_version 124118 (0.0007)
+[2023-07-06 11:20:48,673][98493] Updated weights for policy 0, policy_version 124192 (0.0007)
+[2023-07-06 11:20:49,133][98493] Updated weights for policy 0, policy_version 124226 (0.0007)
+[2023-07-06 11:20:49,241][98449] Signal inference workers to stop experience collection... (6400 times)
+[2023-07-06 11:20:49,282][98493] InferenceWorker_p0-w0: stopping experience collection (6400 times)
+[2023-07-06 11:20:49,351][98449] Signal inference workers to resume experience collection... (6400 times)
+[2023-07-06 11:20:49,351][98493] InferenceWorker_p0-w0: resuming experience collection (6400 times)
+[2023-07-06 11:20:49,730][98493] Updated weights for policy 0, policy_version 124293 (0.0007)
+[2023-07-06 11:20:49,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110318.9, 300 sec: 111633.4). Total num frames: 254541824. Throughput: 0: 27636.6. Samples: 63709696. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:20:49,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:20:49,942][98449] Saving new best policy, reward=9.440!
+[2023-07-06 11:20:50,366][98493] Updated weights for policy 0, policy_version 124354 (0.0009)
+[2023-07-06 11:20:50,793][98493] Updated weights for policy 0, policy_version 124412 (0.0006)
+[2023-07-06 11:20:53,705][98493] Updated weights for policy 0, policy_version 124464 (0.0007)
+[2023-07-06 11:20:54,160][98493] Updated weights for policy 0, policy_version 124512 (0.0007)
+[2023-07-06 11:20:54,600][98493] Updated weights for policy 0, policy_version 124560 (0.0006)
+[2023-07-06 11:20:54,764][98243] Fps is (10 sec: 111413.9, 60 sec: 110319.1, 300 sec: 111744.5). Total num frames: 255131648. Throughput: 0: 27818.9. Samples: 63797248. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:20:54,764][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:20:55,130][98493] Updated weights for policy 0, policy_version 124609 (0.0009)
+[2023-07-06 11:20:55,627][98493] Updated weights for policy 0, policy_version 124672 (0.0007)
+[2023-07-06 11:20:58,522][98493] Updated weights for policy 0, policy_version 124724 (0.0009)
+[2023-07-06 11:20:59,132][98493] Updated weights for policy 0, policy_version 124800 (0.0008)
+[2023-07-06 11:20:59,629][98493] Updated weights for policy 0, policy_version 124859 (0.0006)
+[2023-07-06 11:20:59,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111411.3, 300 sec: 111744.5). Total num frames: 255721472. Throughput: 0: 27705.0. Samples: 63963648. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:20:59,764][98243] Avg episode reward: [(0, '9.260')]
+[2023-07-06 11:21:00,366][98493] Updated weights for policy 0, policy_version 124912 (0.0006)
+[2023-07-06 11:21:03,083][98493] Updated weights for policy 0, policy_version 124961 (0.0006)
+[2023-07-06 11:21:03,581][98493] Updated weights for policy 0, policy_version 125024 (0.0007)
+[2023-07-06 11:21:04,099][98493] Updated weights for policy 0, policy_version 125075 (0.0007)
+[2023-07-06 11:21:04,668][98449] Signal inference workers to stop experience collection... (6450 times)
+[2023-07-06 11:21:04,693][98493] InferenceWorker_p0-w0: stopping experience collection (6450 times)
+[2023-07-06 11:21:04,694][98493] Updated weights for policy 0, policy_version 125123 (0.0007)
+[2023-07-06 11:21:04,758][98449] Signal inference workers to resume experience collection... (6450 times)
+[2023-07-06 11:21:04,758][98493] InferenceWorker_p0-w0: resuming experience collection (6450 times)
+[2023-07-06 11:21:04,764][98243] Fps is (10 sec: 114687.8, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 256278528. Throughput: 0: 27375.0. Samples: 64122880. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:21:04,765][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:21:05,173][98493] Updated weights for policy 0, policy_version 125181 (0.0006)
+[2023-07-06 11:21:08,049][98493] Updated weights for policy 0, policy_version 125232 (0.0008)
+[2023-07-06 11:21:08,599][98493] Updated weights for policy 0, policy_version 125296 (0.0007)
+[2023-07-06 11:21:09,089][98493] Updated weights for policy 0, policy_version 125349 (0.0039)
+[2023-07-06 11:21:09,581][98493] Updated weights for policy 0, policy_version 125408 (0.0008)
+[2023-07-06 11:21:09,764][98243] Fps is (10 sec: 114688.0, 60 sec: 113050.1, 300 sec: 111744.5). Total num frames: 256868352. Throughput: 0: 27795.9. Samples: 64214528. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:21:09,765][98243] Avg episode reward: [(0, '9.130')]
+[2023-07-06 11:21:12,437][98493] Updated weights for policy 0, policy_version 125463 (0.0007)
+[2023-07-06 11:21:13,033][98493] Updated weights for policy 0, policy_version 125527 (0.0005)
+[2023-07-06 11:21:13,611][98493] Updated weights for policy 0, policy_version 125591 (0.0008)
+[2023-07-06 11:21:13,910][98493] Updated weights for policy 0, policy_version 125632 (0.0006)
+[2023-07-06 11:21:14,548][98493] Updated weights for policy 0, policy_version 125691 (0.0007)
+[2023-07-06 11:21:14,764][98243] Fps is (10 sec: 114686.7, 60 sec: 113596.0, 300 sec: 111744.4). Total num frames: 257425408. Throughput: 0: 27545.6. Samples: 64372736. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:21:14,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:21:17,339][98493] Updated weights for policy 0, policy_version 125744 (0.0008)
+[2023-07-06 11:21:18,011][98493] Updated weights for policy 0, policy_version 125818 (0.0008)
+[2023-07-06 11:21:18,565][98493] Updated weights for policy 0, policy_version 125883 (0.0007)
+[2023-07-06 11:21:19,284][98493] Updated weights for policy 0, policy_version 125936 (0.0008)
+[2023-07-06 11:21:19,764][98243] Fps is (10 sec: 108134.2, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 257949696. Throughput: 0: 27500.0. Samples: 64538112. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:21:19,765][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:21:21,864][98493] Updated weights for policy 0, policy_version 125984 (0.0007)
+[2023-07-06 11:21:22,224][98449] Signal inference workers to stop experience collection... (6500 times)
+[2023-07-06 11:21:22,250][98493] InferenceWorker_p0-w0: stopping experience collection (6500 times)
+[2023-07-06 11:21:22,299][98449] Signal inference workers to resume experience collection... (6500 times)
+[2023-07-06 11:21:22,300][98493] InferenceWorker_p0-w0: resuming experience collection (6500 times)
+[2023-07-06 11:21:22,532][98493] Updated weights for policy 0, policy_version 126056 (0.0008)
+[2023-07-06 11:21:23,174][98493] Updated weights for policy 0, policy_version 126121 (0.0007)
+[2023-07-06 11:21:23,856][98493] Updated weights for policy 0, policy_version 126168 (0.0007)
+[2023-07-06 11:21:24,764][98243] Fps is (10 sec: 104858.0, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 258473984. Throughput: 0: 27602.5. Samples: 64624128. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:21:24,765][98243] Avg episode reward: [(0, '9.120')]
+[2023-07-06 11:21:26,591][98493] Updated weights for policy 0, policy_version 126240 (0.0008)
+[2023-07-06 11:21:27,111][98493] Updated weights for policy 0, policy_version 126290 (0.0007)
+[2023-07-06 11:21:27,682][98493] Updated weights for policy 0, policy_version 126355 (0.0007)
+[2023-07-06 11:21:28,512][98493] Updated weights for policy 0, policy_version 126401 (0.0006)
+[2023-07-06 11:21:28,960][98493] Updated weights for policy 0, policy_version 126459 (0.0007)
+[2023-07-06 11:21:29,764][98243] Fps is (10 sec: 104857.3, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 258998272. Throughput: 0: 27466.1. Samples: 64788992. Policy #0 lag: (min: 15.0, avg: 64.1, max: 271.0)
+[2023-07-06 11:21:29,765][98243] Avg episode reward: [(0, '9.080')]
+[2023-07-06 11:21:31,563][98493] Updated weights for policy 0, policy_version 126517 (0.0007)
+[2023-07-06 11:21:32,102][98493] Updated weights for policy 0, policy_version 126586 (0.0007)
+[2023-07-06 11:21:32,654][98493] Updated weights for policy 0, policy_version 126640 (0.0008)
+[2023-07-06 11:21:33,488][98493] Updated weights for policy 0, policy_version 126688 (0.0007)
+[2023-07-06 11:21:34,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111957.0, 300 sec: 111522.3). Total num frames: 259522560. Throughput: 0: 27716.2. Samples: 64956928. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:21:34,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:21:35,982][98493] Updated weights for policy 0, policy_version 126745 (0.0006)
+[2023-07-06 11:21:36,413][98493] Updated weights for policy 0, policy_version 126800 (0.0008)
+[2023-07-06 11:21:36,916][98493] Updated weights for policy 0, policy_version 126854 (0.0008)
+[2023-07-06 11:21:37,872][98493] Updated weights for policy 0, policy_version 126918 (0.0007)
+[2023-07-06 11:21:38,348][98493] Updated weights for policy 0, policy_version 126976 (0.0009)
+[2023-07-06 11:21:39,764][98243] Fps is (10 sec: 104856.5, 60 sec: 110318.7, 300 sec: 111522.4). Total num frames: 260046848. Throughput: 0: 27591.0. Samples: 65038848. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:21:39,765][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:21:40,587][98449] Signal inference workers to stop experience collection... (6550 times)
+[2023-07-06 11:21:40,599][98493] InferenceWorker_p0-w0: stopping experience collection (6550 times)
+[2023-07-06 11:21:40,689][98449] Signal inference workers to resume experience collection... (6550 times)
+[2023-07-06 11:21:40,690][98493] InferenceWorker_p0-w0: resuming experience collection (6550 times)
+[2023-07-06 11:21:41,123][98493] Updated weights for policy 0, policy_version 127040 (0.0007)
+[2023-07-06 11:21:41,778][98493] Updated weights for policy 0, policy_version 127105 (0.0007)
+[2023-07-06 11:21:42,159][98493] Updated weights for policy 0, policy_version 127152 (0.0007)
+[2023-07-06 11:21:42,728][98493] Updated weights for policy 0, policy_version 127216 (0.0009)
+[2023-07-06 11:21:44,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.9, 300 sec: 111300.2). Total num frames: 260571136. Throughput: 0: 27636.6. Samples: 65207296. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:21:44,765][98243] Avg episode reward: [(0, '9.310')]
+[2023-07-06 11:21:45,505][98493] Updated weights for policy 0, policy_version 127268 (0.0008)
+[2023-07-06 11:21:45,986][98493] Updated weights for policy 0, policy_version 127320 (0.0007)
+[2023-07-06 11:21:46,493][98493] Updated weights for policy 0, policy_version 127361 (0.0007)
+[2023-07-06 11:21:47,015][98493] Updated weights for policy 0, policy_version 127424 (0.0007)
+[2023-07-06 11:21:47,522][98493] Updated weights for policy 0, policy_version 127485 (0.0007)
+[2023-07-06 11:21:49,765][98243] Fps is (10 sec: 108131.8, 60 sec: 109772.1, 300 sec: 111189.0). Total num frames: 261128192. Throughput: 0: 28000.5. Samples: 65382912. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:21:49,765][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:21:50,033][98493] Updated weights for policy 0, policy_version 127536 (0.0007)
+[2023-07-06 11:21:50,688][98493] Updated weights for policy 0, policy_version 127614 (0.0007)
+[2023-07-06 11:21:51,875][98493] Updated weights for policy 0, policy_version 127664 (0.0007)
+[2023-07-06 11:21:52,454][98493] Updated weights for policy 0, policy_version 127728 (0.0007)
+[2023-07-06 11:21:54,557][98493] Updated weights for policy 0, policy_version 127761 (0.0006)
+[2023-07-06 11:21:54,764][98243] Fps is (10 sec: 111411.6, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 261685248. Throughput: 0: 27602.5. Samples: 65456640. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:21:54,764][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:21:55,090][98493] Updated weights for policy 0, policy_version 127824 (0.0008)
+[2023-07-06 11:21:55,493][98493] Updated weights for policy 0, policy_version 127872 (0.0007)
+[2023-07-06 11:21:56,234][98449] Signal inference workers to stop experience collection... (6600 times)
+[2023-07-06 11:21:56,284][98493] InferenceWorker_p0-w0: stopping experience collection (6600 times)
+[2023-07-06 11:21:56,325][98449] Signal inference workers to resume experience collection... (6600 times)
+[2023-07-06 11:21:56,325][98493] InferenceWorker_p0-w0: resuming experience collection (6600 times)
+[2023-07-06 11:21:56,533][98493] Updated weights for policy 0, policy_version 127921 (0.0007)
+[2023-07-06 11:21:57,062][98493] Updated weights for policy 0, policy_version 127984 (0.0007)
+[2023-07-06 11:21:59,166][98493] Updated weights for policy 0, policy_version 128048 (0.0007)
+[2023-07-06 11:21:59,764][98243] Fps is (10 sec: 114690.1, 60 sec: 109226.3, 300 sec: 111077.9). Total num frames: 262275072. Throughput: 0: 27977.9. Samples: 65631744. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:21:59,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 11:21:59,766][98449] Saving new best policy, reward=9.590!
+[2023-07-06 11:22:00,211][98493] Updated weights for policy 0, policy_version 128105 (0.0006)
+[2023-07-06 11:22:00,811][98493] Updated weights for policy 0, policy_version 128132 (0.0007)
+[2023-07-06 11:22:01,428][98493] Updated weights for policy 0, policy_version 128199 (0.0008)
+[2023-07-06 11:22:01,899][98493] Updated weights for policy 0, policy_version 128256 (0.0008)
+[2023-07-06 11:22:04,158][98493] Updated weights for policy 0, policy_version 128320 (0.0007)
+[2023-07-06 11:22:04,764][98243] Fps is (10 sec: 117965.3, 60 sec: 109772.8, 300 sec: 111300.1). Total num frames: 262864896. Throughput: 0: 27909.7. Samples: 65794048. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:22:04,764][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 11:22:04,936][98493] Updated weights for policy 0, policy_version 128381 (0.0007)
+[2023-07-06 11:22:05,982][98493] Updated weights for policy 0, policy_version 128437 (0.0007)
+[2023-07-06 11:22:06,434][98493] Updated weights for policy 0, policy_version 128485 (0.0007)
+[2023-07-06 11:22:08,539][98493] Updated weights for policy 0, policy_version 128528 (0.0006)
+[2023-07-06 11:22:09,270][98493] Updated weights for policy 0, policy_version 128579 (0.0008)
+[2023-07-06 11:22:09,754][98493] Updated weights for policy 0, policy_version 128640 (0.0007)
+[2023-07-06 11:22:09,765][98243] Fps is (10 sec: 117964.1, 60 sec: 109772.3, 300 sec: 111522.2). Total num frames: 263454720. Throughput: 0: 27864.0. Samples: 65878016. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:22:09,765][98243] Avg episode reward: [(0, '9.480')]
+[2023-07-06 11:22:10,536][98493] Updated weights for policy 0, policy_version 128696 (0.0007)
+[2023-07-06 11:22:11,166][98493] Updated weights for policy 0, policy_version 128743 (0.0006)
+[2023-07-06 11:22:13,386][98493] Updated weights for policy 0, policy_version 128792 (0.0007)
+[2023-07-06 11:22:13,880][98493] Updated weights for policy 0, policy_version 128837 (0.0006)
+[2023-07-06 11:22:14,354][98493] Updated weights for policy 0, policy_version 128896 (0.0008)
+[2023-07-06 11:22:14,749][98449] Signal inference workers to stop experience collection... (6650 times)
+[2023-07-06 11:22:14,764][98243] Fps is (10 sec: 111408.4, 60 sec: 109226.4, 300 sec: 111411.1). Total num frames: 263979008. Throughput: 0: 27932.3. Samples: 66045952. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:22:14,765][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 11:22:14,768][98493] InferenceWorker_p0-w0: stopping experience collection (6650 times)
+[2023-07-06 11:22:14,849][98449] Signal inference workers to resume experience collection... (6650 times)
+[2023-07-06 11:22:14,849][98493] InferenceWorker_p0-w0: resuming experience collection (6650 times)
+[2023-07-06 11:22:15,201][98493] Updated weights for policy 0, policy_version 128952 (0.0007)
+[2023-07-06 11:22:15,653][98493] Updated weights for policy 0, policy_version 128993 (0.0007)
+[2023-07-06 11:22:17,790][98493] Updated weights for policy 0, policy_version 129040 (0.0007)
+[2023-07-06 11:22:18,636][98493] Updated weights for policy 0, policy_version 129089 (0.0008)
+[2023-07-06 11:22:19,111][98493] Updated weights for policy 0, policy_version 129152 (0.0008)
+[2023-07-06 11:22:19,765][98243] Fps is (10 sec: 114686.2, 60 sec: 110864.3, 300 sec: 111522.1). Total num frames: 264601600. Throughput: 0: 27898.1. Samples: 66212352. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:22:19,765][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:22:19,769][98493] Updated weights for policy 0, policy_version 129211 (0.0007)
+[2023-07-06 11:22:20,580][98493] Updated weights for policy 0, policy_version 129270 (0.0007)
+[2023-07-06 11:22:22,701][98493] Updated weights for policy 0, policy_version 129317 (0.0007)
+[2023-07-06 11:22:23,389][98493] Updated weights for policy 0, policy_version 129369 (0.0006)
+[2023-07-06 11:22:24,211][98493] Updated weights for policy 0, policy_version 129433 (0.0009)
+[2023-07-06 11:22:24,528][98493] Updated weights for policy 0, policy_version 129470 (0.0006)
+[2023-07-06 11:22:24,764][98243] Fps is (10 sec: 117966.6, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 265158656. Throughput: 0: 28000.8. Samples: 66298880. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:22:24,767][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:22:24,936][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000129488_265191424.pth...
+[2023-07-06 11:22:25,017][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000116416_238419968.pth
+[2023-07-06 11:22:25,022][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000129488_265191424.pth
+[2023-07-06 11:22:25,357][98493] Updated weights for policy 0, policy_version 129529 (0.0008)
+[2023-07-06 11:22:27,313][98493] Updated weights for policy 0, policy_version 129574 (0.0008)
+[2023-07-06 11:22:28,009][98493] Updated weights for policy 0, policy_version 129626 (0.0007)
+[2023-07-06 11:22:28,317][98493] Updated weights for policy 0, policy_version 129664 (0.0007)
+[2023-07-06 11:22:28,943][98493] Updated weights for policy 0, policy_version 129722 (0.0007)
+[2023-07-06 11:22:29,764][98243] Fps is (10 sec: 108139.6, 60 sec: 111411.4, 300 sec: 111189.1). Total num frames: 265682944. Throughput: 0: 28000.8. Samples: 66467328. Policy #0 lag: (min: 77.0, avg: 135.5, max: 333.0)
+[2023-07-06 11:22:29,764][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:22:30,177][98493] Updated weights for policy 0, policy_version 129792 (0.0007)
+[2023-07-06 11:22:32,145][98493] Updated weights for policy 0, policy_version 129853 (0.0008)
+[2023-07-06 11:22:32,944][98493] Updated weights for policy 0, policy_version 129912 (0.0006)
+[2023-07-06 11:22:33,462][98449] Signal inference workers to stop experience collection... (6700 times)
+[2023-07-06 11:22:33,506][98493] InferenceWorker_p0-w0: stopping experience collection (6700 times)
+[2023-07-06 11:22:33,543][98449] Signal inference workers to resume experience collection... (6700 times)
+[2023-07-06 11:22:33,544][98493] InferenceWorker_p0-w0: resuming experience collection (6700 times)
+[2023-07-06 11:22:33,635][98493] Updated weights for policy 0, policy_version 129958 (0.0007)
+[2023-07-06 11:22:34,538][98493] Updated weights for policy 0, policy_version 130016 (0.0007)
+[2023-07-06 11:22:34,765][98243] Fps is (10 sec: 114676.1, 60 sec: 113047.7, 300 sec: 111410.9). Total num frames: 266305536. Throughput: 0: 27727.2. Samples: 66630656. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:22:34,767][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:22:36,668][98493] Updated weights for policy 0, policy_version 130070 (0.0007)
+[2023-07-06 11:22:37,294][98493] Updated weights for policy 0, policy_version 130144 (0.0007)
+[2023-07-06 11:22:38,420][98493] Updated weights for policy 0, policy_version 130202 (0.0007)
+[2023-07-06 11:22:39,220][98493] Updated weights for policy 0, policy_version 130256 (0.0007)
+[2023-07-06 11:22:39,764][98243] Fps is (10 sec: 117962.3, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 266862592. Throughput: 0: 27977.9. Samples: 66715648. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:22:39,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:22:41,130][98493] Updated weights for policy 0, policy_version 130305 (0.0006)
+[2023-07-06 11:22:41,914][98493] Updated weights for policy 0, policy_version 130372 (0.0006)
+[2023-07-06 11:22:42,342][98493] Updated weights for policy 0, policy_version 130424 (0.0009)
+[2023-07-06 11:22:43,066][98493] Updated weights for policy 0, policy_version 130470 (0.0007)
+[2023-07-06 11:22:44,078][98493] Updated weights for policy 0, policy_version 130519 (0.0009)
+[2023-07-06 11:22:44,764][98243] Fps is (10 sec: 108146.4, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 267386880. Throughput: 0: 27818.8. Samples: 66883584. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:22:44,765][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:22:45,884][98493] Updated weights for policy 0, policy_version 130584 (0.0008)
+[2023-07-06 11:22:46,219][98493] Updated weights for policy 0, policy_version 130624 (0.0007)
+[2023-07-06 11:22:46,864][98493] Updated weights for policy 0, policy_version 130672 (0.0006)
+[2023-07-06 11:22:47,608][98493] Updated weights for policy 0, policy_version 130723 (0.0007)
+[2023-07-06 11:22:48,744][98493] Updated weights for policy 0, policy_version 130775 (0.0006)
+[2023-07-06 11:22:49,764][98243] Fps is (10 sec: 104856.8, 60 sec: 113049.9, 300 sec: 111522.2). Total num frames: 267911168. Throughput: 0: 28011.9. Samples: 67054592. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:22:49,765][98243] Avg episode reward: [(0, '9.390')]
+[2023-07-06 11:22:50,662][98493] Updated weights for policy 0, policy_version 130819 (0.0006)
+[2023-07-06 11:22:51,121][98493] Updated weights for policy 0, policy_version 130871 (0.0007)
+[2023-07-06 11:22:51,662][98493] Updated weights for policy 0, policy_version 130938 (0.0007)
+[2023-07-06 11:22:51,991][98449] Signal inference workers to stop experience collection... (6750 times)
+[2023-07-06 11:22:52,031][98493] InferenceWorker_p0-w0: stopping experience collection (6750 times)
+[2023-07-06 11:22:52,072][98449] Signal inference workers to resume experience collection... (6750 times)
+[2023-07-06 11:22:52,072][98493] InferenceWorker_p0-w0: resuming experience collection (6750 times)
+[2023-07-06 11:22:52,159][98493] Updated weights for policy 0, policy_version 130982 (0.0008)
+[2023-07-06 11:22:53,323][98493] Updated weights for policy 0, policy_version 131024 (0.0007)
+[2023-07-06 11:22:53,768][98493] Updated weights for policy 0, policy_version 131072 (0.0007)
+[2023-07-06 11:22:54,764][98243] Fps is (10 sec: 104857.1, 60 sec: 112503.4, 300 sec: 111300.1). Total num frames: 268435456. Throughput: 0: 28000.8. Samples: 67138048. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:22:54,765][98243] Avg episode reward: [(0, '9.370')]
+[2023-07-06 11:22:55,572][98493] Updated weights for policy 0, policy_version 131129 (0.0007)
+[2023-07-06 11:22:56,028][98493] Updated weights for policy 0, policy_version 131170 (0.0008)
+[2023-07-06 11:22:56,641][98493] Updated weights for policy 0, policy_version 131221 (0.0007)
+[2023-07-06 11:22:57,922][98493] Updated weights for policy 0, policy_version 131267 (0.0013)
+[2023-07-06 11:22:59,765][98243] Fps is (10 sec: 104857.0, 60 sec: 111411.1, 300 sec: 111077.9). Total num frames: 268959744. Throughput: 0: 28034.8. Samples: 67307520. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:22:59,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:22:59,800][98493] Updated weights for policy 0, policy_version 131330 (0.0006)
+[2023-07-06 11:23:00,249][98493] Updated weights for policy 0, policy_version 131388 (0.0007)
+[2023-07-06 11:23:01,000][98493] Updated weights for policy 0, policy_version 131448 (0.0007)
+[2023-07-06 11:23:01,488][98493] Updated weights for policy 0, policy_version 131496 (0.0007)
+[2023-07-06 11:23:02,728][98493] Updated weights for policy 0, policy_version 131536 (0.0007)
+[2023-07-06 11:23:03,152][98493] Updated weights for policy 0, policy_version 131584 (0.0007)
+[2023-07-06 11:23:04,764][98243] Fps is (10 sec: 111411.9, 60 sec: 111411.2, 300 sec: 111189.1). Total num frames: 269549568. Throughput: 0: 28126.1. Samples: 67478016. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:04,764][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:23:04,945][98493] Updated weights for policy 0, policy_version 131648 (0.0006)
+[2023-07-06 11:23:05,703][98493] Updated weights for policy 0, policy_version 131705 (0.0006)
+[2023-07-06 11:23:06,158][98493] Updated weights for policy 0, policy_version 131748 (0.0007)
+[2023-07-06 11:23:07,334][98493] Updated weights for policy 0, policy_version 131792 (0.0007)
+[2023-07-06 11:23:09,172][98493] Updated weights for policy 0, policy_version 131842 (0.0008)
+[2023-07-06 11:23:09,613][98493] Updated weights for policy 0, policy_version 131894 (0.0007)
+[2023-07-06 11:23:09,764][98243] Fps is (10 sec: 117967.0, 60 sec: 111411.5, 300 sec: 111189.0). Total num frames: 270139392. Throughput: 0: 27966.6. Samples: 67557376. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:09,765][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:23:09,953][98493] Updated weights for policy 0, policy_version 131923 (0.0007)
+[2023-07-06 11:23:10,090][98449] Signal inference workers to stop experience collection... (6800 times)
+[2023-07-06 11:23:10,120][98493] InferenceWorker_p0-w0: stopping experience collection (6800 times)
+[2023-07-06 11:23:10,169][98449] Signal inference workers to resume experience collection... (6800 times)
+[2023-07-06 11:23:10,169][98493] InferenceWorker_p0-w0: resuming experience collection (6800 times)
+[2023-07-06 11:23:10,621][98493] Updated weights for policy 0, policy_version 131992 (0.0007)
+[2023-07-06 11:23:12,087][98493] Updated weights for policy 0, policy_version 132053 (0.0007)
+[2023-07-06 11:23:13,765][98493] Updated weights for policy 0, policy_version 132097 (0.0007)
+[2023-07-06 11:23:14,204][98493] Updated weights for policy 0, policy_version 132156 (0.0007)
+[2023-07-06 11:23:14,764][98243] Fps is (10 sec: 117965.1, 60 sec: 112504.0, 300 sec: 111300.1). Total num frames: 270729216. Throughput: 0: 28137.2. Samples: 67733504. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:14,764][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:23:14,946][98493] Updated weights for policy 0, policy_version 132210 (0.0007)
+[2023-07-06 11:23:15,380][98493] Updated weights for policy 0, policy_version 132260 (0.0007)
+[2023-07-06 11:23:16,764][98493] Updated weights for policy 0, policy_version 132320 (0.0007)
+[2023-07-06 11:23:18,744][98493] Updated weights for policy 0, policy_version 132384 (0.0007)
+[2023-07-06 11:23:19,372][98493] Updated weights for policy 0, policy_version 132432 (0.0007)
+[2023-07-06 11:23:19,764][98243] Fps is (10 sec: 114689.3, 60 sec: 111412.0, 300 sec: 111411.3). Total num frames: 271286272. Throughput: 0: 28137.9. Samples: 67896832. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:19,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:23:19,854][98493] Updated weights for policy 0, policy_version 132481 (0.0007)
+[2023-07-06 11:23:20,300][98493] Updated weights for policy 0, policy_version 132538 (0.0016)
+[2023-07-06 11:23:21,635][98493] Updated weights for policy 0, policy_version 132583 (0.0006)
+[2023-07-06 11:23:23,368][98493] Updated weights for policy 0, policy_version 132641 (0.0007)
+[2023-07-06 11:23:24,130][98493] Updated weights for policy 0, policy_version 132695 (0.0006)
+[2023-07-06 11:23:24,607][98493] Updated weights for policy 0, policy_version 132752 (0.0007)
+[2023-07-06 11:23:24,764][98243] Fps is (10 sec: 117962.3, 60 sec: 112503.3, 300 sec: 111744.4). Total num frames: 271908864. Throughput: 0: 28205.5. Samples: 67984896. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:24,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:23:25,028][98493] Updated weights for policy 0, policy_version 132794 (0.0008)
+[2023-07-06 11:23:26,299][98493] Updated weights for policy 0, policy_version 132848 (0.0007)
+[2023-07-06 11:23:28,089][98493] Updated weights for policy 0, policy_version 132896 (0.0007)
+[2023-07-06 11:23:28,656][98493] Updated weights for policy 0, policy_version 132944 (0.0009)
+[2023-07-06 11:23:28,714][98449] Signal inference workers to stop experience collection... (6850 times)
+[2023-07-06 11:23:28,746][98493] InferenceWorker_p0-w0: stopping experience collection (6850 times)
+[2023-07-06 11:23:28,813][98449] Signal inference workers to resume experience collection... (6850 times)
+[2023-07-06 11:23:28,813][98493] InferenceWorker_p0-w0: resuming experience collection (6850 times)
+[2023-07-06 11:23:29,170][98493] Updated weights for policy 0, policy_version 132997 (0.0007)
+[2023-07-06 11:23:29,594][98493] Updated weights for policy 0, policy_version 133053 (0.0007)
+[2023-07-06 11:23:29,764][98243] Fps is (10 sec: 121241.2, 60 sec: 113595.6, 300 sec: 111855.5). Total num frames: 272498688. Throughput: 0: 28194.1. Samples: 68152320. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:29,765][98243] Avg episode reward: [(0, '9.260')]
+[2023-07-06 11:23:31,005][98493] Updated weights for policy 0, policy_version 133120 (0.0007)
+[2023-07-06 11:23:33,025][98493] Updated weights for policy 0, policy_version 133178 (0.0008)
+[2023-07-06 11:23:33,520][98493] Updated weights for policy 0, policy_version 133219 (0.0007)
+[2023-07-06 11:23:33,981][98493] Updated weights for policy 0, policy_version 133271 (0.0007)
+[2023-07-06 11:23:34,764][98243] Fps is (10 sec: 111412.9, 60 sec: 111959.4, 300 sec: 111522.3). Total num frames: 273022976. Throughput: 0: 28069.1. Samples: 68317696. Policy #0 lag: (min: 15.0, avg: 154.5, max: 271.0)
+[2023-07-06 11:23:34,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:23:35,331][98493] Updated weights for policy 0, policy_version 133316 (0.0007)
+[2023-07-06 11:23:35,785][98493] Updated weights for policy 0, policy_version 133375 (0.0008)
+[2023-07-06 11:23:37,553][98493] Updated weights for policy 0, policy_version 133415 (0.0007)
+[2023-07-06 11:23:38,159][98493] Updated weights for policy 0, policy_version 133488 (0.0007)
+[2023-07-06 11:23:38,712][98493] Updated weights for policy 0, policy_version 133552 (0.0007)
+[2023-07-06 11:23:39,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 273547264. Throughput: 0: 28194.1. Samples: 68406784. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:23:39,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:23:40,280][98493] Updated weights for policy 0, policy_version 133590 (0.0009)
+[2023-07-06 11:23:41,774][98493] Updated weights for policy 0, policy_version 133635 (0.0008)
+[2023-07-06 11:23:42,261][98493] Updated weights for policy 0, policy_version 133696 (0.0007)
+[2023-07-06 11:23:42,786][98493] Updated weights for policy 0, policy_version 133744 (0.0007)
+[2023-07-06 11:23:43,438][98493] Updated weights for policy 0, policy_version 133818 (0.0009)
+[2023-07-06 11:23:44,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 274071552. Throughput: 0: 28046.3. Samples: 68569600. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:23:44,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:23:45,376][98493] Updated weights for policy 0, policy_version 133872 (0.0007)
+[2023-07-06 11:23:46,422][98449] Signal inference workers to stop experience collection... (6900 times)
+[2023-07-06 11:23:46,466][98493] InferenceWorker_p0-w0: stopping experience collection (6900 times)
+[2023-07-06 11:23:46,503][98449] Signal inference workers to resume experience collection... (6900 times)
+[2023-07-06 11:23:46,503][98493] InferenceWorker_p0-w0: resuming experience collection (6900 times)
+[2023-07-06 11:23:46,585][98493] Updated weights for policy 0, policy_version 133926 (0.0007)
+[2023-07-06 11:23:47,115][98493] Updated weights for policy 0, policy_version 133976 (0.0008)
+[2023-07-06 11:23:47,544][98493] Updated weights for policy 0, policy_version 134020 (0.0007)
+[2023-07-06 11:23:49,739][98493] Updated weights for policy 0, policy_version 134081 (0.0007)
+[2023-07-06 11:23:49,764][98243] Fps is (10 sec: 104856.0, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 274595840. Throughput: 0: 28148.5. Samples: 68744704. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:23:49,765][98243] Avg episode reward: [(0, '9.120')]
+[2023-07-06 11:23:50,233][98493] Updated weights for policy 0, policy_version 134144 (0.0008)
+[2023-07-06 11:23:51,306][98493] Updated weights for policy 0, policy_version 134192 (0.0007)
+[2023-07-06 11:23:51,894][98493] Updated weights for policy 0, policy_version 134256 (0.0008)
+[2023-07-06 11:23:52,470][98493] Updated weights for policy 0, policy_version 134320 (0.0007)
+[2023-07-06 11:23:54,764][98243] Fps is (10 sec: 111412.2, 60 sec: 112503.5, 300 sec: 111744.4). Total num frames: 275185664. Throughput: 0: 28103.1. Samples: 68822016. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:23:54,765][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:23:54,781][98493] Updated weights for policy 0, policy_version 134373 (0.0007)
+[2023-07-06 11:23:55,457][98493] Updated weights for policy 0, policy_version 134406 (0.0007)
+[2023-07-06 11:23:56,324][98493] Updated weights for policy 0, policy_version 134465 (0.0007)
+[2023-07-06 11:23:56,922][98493] Updated weights for policy 0, policy_version 134534 (0.0006)
+[2023-07-06 11:23:57,391][98493] Updated weights for policy 0, policy_version 134592 (0.0007)
+[2023-07-06 11:23:59,552][98493] Updated weights for policy 0, policy_version 134640 (0.0008)
+[2023-07-06 11:23:59,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113596.3, 300 sec: 111855.9). Total num frames: 275775488. Throughput: 0: 28057.6. Samples: 68996096. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:23:59,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:24:00,331][98493] Updated weights for policy 0, policy_version 134695 (0.0007)
+[2023-07-06 11:24:01,286][98493] Updated weights for policy 0, policy_version 134745 (0.0007)
+[2023-07-06 11:24:01,747][98493] Updated weights for policy 0, policy_version 134800 (0.0007)
+[2023-07-06 11:24:02,170][98493] Updated weights for policy 0, policy_version 134848 (0.0007)
+[2023-07-06 11:24:04,116][98449] Signal inference workers to stop experience collection... (6950 times)
+[2023-07-06 11:24:04,156][98493] InferenceWorker_p0-w0: stopping experience collection (6950 times)
+[2023-07-06 11:24:04,209][98449] Signal inference workers to resume experience collection... (6950 times)
+[2023-07-06 11:24:04,209][98493] InferenceWorker_p0-w0: resuming experience collection (6950 times)
+[2023-07-06 11:24:04,297][98493] Updated weights for policy 0, policy_version 134907 (0.0006)
+[2023-07-06 11:24:04,764][98243] Fps is (10 sec: 114688.4, 60 sec: 113049.6, 300 sec: 111633.5). Total num frames: 276332544. Throughput: 0: 28239.6. Samples: 69167616. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:04,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:24:04,856][98493] Updated weights for policy 0, policy_version 134944 (0.0007)
+[2023-07-06 11:24:05,701][98493] Updated weights for policy 0, policy_version 134983 (0.0006)
+[2023-07-06 11:24:06,182][98493] Updated weights for policy 0, policy_version 135040 (0.0008)
+[2023-07-06 11:24:06,731][98493] Updated weights for policy 0, policy_version 135104 (0.0006)
+[2023-07-06 11:24:09,291][98493] Updated weights for policy 0, policy_version 135173 (0.0006)
+[2023-07-06 11:24:09,717][98493] Updated weights for policy 0, policy_version 135228 (0.0008)
+[2023-07-06 11:24:09,764][98243] Fps is (10 sec: 117965.1, 60 sec: 113596.0, 300 sec: 111855.5). Total num frames: 276955136. Throughput: 0: 28091.8. Samples: 69249024. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:09,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:24:10,775][98493] Updated weights for policy 0, policy_version 135280 (0.0006)
+[2023-07-06 11:24:11,278][98493] Updated weights for policy 0, policy_version 135332 (0.0007)
+[2023-07-06 11:24:13,228][98493] Updated weights for policy 0, policy_version 135379 (0.0007)
+[2023-07-06 11:24:13,550][98493] Updated weights for policy 0, policy_version 135420 (0.0006)
+[2023-07-06 11:24:14,231][98493] Updated weights for policy 0, policy_version 135472 (0.0007)
+[2023-07-06 11:24:14,765][98243] Fps is (10 sec: 114684.6, 60 sec: 112502.8, 300 sec: 111744.3). Total num frames: 277479424. Throughput: 0: 28171.2. Samples: 69420032. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:14,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:24:15,400][98493] Updated weights for policy 0, policy_version 135524 (0.0007)
+[2023-07-06 11:24:15,951][98493] Updated weights for policy 0, policy_version 135589 (0.0007)
+[2023-07-06 11:24:17,811][98493] Updated weights for policy 0, policy_version 135618 (0.0007)
+[2023-07-06 11:24:18,275][98493] Updated weights for policy 0, policy_version 135673 (0.0008)
+[2023-07-06 11:24:18,605][98493] Updated weights for policy 0, policy_version 135700 (0.0007)
+[2023-07-06 11:24:19,614][98493] Updated weights for policy 0, policy_version 135760 (0.0007)
+[2023-07-06 11:24:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 113049.6, 300 sec: 111744.4). Total num frames: 278069248. Throughput: 0: 28216.9. Samples: 69587456. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:19,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:24:19,985][98493] Updated weights for policy 0, policy_version 135797 (0.0006)
+[2023-07-06 11:24:20,347][98449] Signal inference workers to stop experience collection... (7000 times)
+[2023-07-06 11:24:20,399][98493] InferenceWorker_p0-w0: stopping experience collection (7000 times)
+[2023-07-06 11:24:20,461][98449] Signal inference workers to resume experience collection... (7000 times)
+[2023-07-06 11:24:20,461][98493] InferenceWorker_p0-w0: resuming experience collection (7000 times)
+[2023-07-06 11:24:20,600][98493] Updated weights for policy 0, policy_version 135871 (0.0007)
+[2023-07-06 11:24:23,089][98493] Updated weights for policy 0, policy_version 135929 (0.0007)
+[2023-07-06 11:24:23,728][98493] Updated weights for policy 0, policy_version 135984 (0.0007)
+[2023-07-06 11:24:24,210][98493] Updated weights for policy 0, policy_version 136023 (0.0006)
+[2023-07-06 11:24:24,764][98243] Fps is (10 sec: 117968.0, 60 sec: 112503.7, 300 sec: 111744.4). Total num frames: 278659072. Throughput: 0: 28194.2. Samples: 69675520. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:24,764][98243] Avg episode reward: [(0, '9.110')]
+[2023-07-06 11:24:24,857][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000136080_278691840.pth...
+[2023-07-06 11:24:24,858][98493] Updated weights for policy 0, policy_version 136080 (0.0006)
+[2023-07-06 11:24:24,926][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000122880_251658240.pth
+[2023-07-06 11:24:27,344][98493] Updated weights for policy 0, policy_version 136144 (0.0008)
+[2023-07-06 11:24:28,068][98493] Updated weights for policy 0, policy_version 136194 (0.0007)
+[2023-07-06 11:24:28,499][98493] Updated weights for policy 0, policy_version 136249 (0.0007)
+[2023-07-06 11:24:29,130][98493] Updated weights for policy 0, policy_version 136294 (0.0006)
+[2023-07-06 11:24:29,687][98493] Updated weights for policy 0, policy_version 136357 (0.0007)
+[2023-07-06 11:24:29,764][98243] Fps is (10 sec: 121242.5, 60 sec: 113049.8, 300 sec: 111855.6). Total num frames: 279281664. Throughput: 0: 28239.8. Samples: 69840384. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:29,764][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:24:31,858][98493] Updated weights for policy 0, policy_version 136389 (0.0007)
+[2023-07-06 11:24:32,656][98493] Updated weights for policy 0, policy_version 136464 (0.0007)
+[2023-07-06 11:24:33,667][98493] Updated weights for policy 0, policy_version 136528 (0.0008)
+[2023-07-06 11:24:34,228][98493] Updated weights for policy 0, policy_version 136592 (0.0008)
+[2023-07-06 11:24:34,764][98243] Fps is (10 sec: 117964.9, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 279838720. Throughput: 0: 27978.1. Samples: 70003712. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:34,765][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:24:36,558][98493] Updated weights for policy 0, policy_version 136656 (0.0006)
+[2023-07-06 11:24:37,349][98493] Updated weights for policy 0, policy_version 136709 (0.0007)
+[2023-07-06 11:24:38,357][98493] Updated weights for policy 0, policy_version 136784 (0.0007)
+[2023-07-06 11:24:38,993][98493] Updated weights for policy 0, policy_version 136848 (0.0006)
+[2023-07-06 11:24:39,038][98449] Signal inference workers to stop experience collection... (7050 times)
+[2023-07-06 11:24:39,084][98493] InferenceWorker_p0-w0: stopping experience collection (7050 times)
+[2023-07-06 11:24:39,120][98449] Signal inference workers to resume experience collection... (7050 times)
+[2023-07-06 11:24:39,121][98493] InferenceWorker_p0-w0: resuming experience collection (7050 times)
+[2023-07-06 11:24:39,764][98243] Fps is (10 sec: 108131.5, 60 sec: 113595.5, 300 sec: 111966.6). Total num frames: 280363008. Throughput: 0: 28182.7. Samples: 70090240. Policy #0 lag: (min: 1.0, avg: 77.8, max: 257.0)
+[2023-07-06 11:24:39,765][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:24:41,287][98493] Updated weights for policy 0, policy_version 136912 (0.0007)
+[2023-07-06 11:24:42,055][98493] Updated weights for policy 0, policy_version 136961 (0.0008)
+[2023-07-06 11:24:42,541][98493] Updated weights for policy 0, policy_version 137024 (0.0007)
+[2023-07-06 11:24:43,592][98493] Updated weights for policy 0, policy_version 137088 (0.0009)
+[2023-07-06 11:24:44,113][98493] Updated weights for policy 0, policy_version 137145 (0.0008)
+[2023-07-06 11:24:44,764][98243] Fps is (10 sec: 104855.6, 60 sec: 113595.6, 300 sec: 111744.4). Total num frames: 280887296. Throughput: 0: 27989.2. Samples: 70255616. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:24:44,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:24:46,543][98493] Updated weights for policy 0, policy_version 137206 (0.0007)
+[2023-07-06 11:24:46,935][98493] Updated weights for policy 0, policy_version 137248 (0.0031)
+[2023-07-06 11:24:47,695][98493] Updated weights for policy 0, policy_version 137287 (0.0007)
+[2023-07-06 11:24:48,124][98493] Updated weights for policy 0, policy_version 137333 (0.0006)
+[2023-07-06 11:24:49,764][98243] Fps is (10 sec: 104859.8, 60 sec: 113596.2, 300 sec: 111522.3). Total num frames: 281411584. Throughput: 0: 27989.3. Samples: 70427136. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:24:49,764][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:24:50,624][98493] Updated weights for policy 0, policy_version 137411 (0.0007)
+[2023-07-06 11:24:51,097][98493] Updated weights for policy 0, policy_version 137471 (0.0007)
+[2023-07-06 11:24:51,877][98493] Updated weights for policy 0, policy_version 137520 (0.0007)
+[2023-07-06 11:24:52,820][98493] Updated weights for policy 0, policy_version 137575 (0.0007)
+[2023-07-06 11:24:53,271][98493] Updated weights for policy 0, policy_version 137632 (0.0008)
+[2023-07-06 11:24:54,764][98243] Fps is (10 sec: 104858.8, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 281935872. Throughput: 0: 28034.8. Samples: 70510592. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:24:54,765][98243] Avg episode reward: [(0, '9.100')]
+[2023-07-06 11:24:55,531][98493] Updated weights for policy 0, policy_version 137696 (0.0007)
+[2023-07-06 11:24:56,459][98493] Updated weights for policy 0, policy_version 137762 (0.0007)
+[2023-07-06 11:24:57,397][98493] Updated weights for policy 0, policy_version 137824 (0.0007)
+[2023-07-06 11:24:57,447][98449] Signal inference workers to stop experience collection... (7100 times)
+[2023-07-06 11:24:57,479][98493] InferenceWorker_p0-w0: stopping experience collection (7100 times)
+[2023-07-06 11:24:57,542][98449] Signal inference workers to resume experience collection... (7100 times)
+[2023-07-06 11:24:57,542][98493] InferenceWorker_p0-w0: resuming experience collection (7100 times)
+[2023-07-06 11:24:57,943][98493] Updated weights for policy 0, policy_version 137879 (0.0007)
+[2023-07-06 11:24:59,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 282460160. Throughput: 0: 27841.6. Samples: 70672896. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:24:59,765][98243] Avg episode reward: [(0, '9.070')]
+[2023-07-06 11:25:00,120][98493] Updated weights for policy 0, policy_version 137925 (0.0007)
+[2023-07-06 11:25:00,894][98493] Updated weights for policy 0, policy_version 137989 (0.0007)
+[2023-07-06 11:25:01,327][98493] Updated weights for policy 0, policy_version 138042 (0.0008)
+[2023-07-06 11:25:02,367][98493] Updated weights for policy 0, policy_version 138096 (0.0007)
+[2023-07-06 11:25:02,883][98493] Updated weights for policy 0, policy_version 138147 (0.0007)
+[2023-07-06 11:25:04,764][98243] Fps is (10 sec: 104856.3, 60 sec: 110864.7, 300 sec: 111522.3). Total num frames: 282984448. Throughput: 0: 27966.4. Samples: 70845952. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:04,765][98243] Avg episode reward: [(0, '9.210')]
+[2023-07-06 11:25:05,080][98493] Updated weights for policy 0, policy_version 138208 (0.0007)
+[2023-07-06 11:25:05,575][98493] Updated weights for policy 0, policy_version 138256 (0.0007)
+[2023-07-06 11:25:06,688][98493] Updated weights for policy 0, policy_version 138307 (0.0006)
+[2023-07-06 11:25:07,151][98493] Updated weights for policy 0, policy_version 138361 (0.0008)
+[2023-07-06 11:25:07,564][98493] Updated weights for policy 0, policy_version 138404 (0.0007)
+[2023-07-06 11:25:09,603][98493] Updated weights for policy 0, policy_version 138448 (0.0008)
+[2023-07-06 11:25:09,765][98243] Fps is (10 sec: 111407.7, 60 sec: 110318.2, 300 sec: 111744.4). Total num frames: 283574272. Throughput: 0: 27738.8. Samples: 70923776. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:09,765][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:25:10,149][98493] Updated weights for policy 0, policy_version 138501 (0.0008)
+[2023-07-06 11:25:11,223][98493] Updated weights for policy 0, policy_version 138565 (0.0007)
+[2023-07-06 11:25:11,732][98493] Updated weights for policy 0, policy_version 138624 (0.0007)
+[2023-07-06 11:25:12,254][98493] Updated weights for policy 0, policy_version 138683 (0.0007)
+[2023-07-06 11:25:14,568][98493] Updated weights for policy 0, policy_version 138736 (0.0007)
+[2023-07-06 11:25:14,779][98243] Fps is (10 sec: 117797.3, 60 sec: 111385.0, 300 sec: 111961.1). Total num frames: 284164096. Throughput: 0: 27946.2. Samples: 71098368. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:14,780][98243] Avg episode reward: [(0, '9.310')]
+[2023-07-06 11:25:15,212][98493] Updated weights for policy 0, policy_version 138800 (0.0007)
+[2023-07-06 11:25:15,940][98449] Signal inference workers to stop experience collection... (7150 times)
+[2023-07-06 11:25:15,969][98493] InferenceWorker_p0-w0: stopping experience collection (7150 times)
+[2023-07-06 11:25:16,042][98449] Signal inference workers to resume experience collection... (7150 times)
+[2023-07-06 11:25:16,043][98493] InferenceWorker_p0-w0: resuming experience collection (7150 times)
+[2023-07-06 11:25:16,261][98493] Updated weights for policy 0, policy_version 138852 (0.0007)
+[2023-07-06 11:25:16,729][98493] Updated weights for policy 0, policy_version 138912 (0.0008)
+[2023-07-06 11:25:18,921][98493] Updated weights for policy 0, policy_version 138960 (0.0006)
+[2023-07-06 11:25:19,542][98493] Updated weights for policy 0, policy_version 139014 (0.0006)
+[2023-07-06 11:25:19,764][98243] Fps is (10 sec: 117969.9, 60 sec: 111411.3, 300 sec: 112188.8). Total num frames: 284753920. Throughput: 0: 28034.9. Samples: 71265280. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:19,765][98243] Avg episode reward: [(0, '9.290')]
+[2023-07-06 11:25:20,024][98493] Updated weights for policy 0, policy_version 139072 (0.0008)
+[2023-07-06 11:25:20,860][98493] Updated weights for policy 0, policy_version 139128 (0.0007)
+[2023-07-06 11:25:21,540][98493] Updated weights for policy 0, policy_version 139169 (0.0007)
+[2023-07-06 11:25:23,620][98493] Updated weights for policy 0, policy_version 139220 (0.0007)
+[2023-07-06 11:25:23,932][98493] Updated weights for policy 0, policy_version 139262 (0.0007)
+[2023-07-06 11:25:24,764][98243] Fps is (10 sec: 114853.6, 60 sec: 110865.1, 300 sec: 112299.8). Total num frames: 285310976. Throughput: 0: 27966.7. Samples: 71348736. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:24,765][98243] Avg episode reward: [(0, '9.190')]
+[2023-07-06 11:25:24,798][98493] Updated weights for policy 0, policy_version 139316 (0.0007)
+[2023-07-06 11:25:25,392][98493] Updated weights for policy 0, policy_version 139389 (0.0007)
+[2023-07-06 11:25:26,228][98493] Updated weights for policy 0, policy_version 139433 (0.0007)
+[2023-07-06 11:25:28,146][98493] Updated weights for policy 0, policy_version 139488 (0.0007)
+[2023-07-06 11:25:28,944][98493] Updated weights for policy 0, policy_version 139527 (0.0006)
+[2023-07-06 11:25:29,356][98493] Updated weights for policy 0, policy_version 139580 (0.0007)
+[2023-07-06 11:25:29,764][98243] Fps is (10 sec: 114687.1, 60 sec: 110318.8, 300 sec: 112188.7). Total num frames: 285900800. Throughput: 0: 28091.9. Samples: 71519744. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:29,765][98243] Avg episode reward: [(0, '9.130')]
+[2023-07-06 11:25:30,024][98493] Updated weights for policy 0, policy_version 139633 (0.0007)
+[2023-07-06 11:25:30,486][98493] Updated weights for policy 0, policy_version 139680 (0.0006)
+[2023-07-06 11:25:32,690][98493] Updated weights for policy 0, policy_version 139719 (0.0007)
+[2023-07-06 11:25:33,559][98493] Updated weights for policy 0, policy_version 139782 (0.0008)
+[2023-07-06 11:25:33,974][98493] Updated weights for policy 0, policy_version 139829 (0.0007)
+[2023-07-06 11:25:34,380][98449] Signal inference workers to stop experience collection... (7200 times)
+[2023-07-06 11:25:34,415][98493] InferenceWorker_p0-w0: stopping experience collection (7200 times)
+[2023-07-06 11:25:34,468][98449] Signal inference workers to resume experience collection... (7200 times)
+[2023-07-06 11:25:34,468][98493] InferenceWorker_p0-w0: resuming experience collection (7200 times)
+[2023-07-06 11:25:34,753][98493] Updated weights for policy 0, policy_version 139888 (0.0006)
+[2023-07-06 11:25:34,764][98243] Fps is (10 sec: 117963.9, 60 sec: 110864.9, 300 sec: 112077.6). Total num frames: 286490624. Throughput: 0: 28034.8. Samples: 71688704. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:34,765][98243] Avg episode reward: [(0, '9.130')]
+[2023-07-06 11:25:35,363][98493] Updated weights for policy 0, policy_version 139961 (0.0007)
+[2023-07-06 11:25:37,683][98493] Updated weights for policy 0, policy_version 140016 (0.0007)
+[2023-07-06 11:25:38,588][98493] Updated weights for policy 0, policy_version 140072 (0.0008)
+[2023-07-06 11:25:39,096][98493] Updated weights for policy 0, policy_version 140101 (0.0006)
+[2023-07-06 11:25:39,694][98493] Updated weights for policy 0, policy_version 140161 (0.0006)
+[2023-07-06 11:25:39,764][98243] Fps is (10 sec: 114686.0, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 287047680. Throughput: 0: 28046.2. Samples: 71772672. Policy #0 lag: (min: 15.0, avg: 96.5, max: 271.0)
+[2023-07-06 11:25:39,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:25:40,144][98493] Updated weights for policy 0, policy_version 140218 (0.0007)
+[2023-07-06 11:25:42,167][98493] Updated weights for policy 0, policy_version 140256 (0.0006)
+[2023-07-06 11:25:42,881][98493] Updated weights for policy 0, policy_version 140304 (0.0006)
+[2023-07-06 11:25:43,820][98493] Updated weights for policy 0, policy_version 140376 (0.0007)
+[2023-07-06 11:25:44,667][98493] Updated weights for policy 0, policy_version 140449 (0.0008)
+[2023-07-06 11:25:44,764][98243] Fps is (10 sec: 117966.5, 60 sec: 113050.1, 300 sec: 112299.9). Total num frames: 287670272. Throughput: 0: 28182.8. Samples: 71941120. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:25:44,764][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:25:46,927][98493] Updated weights for policy 0, policy_version 140512 (0.0006)
+[2023-07-06 11:25:47,954][98493] Updated weights for policy 0, policy_version 140578 (0.0009)
+[2023-07-06 11:25:48,570][98493] Updated weights for policy 0, policy_version 140615 (0.0007)
+[2023-07-06 11:25:49,025][98493] Updated weights for policy 0, policy_version 140672 (0.0007)
+[2023-07-06 11:25:49,581][98493] Updated weights for policy 0, policy_version 140736 (0.0006)
+[2023-07-06 11:25:49,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113595.7, 300 sec: 112188.7). Total num frames: 288227328. Throughput: 0: 27921.2. Samples: 72102400. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:25:49,764][98243] Avg episode reward: [(0, '9.290')]
+[2023-07-06 11:25:51,964][98493] Updated weights for policy 0, policy_version 140798 (0.0007)
+[2023-07-06 11:25:52,813][98493] Updated weights for policy 0, policy_version 140859 (0.0007)
+[2023-07-06 11:25:53,222][98449] Signal inference workers to stop experience collection... (7250 times)
+[2023-07-06 11:25:53,261][98493] InferenceWorker_p0-w0: stopping experience collection (7250 times)
+[2023-07-06 11:25:53,310][98449] Signal inference workers to resume experience collection... (7250 times)
+[2023-07-06 11:25:53,311][98493] InferenceWorker_p0-w0: resuming experience collection (7250 times)
+[2023-07-06 11:25:53,555][98493] Updated weights for policy 0, policy_version 140901 (0.0007)
+[2023-07-06 11:25:54,112][98493] Updated weights for policy 0, policy_version 140968 (0.0007)
+[2023-07-06 11:25:54,764][98243] Fps is (10 sec: 108132.8, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 288751616. Throughput: 0: 28148.8. Samples: 72190464. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:25:54,765][98243] Avg episode reward: [(0, '9.270')]
+[2023-07-06 11:25:56,440][98493] Updated weights for policy 0, policy_version 141028 (0.0007)
+[2023-07-06 11:25:57,286][98493] Updated weights for policy 0, policy_version 141073 (0.0007)
+[2023-07-06 11:25:57,800][98493] Updated weights for policy 0, policy_version 141121 (0.0007)
+[2023-07-06 11:25:58,254][98493] Updated weights for policy 0, policy_version 141174 (0.0008)
+[2023-07-06 11:25:58,816][98493] Updated weights for policy 0, policy_version 141239 (0.0008)
+[2023-07-06 11:25:59,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113595.8, 300 sec: 111855.5). Total num frames: 289275904. Throughput: 0: 27964.2. Samples: 72356352. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:25:59,765][98243] Avg episode reward: [(0, '9.270')]
+[2023-07-06 11:26:01,128][98493] Updated weights for policy 0, policy_version 141296 (0.0007)
+[2023-07-06 11:26:02,063][98493] Updated weights for policy 0, policy_version 141344 (0.0006)
+[2023-07-06 11:26:02,639][98493] Updated weights for policy 0, policy_version 141397 (0.0007)
+[2023-07-06 11:26:03,379][98493] Updated weights for policy 0, policy_version 141463 (0.0007)
+[2023-07-06 11:26:04,764][98243] Fps is (10 sec: 104858.1, 60 sec: 113596.1, 300 sec: 111633.3). Total num frames: 289800192. Throughput: 0: 28000.6. Samples: 72525312. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:04,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:26:05,879][98493] Updated weights for policy 0, policy_version 141526 (0.0007)
+[2023-07-06 11:26:06,313][98493] Updated weights for policy 0, policy_version 141571 (0.0007)
+[2023-07-06 11:26:07,134][98493] Updated weights for policy 0, policy_version 141634 (0.0007)
+[2023-07-06 11:26:07,575][98493] Updated weights for policy 0, policy_version 141691 (0.0008)
+[2023-07-06 11:26:08,231][98493] Updated weights for policy 0, policy_version 141753 (0.0008)
+[2023-07-06 11:26:09,764][98243] Fps is (10 sec: 104857.1, 60 sec: 112504.0, 300 sec: 111522.3). Total num frames: 290324480. Throughput: 0: 27966.5. Samples: 72607232. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:09,765][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:26:10,648][98493] Updated weights for policy 0, policy_version 141796 (0.0007)
+[2023-07-06 11:26:11,029][98449] Signal inference workers to stop experience collection... (7300 times)
+[2023-07-06 11:26:11,063][98493] InferenceWorker_p0-w0: stopping experience collection (7300 times)
+[2023-07-06 11:26:11,122][98449] Signal inference workers to resume experience collection... (7300 times)
+[2023-07-06 11:26:11,123][98493] InferenceWorker_p0-w0: resuming experience collection (7300 times)
+[2023-07-06 11:26:11,124][98493] Updated weights for policy 0, policy_version 141856 (0.0007)
+[2023-07-06 11:26:12,282][98493] Updated weights for policy 0, policy_version 141904 (0.0007)
+[2023-07-06 11:26:12,862][98493] Updated weights for policy 0, policy_version 141968 (0.0008)
+[2023-07-06 11:26:13,289][98493] Updated weights for policy 0, policy_version 142016 (0.0007)
+[2023-07-06 11:26:14,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111438.0, 300 sec: 111522.3). Total num frames: 290848768. Throughput: 0: 27852.8. Samples: 72773120. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:14,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:26:15,617][98493] Updated weights for policy 0, policy_version 142089 (0.0007)
+[2023-07-06 11:26:16,066][98493] Updated weights for policy 0, policy_version 142143 (0.0007)
+[2023-07-06 11:26:17,322][98493] Updated weights for policy 0, policy_version 142206 (0.0012)
+[2023-07-06 11:26:17,978][98493] Updated weights for policy 0, policy_version 142264 (0.0007)
+[2023-07-06 11:26:19,764][98243] Fps is (10 sec: 104856.3, 60 sec: 110318.5, 300 sec: 111522.2). Total num frames: 291373056. Throughput: 0: 27921.0. Samples: 72945152. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:19,765][98243] Avg episode reward: [(0, '9.140')]
+[2023-07-06 11:26:20,118][98493] Updated weights for policy 0, policy_version 142309 (0.0006)
+[2023-07-06 11:26:20,688][98493] Updated weights for policy 0, policy_version 142376 (0.0008)
+[2023-07-06 11:26:21,748][98493] Updated weights for policy 0, policy_version 142424 (0.0007)
+[2023-07-06 11:26:22,255][98493] Updated weights for policy 0, policy_version 142467 (0.0007)
+[2023-07-06 11:26:22,709][98493] Updated weights for policy 0, policy_version 142521 (0.0008)
+[2023-07-06 11:26:24,764][98243] Fps is (10 sec: 111410.3, 60 sec: 110864.9, 300 sec: 111744.4). Total num frames: 291962880. Throughput: 0: 27750.5. Samples: 73021440. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:24,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:26:24,886][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000142576_291995648.pth...
+[2023-07-06 11:26:24,887][98493] Updated weights for policy 0, policy_version 142576 (0.0007)
+[2023-07-06 11:26:24,944][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000129488_265191424.pth
+[2023-07-06 11:26:25,441][98493] Updated weights for policy 0, policy_version 142635 (0.0006)
+[2023-07-06 11:26:26,303][98493] Updated weights for policy 0, policy_version 142678 (0.0006)
+[2023-07-06 11:26:27,054][98493] Updated weights for policy 0, policy_version 142736 (0.0007)
+[2023-07-06 11:26:27,473][98493] Updated weights for policy 0, policy_version 142783 (0.0008)
+[2023-07-06 11:26:29,466][98449] Signal inference workers to stop experience collection... (7350 times)
+[2023-07-06 11:26:29,491][98493] InferenceWorker_p0-w0: stopping experience collection (7350 times)
+[2023-07-06 11:26:29,555][98449] Signal inference workers to resume experience collection... (7350 times)
+[2023-07-06 11:26:29,555][98493] InferenceWorker_p0-w0: resuming experience collection (7350 times)
+[2023-07-06 11:26:29,655][98493] Updated weights for policy 0, policy_version 142841 (0.0009)
+[2023-07-06 11:26:29,764][98243] Fps is (10 sec: 117966.3, 60 sec: 110865.0, 300 sec: 111966.6). Total num frames: 292552704. Throughput: 0: 27898.2. Samples: 73196544. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:29,765][98243] Avg episode reward: [(0, '9.290')]
+[2023-07-06 11:26:30,110][98493] Updated weights for policy 0, policy_version 142887 (0.0007)
+[2023-07-06 11:26:31,047][98493] Updated weights for policy 0, policy_version 142946 (0.0007)
+[2023-07-06 11:26:31,967][98493] Updated weights for policy 0, policy_version 143017 (0.0007)
+[2023-07-06 11:26:34,007][98493] Updated weights for policy 0, policy_version 143088 (0.0007)
+[2023-07-06 11:26:34,724][98493] Updated weights for policy 0, policy_version 143161 (0.0007)
+[2023-07-06 11:26:34,764][98243] Fps is (10 sec: 121242.3, 60 sec: 111411.3, 300 sec: 112299.9). Total num frames: 293175296. Throughput: 0: 27943.8. Samples: 73359872. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:34,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:26:35,619][98493] Updated weights for policy 0, policy_version 143204 (0.0006)
+[2023-07-06 11:26:36,682][98493] Updated weights for policy 0, policy_version 143253 (0.0007)
+[2023-07-06 11:26:38,379][98493] Updated weights for policy 0, policy_version 143297 (0.0007)
+[2023-07-06 11:26:38,959][98493] Updated weights for policy 0, policy_version 143367 (0.0007)
+[2023-07-06 11:26:39,395][98493] Updated weights for policy 0, policy_version 143419 (0.0008)
+[2023-07-06 11:26:39,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111411.5, 300 sec: 112410.9). Total num frames: 293732352. Throughput: 0: 27921.1. Samples: 73446912. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:39,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:26:40,312][98493] Updated weights for policy 0, policy_version 143473 (0.0007)
+[2023-07-06 11:26:41,460][98493] Updated weights for policy 0, policy_version 143508 (0.0007)
+[2023-07-06 11:26:42,984][98493] Updated weights for policy 0, policy_version 143568 (0.0007)
+[2023-07-06 11:26:43,563][98493] Updated weights for policy 0, policy_version 143620 (0.0008)
+[2023-07-06 11:26:44,033][98493] Updated weights for policy 0, policy_version 143680 (0.0008)
+[2023-07-06 11:26:44,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.1, 300 sec: 112633.2). Total num frames: 294354944. Throughput: 0: 28012.1. Samples: 73616896. Policy #0 lag: (min: 63.0, avg: 181.8, max: 319.0)
+[2023-07-06 11:26:44,764][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:26:44,806][98493] Updated weights for policy 0, policy_version 143734 (0.0007)
+[2023-07-06 11:26:46,225][98493] Updated weights for policy 0, policy_version 143776 (0.0009)
+[2023-07-06 11:26:47,728][98493] Updated weights for policy 0, policy_version 143828 (0.0007)
+[2023-07-06 11:26:47,839][98449] Signal inference workers to stop experience collection... (7400 times)
+[2023-07-06 11:26:47,875][98493] InferenceWorker_p0-w0: stopping experience collection (7400 times)
+[2023-07-06 11:26:47,944][98449] Signal inference workers to resume experience collection... (7400 times)
+[2023-07-06 11:26:47,944][98493] InferenceWorker_p0-w0: resuming experience collection (7400 times)
+[2023-07-06 11:26:48,242][98493] Updated weights for policy 0, policy_version 143876 (0.0008)
+[2023-07-06 11:26:48,891][98493] Updated weights for policy 0, policy_version 143940 (0.0007)
+[2023-07-06 11:26:49,314][98493] Updated weights for policy 0, policy_version 143996 (0.0006)
+[2023-07-06 11:26:49,764][98243] Fps is (10 sec: 117963.0, 60 sec: 111410.8, 300 sec: 112633.0). Total num frames: 294912000. Throughput: 0: 27943.7. Samples: 73782784. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:26:49,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:26:51,132][98493] Updated weights for policy 0, policy_version 144048 (0.0008)
+[2023-07-06 11:26:52,187][98493] Updated weights for policy 0, policy_version 144080 (0.0007)
+[2023-07-06 11:26:52,573][98493] Updated weights for policy 0, policy_version 144121 (0.0006)
+[2023-07-06 11:26:53,332][98493] Updated weights for policy 0, policy_version 144176 (0.0007)
+[2023-07-06 11:26:53,907][98493] Updated weights for policy 0, policy_version 144240 (0.0008)
+[2023-07-06 11:26:54,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111411.3, 300 sec: 112411.0). Total num frames: 295436288. Throughput: 0: 28069.0. Samples: 73870336. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:26:54,765][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:26:55,783][98493] Updated weights for policy 0, policy_version 144292 (0.0007)
+[2023-07-06 11:26:56,732][98493] Updated weights for policy 0, policy_version 144324 (0.0008)
+[2023-07-06 11:26:57,155][98493] Updated weights for policy 0, policy_version 144380 (0.0007)
+[2023-07-06 11:26:58,223][98493] Updated weights for policy 0, policy_version 144448 (0.0006)
+[2023-07-06 11:26:58,712][98493] Updated weights for policy 0, policy_version 144504 (0.0007)
+[2023-07-06 11:26:59,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.0, 300 sec: 112188.7). Total num frames: 295960576. Throughput: 0: 28034.8. Samples: 74034688. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:26:59,765][98243] Avg episode reward: [(0, '9.240')]
+[2023-07-06 11:27:00,491][98493] Updated weights for policy 0, policy_version 144552 (0.0006)
+[2023-07-06 11:27:01,753][98493] Updated weights for policy 0, policy_version 144612 (0.0007)
+[2023-07-06 11:27:02,756][98493] Updated weights for policy 0, policy_version 144672 (0.0007)
+[2023-07-06 11:27:03,317][98493] Updated weights for policy 0, policy_version 144736 (0.0008)
+[2023-07-06 11:27:04,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.3, 300 sec: 111966.7). Total num frames: 296484864. Throughput: 0: 28046.3. Samples: 74207232. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:04,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:27:04,898][98493] Updated weights for policy 0, policy_version 144774 (0.0006)
+[2023-07-06 11:27:05,352][98493] Updated weights for policy 0, policy_version 144823 (0.0007)
+[2023-07-06 11:27:06,247][98449] Signal inference workers to stop experience collection... (7450 times)
+[2023-07-06 11:27:06,277][98493] InferenceWorker_p0-w0: stopping experience collection (7450 times)
+[2023-07-06 11:27:06,317][98449] Signal inference workers to resume experience collection... (7450 times)
+[2023-07-06 11:27:06,317][98493] InferenceWorker_p0-w0: resuming experience collection (7450 times)
+[2023-07-06 11:27:06,498][98493] Updated weights for policy 0, policy_version 144881 (0.0006)
+[2023-07-06 11:27:07,282][98493] Updated weights for policy 0, policy_version 144916 (0.0010)
+[2023-07-06 11:27:07,833][98493] Updated weights for policy 0, policy_version 144977 (0.0006)
+[2023-07-06 11:27:09,543][98493] Updated weights for policy 0, policy_version 145029 (0.0006)
+[2023-07-06 11:27:09,764][98243] Fps is (10 sec: 111410.0, 60 sec: 112503.2, 300 sec: 112188.7). Total num frames: 297074688. Throughput: 0: 28159.9. Samples: 74288640. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:09,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:27:09,977][98493] Updated weights for policy 0, policy_version 145081 (0.0007)
+[2023-07-06 11:27:10,965][98493] Updated weights for policy 0, policy_version 145125 (0.0012)
+[2023-07-06 11:27:11,918][98493] Updated weights for policy 0, policy_version 145169 (0.0007)
+[2023-07-06 11:27:12,482][98493] Updated weights for policy 0, policy_version 145221 (0.0007)
+[2023-07-06 11:27:12,911][98493] Updated weights for policy 0, policy_version 145277 (0.0008)
+[2023-07-06 11:27:14,764][98243] Fps is (10 sec: 114687.9, 60 sec: 113049.6, 300 sec: 111966.7). Total num frames: 297631744. Throughput: 0: 28034.9. Samples: 74458112. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:14,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:27:14,813][98493] Updated weights for policy 0, policy_version 145338 (0.0007)
+[2023-07-06 11:27:15,680][98493] Updated weights for policy 0, policy_version 145392 (0.0006)
+[2023-07-06 11:27:16,484][98493] Updated weights for policy 0, policy_version 145429 (0.0006)
+[2023-07-06 11:27:17,222][98493] Updated weights for policy 0, policy_version 145488 (0.0008)
+[2023-07-06 11:27:18,954][98493] Updated weights for policy 0, policy_version 145540 (0.0008)
+[2023-07-06 11:27:19,765][98243] Fps is (10 sec: 111410.2, 60 sec: 113595.5, 300 sec: 111966.5). Total num frames: 298188800. Throughput: 0: 28125.7. Samples: 74625536. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:19,765][98243] Avg episode reward: [(0, '9.110')]
+[2023-07-06 11:27:20,028][98493] Updated weights for policy 0, policy_version 145601 (0.0007)
+[2023-07-06 11:27:20,466][98493] Updated weights for policy 0, policy_version 145660 (0.0007)
+[2023-07-06 11:27:21,599][98493] Updated weights for policy 0, policy_version 145722 (0.0006)
+[2023-07-06 11:27:22,180][98493] Updated weights for policy 0, policy_version 145785 (0.0009)
+[2023-07-06 11:27:24,118][98493] Updated weights for policy 0, policy_version 145828 (0.0007)
+[2023-07-06 11:27:24,662][98493] Updated weights for policy 0, policy_version 145888 (0.0006)
+[2023-07-06 11:27:24,726][98449] Signal inference workers to stop experience collection... (7500 times)
+[2023-07-06 11:27:24,757][98493] InferenceWorker_p0-w0: stopping experience collection (7500 times)
+[2023-07-06 11:27:24,764][98243] Fps is (10 sec: 114686.9, 60 sec: 113595.7, 300 sec: 112188.7). Total num frames: 298778624. Throughput: 0: 28023.4. Samples: 74707968. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:24,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:27:24,812][98449] Signal inference workers to resume experience collection... (7500 times)
+[2023-07-06 11:27:24,812][98493] InferenceWorker_p0-w0: resuming experience collection (7500 times)
+[2023-07-06 11:27:25,752][98493] Updated weights for policy 0, policy_version 145921 (0.0007)
+[2023-07-06 11:27:26,153][98493] Updated weights for policy 0, policy_version 145968 (0.0007)
+[2023-07-06 11:27:26,682][98493] Updated weights for policy 0, policy_version 146019 (0.0008)
+[2023-07-06 11:27:28,750][98493] Updated weights for policy 0, policy_version 146070 (0.0006)
+[2023-07-06 11:27:29,178][98493] Updated weights for policy 0, policy_version 146116 (0.0007)
+[2023-07-06 11:27:29,604][98493] Updated weights for policy 0, policy_version 146171 (0.0007)
+[2023-07-06 11:27:29,764][98243] Fps is (10 sec: 117968.5, 60 sec: 113595.9, 300 sec: 112078.1). Total num frames: 299368448. Throughput: 0: 28125.9. Samples: 74882560. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:29,765][98243] Avg episode reward: [(0, '9.290')]
+[2023-07-06 11:27:30,685][98493] Updated weights for policy 0, policy_version 146208 (0.0007)
+[2023-07-06 11:27:31,189][98493] Updated weights for policy 0, policy_version 146261 (0.0006)
+[2023-07-06 11:27:33,430][98493] Updated weights for policy 0, policy_version 146323 (0.0008)
+[2023-07-06 11:27:33,915][98493] Updated weights for policy 0, policy_version 146384 (0.0007)
+[2023-07-06 11:27:34,339][98493] Updated weights for policy 0, policy_version 146432 (0.0008)
+[2023-07-06 11:27:34,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111957.2, 300 sec: 111966.6). Total num frames: 299892736. Throughput: 0: 28080.4. Samples: 75046400. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:34,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:27:35,742][98493] Updated weights for policy 0, policy_version 146488 (0.0008)
+[2023-07-06 11:27:36,277][98493] Updated weights for policy 0, policy_version 146555 (0.0007)
+[2023-07-06 11:27:38,374][98493] Updated weights for policy 0, policy_version 146617 (0.0007)
+[2023-07-06 11:27:38,903][98493] Updated weights for policy 0, policy_version 146680 (0.0007)
+[2023-07-06 11:27:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 300417024. Throughput: 0: 28069.0. Samples: 75133440. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:39,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:27:40,149][98493] Updated weights for policy 0, policy_version 146712 (0.0008)
+[2023-07-06 11:27:40,687][98493] Updated weights for policy 0, policy_version 146769 (0.0006)
+[2023-07-06 11:27:42,625][98449] Signal inference workers to stop experience collection... (7550 times)
+[2023-07-06 11:27:42,663][98493] InferenceWorker_p0-w0: stopping experience collection (7550 times)
+[2023-07-06 11:27:42,726][98449] Signal inference workers to resume experience collection... (7550 times)
+[2023-07-06 11:27:42,726][98493] InferenceWorker_p0-w0: resuming experience collection (7550 times)
+[2023-07-06 11:27:42,728][98493] Updated weights for policy 0, policy_version 146832 (0.0007)
+[2023-07-06 11:27:43,389][98493] Updated weights for policy 0, policy_version 146899 (0.0008)
+[2023-07-06 11:27:44,754][98493] Updated weights for policy 0, policy_version 146960 (0.0006)
+[2023-07-06 11:27:44,764][98243] Fps is (10 sec: 108135.7, 60 sec: 110319.0, 300 sec: 112077.8). Total num frames: 300974080. Throughput: 0: 28023.5. Samples: 75295744. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:44,765][98243] Avg episode reward: [(0, '9.430')]
+[2023-07-06 11:27:45,273][98493] Updated weights for policy 0, policy_version 147014 (0.0007)
+[2023-07-06 11:27:47,204][98493] Updated weights for policy 0, policy_version 147074 (0.0008)
+[2023-07-06 11:27:47,568][98493] Updated weights for policy 0, policy_version 147120 (0.0006)
+[2023-07-06 11:27:48,010][98493] Updated weights for policy 0, policy_version 147168 (0.0032)
+[2023-07-06 11:27:49,573][98493] Updated weights for policy 0, policy_version 147219 (0.0007)
+[2023-07-06 11:27:49,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110319.2, 300 sec: 112188.7). Total num frames: 301531136. Throughput: 0: 28023.4. Samples: 75468288. Policy #0 lag: (min: 4.0, avg: 89.1, max: 260.0)
+[2023-07-06 11:27:49,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:27:50,030][98493] Updated weights for policy 0, policy_version 147267 (0.0007)
+[2023-07-06 11:27:50,471][98493] Updated weights for policy 0, policy_version 147325 (0.0006)
+[2023-07-06 11:27:52,203][98493] Updated weights for policy 0, policy_version 147376 (0.0007)
+[2023-07-06 11:27:52,987][98493] Updated weights for policy 0, policy_version 147440 (0.0007)
+[2023-07-06 11:27:54,371][98493] Updated weights for policy 0, policy_version 147504 (0.0007)
+[2023-07-06 11:27:54,764][98243] Fps is (10 sec: 121240.1, 60 sec: 112503.3, 300 sec: 112633.1). Total num frames: 302186496. Throughput: 0: 28080.4. Samples: 75552256. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:27:54,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:27:54,963][98493] Updated weights for policy 0, policy_version 147580 (0.0006)
+[2023-07-06 11:27:56,861][98493] Updated weights for policy 0, policy_version 147632 (0.0007)
+[2023-07-06 11:27:57,628][98493] Updated weights for policy 0, policy_version 147696 (0.0007)
+[2023-07-06 11:27:58,880][98493] Updated weights for policy 0, policy_version 147733 (0.0007)
+[2023-07-06 11:27:59,152][98449] Signal inference workers to stop experience collection... (7600 times)
+[2023-07-06 11:27:59,182][98493] InferenceWorker_p0-w0: stopping experience collection (7600 times)
+[2023-07-06 11:27:59,233][98449] Signal inference workers to resume experience collection... (7600 times)
+[2023-07-06 11:27:59,234][98493] InferenceWorker_p0-w0: resuming experience collection (7600 times)
+[2023-07-06 11:27:59,451][98493] Updated weights for policy 0, policy_version 147800 (0.0007)
+[2023-07-06 11:27:59,764][98243] Fps is (10 sec: 124518.3, 60 sec: 113595.8, 300 sec: 112633.0). Total num frames: 302776320. Throughput: 0: 28068.9. Samples: 75721216. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:27:59,765][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:28:01,351][98493] Updated weights for policy 0, policy_version 147846 (0.0007)
+[2023-07-06 11:28:01,992][98493] Updated weights for policy 0, policy_version 147905 (0.0007)
+[2023-07-06 11:28:03,350][98493] Updated weights for policy 0, policy_version 147969 (0.0009)
+[2023-07-06 11:28:03,782][98493] Updated weights for policy 0, policy_version 148020 (0.0007)
+[2023-07-06 11:28:04,278][98493] Updated weights for policy 0, policy_version 148081 (0.0008)
+[2023-07-06 11:28:04,764][98243] Fps is (10 sec: 111411.3, 60 sec: 113595.5, 300 sec: 112410.9). Total num frames: 303300608. Throughput: 0: 27989.5. Samples: 75885056. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:04,765][98243] Avg episode reward: [(0, '9.230')]
+[2023-07-06 11:28:05,949][98493] Updated weights for policy 0, policy_version 148113 (0.0008)
+[2023-07-06 11:28:06,321][98493] Updated weights for policy 0, policy_version 148160 (0.0007)
+[2023-07-06 11:28:07,098][98493] Updated weights for policy 0, policy_version 148224 (0.0007)
+[2023-07-06 11:28:08,463][98493] Updated weights for policy 0, policy_version 148288 (0.0007)
+[2023-07-06 11:28:08,951][98493] Updated weights for policy 0, policy_version 148346 (0.0008)
+[2023-07-06 11:28:09,764][98243] Fps is (10 sec: 104856.4, 60 sec: 112503.6, 300 sec: 112188.7). Total num frames: 303824896. Throughput: 0: 28137.2. Samples: 75974144. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:09,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:28:10,690][98493] Updated weights for policy 0, policy_version 148409 (0.0009)
+[2023-07-06 11:28:11,876][98493] Updated weights for policy 0, policy_version 148464 (0.0006)
+[2023-07-06 11:28:13,007][98493] Updated weights for policy 0, policy_version 148518 (0.0013)
+[2023-07-06 11:28:13,514][98493] Updated weights for policy 0, policy_version 148576 (0.0007)
+[2023-07-06 11:28:14,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111957.2, 300 sec: 112077.6). Total num frames: 304349184. Throughput: 0: 27875.5. Samples: 76136960. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:14,765][98243] Avg episode reward: [(0, '9.390')]
+[2023-07-06 11:28:15,053][98493] Updated weights for policy 0, policy_version 148617 (0.0006)
+[2023-07-06 11:28:15,442][98493] Updated weights for policy 0, policy_version 148666 (0.0008)
+[2023-07-06 11:28:16,398][98493] Updated weights for policy 0, policy_version 148704 (0.0007)
+[2023-07-06 11:28:17,519][98449] Signal inference workers to stop experience collection... (7650 times)
+[2023-07-06 11:28:17,556][98493] InferenceWorker_p0-w0: stopping experience collection (7650 times)
+[2023-07-06 11:28:17,596][98449] Signal inference workers to resume experience collection... (7650 times)
+[2023-07-06 11:28:17,596][98493] InferenceWorker_p0-w0: resuming experience collection (7650 times)
+[2023-07-06 11:28:17,598][98493] Updated weights for policy 0, policy_version 148768 (0.0007)
+[2023-07-06 11:28:18,125][98493] Updated weights for policy 0, policy_version 148832 (0.0007)
+[2023-07-06 11:28:19,764][98243] Fps is (10 sec: 104858.9, 60 sec: 111411.7, 300 sec: 111744.5). Total num frames: 304873472. Throughput: 0: 28057.6. Samples: 76308992. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:19,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:28:19,962][98493] Updated weights for policy 0, policy_version 148888 (0.0007)
+[2023-07-06 11:28:20,713][98493] Updated weights for policy 0, policy_version 148929 (0.0007)
+[2023-07-06 11:28:21,208][98493] Updated weights for policy 0, policy_version 148992 (0.0007)
+[2023-07-06 11:28:22,715][98493] Updated weights for policy 0, policy_version 149056 (0.0007)
+[2023-07-06 11:28:23,216][98493] Updated weights for policy 0, policy_version 149114 (0.0007)
+[2023-07-06 11:28:24,636][98493] Updated weights for policy 0, policy_version 149168 (0.0007)
+[2023-07-06 11:28:24,764][98243] Fps is (10 sec: 114687.5, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 305496064. Throughput: 0: 27943.8. Samples: 76390912. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:24,765][98243] Avg episode reward: [(0, '9.300')]
+[2023-07-06 11:28:24,777][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000149184_305528832.pth...
+[2023-07-06 11:28:24,810][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000136080_278691840.pth
+[2023-07-06 11:28:25,907][98493] Updated weights for policy 0, policy_version 149225 (0.0007)
+[2023-07-06 11:28:26,933][98493] Updated weights for policy 0, policy_version 149264 (0.0006)
+[2023-07-06 11:28:27,556][98493] Updated weights for policy 0, policy_version 149333 (0.0008)
+[2023-07-06 11:28:29,144][98493] Updated weights for policy 0, policy_version 149377 (0.0007)
+[2023-07-06 11:28:29,605][98493] Updated weights for policy 0, policy_version 149433 (0.0006)
+[2023-07-06 11:28:29,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111411.0, 300 sec: 111966.5). Total num frames: 306053120. Throughput: 0: 28057.5. Samples: 76558336. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:29,765][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:28:30,603][98493] Updated weights for policy 0, policy_version 149488 (0.0006)
+[2023-07-06 11:28:31,837][98493] Updated weights for policy 0, policy_version 149552 (0.0007)
+[2023-07-06 11:28:32,410][98493] Updated weights for policy 0, policy_version 149616 (0.0007)
+[2023-07-06 11:28:34,084][98493] Updated weights for policy 0, policy_version 149668 (0.0006)
+[2023-07-06 11:28:34,764][98243] Fps is (10 sec: 108135.1, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 306577408. Throughput: 0: 27943.8. Samples: 76725760. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:34,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 11:28:35,030][98449] Signal inference workers to stop experience collection... (7700 times)
+[2023-07-06 11:28:35,066][98493] InferenceWorker_p0-w0: stopping experience collection (7700 times)
+[2023-07-06 11:28:35,066][98493] Updated weights for policy 0, policy_version 149734 (0.0008)
+[2023-07-06 11:28:35,124][98449] Signal inference workers to resume experience collection... (7700 times)
+[2023-07-06 11:28:35,125][98493] InferenceWorker_p0-w0: resuming experience collection (7700 times)
+[2023-07-06 11:28:36,595][98493] Updated weights for policy 0, policy_version 149783 (0.0006)
+[2023-07-06 11:28:37,137][98493] Updated weights for policy 0, policy_version 149846 (0.0007)
+[2023-07-06 11:28:38,473][98493] Updated weights for policy 0, policy_version 149891 (0.0007)
+[2023-07-06 11:28:38,916][98493] Updated weights for policy 0, policy_version 149945 (0.0009)
+[2023-07-06 11:28:39,764][98243] Fps is (10 sec: 111413.0, 60 sec: 112503.6, 300 sec: 112188.8). Total num frames: 307167232. Throughput: 0: 27852.9. Samples: 76805632. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:39,764][98243] Avg episode reward: [(0, '9.370')]
+[2023-07-06 11:28:39,819][98493] Updated weights for policy 0, policy_version 149992 (0.0013)
+[2023-07-06 11:28:41,436][98493] Updated weights for policy 0, policy_version 150064 (0.0007)
+[2023-07-06 11:28:42,001][98493] Updated weights for policy 0, policy_version 150128 (0.0007)
+[2023-07-06 11:28:43,368][98493] Updated weights for policy 0, policy_version 150182 (0.0006)
+[2023-07-06 11:28:44,428][98493] Updated weights for policy 0, policy_version 150240 (0.0006)
+[2023-07-06 11:28:44,764][98243] Fps is (10 sec: 117964.4, 60 sec: 113049.5, 300 sec: 112411.0). Total num frames: 307757056. Throughput: 0: 27852.8. Samples: 76974592. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:44,765][98243] Avg episode reward: [(0, '9.220')]
+[2023-07-06 11:28:45,959][98493] Updated weights for policy 0, policy_version 150304 (0.0007)
+[2023-07-06 11:28:46,510][98493] Updated weights for policy 0, policy_version 150368 (0.0007)
+[2023-07-06 11:28:48,188][98493] Updated weights for policy 0, policy_version 150425 (0.0008)
+[2023-07-06 11:28:49,083][98493] Updated weights for policy 0, policy_version 150480 (0.0007)
+[2023-07-06 11:28:49,454][98493] Updated weights for policy 0, policy_version 150523 (0.0008)
+[2023-07-06 11:28:49,764][98243] Fps is (10 sec: 111410.5, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 308281344. Throughput: 0: 27932.5. Samples: 77142016. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:49,765][98243] Avg episode reward: [(0, '9.200')]
+[2023-07-06 11:28:50,797][98493] Updated weights for policy 0, policy_version 150565 (0.0007)
+[2023-07-06 11:28:51,411][98493] Updated weights for policy 0, policy_version 150640 (0.0007)
+[2023-07-06 11:28:53,029][98493] Updated weights for policy 0, policy_version 150704 (0.0008)
+[2023-07-06 11:28:53,447][98449] Signal inference workers to stop experience collection... (7750 times)
+[2023-07-06 11:28:53,484][98493] InferenceWorker_p0-w0: stopping experience collection (7750 times)
+[2023-07-06 11:28:53,535][98449] Signal inference workers to resume experience collection... (7750 times)
+[2023-07-06 11:28:53,535][98493] InferenceWorker_p0-w0: resuming experience collection (7750 times)
+[2023-07-06 11:28:53,673][98493] Updated weights for policy 0, policy_version 150752 (0.0008)
+[2023-07-06 11:28:54,764][98243] Fps is (10 sec: 104858.0, 60 sec: 110319.1, 300 sec: 111966.6). Total num frames: 308805632. Throughput: 0: 27830.1. Samples: 77226496. Policy #0 lag: (min: 3.0, avg: 98.2, max: 259.0)
+[2023-07-06 11:28:54,765][98243] Avg episode reward: [(0, '9.340')]
+[2023-07-06 11:28:55,487][98493] Updated weights for policy 0, policy_version 150816 (0.0007)
+[2023-07-06 11:28:56,049][98493] Updated weights for policy 0, policy_version 150880 (0.0007)
+[2023-07-06 11:28:57,797][98493] Updated weights for policy 0, policy_version 150937 (0.0007)
+[2023-07-06 11:28:58,391][98493] Updated weights for policy 0, policy_version 151001 (0.0008)
+[2023-07-06 11:28:59,764][98243] Fps is (10 sec: 104855.7, 60 sec: 109226.4, 300 sec: 111855.4). Total num frames: 309329920. Throughput: 0: 27784.4. Samples: 77387264. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:28:59,765][98243] Avg episode reward: [(0, '9.270')]
+[2023-07-06 11:29:00,051][98493] Updated weights for policy 0, policy_version 151062 (0.0007)
+[2023-07-06 11:29:00,599][98493] Updated weights for policy 0, policy_version 151123 (0.0007)
+[2023-07-06 11:29:02,870][98493] Updated weights for policy 0, policy_version 151188 (0.0007)
+[2023-07-06 11:29:03,368][98493] Updated weights for policy 0, policy_version 151248 (0.0007)
+[2023-07-06 11:29:04,501][98493] Updated weights for policy 0, policy_version 151297 (0.0007)
+[2023-07-06 11:29:04,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110319.1, 300 sec: 111744.4). Total num frames: 309919744. Throughput: 0: 27750.4. Samples: 77557760. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:04,765][98243] Avg episode reward: [(0, '9.270')]
+[2023-07-06 11:29:04,863][98493] Updated weights for policy 0, policy_version 151344 (0.0007)
+[2023-07-06 11:29:05,498][98493] Updated weights for policy 0, policy_version 151418 (0.0007)
+[2023-07-06 11:29:07,908][98493] Updated weights for policy 0, policy_version 151472 (0.0007)
+[2023-07-06 11:29:08,547][98493] Updated weights for policy 0, policy_version 151544 (0.0008)
+[2023-07-06 11:29:09,667][98493] Updated weights for policy 0, policy_version 151600 (0.0007)
+[2023-07-06 11:29:09,764][98243] Fps is (10 sec: 114690.2, 60 sec: 110865.4, 300 sec: 111855.6). Total num frames: 310476800. Throughput: 0: 27773.2. Samples: 77640704. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:09,765][98243] Avg episode reward: [(0, '9.340')]
+[2023-07-06 11:29:09,989][98449] Signal inference workers to stop experience collection... (7800 times)
+[2023-07-06 11:29:10,022][98493] InferenceWorker_p0-w0: stopping experience collection (7800 times)
+[2023-07-06 11:29:10,068][98449] Signal inference workers to resume experience collection... (7800 times)
+[2023-07-06 11:29:10,068][98493] InferenceWorker_p0-w0: resuming experience collection (7800 times)
+[2023-07-06 11:29:10,280][98493] Updated weights for policy 0, policy_version 151675 (0.0006)
+[2023-07-06 11:29:12,494][98493] Updated weights for policy 0, policy_version 151715 (0.0008)
+[2023-07-06 11:29:12,924][98493] Updated weights for policy 0, policy_version 151767 (0.0007)
+[2023-07-06 11:29:13,277][98493] Updated weights for policy 0, policy_version 151808 (0.0006)
+[2023-07-06 11:29:14,200][98493] Updated weights for policy 0, policy_version 151872 (0.0008)
+[2023-07-06 11:29:14,764][98243] Fps is (10 sec: 117964.7, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 311099392. Throughput: 0: 27727.7. Samples: 77806080. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:14,765][98243] Avg episode reward: [(0, '9.290')]
+[2023-07-06 11:29:14,855][98493] Updated weights for policy 0, policy_version 151924 (0.0007)
+[2023-07-06 11:29:17,008][98493] Updated weights for policy 0, policy_version 151968 (0.0006)
+[2023-07-06 11:29:17,503][98493] Updated weights for policy 0, policy_version 152019 (0.0008)
+[2023-07-06 11:29:18,350][98493] Updated weights for policy 0, policy_version 152068 (0.0006)
+[2023-07-06 11:29:18,773][98493] Updated weights for policy 0, policy_version 152125 (0.0007)
+[2023-07-06 11:29:19,668][98493] Updated weights for policy 0, policy_version 152186 (0.0008)
+[2023-07-06 11:29:19,764][98243] Fps is (10 sec: 121240.5, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 311689216. Throughput: 0: 27682.1. Samples: 77971456. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:19,765][98243] Avg episode reward: [(0, '9.190')]
+[2023-07-06 11:29:21,941][98493] Updated weights for policy 0, policy_version 152256 (0.0007)
+[2023-07-06 11:29:22,463][98493] Updated weights for policy 0, policy_version 152316 (0.0007)
+[2023-07-06 11:29:23,504][98493] Updated weights for policy 0, policy_version 152379 (0.0007)
+[2023-07-06 11:29:24,363][98493] Updated weights for policy 0, policy_version 152443 (0.0006)
+[2023-07-06 11:29:24,764][98243] Fps is (10 sec: 111409.6, 60 sec: 111957.2, 300 sec: 111633.3). Total num frames: 312213504. Throughput: 0: 27818.5. Samples: 78057472. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:24,765][98243] Avg episode reward: [(0, '9.120')]
+[2023-07-06 11:29:26,347][98493] Updated weights for policy 0, policy_version 152496 (0.0007)
+[2023-07-06 11:29:26,944][98493] Updated weights for policy 0, policy_version 152560 (0.0007)
+[2023-07-06 11:29:28,085][98493] Updated weights for policy 0, policy_version 152615 (0.0006)
+[2023-07-06 11:29:28,578][98449] Signal inference workers to stop experience collection... (7850 times)
+[2023-07-06 11:29:28,606][98493] Updated weights for policy 0, policy_version 152645 (0.0006)
+[2023-07-06 11:29:28,613][98493] InferenceWorker_p0-w0: stopping experience collection (7850 times)
+[2023-07-06 11:29:28,674][98449] Signal inference workers to resume experience collection... (7850 times)
+[2023-07-06 11:29:28,674][98493] InferenceWorker_p0-w0: resuming experience collection (7850 times)
+[2023-07-06 11:29:29,050][98493] Updated weights for policy 0, policy_version 152702 (0.0007)
+[2023-07-06 11:29:29,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 312737792. Throughput: 0: 27818.7. Samples: 78226432. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:29,765][98243] Avg episode reward: [(0, '9.160')]
+[2023-07-06 11:29:31,271][98493] Updated weights for policy 0, policy_version 152761 (0.0008)
+[2023-07-06 11:29:31,668][98493] Updated weights for policy 0, policy_version 152802 (0.0008)
+[2023-07-06 11:29:32,691][98493] Updated weights for policy 0, policy_version 152850 (0.0007)
+[2023-07-06 11:29:33,117][98493] Updated weights for policy 0, policy_version 152895 (0.0006)
+[2023-07-06 11:29:33,629][98493] Updated weights for policy 0, policy_version 152955 (0.0008)
+[2023-07-06 11:29:34,764][98243] Fps is (10 sec: 104859.8, 60 sec: 111411.3, 300 sec: 111522.4). Total num frames: 313262080. Throughput: 0: 27864.2. Samples: 78395904. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:34,764][98243] Avg episode reward: [(0, '9.120')]
+[2023-07-06 11:29:35,635][98493] Updated weights for policy 0, policy_version 153001 (0.0007)
+[2023-07-06 11:29:36,186][98493] Updated weights for policy 0, policy_version 153041 (0.0008)
+[2023-07-06 11:29:36,937][98493] Updated weights for policy 0, policy_version 153089 (0.0007)
+[2023-07-06 11:29:37,388][98493] Updated weights for policy 0, policy_version 153144 (0.0007)
+[2023-07-06 11:29:38,205][98493] Updated weights for policy 0, policy_version 153210 (0.0007)
+[2023-07-06 11:29:39,764][98243] Fps is (10 sec: 104855.7, 60 sec: 110318.5, 300 sec: 111522.3). Total num frames: 313786368. Throughput: 0: 27852.7. Samples: 78479872. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:39,765][98243] Avg episode reward: [(0, '9.170')]
+[2023-07-06 11:29:40,537][98493] Updated weights for policy 0, policy_version 153273 (0.0007)
+[2023-07-06 11:29:41,128][98493] Updated weights for policy 0, policy_version 153328 (0.0007)
+[2023-07-06 11:29:42,047][98493] Updated weights for policy 0, policy_version 153377 (0.0006)
+[2023-07-06 11:29:42,860][98493] Updated weights for policy 0, policy_version 153456 (0.0007)
+[2023-07-06 11:29:44,654][98493] Updated weights for policy 0, policy_version 153494 (0.0006)
+[2023-07-06 11:29:44,764][98243] Fps is (10 sec: 111411.1, 60 sec: 110319.1, 300 sec: 111744.4). Total num frames: 314376192. Throughput: 0: 27955.3. Samples: 78645248. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:44,764][98243] Avg episode reward: [(0, '9.270')]
+[2023-07-06 11:29:45,904][98493] Updated weights for policy 0, policy_version 153554 (0.0007)
+[2023-07-06 11:29:46,367][98493] Updated weights for policy 0, policy_version 153610 (0.0007)
+[2023-07-06 11:29:46,597][98449] Signal inference workers to stop experience collection... (7900 times)
+[2023-07-06 11:29:46,630][98493] InferenceWorker_p0-w0: stopping experience collection (7900 times)
+[2023-07-06 11:29:46,692][98449] Signal inference workers to resume experience collection... (7900 times)
+[2023-07-06 11:29:46,692][98493] InferenceWorker_p0-w0: resuming experience collection (7900 times)
+[2023-07-06 11:29:46,782][98493] Updated weights for policy 0, policy_version 153661 (0.0007)
+[2023-07-06 11:29:47,449][98493] Updated weights for policy 0, policy_version 153712 (0.0014)
+[2023-07-06 11:29:49,481][98493] Updated weights for policy 0, policy_version 153776 (0.0006)
+[2023-07-06 11:29:49,764][98243] Fps is (10 sec: 117966.5, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 314966016. Throughput: 0: 27966.5. Samples: 78816256. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:49,765][98243] Avg episode reward: [(0, '9.250')]
+[2023-07-06 11:29:51,029][98493] Updated weights for policy 0, policy_version 153840 (0.0007)
+[2023-07-06 11:29:51,567][98493] Updated weights for policy 0, policy_version 153904 (0.0006)
+[2023-07-06 11:29:52,265][98493] Updated weights for policy 0, policy_version 153968 (0.0007)
+[2023-07-06 11:29:54,010][98493] Updated weights for policy 0, policy_version 154022 (0.0006)
+[2023-07-06 11:29:54,764][98243] Fps is (10 sec: 111408.7, 60 sec: 111410.9, 300 sec: 111966.5). Total num frames: 315490304. Throughput: 0: 27875.4. Samples: 78895104. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:54,765][98243] Avg episode reward: [(0, '9.280')]
+[2023-07-06 11:29:55,373][98493] Updated weights for policy 0, policy_version 154056 (0.0006)
+[2023-07-06 11:29:55,933][98493] Updated weights for policy 0, policy_version 154119 (0.0007)
+[2023-07-06 11:29:56,358][98493] Updated weights for policy 0, policy_version 154174 (0.0015)
+[2023-07-06 11:29:57,145][98493] Updated weights for policy 0, policy_version 154235 (0.0007)
+[2023-07-06 11:29:58,920][98493] Updated weights for policy 0, policy_version 154300 (0.0006)
+[2023-07-06 11:29:59,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.5, 300 sec: 111966.7). Total num frames: 316014592. Throughput: 0: 27978.0. Samples: 79065088. Policy #0 lag: (min: 12.0, avg: 95.1, max: 266.0)
+[2023-07-06 11:29:59,764][98243] Avg episode reward: [(0, '9.350')]
+[2023-07-06 11:30:00,591][98493] Updated weights for policy 0, policy_version 154363 (0.0028)
+[2023-07-06 11:30:01,018][98493] Updated weights for policy 0, policy_version 154409 (0.0026)
+[2023-07-06 11:30:01,345][98493] Updated weights for policy 0, policy_version 154448 (0.0007)
+[2023-07-06 11:30:03,423][98493] Updated weights for policy 0, policy_version 154512 (0.0006)
+[2023-07-06 11:30:03,818][98493] Updated weights for policy 0, policy_version 154559 (0.0007)
+[2023-07-06 11:30:04,765][98243] Fps is (10 sec: 104854.6, 60 sec: 110318.1, 300 sec: 111744.4). Total num frames: 316538880. Throughput: 0: 28046.0. Samples: 79233536. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:04,766][98243] Avg episode reward: [(0, '9.350')]
+[2023-07-06 11:30:05,176][98493] Updated weights for policy 0, policy_version 154609 (0.0007)
+[2023-07-06 11:30:05,436][98449] Signal inference workers to stop experience collection... (7950 times)
+[2023-07-06 11:30:05,457][98493] InferenceWorker_p0-w0: stopping experience collection (7950 times)
+[2023-07-06 11:30:05,538][98449] Signal inference workers to resume experience collection... (7950 times)
+[2023-07-06 11:30:05,538][98493] InferenceWorker_p0-w0: resuming experience collection (7950 times)
+[2023-07-06 11:30:05,682][98493] Updated weights for policy 0, policy_version 154656 (0.0007)
+[2023-07-06 11:30:06,255][98493] Updated weights for policy 0, policy_version 154720 (0.0007)
+[2023-07-06 11:30:07,921][98493] Updated weights for policy 0, policy_version 154753 (0.0007)
+[2023-07-06 11:30:09,552][98493] Updated weights for policy 0, policy_version 154821 (0.0008)
+[2023-07-06 11:30:09,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110865.2, 300 sec: 111749.9). Total num frames: 317128704. Throughput: 0: 27955.3. Samples: 79315456. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:09,764][98243] Avg episode reward: [(0, '9.420')]
+[2023-07-06 11:30:10,123][98493] Updated weights for policy 0, policy_version 154882 (0.0008)
+[2023-07-06 11:30:10,783][98493] Updated weights for policy 0, policy_version 154949 (0.0007)
+[2023-07-06 11:30:11,250][98493] Updated weights for policy 0, policy_version 155002 (0.0007)
+[2023-07-06 11:30:13,175][98493] Updated weights for policy 0, policy_version 155056 (0.0008)
+[2023-07-06 11:30:14,693][98493] Updated weights for policy 0, policy_version 155129 (0.0007)
+[2023-07-06 11:30:14,764][98243] Fps is (10 sec: 117970.2, 60 sec: 110318.9, 300 sec: 111744.4). Total num frames: 317718528. Throughput: 0: 27886.9. Samples: 79481344. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:14,765][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 11:30:15,167][98493] Updated weights for policy 0, policy_version 155184 (0.0007)
+[2023-07-06 11:30:15,920][98493] Updated weights for policy 0, policy_version 155237 (0.0007)
+[2023-07-06 11:30:17,601][98493] Updated weights for policy 0, policy_version 155299 (0.0007)
+[2023-07-06 11:30:19,148][98493] Updated weights for policy 0, policy_version 155364 (0.0008)
+[2023-07-06 11:30:19,694][98493] Updated weights for policy 0, policy_version 155429 (0.0007)
+[2023-07-06 11:30:19,764][98243] Fps is (10 sec: 121240.7, 60 sec: 110865.2, 300 sec: 111966.6). Total num frames: 318341120. Throughput: 0: 27739.0. Samples: 79644160. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:19,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 11:30:20,419][98493] Updated weights for policy 0, policy_version 155459 (0.0007)
+[2023-07-06 11:30:20,904][98493] Updated weights for policy 0, policy_version 155520 (0.0007)
+[2023-07-06 11:30:22,466][98493] Updated weights for policy 0, policy_version 155575 (0.0007)
+[2023-07-06 11:30:23,678][98449] Signal inference workers to stop experience collection... (8000 times)
+[2023-07-06 11:30:23,716][98493] InferenceWorker_p0-w0: stopping experience collection (8000 times)
+[2023-07-06 11:30:23,716][98493] Updated weights for policy 0, policy_version 155606 (0.0006)
+[2023-07-06 11:30:23,773][98449] Signal inference workers to resume experience collection... (8000 times)
+[2023-07-06 11:30:23,773][98493] InferenceWorker_p0-w0: resuming experience collection (8000 times)
+[2023-07-06 11:30:24,161][98493] Updated weights for policy 0, policy_version 155656 (0.0008)
+[2023-07-06 11:30:24,579][98493] Updated weights for policy 0, policy_version 155709 (0.0007)
+[2023-07-06 11:30:24,764][98243] Fps is (10 sec: 117962.6, 60 sec: 111411.1, 300 sec: 111855.4). Total num frames: 318898176. Throughput: 0: 27830.0. Samples: 79732224. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:24,765][98243] Avg episode reward: [(0, '9.310')]
+[2023-07-06 11:30:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000155712_318898176.pth...
+[2023-07-06 11:30:24,800][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000142576_291995648.pth
+[2023-07-06 11:30:25,520][98493] Updated weights for policy 0, policy_version 155769 (0.0008)
+[2023-07-06 11:30:26,937][98493] Updated weights for policy 0, policy_version 155815 (0.0006)
+[2023-07-06 11:30:28,170][98493] Updated weights for policy 0, policy_version 155881 (0.0006)
+[2023-07-06 11:30:28,876][98493] Updated weights for policy 0, policy_version 155936 (0.0006)
+[2023-07-06 11:30:29,765][98243] Fps is (10 sec: 108131.5, 60 sec: 111410.7, 300 sec: 111633.3). Total num frames: 319422464. Throughput: 0: 27943.6. Samples: 79902720. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:29,765][98243] Avg episode reward: [(0, '9.260')]
+[2023-07-06 11:30:29,906][98493] Updated weights for policy 0, policy_version 155974 (0.0007)
+[2023-07-06 11:30:30,315][98493] Updated weights for policy 0, policy_version 156029 (0.0009)
+[2023-07-06 11:30:31,794][98493] Updated weights for policy 0, policy_version 156089 (0.0007)
+[2023-07-06 11:30:32,747][98493] Updated weights for policy 0, policy_version 156128 (0.0007)
+[2023-07-06 11:30:33,529][98493] Updated weights for policy 0, policy_version 156184 (0.0008)
+[2023-07-06 11:30:34,441][98493] Updated weights for policy 0, policy_version 156226 (0.0007)
+[2023-07-06 11:30:34,764][98243] Fps is (10 sec: 111413.6, 60 sec: 112503.4, 300 sec: 111744.5). Total num frames: 320012288. Throughput: 0: 27864.2. Samples: 80070144. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:34,764][98243] Avg episode reward: [(0, '9.390')]
+[2023-07-06 11:30:34,871][98493] Updated weights for policy 0, policy_version 156281 (0.0006)
+[2023-07-06 11:30:36,254][98493] Updated weights for policy 0, policy_version 156325 (0.0008)
+[2023-07-06 11:30:37,233][98493] Updated weights for policy 0, policy_version 156368 (0.0007)
+[2023-07-06 11:30:37,660][98493] Updated weights for policy 0, policy_version 156416 (0.0007)
+[2023-07-06 11:30:38,439][98493] Updated weights for policy 0, policy_version 156478 (0.0006)
+[2023-07-06 11:30:39,589][98493] Updated weights for policy 0, policy_version 156531 (0.0008)
+[2023-07-06 11:30:39,764][98243] Fps is (10 sec: 117968.1, 60 sec: 113596.1, 300 sec: 111633.3). Total num frames: 320602112. Throughput: 0: 28046.3. Samples: 80157184. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:39,765][98243] Avg episode reward: [(0, '9.400')]
+[2023-07-06 11:30:40,627][98493] Updated weights for policy 0, policy_version 156569 (0.0006)
+[2023-07-06 11:30:41,966][98493] Updated weights for policy 0, policy_version 156633 (0.0008)
+[2023-07-06 11:30:42,043][98449] Signal inference workers to stop experience collection... (8050 times)
+[2023-07-06 11:30:42,094][98493] InferenceWorker_p0-w0: stopping experience collection (8050 times)
+[2023-07-06 11:30:42,140][98449] Signal inference workers to resume experience collection... (8050 times)
+[2023-07-06 11:30:42,141][98493] InferenceWorker_p0-w0: resuming experience collection (8050 times)
+[2023-07-06 11:30:42,244][98493] Updated weights for policy 0, policy_version 156668 (0.0007)
+[2023-07-06 11:30:43,060][98493] Updated weights for policy 0, policy_version 156730 (0.0007)
+[2023-07-06 11:30:44,152][98493] Updated weights for policy 0, policy_version 156784 (0.0006)
+[2023-07-06 11:30:44,764][98243] Fps is (10 sec: 111411.6, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 321126400. Throughput: 0: 28034.9. Samples: 80326656. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:44,765][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:30:45,161][98493] Updated weights for policy 0, policy_version 156816 (0.0007)
+[2023-07-06 11:30:45,594][98493] Updated weights for policy 0, policy_version 156864 (0.0007)
+[2023-07-06 11:30:47,079][98493] Updated weights for policy 0, policy_version 156921 (0.0007)
+[2023-07-06 11:30:47,527][98493] Updated weights for policy 0, policy_version 156964 (0.0007)
+[2023-07-06 11:30:48,599][98493] Updated weights for policy 0, policy_version 157016 (0.0008)
+[2023-07-06 11:30:49,673][98493] Updated weights for policy 0, policy_version 157059 (0.0006)
+[2023-07-06 11:30:49,764][98243] Fps is (10 sec: 108135.5, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 321683456. Throughput: 0: 28080.7. Samples: 80497152. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:49,765][98243] Avg episode reward: [(0, '9.390')]
+[2023-07-06 11:30:51,207][98493] Updated weights for policy 0, policy_version 157122 (0.0008)
+[2023-07-06 11:30:51,871][98493] Updated weights for policy 0, policy_version 157188 (0.0007)
+[2023-07-06 11:30:53,346][98493] Updated weights for policy 0, policy_version 157253 (0.0007)
+[2023-07-06 11:30:53,824][98493] Updated weights for policy 0, policy_version 157312 (0.0007)
+[2023-07-06 11:30:54,702][98493] Updated weights for policy 0, policy_version 157361 (0.0007)
+[2023-07-06 11:30:54,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113050.0, 300 sec: 111855.5). Total num frames: 322273280. Throughput: 0: 28046.2. Samples: 80577536. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:54,764][98243] Avg episode reward: [(0, '9.370')]
+[2023-07-06 11:30:56,110][98493] Updated weights for policy 0, policy_version 157412 (0.0007)
+[2023-07-06 11:30:56,809][98493] Updated weights for policy 0, policy_version 157457 (0.0006)
+[2023-07-06 11:30:57,976][98493] Updated weights for policy 0, policy_version 157506 (0.0007)
+[2023-07-06 11:30:59,013][98493] Updated weights for policy 0, policy_version 157584 (0.0007)
+[2023-07-06 11:30:59,764][98243] Fps is (10 sec: 114686.9, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 322830336. Throughput: 0: 28103.1. Samples: 80745984. Policy #0 lag: (min: 7.0, avg: 84.2, max: 246.0)
+[2023-07-06 11:30:59,773][98243] Avg episode reward: [(0, '9.410')]
+[2023-07-06 11:31:00,440][98493] Updated weights for policy 0, policy_version 157638 (0.0007)
+[2023-07-06 11:31:00,843][98493] Updated weights for policy 0, policy_version 157691 (0.0006)
+[2023-07-06 11:31:01,608][98449] Signal inference workers to stop experience collection... (8100 times)
+[2023-07-06 11:31:01,638][98493] InferenceWorker_p0-w0: stopping experience collection (8100 times)
+[2023-07-06 11:31:01,693][98449] Signal inference workers to resume experience collection... (8100 times)
+[2023-07-06 11:31:01,693][98493] InferenceWorker_p0-w0: resuming experience collection (8100 times)
+[2023-07-06 11:31:01,920][98493] Updated weights for policy 0, policy_version 157730 (0.0009)
+[2023-07-06 11:31:02,654][98493] Updated weights for policy 0, policy_version 157776 (0.0006)
+[2023-07-06 11:31:03,080][98493] Updated weights for policy 0, policy_version 157823 (0.0006)
+[2023-07-06 11:31:04,281][98493] Updated weights for policy 0, policy_version 157879 (0.0008)
+[2023-07-06 11:31:04,764][98243] Fps is (10 sec: 108133.7, 60 sec: 113596.5, 300 sec: 111966.6). Total num frames: 323354624. Throughput: 0: 28251.0. Samples: 80915456. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:04,765][98243] Avg episode reward: [(0, '9.410')]
+[2023-07-06 11:31:05,270][98493] Updated weights for policy 0, policy_version 157936 (0.0007)
+[2023-07-06 11:31:06,302][98493] Updated weights for policy 0, policy_version 157970 (0.0007)
+[2023-07-06 11:31:07,239][98493] Updated weights for policy 0, policy_version 158032 (0.0006)
+[2023-07-06 11:31:07,653][98493] Updated weights for policy 0, policy_version 158080 (0.0007)
+[2023-07-06 11:31:09,010][98493] Updated weights for policy 0, policy_version 158140 (0.0007)
+[2023-07-06 11:31:09,765][98243] Fps is (10 sec: 111400.8, 60 sec: 113593.9, 300 sec: 112188.4). Total num frames: 323944448. Throughput: 0: 28136.8. Samples: 80998400. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:09,766][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 11:31:09,915][98493] Updated weights for policy 0, policy_version 158192 (0.0006)
+[2023-07-06 11:31:11,079][98493] Updated weights for policy 0, policy_version 158246 (0.0007)
+[2023-07-06 11:31:11,987][98493] Updated weights for policy 0, policy_version 158304 (0.0008)
+[2023-07-06 11:31:13,237][98493] Updated weights for policy 0, policy_version 158357 (0.0007)
+[2023-07-06 11:31:13,590][98493] Updated weights for policy 0, policy_version 158400 (0.0007)
+[2023-07-06 11:31:14,643][98493] Updated weights for policy 0, policy_version 158464 (0.0007)
+[2023-07-06 11:31:14,764][98243] Fps is (10 sec: 117964.3, 60 sec: 113595.6, 300 sec: 112410.9). Total num frames: 324534272. Throughput: 0: 28148.7. Samples: 81169408. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:14,765][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 11:31:15,960][98493] Updated weights for policy 0, policy_version 158515 (0.0008)
+[2023-07-06 11:31:16,457][98493] Updated weights for policy 0, policy_version 158552 (0.0006)
+[2023-07-06 11:31:18,008][98493] Updated weights for policy 0, policy_version 158608 (0.0007)
+[2023-07-06 11:31:18,434][98493] Updated weights for policy 0, policy_version 158655 (0.0007)
+[2023-07-06 11:31:19,276][98493] Updated weights for policy 0, policy_version 158704 (0.0008)
+[2023-07-06 11:31:19,765][98243] Fps is (10 sec: 111417.3, 60 sec: 111956.6, 300 sec: 112188.6). Total num frames: 325058560. Throughput: 0: 28216.6. Samples: 81339904. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:19,765][98243] Avg episode reward: [(0, '9.410')]
+[2023-07-06 11:31:20,555][98449] Signal inference workers to stop experience collection... (8150 times)
+[2023-07-06 11:31:20,586][98493] Updated weights for policy 0, policy_version 158757 (0.0007)
+[2023-07-06 11:31:20,595][98493] InferenceWorker_p0-w0: stopping experience collection (8150 times)
+[2023-07-06 11:31:20,648][98449] Signal inference workers to resume experience collection... (8150 times)
+[2023-07-06 11:31:20,648][98493] InferenceWorker_p0-w0: resuming experience collection (8150 times)
+[2023-07-06 11:31:21,018][98493] Updated weights for policy 0, policy_version 158807 (0.0007)
+[2023-07-06 11:31:22,582][98493] Updated weights for policy 0, policy_version 158853 (0.0006)
+[2023-07-06 11:31:23,319][98493] Updated weights for policy 0, policy_version 158913 (0.0007)
+[2023-07-06 11:31:24,663][98493] Updated weights for policy 0, policy_version 158981 (0.0008)
+[2023-07-06 11:31:24,764][98243] Fps is (10 sec: 108134.9, 60 sec: 111957.6, 300 sec: 112077.7). Total num frames: 325615616. Throughput: 0: 28216.9. Samples: 81426944. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:24,765][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 11:31:25,454][98493] Updated weights for policy 0, policy_version 159041 (0.0007)
+[2023-07-06 11:31:27,151][98493] Updated weights for policy 0, policy_version 159106 (0.0007)
+[2023-07-06 11:31:27,678][98493] Updated weights for policy 0, policy_version 159168 (0.0008)
+[2023-07-06 11:31:28,851][98493] Updated weights for policy 0, policy_version 159227 (0.0006)
+[2023-07-06 11:31:29,571][98493] Updated weights for policy 0, policy_version 159269 (0.0007)
+[2023-07-06 11:31:29,764][98243] Fps is (10 sec: 117969.9, 60 sec: 113596.4, 300 sec: 112077.7). Total num frames: 326238208. Throughput: 0: 28091.7. Samples: 81590784. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:29,764][98243] Avg episode reward: [(0, '9.430')]
+[2023-07-06 11:31:30,185][98493] Updated weights for policy 0, policy_version 159321 (0.0007)
+[2023-07-06 11:31:32,140][98493] Updated weights for policy 0, policy_version 159376 (0.0007)
+[2023-07-06 11:31:33,427][98493] Updated weights for policy 0, policy_version 159448 (0.0007)
+[2023-07-06 11:31:33,849][98493] Updated weights for policy 0, policy_version 159492 (0.0007)
+[2023-07-06 11:31:34,309][98493] Updated weights for policy 0, policy_version 159547 (0.0006)
+[2023-07-06 11:31:34,764][98243] Fps is (10 sec: 117965.4, 60 sec: 113049.6, 300 sec: 112077.7). Total num frames: 326795264. Throughput: 0: 28023.4. Samples: 81758208. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:34,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:31:35,052][98493] Updated weights for policy 0, policy_version 159609 (0.0007)
+[2023-07-06 11:31:37,410][98493] Updated weights for policy 0, policy_version 159673 (0.0007)
+[2023-07-06 11:31:38,363][98493] Updated weights for policy 0, policy_version 159722 (0.0007)
+[2023-07-06 11:31:38,761][98449] Signal inference workers to stop experience collection... (8200 times)
+[2023-07-06 11:31:38,794][98493] InferenceWorker_p0-w0: stopping experience collection (8200 times)
+[2023-07-06 11:31:38,853][98449] Signal inference workers to resume experience collection... (8200 times)
+[2023-07-06 11:31:38,853][98493] InferenceWorker_p0-w0: resuming experience collection (8200 times)
+[2023-07-06 11:31:38,855][98493] Updated weights for policy 0, policy_version 159776 (0.0010)
+[2023-07-06 11:31:39,310][98493] Updated weights for policy 0, policy_version 159824 (0.0007)
+[2023-07-06 11:31:39,764][98243] Fps is (10 sec: 117964.0, 60 sec: 113595.7, 300 sec: 112077.7). Total num frames: 327417856. Throughput: 0: 28137.2. Samples: 81843712. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:39,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:31:41,935][98493] Updated weights for policy 0, policy_version 159875 (0.0007)
+[2023-07-06 11:31:42,423][98493] Updated weights for policy 0, policy_version 159936 (0.0007)
+[2023-07-06 11:31:42,789][98493] Updated weights for policy 0, policy_version 159975 (0.0007)
+[2023-07-06 11:31:43,339][98493] Updated weights for policy 0, policy_version 160036 (0.0007)
+[2023-07-06 11:31:44,138][98493] Updated weights for policy 0, policy_version 160081 (0.0007)
+[2023-07-06 11:31:44,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113595.6, 300 sec: 111966.7). Total num frames: 327942144. Throughput: 0: 28069.0. Samples: 82009088. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:44,765][98243] Avg episode reward: [(0, '9.330')]
+[2023-07-06 11:31:46,409][98493] Updated weights for policy 0, policy_version 160134 (0.0007)
+[2023-07-06 11:31:47,063][98493] Updated weights for policy 0, policy_version 160197 (0.0007)
+[2023-07-06 11:31:47,501][98493] Updated weights for policy 0, policy_version 160252 (0.0008)
+[2023-07-06 11:31:48,233][98493] Updated weights for policy 0, policy_version 160312 (0.0007)
+[2023-07-06 11:31:49,061][98493] Updated weights for policy 0, policy_version 160376 (0.0008)
+[2023-07-06 11:31:49,764][98243] Fps is (10 sec: 104856.8, 60 sec: 113049.2, 300 sec: 111966.6). Total num frames: 328466432. Throughput: 0: 28057.6. Samples: 82178048. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:49,765][98243] Avg episode reward: [(0, '9.360')]
+[2023-07-06 11:31:51,506][98493] Updated weights for policy 0, policy_version 160432 (0.0007)
+[2023-07-06 11:31:52,148][98493] Updated weights for policy 0, policy_version 160506 (0.0009)
+[2023-07-06 11:31:52,938][98493] Updated weights for policy 0, policy_version 160560 (0.0007)
+[2023-07-06 11:31:53,560][98493] Updated weights for policy 0, policy_version 160608 (0.0007)
+[2023-07-06 11:31:54,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111957.1, 300 sec: 111966.6). Total num frames: 328990720. Throughput: 0: 28126.4. Samples: 82264064. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:54,765][98243] Avg episode reward: [(0, '9.270')]
+[2023-07-06 11:31:55,930][98493] Updated weights for policy 0, policy_version 160658 (0.0007)
+[2023-07-06 11:31:56,496][98493] Updated weights for policy 0, policy_version 160709 (0.0006)
+[2023-07-06 11:31:56,735][98449] Signal inference workers to stop experience collection... (8250 times)
+[2023-07-06 11:31:56,770][98493] InferenceWorker_p0-w0: stopping experience collection (8250 times)
+[2023-07-06 11:31:56,814][98449] Signal inference workers to resume experience collection... (8250 times)
+[2023-07-06 11:31:56,814][98493] InferenceWorker_p0-w0: resuming experience collection (8250 times)
+[2023-07-06 11:31:57,285][98493] Updated weights for policy 0, policy_version 160773 (0.0007)
+[2023-07-06 11:31:57,716][98493] Updated weights for policy 0, policy_version 160830 (0.0006)
+[2023-07-06 11:31:58,369][98493] Updated weights for policy 0, policy_version 160889 (0.0007)
+[2023-07-06 11:31:59,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111410.9, 300 sec: 111966.5). Total num frames: 329515008. Throughput: 0: 28000.7. Samples: 82429440. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:31:59,765][98243] Avg episode reward: [(0, '9.340')]
+[2023-07-06 11:32:00,934][98493] Updated weights for policy 0, policy_version 160950 (0.0007)
+[2023-07-06 11:32:01,337][98493] Updated weights for policy 0, policy_version 160992 (0.0008)
+[2023-07-06 11:32:02,125][98493] Updated weights for policy 0, policy_version 161047 (0.0008)
+[2023-07-06 11:32:02,935][98493] Updated weights for policy 0, policy_version 161130 (0.0009)
+[2023-07-06 11:32:04,764][98243] Fps is (10 sec: 104859.0, 60 sec: 111411.3, 300 sec: 111744.5). Total num frames: 330039296. Throughput: 0: 28023.7. Samples: 82600960. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:32:04,765][98243] Avg episode reward: [(0, '9.410')]
+[2023-07-06 11:32:05,463][98493] Updated weights for policy 0, policy_version 161193 (0.0007)
+[2023-07-06 11:32:06,221][98493] Updated weights for policy 0, policy_version 161238 (0.0006)
+[2023-07-06 11:32:06,829][98493] Updated weights for policy 0, policy_version 161296 (0.0007)
+[2023-07-06 11:32:07,350][98493] Updated weights for policy 0, policy_version 161348 (0.0007)
+[2023-07-06 11:32:07,772][98493] Updated weights for policy 0, policy_version 161402 (0.0007)
+[2023-07-06 11:32:09,764][98243] Fps is (10 sec: 104858.5, 60 sec: 110320.5, 300 sec: 111633.3). Total num frames: 330563584. Throughput: 0: 27818.7. Samples: 82678784. Policy #0 lag: (min: 47.0, avg: 165.4, max: 303.0)
+[2023-07-06 11:32:09,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 11:32:10,143][98493] Updated weights for policy 0, policy_version 161456 (0.0007)
+[2023-07-06 11:32:10,834][98493] Updated weights for policy 0, policy_version 161497 (0.0007)
+[2023-07-06 11:32:11,356][98493] Updated weights for policy 0, policy_version 161542 (0.0019)
+[2023-07-06 11:32:11,826][98493] Updated weights for policy 0, policy_version 161600 (0.0007)
+[2023-07-06 11:32:12,279][98493] Updated weights for policy 0, policy_version 161650 (0.0007)
+[2023-07-06 11:32:14,652][98493] Updated weights for policy 0, policy_version 161696 (0.0006)
+[2023-07-06 11:32:14,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110319.1, 300 sec: 111744.6). Total num frames: 331153408. Throughput: 0: 28034.8. Samples: 82852352. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:14,764][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 11:32:15,377][98449] Signal inference workers to stop experience collection... (8300 times)
+[2023-07-06 11:32:15,406][98493] InferenceWorker_p0-w0: stopping experience collection (8300 times)
+[2023-07-06 11:32:15,410][98493] Updated weights for policy 0, policy_version 161753 (0.0006)
+[2023-07-06 11:32:15,443][98449] Signal inference workers to resume experience collection... (8300 times)
+[2023-07-06 11:32:15,444][98493] InferenceWorker_p0-w0: resuming experience collection (8300 times)
+[2023-07-06 11:32:15,979][98493] Updated weights for policy 0, policy_version 161794 (0.0006)
+[2023-07-06 11:32:16,474][98493] Updated weights for policy 0, policy_version 161853 (0.0008)
+[2023-07-06 11:32:16,996][98493] Updated weights for policy 0, policy_version 161912 (0.0008)
+[2023-07-06 11:32:19,421][98493] Updated weights for policy 0, policy_version 161941 (0.0007)
+[2023-07-06 11:32:19,765][98243] Fps is (10 sec: 114684.1, 60 sec: 110865.0, 300 sec: 111633.2). Total num frames: 331710464. Throughput: 0: 28159.7. Samples: 83025408. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:19,765][98243] Avg episode reward: [(0, '9.410')]
+[2023-07-06 11:32:19,870][98493] Updated weights for policy 0, policy_version 161987 (0.0008)
+[2023-07-06 11:32:20,303][98493] Updated weights for policy 0, policy_version 162044 (0.0007)
+[2023-07-06 11:32:20,793][98493] Updated weights for policy 0, policy_version 162096 (0.0007)
+[2023-07-06 11:32:21,388][98493] Updated weights for policy 0, policy_version 162148 (0.0007)
+[2023-07-06 11:32:24,237][98493] Updated weights for policy 0, policy_version 162208 (0.0006)
+[2023-07-06 11:32:24,747][98493] Updated weights for policy 0, policy_version 162260 (0.0008)
+[2023-07-06 11:32:24,764][98243] Fps is (10 sec: 114688.0, 60 sec: 111411.3, 300 sec: 111633.4). Total num frames: 332300288. Throughput: 0: 28080.4. Samples: 83107328. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:24,764][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:32:24,941][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000162288_332365824.pth...
+[2023-07-06 11:32:24,976][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000149184_305528832.pth
+[2023-07-06 11:32:25,351][98493] Updated weights for policy 0, policy_version 162325 (0.0030)
+[2023-07-06 11:32:25,833][98493] Updated weights for policy 0, policy_version 162375 (0.0007)
+[2023-07-06 11:32:26,259][98493] Updated weights for policy 0, policy_version 162427 (0.0007)
+[2023-07-06 11:32:29,004][98493] Updated weights for policy 0, policy_version 162487 (0.0007)
+[2023-07-06 11:32:29,656][98493] Updated weights for policy 0, policy_version 162544 (0.0006)
+[2023-07-06 11:32:29,764][98243] Fps is (10 sec: 117969.9, 60 sec: 110865.0, 300 sec: 111855.6). Total num frames: 332890112. Throughput: 0: 28194.2. Samples: 83277824. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:29,764][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 11:32:30,113][98493] Updated weights for policy 0, policy_version 162592 (0.0007)
+[2023-07-06 11:32:30,722][98493] Updated weights for policy 0, policy_version 162644 (0.0007)
+[2023-07-06 11:32:30,832][98449] Signal inference workers to stop experience collection... (8350 times)
+[2023-07-06 11:32:30,867][98493] InferenceWorker_p0-w0: stopping experience collection (8350 times)
+[2023-07-06 11:32:30,918][98449] Signal inference workers to resume experience collection... (8350 times)
+[2023-07-06 11:32:30,919][98493] InferenceWorker_p0-w0: resuming experience collection (8350 times)
+[2023-07-06 11:32:31,057][98493] Updated weights for policy 0, policy_version 162688 (0.0006)
+[2023-07-06 11:32:33,694][98493] Updated weights for policy 0, policy_version 162748 (0.0006)
+[2023-07-06 11:32:34,323][98493] Updated weights for policy 0, policy_version 162804 (0.0007)
+[2023-07-06 11:32:34,764][98243] Fps is (10 sec: 121241.3, 60 sec: 111957.3, 300 sec: 112188.8). Total num frames: 333512704. Throughput: 0: 28023.5. Samples: 83439104. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:34,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 11:32:34,870][98493] Updated weights for policy 0, policy_version 162874 (0.0007)
+[2023-07-06 11:32:35,666][98493] Updated weights for policy 0, policy_version 162915 (0.0007)
+[2023-07-06 11:32:38,197][98493] Updated weights for policy 0, policy_version 162964 (0.0008)
+[2023-07-06 11:32:38,804][98493] Updated weights for policy 0, policy_version 163027 (0.0007)
+[2023-07-06 11:32:39,231][98493] Updated weights for policy 0, policy_version 163074 (0.0007)
+[2023-07-06 11:32:39,668][98493] Updated weights for policy 0, policy_version 163132 (0.0006)
+[2023-07-06 11:32:39,764][98243] Fps is (10 sec: 121239.5, 60 sec: 111411.0, 300 sec: 112299.8). Total num frames: 334102528. Throughput: 0: 28137.2. Samples: 83530240. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:39,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:32:40,357][98493] Updated weights for policy 0, policy_version 163194 (0.0007)
+[2023-07-06 11:32:43,054][98493] Updated weights for policy 0, policy_version 163248 (0.0007)
+[2023-07-06 11:32:43,568][98493] Updated weights for policy 0, policy_version 163296 (0.0006)
+[2023-07-06 11:32:44,099][98493] Updated weights for policy 0, policy_version 163350 (0.0008)
+[2023-07-06 11:32:44,678][98493] Updated weights for policy 0, policy_version 163396 (0.0007)
+[2023-07-06 11:32:44,764][98243] Fps is (10 sec: 114689.2, 60 sec: 111957.5, 300 sec: 112299.9). Total num frames: 334659584. Throughput: 0: 28148.8. Samples: 83696128. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:44,764][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 11:32:47,269][98493] Updated weights for policy 0, policy_version 163461 (0.0007)
+[2023-07-06 11:32:47,746][98493] Updated weights for policy 0, policy_version 163520 (0.0007)
+[2023-07-06 11:32:48,236][98493] Updated weights for policy 0, policy_version 163578 (0.0008)
+[2023-07-06 11:32:48,687][98449] Signal inference workers to stop experience collection... (8400 times)
+[2023-07-06 11:32:48,714][98493] InferenceWorker_p0-w0: stopping experience collection (8400 times)
+[2023-07-06 11:32:48,765][98449] Signal inference workers to resume experience collection... (8400 times)
+[2023-07-06 11:32:48,766][98493] InferenceWorker_p0-w0: resuming experience collection (8400 times)
+[2023-07-06 11:32:48,839][98493] Updated weights for policy 0, policy_version 163642 (0.0007)
+[2023-07-06 11:32:49,764][98243] Fps is (10 sec: 108135.2, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 335183872. Throughput: 0: 28012.0. Samples: 83861504. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:49,765][98243] Avg episode reward: [(0, '9.450')]
+[2023-07-06 11:32:49,879][98493] Updated weights for policy 0, policy_version 163684 (0.0007)
+[2023-07-06 11:32:52,050][98493] Updated weights for policy 0, policy_version 163736 (0.0007)
+[2023-07-06 11:32:52,505][98493] Updated weights for policy 0, policy_version 163779 (0.0007)
+[2023-07-06 11:32:52,994][98493] Updated weights for policy 0, policy_version 163840 (0.0007)
+[2023-07-06 11:32:53,551][98493] Updated weights for policy 0, policy_version 163898 (0.0007)
+[2023-07-06 11:32:54,390][98493] Updated weights for policy 0, policy_version 163953 (0.0007)
+[2023-07-06 11:32:54,764][98243] Fps is (10 sec: 114686.8, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 335806464. Throughput: 0: 28228.3. Samples: 83949056. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:54,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 11:32:56,783][98493] Updated weights for policy 0, policy_version 163992 (0.0007)
+[2023-07-06 11:32:57,327][98493] Updated weights for policy 0, policy_version 164052 (0.0006)
+[2023-07-06 11:32:57,883][98493] Updated weights for policy 0, policy_version 164112 (0.0007)
+[2023-07-06 11:32:59,014][98493] Updated weights for policy 0, policy_version 164185 (0.0007)
+[2023-07-06 11:32:59,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 336330752. Throughput: 0: 28034.8. Samples: 84113920. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:32:59,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 11:33:01,445][98493] Updated weights for policy 0, policy_version 164231 (0.0007)
+[2023-07-06 11:33:01,859][98493] Updated weights for policy 0, policy_version 164278 (0.0007)
+[2023-07-06 11:33:02,474][98493] Updated weights for policy 0, policy_version 164338 (0.0009)
+[2023-07-06 11:33:03,064][98493] Updated weights for policy 0, policy_version 164410 (0.0007)
+[2023-07-06 11:33:03,741][98493] Updated weights for policy 0, policy_version 164448 (0.0007)
+[2023-07-06 11:33:04,764][98243] Fps is (10 sec: 104855.6, 60 sec: 113595.4, 300 sec: 111966.6). Total num frames: 336855040. Throughput: 0: 27978.1. Samples: 84284416. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:33:04,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 11:33:05,891][98493] Updated weights for policy 0, policy_version 164482 (0.0008)
+[2023-07-06 11:33:06,408][98493] Updated weights for policy 0, policy_version 164544 (0.0006)
+[2023-07-06 11:33:06,747][98449] Signal inference workers to stop experience collection... (8450 times)
+[2023-07-06 11:33:06,779][98493] InferenceWorker_p0-w0: stopping experience collection (8450 times)
+[2023-07-06 11:33:06,825][98449] Signal inference workers to resume experience collection... (8450 times)
+[2023-07-06 11:33:06,826][98493] InferenceWorker_p0-w0: resuming experience collection (8450 times)
+[2023-07-06 11:33:06,959][98493] Updated weights for policy 0, policy_version 164608 (0.0007)
+[2023-07-06 11:33:07,406][98493] Updated weights for policy 0, policy_version 164645 (0.0007)
+[2023-07-06 11:33:08,338][98493] Updated weights for policy 0, policy_version 164694 (0.0007)
+[2023-07-06 11:33:09,764][98243] Fps is (10 sec: 104858.3, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 337379328. Throughput: 0: 28000.7. Samples: 84367360. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:33:09,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:33:10,463][98493] Updated weights for policy 0, policy_version 164744 (0.0006)
+[2023-07-06 11:33:10,880][98493] Updated weights for policy 0, policy_version 164796 (0.0008)
+[2023-07-06 11:33:11,624][98493] Updated weights for policy 0, policy_version 164851 (0.0009)
+[2023-07-06 11:33:12,057][98493] Updated weights for policy 0, policy_version 164900 (0.0008)
+[2023-07-06 11:33:12,980][98493] Updated weights for policy 0, policy_version 164950 (0.0007)
+[2023-07-06 11:33:14,765][98243] Fps is (10 sec: 104853.7, 60 sec: 112502.4, 300 sec: 111966.4). Total num frames: 337903616. Throughput: 0: 28045.8. Samples: 84539904. Policy #0 lag: (min: 15.0, avg: 97.3, max: 271.0)
+[2023-07-06 11:33:14,766][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 11:33:14,804][98493] Updated weights for policy 0, policy_version 164994 (0.0007)
+[2023-07-06 11:33:15,246][98493] Updated weights for policy 0, policy_version 165052 (0.0006)
+[2023-07-06 11:33:16,097][98493] Updated weights for policy 0, policy_version 165104 (0.0007)
+[2023-07-06 11:33:16,437][98493] Updated weights for policy 0, policy_version 165136 (0.0007)
+[2023-07-06 11:33:17,393][98493] Updated weights for policy 0, policy_version 165200 (0.0008)
+[2023-07-06 11:33:19,486][98493] Updated weights for policy 0, policy_version 165250 (0.0008)
+[2023-07-06 11:33:19,764][98243] Fps is (10 sec: 111409.4, 60 sec: 113050.0, 300 sec: 111855.5). Total num frames: 338493440. Throughput: 0: 28296.4. Samples: 84712448. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:19,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 11:33:19,948][98493] Updated weights for policy 0, policy_version 165306 (0.0007)
+[2023-07-06 11:33:20,723][98493] Updated weights for policy 0, policy_version 165352 (0.0007)
+[2023-07-06 11:33:21,367][98493] Updated weights for policy 0, policy_version 165409 (0.0007)
+[2023-07-06 11:33:22,271][98493] Updated weights for policy 0, policy_version 165472 (0.0006)
+[2023-07-06 11:33:22,572][98493] Updated weights for policy 0, policy_version 165504 (0.0006)
+[2023-07-06 11:33:24,595][98493] Updated weights for policy 0, policy_version 165562 (0.0007)
+[2023-07-06 11:33:24,764][98243] Fps is (10 sec: 117971.5, 60 sec: 113049.6, 300 sec: 111966.6). Total num frames: 339083264. Throughput: 0: 28046.3. Samples: 84792320. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:24,764][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:33:24,771][98449] Saving new best policy, reward=9.600!
+[2023-07-06 11:33:25,352][98493] Updated weights for policy 0, policy_version 165626 (0.0007)
+[2023-07-06 11:33:25,920][98449] Signal inference workers to stop experience collection... (8500 times)
+[2023-07-06 11:33:25,954][98493] InferenceWorker_p0-w0: stopping experience collection (8500 times)
+[2023-07-06 11:33:26,023][98449] Signal inference workers to resume experience collection... (8500 times)
+[2023-07-06 11:33:26,023][98493] InferenceWorker_p0-w0: resuming experience collection (8500 times)
+[2023-07-06 11:33:26,292][98493] Updated weights for policy 0, policy_version 165680 (0.0007)
+[2023-07-06 11:33:26,933][98493] Updated weights for policy 0, policy_version 165714 (0.0006)
+[2023-07-06 11:33:28,833][98493] Updated weights for policy 0, policy_version 165776 (0.0007)
+[2023-07-06 11:33:29,250][98493] Updated weights for policy 0, policy_version 165824 (0.0006)
+[2023-07-06 11:33:29,764][98243] Fps is (10 sec: 114690.8, 60 sec: 112503.5, 300 sec: 112077.7). Total num frames: 339640320. Throughput: 0: 28216.8. Samples: 84965888. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:29,764][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 11:33:29,935][98449] Saving new best policy, reward=9.660!
+[2023-07-06 11:33:30,008][98493] Updated weights for policy 0, policy_version 165876 (0.0006)
+[2023-07-06 11:33:30,663][98493] Updated weights for policy 0, policy_version 165909 (0.0007)
+[2023-07-06 11:33:31,536][98493] Updated weights for policy 0, policy_version 165956 (0.0008)
+[2023-07-06 11:33:32,007][98493] Updated weights for policy 0, policy_version 166016 (0.0006)
+[2023-07-06 11:33:33,771][98493] Updated weights for policy 0, policy_version 166080 (0.0009)
+[2023-07-06 11:33:34,682][98493] Updated weights for policy 0, policy_version 166142 (0.0007)
+[2023-07-06 11:33:34,764][98243] Fps is (10 sec: 117964.9, 60 sec: 112503.5, 300 sec: 112188.7). Total num frames: 340262912. Throughput: 0: 28182.8. Samples: 85129728. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:34,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:33:35,527][98493] Updated weights for policy 0, policy_version 166182 (0.0007)
+[2023-07-06 11:33:36,529][98493] Updated weights for policy 0, policy_version 166229 (0.0006)
+[2023-07-06 11:33:38,157][98493] Updated weights for policy 0, policy_version 166288 (0.0008)
+[2023-07-06 11:33:38,922][98493] Updated weights for policy 0, policy_version 166352 (0.0007)
+[2023-07-06 11:33:39,764][98243] Fps is (10 sec: 114685.9, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 340787200. Throughput: 0: 28148.5. Samples: 85215744. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:39,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:33:39,945][98493] Updated weights for policy 0, policy_version 166416 (0.0008)
+[2023-07-06 11:33:41,102][98493] Updated weights for policy 0, policy_version 166468 (0.0007)
+[2023-07-06 11:33:43,074][98493] Updated weights for policy 0, policy_version 166529 (0.0007)
+[2023-07-06 11:33:43,832][98493] Updated weights for policy 0, policy_version 166598 (0.0008)
+[2023-07-06 11:33:44,265][98493] Updated weights for policy 0, policy_version 166654 (0.0007)
+[2023-07-06 11:33:44,752][98449] Signal inference workers to stop experience collection... (8550 times)
+[2023-07-06 11:33:44,764][98243] Fps is (10 sec: 111411.1, 60 sec: 111957.2, 300 sec: 112188.8). Total num frames: 341377024. Throughput: 0: 28125.9. Samples: 85379584. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:44,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 11:33:44,788][98493] InferenceWorker_p0-w0: stopping experience collection (8550 times)
+[2023-07-06 11:33:44,850][98449] Signal inference workers to resume experience collection... (8550 times)
+[2023-07-06 11:33:44,851][98493] InferenceWorker_p0-w0: resuming experience collection (8550 times)
+[2023-07-06 11:33:44,877][98493] Updated weights for policy 0, policy_version 166705 (0.0006)
+[2023-07-06 11:33:45,918][98493] Updated weights for policy 0, policy_version 166744 (0.0007)
+[2023-07-06 11:33:46,234][98493] Updated weights for policy 0, policy_version 166784 (0.0006)
+[2023-07-06 11:33:48,219][98493] Updated weights for policy 0, policy_version 166833 (0.0007)
+[2023-07-06 11:33:48,645][98493] Updated weights for policy 0, policy_version 166880 (0.0007)
+[2023-07-06 11:33:49,126][98493] Updated weights for policy 0, policy_version 166918 (0.0008)
+[2023-07-06 11:33:49,619][98493] Updated weights for policy 0, policy_version 166975 (0.0007)
+[2023-07-06 11:33:49,764][98243] Fps is (10 sec: 117965.5, 60 sec: 113049.6, 300 sec: 112410.9). Total num frames: 341966848. Throughput: 0: 28046.3. Samples: 85546496. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:49,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:33:50,665][98493] Updated weights for policy 0, policy_version 167035 (0.0006)
+[2023-07-06 11:33:52,825][98493] Updated weights for policy 0, policy_version 167088 (0.0007)
+[2023-07-06 11:33:53,614][98493] Updated weights for policy 0, policy_version 167152 (0.0007)
+[2023-07-06 11:33:54,121][98493] Updated weights for policy 0, policy_version 167201 (0.0007)
+[2023-07-06 11:33:54,764][98243] Fps is (10 sec: 111410.4, 60 sec: 111411.1, 300 sec: 112410.9). Total num frames: 342491136. Throughput: 0: 28205.5. Samples: 85636608. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:54,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:33:54,918][98493] Updated weights for policy 0, policy_version 167257 (0.0006)
+[2023-07-06 11:33:57,012][98493] Updated weights for policy 0, policy_version 167297 (0.0006)
+[2023-07-06 11:33:57,458][98493] Updated weights for policy 0, policy_version 167356 (0.0008)
+[2023-07-06 11:33:58,421][98493] Updated weights for policy 0, policy_version 167413 (0.0006)
+[2023-07-06 11:33:58,896][98493] Updated weights for policy 0, policy_version 167472 (0.0007)
+[2023-07-06 11:33:59,764][98243] Fps is (10 sec: 108135.9, 60 sec: 111957.6, 300 sec: 112299.8). Total num frames: 343048192. Throughput: 0: 27978.3. Samples: 85798912. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:33:59,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:33:59,871][98493] Updated weights for policy 0, policy_version 167529 (0.0008)
+[2023-07-06 11:34:01,862][98493] Updated weights for policy 0, policy_version 167584 (0.0007)
+[2023-07-06 11:34:02,963][98493] Updated weights for policy 0, policy_version 167632 (0.0006)
+[2023-07-06 11:34:03,465][98449] Signal inference workers to stop experience collection... (8600 times)
+[2023-07-06 11:34:03,493][98493] InferenceWorker_p0-w0: stopping experience collection (8600 times)
+[2023-07-06 11:34:03,540][98449] Signal inference workers to resume experience collection... (8600 times)
+[2023-07-06 11:34:03,540][98493] InferenceWorker_p0-w0: resuming experience collection (8600 times)
+[2023-07-06 11:34:03,619][98493] Updated weights for policy 0, policy_version 167699 (0.0007)
+[2023-07-06 11:34:04,114][98493] Updated weights for policy 0, policy_version 167760 (0.0007)
+[2023-07-06 11:34:04,530][98493] Updated weights for policy 0, policy_version 167808 (0.0007)
+[2023-07-06 11:34:04,764][98243] Fps is (10 sec: 117965.2, 60 sec: 113596.0, 300 sec: 112522.0). Total num frames: 343670784. Throughput: 0: 27796.0. Samples: 85963264. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:34:04,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 11:34:06,887][98493] Updated weights for policy 0, policy_version 167868 (0.0008)
+[2023-07-06 11:34:07,850][98493] Updated weights for policy 0, policy_version 167920 (0.0008)
+[2023-07-06 11:34:08,379][98493] Updated weights for policy 0, policy_version 167970 (0.0007)
+[2023-07-06 11:34:09,008][98493] Updated weights for policy 0, policy_version 168033 (0.0007)
+[2023-07-06 11:34:09,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.8, 300 sec: 112188.8). Total num frames: 344195072. Throughput: 0: 28080.4. Samples: 86055936. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:34:09,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 11:34:11,227][98493] Updated weights for policy 0, policy_version 168088 (0.0006)
+[2023-07-06 11:34:12,157][98493] Updated weights for policy 0, policy_version 168129 (0.0007)
+[2023-07-06 11:34:12,756][98493] Updated weights for policy 0, policy_version 168194 (0.0008)
+[2023-07-06 11:34:13,182][98493] Updated weights for policy 0, policy_version 168252 (0.0007)
+[2023-07-06 11:34:13,704][98493] Updated weights for policy 0, policy_version 168296 (0.0007)
+[2023-07-06 11:34:14,764][98243] Fps is (10 sec: 104858.0, 60 sec: 113596.8, 300 sec: 111966.6). Total num frames: 344719360. Throughput: 0: 27830.0. Samples: 86218240. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:34:14,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:34:15,881][98493] Updated weights for policy 0, policy_version 168339 (0.0006)
+[2023-07-06 11:34:17,087][98493] Updated weights for policy 0, policy_version 168406 (0.0007)
+[2023-07-06 11:34:17,696][98493] Updated weights for policy 0, policy_version 168480 (0.0007)
+[2023-07-06 11:34:18,184][98493] Updated weights for policy 0, policy_version 168532 (0.0008)
+[2023-07-06 11:34:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 112503.9, 300 sec: 111966.7). Total num frames: 345243648. Throughput: 0: 27943.8. Samples: 86387200. Policy #0 lag: (min: 8.0, avg: 92.5, max: 264.0)
+[2023-07-06 11:34:19,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 11:34:20,559][98493] Updated weights for policy 0, policy_version 168580 (0.0007)
+[2023-07-06 11:34:20,818][98449] Signal inference workers to stop experience collection... (8650 times)
+[2023-07-06 11:34:20,847][98493] InferenceWorker_p0-w0: stopping experience collection (8650 times)
+[2023-07-06 11:34:20,890][98449] Signal inference workers to resume experience collection... (8650 times)
+[2023-07-06 11:34:20,891][98493] InferenceWorker_p0-w0: resuming experience collection (8650 times)
+[2023-07-06 11:34:21,006][98493] Updated weights for policy 0, policy_version 168638 (0.0008)
+[2023-07-06 11:34:21,874][98493] Updated weights for policy 0, policy_version 168696 (0.0007)
+[2023-07-06 11:34:22,281][98493] Updated weights for policy 0, policy_version 168736 (0.0007)
+[2023-07-06 11:34:22,843][98493] Updated weights for policy 0, policy_version 168790 (0.0009)
+[2023-07-06 11:34:23,143][98493] Updated weights for policy 0, policy_version 168829 (0.0006)
+[2023-07-06 11:34:24,764][98243] Fps is (10 sec: 104855.8, 60 sec: 111410.9, 300 sec: 111966.5). Total num frames: 345767936. Throughput: 0: 27841.4. Samples: 86468608. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:24,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:34:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000168832_345767936.pth...
+[2023-07-06 11:34:24,814][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000155712_318898176.pth
+[2023-07-06 11:34:24,817][98449] Saving new best policy, reward=9.680!
+[2023-07-06 11:34:25,872][98493] Updated weights for policy 0, policy_version 168881 (0.0008)
+[2023-07-06 11:34:26,417][98493] Updated weights for policy 0, policy_version 168915 (0.0007)
+[2023-07-06 11:34:26,890][98493] Updated weights for policy 0, policy_version 168964 (0.0008)
+[2023-07-06 11:34:27,478][98493] Updated weights for policy 0, policy_version 169032 (0.0008)
+[2023-07-06 11:34:29,764][98243] Fps is (10 sec: 104856.5, 60 sec: 110864.9, 300 sec: 111966.5). Total num frames: 346292224. Throughput: 0: 27864.1. Samples: 86633472. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:29,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:34:30,361][98493] Updated weights for policy 0, policy_version 169092 (0.0007)
+[2023-07-06 11:34:30,773][98493] Updated weights for policy 0, policy_version 169141 (0.0007)
+[2023-07-06 11:34:31,312][98493] Updated weights for policy 0, policy_version 169213 (0.0007)
+[2023-07-06 11:34:32,103][98493] Updated weights for policy 0, policy_version 169253 (0.0006)
+[2023-07-06 11:34:32,562][98493] Updated weights for policy 0, policy_version 169299 (0.0007)
+[2023-07-06 11:34:32,900][98493] Updated weights for policy 0, policy_version 169340 (0.0011)
+[2023-07-06 11:34:34,764][98243] Fps is (10 sec: 104858.8, 60 sec: 109226.5, 300 sec: 111966.6). Total num frames: 346816512. Throughput: 0: 28023.5. Samples: 86807552. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:34,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 11:34:35,584][98493] Updated weights for policy 0, policy_version 169394 (0.0007)
+[2023-07-06 11:34:36,146][98493] Updated weights for policy 0, policy_version 169464 (0.0009)
+[2023-07-06 11:34:36,732][98493] Updated weights for policy 0, policy_version 169520 (0.0007)
+[2023-07-06 11:34:36,935][98449] Signal inference workers to stop experience collection... (8700 times)
+[2023-07-06 11:34:36,967][98493] InferenceWorker_p0-w0: stopping experience collection (8700 times)
+[2023-07-06 11:34:37,011][98449] Signal inference workers to resume experience collection... (8700 times)
+[2023-07-06 11:34:37,012][98493] InferenceWorker_p0-w0: resuming experience collection (8700 times)
+[2023-07-06 11:34:37,233][98493] Updated weights for policy 0, policy_version 169569 (0.0007)
+[2023-07-06 11:34:39,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109226.9, 300 sec: 111744.4). Total num frames: 347340800. Throughput: 0: 27693.5. Samples: 86882816. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:39,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:34:39,986][98449] Saving new best policy, reward=9.710!
+[2023-07-06 11:34:40,144][98493] Updated weights for policy 0, policy_version 169648 (0.0007)
+[2023-07-06 11:34:40,730][98493] Updated weights for policy 0, policy_version 169712 (0.0007)
+[2023-07-06 11:34:41,582][98493] Updated weights for policy 0, policy_version 169766 (0.0007)
+[2023-07-06 11:34:42,137][98493] Updated weights for policy 0, policy_version 169827 (0.0008)
+[2023-07-06 11:34:44,761][98493] Updated weights for policy 0, policy_version 169888 (0.0006)
+[2023-07-06 11:34:44,764][98243] Fps is (10 sec: 111412.0, 60 sec: 109226.7, 300 sec: 111744.5). Total num frames: 347930624. Throughput: 0: 27830.0. Samples: 87051264. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 11:34:45,252][98493] Updated weights for policy 0, policy_version 169940 (0.0007)
+[2023-07-06 11:34:46,054][98493] Updated weights for policy 0, policy_version 170000 (0.0007)
+[2023-07-06 11:34:46,567][98493] Updated weights for policy 0, policy_version 170057 (0.0008)
+[2023-07-06 11:34:47,038][98493] Updated weights for policy 0, policy_version 170112 (0.0006)
+[2023-07-06 11:34:49,710][98493] Updated weights for policy 0, policy_version 170176 (0.0008)
+[2023-07-06 11:34:49,764][98243] Fps is (10 sec: 117965.1, 60 sec: 109226.8, 300 sec: 111966.7). Total num frames: 348520448. Throughput: 0: 27955.2. Samples: 87221248. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:49,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:34:50,190][98493] Updated weights for policy 0, policy_version 170234 (0.0007)
+[2023-07-06 11:34:51,153][98493] Updated weights for policy 0, policy_version 170297 (0.0008)
+[2023-07-06 11:34:51,651][98493] Updated weights for policy 0, policy_version 170353 (0.0007)
+[2023-07-06 11:34:54,129][98493] Updated weights for policy 0, policy_version 170400 (0.0007)
+[2023-07-06 11:34:54,610][98449] Signal inference workers to stop experience collection... (8750 times)
+[2023-07-06 11:34:54,642][98493] InferenceWorker_p0-w0: stopping experience collection (8750 times)
+[2023-07-06 11:34:54,682][98449] Signal inference workers to resume experience collection... (8750 times)
+[2023-07-06 11:34:54,683][98493] InferenceWorker_p0-w0: resuming experience collection (8750 times)
+[2023-07-06 11:34:54,684][98493] Updated weights for policy 0, policy_version 170464 (0.0007)
+[2023-07-06 11:34:54,764][98243] Fps is (10 sec: 117962.8, 60 sec: 110318.8, 300 sec: 112188.7). Total num frames: 349110272. Throughput: 0: 27670.7. Samples: 87301120. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:54,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 11:34:55,652][98493] Updated weights for policy 0, policy_version 170519 (0.0007)
+[2023-07-06 11:34:56,245][98493] Updated weights for policy 0, policy_version 170578 (0.0007)
+[2023-07-06 11:34:56,581][98493] Updated weights for policy 0, policy_version 170624 (0.0006)
+[2023-07-06 11:34:59,163][98493] Updated weights for policy 0, policy_version 170680 (0.0007)
+[2023-07-06 11:34:59,586][98493] Updated weights for policy 0, policy_version 170727 (0.0009)
+[2023-07-06 11:34:59,764][98243] Fps is (10 sec: 117965.0, 60 sec: 110865.0, 300 sec: 112411.1). Total num frames: 349700096. Throughput: 0: 27886.9. Samples: 87473152. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:34:59,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:35:00,306][98493] Updated weights for policy 0, policy_version 170777 (0.0007)
+[2023-07-06 11:35:00,851][98493] Updated weights for policy 0, policy_version 170836 (0.0008)
+[2023-07-06 11:35:03,306][98493] Updated weights for policy 0, policy_version 170886 (0.0006)
+[2023-07-06 11:35:03,978][98493] Updated weights for policy 0, policy_version 170966 (0.0007)
+[2023-07-06 11:35:04,764][98243] Fps is (10 sec: 111410.8, 60 sec: 109226.4, 300 sec: 112188.7). Total num frames: 350224384. Throughput: 0: 27761.6. Samples: 87636480. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:35:04,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 11:35:04,894][98493] Updated weights for policy 0, policy_version 171013 (0.0006)
+[2023-07-06 11:35:05,463][98493] Updated weights for policy 0, policy_version 171074 (0.0006)
+[2023-07-06 11:35:05,912][98493] Updated weights for policy 0, policy_version 171132 (0.0006)
+[2023-07-06 11:35:08,404][98493] Updated weights for policy 0, policy_version 171169 (0.0007)
+[2023-07-06 11:35:08,903][98493] Updated weights for policy 0, policy_version 171232 (0.0006)
+[2023-07-06 11:35:09,754][98493] Updated weights for policy 0, policy_version 171296 (0.0006)
+[2023-07-06 11:35:09,764][98243] Fps is (10 sec: 111409.0, 60 sec: 110318.6, 300 sec: 112188.7). Total num frames: 350814208. Throughput: 0: 27875.5. Samples: 87723008. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:35:09,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:35:10,201][98493] Updated weights for policy 0, policy_version 171344 (0.0008)
+[2023-07-06 11:35:10,403][98449] Signal inference workers to stop experience collection... (8800 times)
+[2023-07-06 11:35:10,439][98493] InferenceWorker_p0-w0: stopping experience collection (8800 times)
+[2023-07-06 11:35:10,488][98449] Signal inference workers to resume experience collection... (8800 times)
+[2023-07-06 11:35:10,488][98493] InferenceWorker_p0-w0: resuming experience collection (8800 times)
+[2023-07-06 11:35:12,889][98493] Updated weights for policy 0, policy_version 171396 (0.0007)
+[2023-07-06 11:35:13,367][98493] Updated weights for policy 0, policy_version 171456 (0.0007)
+[2023-07-06 11:35:13,874][98493] Updated weights for policy 0, policy_version 171517 (0.0007)
+[2023-07-06 11:35:14,468][98493] Updated weights for policy 0, policy_version 171573 (0.0007)
+[2023-07-06 11:35:14,764][98243] Fps is (10 sec: 121244.6, 60 sec: 111957.4, 300 sec: 112188.8). Total num frames: 351436800. Throughput: 0: 27864.3. Samples: 87887360. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:35:14,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:35:15,048][98493] Updated weights for policy 0, policy_version 171639 (0.0007)
+[2023-07-06 11:35:17,752][98493] Updated weights for policy 0, policy_version 171680 (0.0007)
+[2023-07-06 11:35:18,283][98493] Updated weights for policy 0, policy_version 171735 (0.0008)
+[2023-07-06 11:35:18,818][98493] Updated weights for policy 0, policy_version 171793 (0.0006)
+[2023-07-06 11:35:19,537][98493] Updated weights for policy 0, policy_version 171856 (0.0008)
+[2023-07-06 11:35:19,764][98243] Fps is (10 sec: 117967.3, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 351993856. Throughput: 0: 27602.5. Samples: 88049664. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:35:19,764][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 11:35:22,407][98493] Updated weights for policy 0, policy_version 171920 (0.0006)
+[2023-07-06 11:35:23,068][98493] Updated weights for policy 0, policy_version 171991 (0.0008)
+[2023-07-06 11:35:23,541][98493] Updated weights for policy 0, policy_version 172048 (0.0007)
+[2023-07-06 11:35:24,388][98493] Updated weights for policy 0, policy_version 172098 (0.0007)
+[2023-07-06 11:35:24,764][98243] Fps is (10 sec: 111410.5, 60 sec: 113049.9, 300 sec: 112299.9). Total num frames: 352550912. Throughput: 0: 27943.8. Samples: 88140288. Policy #0 lag: (min: 15.0, avg: 96.2, max: 271.0)
+[2023-07-06 11:35:24,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:35:24,882][98493] Updated weights for policy 0, policy_version 172160 (0.0007)
+[2023-07-06 11:35:27,473][98493] Updated weights for policy 0, policy_version 172215 (0.0007)
+[2023-07-06 11:35:27,967][98449] Signal inference workers to stop experience collection... (8850 times)
+[2023-07-06 11:35:28,003][98493] InferenceWorker_p0-w0: stopping experience collection (8850 times)
+[2023-07-06 11:35:28,046][98449] Signal inference workers to resume experience collection... (8850 times)
+[2023-07-06 11:35:28,046][98493] InferenceWorker_p0-w0: resuming experience collection (8850 times)
+[2023-07-06 11:35:28,127][98493] Updated weights for policy 0, policy_version 172291 (0.0008)
+[2023-07-06 11:35:28,582][98493] Updated weights for policy 0, policy_version 172349 (0.0008)
+[2023-07-06 11:35:29,519][98493] Updated weights for policy 0, policy_version 172410 (0.0008)
+[2023-07-06 11:35:29,764][98243] Fps is (10 sec: 111409.2, 60 sec: 113595.6, 300 sec: 112188.7). Total num frames: 353107968. Throughput: 0: 27727.5. Samples: 88299008. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:29,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:35:32,059][98493] Updated weights for policy 0, policy_version 172457 (0.0007)
+[2023-07-06 11:35:32,588][98493] Updated weights for policy 0, policy_version 172512 (0.0007)
+[2023-07-06 11:35:33,118][98493] Updated weights for policy 0, policy_version 172564 (0.0007)
+[2023-07-06 11:35:33,985][98493] Updated weights for policy 0, policy_version 172610 (0.0007)
+[2023-07-06 11:35:34,352][98493] Updated weights for policy 0, policy_version 172656 (0.0007)
+[2023-07-06 11:35:34,764][98243] Fps is (10 sec: 108133.2, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 353632256. Throughput: 0: 27761.7. Samples: 88470528. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:34,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:35:36,502][98493] Updated weights for policy 0, policy_version 172704 (0.0007)
+[2023-07-06 11:35:36,936][98493] Updated weights for policy 0, policy_version 172752 (0.0007)
+[2023-07-06 11:35:37,607][98493] Updated weights for policy 0, policy_version 172818 (0.0008)
+[2023-07-06 11:35:37,940][98493] Updated weights for policy 0, policy_version 172864 (0.0007)
+[2023-07-06 11:35:38,967][98493] Updated weights for policy 0, policy_version 172926 (0.0007)
+[2023-07-06 11:35:39,765][98243] Fps is (10 sec: 104856.6, 60 sec: 113595.3, 300 sec: 111966.5). Total num frames: 354156544. Throughput: 0: 27841.4. Samples: 88553984. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:39,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:35:41,554][98493] Updated weights for policy 0, policy_version 172980 (0.0007)
+[2023-07-06 11:35:42,017][98493] Updated weights for policy 0, policy_version 173031 (0.0006)
+[2023-07-06 11:35:42,436][98493] Updated weights for policy 0, policy_version 173079 (0.0007)
+[2023-07-06 11:35:43,386][98493] Updated weights for policy 0, policy_version 173122 (0.0008)
+[2023-07-06 11:35:43,740][98493] Updated weights for policy 0, policy_version 173168 (0.0007)
+[2023-07-06 11:35:44,764][98243] Fps is (10 sec: 104858.4, 60 sec: 112503.4, 300 sec: 111855.5). Total num frames: 354680832. Throughput: 0: 27784.5. Samples: 88723456. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:44,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:35:45,900][98449] Signal inference workers to stop experience collection... (8900 times)
+[2023-07-06 11:35:45,937][98493] InferenceWorker_p0-w0: stopping experience collection (8900 times)
+[2023-07-06 11:35:45,980][98449] Signal inference workers to resume experience collection... (8900 times)
+[2023-07-06 11:35:45,981][98493] InferenceWorker_p0-w0: resuming experience collection (8900 times)
+[2023-07-06 11:35:46,058][98493] Updated weights for policy 0, policy_version 173219 (0.0007)
+[2023-07-06 11:35:46,536][98493] Updated weights for policy 0, policy_version 173280 (0.0008)
+[2023-07-06 11:35:47,115][98493] Updated weights for policy 0, policy_version 173344 (0.0008)
+[2023-07-06 11:35:48,287][98493] Updated weights for policy 0, policy_version 173400 (0.0007)
+[2023-07-06 11:35:49,764][98243] Fps is (10 sec: 104859.9, 60 sec: 111411.1, 300 sec: 111633.3). Total num frames: 355205120. Throughput: 0: 27909.8. Samples: 88892416. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:49,765][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 11:35:50,552][98493] Updated weights for policy 0, policy_version 173456 (0.0007)
+[2023-07-06 11:35:51,046][98493] Updated weights for policy 0, policy_version 173508 (0.0007)
+[2023-07-06 11:35:51,624][98493] Updated weights for policy 0, policy_version 173573 (0.0007)
+[2023-07-06 11:35:53,118][98493] Updated weights for policy 0, policy_version 173636 (0.0007)
+[2023-07-06 11:35:53,527][98493] Updated weights for policy 0, policy_version 173687 (0.0006)
+[2023-07-06 11:35:54,764][98243] Fps is (10 sec: 104858.3, 60 sec: 110319.3, 300 sec: 111522.3). Total num frames: 355729408. Throughput: 0: 27761.9. Samples: 88972288. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:54,764][98243] Avg episode reward: [(0, '9.480')]
+[2023-07-06 11:35:55,207][98493] Updated weights for policy 0, policy_version 173728 (0.0006)
+[2023-07-06 11:35:55,689][98493] Updated weights for policy 0, policy_version 173777 (0.0007)
+[2023-07-06 11:35:56,144][98493] Updated weights for policy 0, policy_version 173829 (0.0008)
+[2023-07-06 11:35:56,572][98493] Updated weights for policy 0, policy_version 173883 (0.0007)
+[2023-07-06 11:35:58,273][98493] Updated weights for policy 0, policy_version 173944 (0.0008)
+[2023-07-06 11:35:59,764][98243] Fps is (10 sec: 111409.7, 60 sec: 110318.6, 300 sec: 111744.4). Total num frames: 356319232. Throughput: 0: 27875.4. Samples: 89141760. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:35:59,765][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 11:35:59,800][98493] Updated weights for policy 0, policy_version 174000 (0.0006)
+[2023-07-06 11:36:00,360][98493] Updated weights for policy 0, policy_version 174056 (0.0007)
+[2023-07-06 11:36:00,744][98449] Signal inference workers to stop experience collection... (8950 times)
+[2023-07-06 11:36:00,777][98493] InferenceWorker_p0-w0: stopping experience collection (8950 times)
+[2023-07-06 11:36:00,779][98493] Updated weights for policy 0, policy_version 174100 (0.0028)
+[2023-07-06 11:36:00,846][98449] Signal inference workers to resume experience collection... (8950 times)
+[2023-07-06 11:36:00,847][98493] InferenceWorker_p0-w0: resuming experience collection (8950 times)
+[2023-07-06 11:36:02,918][98493] Updated weights for policy 0, policy_version 174145 (0.0009)
+[2023-07-06 11:36:03,432][98493] Updated weights for policy 0, policy_version 174206 (0.0007)
+[2023-07-06 11:36:04,276][98493] Updated weights for policy 0, policy_version 174247 (0.0007)
+[2023-07-06 11:36:04,764][98243] Fps is (10 sec: 121241.2, 60 sec: 111957.7, 300 sec: 111855.9). Total num frames: 356941824. Throughput: 0: 28000.7. Samples: 89309696. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:36:04,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 11:36:04,777][98493] Updated weights for policy 0, policy_version 174297 (0.0007)
+[2023-07-06 11:36:05,416][98493] Updated weights for policy 0, policy_version 174352 (0.0006)
+[2023-07-06 11:36:05,800][98493] Updated weights for policy 0, policy_version 174396 (0.0006)
+[2023-07-06 11:36:08,023][98493] Updated weights for policy 0, policy_version 174459 (0.0009)
+[2023-07-06 11:36:09,025][98493] Updated weights for policy 0, policy_version 174522 (0.0021)
+[2023-07-06 11:36:09,526][98493] Updated weights for policy 0, policy_version 174560 (0.0007)
+[2023-07-06 11:36:09,764][98243] Fps is (10 sec: 121241.9, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 357531648. Throughput: 0: 27886.8. Samples: 89395200. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:36:09,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 11:36:10,244][98493] Updated weights for policy 0, policy_version 174617 (0.0007)
+[2023-07-06 11:36:12,495][98493] Updated weights for policy 0, policy_version 174672 (0.0007)
+[2023-07-06 11:36:12,859][98493] Updated weights for policy 0, policy_version 174715 (0.0006)
+[2023-07-06 11:36:13,561][98493] Updated weights for policy 0, policy_version 174780 (0.0006)
+[2023-07-06 11:36:14,360][98493] Updated weights for policy 0, policy_version 174846 (0.0007)
+[2023-07-06 11:36:14,764][98243] Fps is (10 sec: 114685.8, 60 sec: 110864.6, 300 sec: 111966.7). Total num frames: 358088704. Throughput: 0: 27977.9. Samples: 89558016. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:36:14,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 11:36:15,302][98493] Updated weights for policy 0, policy_version 174908 (0.0009)
+[2023-07-06 11:36:17,686][98493] Updated weights for policy 0, policy_version 174970 (0.0006)
+[2023-07-06 11:36:18,298][98493] Updated weights for policy 0, policy_version 175033 (0.0007)
+[2023-07-06 11:36:19,034][98493] Updated weights for policy 0, policy_version 175078 (0.0006)
+[2023-07-06 11:36:19,594][98493] Updated weights for policy 0, policy_version 175126 (0.0006)
+[2023-07-06 11:36:19,764][98243] Fps is (10 sec: 114689.8, 60 sec: 111411.2, 300 sec: 112077.7). Total num frames: 358678528. Throughput: 0: 27841.5. Samples: 89723392. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:36:19,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:36:21,899][98449] Signal inference workers to stop experience collection... (9000 times)
+[2023-07-06 11:36:21,929][98493] InferenceWorker_p0-w0: stopping experience collection (9000 times)
+[2023-07-06 11:36:21,939][98493] Updated weights for policy 0, policy_version 175175 (0.0007)
+[2023-07-06 11:36:21,981][98449] Signal inference workers to resume experience collection... (9000 times)
+[2023-07-06 11:36:21,981][98493] InferenceWorker_p0-w0: resuming experience collection (9000 times)
+[2023-07-06 11:36:22,384][98493] Updated weights for policy 0, policy_version 175230 (0.0006)
+[2023-07-06 11:36:22,995][98493] Updated weights for policy 0, policy_version 175291 (0.0007)
+[2023-07-06 11:36:23,648][98493] Updated weights for policy 0, policy_version 175344 (0.0007)
+[2023-07-06 11:36:24,267][98493] Updated weights for policy 0, policy_version 175400 (0.0006)
+[2023-07-06 11:36:24,764][98243] Fps is (10 sec: 117966.6, 60 sec: 111957.3, 300 sec: 111966.6). Total num frames: 359268352. Throughput: 0: 27978.1. Samples: 89812992. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:36:24,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:36:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000175424_359268352.pth...
+[2023-07-06 11:36:24,801][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000162288_332365824.pth
+[2023-07-06 11:36:26,712][98493] Updated weights for policy 0, policy_version 175452 (0.0009)
+[2023-07-06 11:36:27,341][98493] Updated weights for policy 0, policy_version 175504 (0.0007)
+[2023-07-06 11:36:27,770][98493] Updated weights for policy 0, policy_version 175552 (0.0006)
+[2023-07-06 11:36:28,386][98493] Updated weights for policy 0, policy_version 175602 (0.0008)
+[2023-07-06 11:36:29,022][98493] Updated weights for policy 0, policy_version 175653 (0.0008)
+[2023-07-06 11:36:29,764][98243] Fps is (10 sec: 111409.9, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 359792640. Throughput: 0: 27898.3. Samples: 89978880. Policy #0 lag: (min: 14.0, avg: 72.3, max: 270.0)
+[2023-07-06 11:36:29,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 11:36:31,126][98493] Updated weights for policy 0, policy_version 175681 (0.0006)
+[2023-07-06 11:36:31,590][98493] Updated weights for policy 0, policy_version 175739 (0.0006)
+[2023-07-06 11:36:32,646][98493] Updated weights for policy 0, policy_version 175808 (0.0007)
+[2023-07-06 11:36:33,151][98493] Updated weights for policy 0, policy_version 175869 (0.0007)
+[2023-07-06 11:36:33,823][98493] Updated weights for policy 0, policy_version 175936 (0.0007)
+[2023-07-06 11:36:34,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 360316928. Throughput: 0: 27818.7. Samples: 90144256. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:36:34,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:36:36,844][98493] Updated weights for policy 0, policy_version 176001 (0.0007)
+[2023-07-06 11:36:37,315][98493] Updated weights for policy 0, policy_version 176060 (0.0007)
+[2023-07-06 11:36:37,836][98493] Updated weights for policy 0, policy_version 176112 (0.0008)
+[2023-07-06 11:36:38,310][98449] Signal inference workers to stop experience collection... (9050 times)
+[2023-07-06 11:36:38,339][98493] InferenceWorker_p0-w0: stopping experience collection (9050 times)
+[2023-07-06 11:36:38,406][98449] Signal inference workers to resume experience collection... (9050 times)
+[2023-07-06 11:36:38,406][98493] InferenceWorker_p0-w0: resuming experience collection (9050 times)
+[2023-07-06 11:36:38,408][98493] Updated weights for policy 0, policy_version 176176 (0.0008)
+[2023-07-06 11:36:39,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 360841216. Throughput: 0: 27909.7. Samples: 90228224. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:36:39,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 11:36:40,953][98493] Updated weights for policy 0, policy_version 176217 (0.0006)
+[2023-07-06 11:36:41,603][98493] Updated weights for policy 0, policy_version 176263 (0.0006)
+[2023-07-06 11:36:42,074][98493] Updated weights for policy 0, policy_version 176320 (0.0007)
+[2023-07-06 11:36:42,664][98493] Updated weights for policy 0, policy_version 176384 (0.0007)
+[2023-07-06 11:36:43,168][98493] Updated weights for policy 0, policy_version 176440 (0.0007)
+[2023-07-06 11:36:44,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 361365504. Throughput: 0: 27830.1. Samples: 90394112. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:36:44,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:36:45,594][98493] Updated weights for policy 0, policy_version 176480 (0.0007)
+[2023-07-06 11:36:46,310][98493] Updated weights for policy 0, policy_version 176517 (0.0009)
+[2023-07-06 11:36:46,694][98493] Updated weights for policy 0, policy_version 176564 (0.0007)
+[2023-07-06 11:36:47,214][98493] Updated weights for policy 0, policy_version 176610 (0.0006)
+[2023-07-06 11:36:47,711][98493] Updated weights for policy 0, policy_version 176672 (0.0008)
+[2023-07-06 11:36:47,965][98493] Updated weights for policy 0, policy_version 176702 (0.0007)
+[2023-07-06 11:36:49,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 361889792. Throughput: 0: 27978.0. Samples: 90568704. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:36:49,764][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 11:36:50,364][98493] Updated weights for policy 0, policy_version 176752 (0.0007)
+[2023-07-06 11:36:51,079][98493] Updated weights for policy 0, policy_version 176805 (0.0007)
+[2023-07-06 11:36:51,695][98493] Updated weights for policy 0, policy_version 176835 (0.0007)
+[2023-07-06 11:36:52,127][98493] Updated weights for policy 0, policy_version 176885 (0.0008)
+[2023-07-06 11:36:52,545][98493] Updated weights for policy 0, policy_version 176932 (0.0009)
+[2023-07-06 11:36:54,764][98243] Fps is (10 sec: 108134.9, 60 sec: 111957.3, 300 sec: 111633.4). Total num frames: 362446848. Throughput: 0: 27852.9. Samples: 90648576. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:36:54,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 11:36:54,774][98493] Updated weights for policy 0, policy_version 176992 (0.0007)
+[2023-07-06 11:36:55,597][98493] Updated weights for policy 0, policy_version 177049 (0.0006)
+[2023-07-06 11:36:55,906][98493] Updated weights for policy 0, policy_version 177088 (0.0007)
+[2023-07-06 11:36:56,782][98449] Signal inference workers to stop experience collection... (9100 times)
+[2023-07-06 11:36:56,827][98493] InferenceWorker_p0-w0: stopping experience collection (9100 times)
+[2023-07-06 11:36:56,841][98493] Updated weights for policy 0, policy_version 177145 (0.0008)
+[2023-07-06 11:36:56,872][98449] Signal inference workers to resume experience collection... (9100 times)
+[2023-07-06 11:36:56,872][98493] InferenceWorker_p0-w0: resuming experience collection (9100 times)
+[2023-07-06 11:36:57,392][98493] Updated weights for policy 0, policy_version 177210 (0.0007)
+[2023-07-06 11:36:59,656][98493] Updated weights for policy 0, policy_version 177264 (0.0006)
+[2023-07-06 11:36:59,764][98243] Fps is (10 sec: 114687.7, 60 sec: 111957.6, 300 sec: 111855.5). Total num frames: 363036672. Throughput: 0: 28091.8. Samples: 90822144. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:36:59,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:37:00,444][98493] Updated weights for policy 0, policy_version 177319 (0.0009)
+[2023-07-06 11:37:01,336][98493] Updated weights for policy 0, policy_version 177382 (0.0007)
+[2023-07-06 11:37:01,813][98493] Updated weights for policy 0, policy_version 177440 (0.0007)
+[2023-07-06 11:37:04,179][98493] Updated weights for policy 0, policy_version 177497 (0.0009)
+[2023-07-06 11:37:04,764][98243] Fps is (10 sec: 114685.6, 60 sec: 110864.8, 300 sec: 111966.5). Total num frames: 363593728. Throughput: 0: 28091.6. Samples: 90987520. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:04,766][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:37:04,809][98493] Updated weights for policy 0, policy_version 177540 (0.0006)
+[2023-07-06 11:37:05,273][98493] Updated weights for policy 0, policy_version 177600 (0.0006)
+[2023-07-06 11:37:06,326][98493] Updated weights for policy 0, policy_version 177666 (0.0007)
+[2023-07-06 11:37:06,770][98493] Updated weights for policy 0, policy_version 177719 (0.0008)
+[2023-07-06 11:37:09,030][98493] Updated weights for policy 0, policy_version 177763 (0.0007)
+[2023-07-06 11:37:09,512][98493] Updated weights for policy 0, policy_version 177817 (0.0008)
+[2023-07-06 11:37:09,764][98243] Fps is (10 sec: 117962.7, 60 sec: 111411.1, 300 sec: 112077.6). Total num frames: 364216320. Throughput: 0: 27909.6. Samples: 91068928. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:09,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:37:09,794][98493] Updated weights for policy 0, policy_version 177851 (0.0007)
+[2023-07-06 11:37:10,785][98493] Updated weights for policy 0, policy_version 177904 (0.0007)
+[2023-07-06 11:37:11,406][98493] Updated weights for policy 0, policy_version 177979 (0.0007)
+[2023-07-06 11:37:13,843][98493] Updated weights for policy 0, policy_version 178019 (0.0006)
+[2023-07-06 11:37:14,356][98493] Updated weights for policy 0, policy_version 178080 (0.0008)
+[2023-07-06 11:37:14,411][98449] Signal inference workers to stop experience collection... (9150 times)
+[2023-07-06 11:37:14,461][98493] InferenceWorker_p0-w0: stopping experience collection (9150 times)
+[2023-07-06 11:37:14,507][98449] Signal inference workers to resume experience collection... (9150 times)
+[2023-07-06 11:37:14,508][98493] InferenceWorker_p0-w0: resuming experience collection (9150 times)
+[2023-07-06 11:37:14,764][98243] Fps is (10 sec: 117966.6, 60 sec: 111411.5, 300 sec: 112077.8). Total num frames: 364773376. Throughput: 0: 28012.1. Samples: 91239424. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:14,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 11:37:15,231][98493] Updated weights for policy 0, policy_version 178119 (0.0006)
+[2023-07-06 11:37:15,643][98493] Updated weights for policy 0, policy_version 178162 (0.0007)
+[2023-07-06 11:37:16,201][98493] Updated weights for policy 0, policy_version 178235 (0.0007)
+[2023-07-06 11:37:18,493][98493] Updated weights for policy 0, policy_version 178274 (0.0006)
+[2023-07-06 11:37:18,976][98493] Updated weights for policy 0, policy_version 178336 (0.0006)
+[2023-07-06 11:37:19,764][98243] Fps is (10 sec: 108136.4, 60 sec: 110318.9, 300 sec: 111855.5). Total num frames: 365297664. Throughput: 0: 28023.5. Samples: 91405312. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:19,765][98243] Avg episode reward: [(0, '9.430')]
+[2023-07-06 11:37:20,038][98493] Updated weights for policy 0, policy_version 178387 (0.0008)
+[2023-07-06 11:37:20,607][98493] Updated weights for policy 0, policy_version 178454 (0.0007)
+[2023-07-06 11:37:20,897][98493] Updated weights for policy 0, policy_version 178493 (0.0007)
+[2023-07-06 11:37:23,168][98493] Updated weights for policy 0, policy_version 178555 (0.0007)
+[2023-07-06 11:37:24,018][98493] Updated weights for policy 0, policy_version 178619 (0.0007)
+[2023-07-06 11:37:24,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.8, 300 sec: 111633.3). Total num frames: 365821952. Throughput: 0: 28057.6. Samples: 91490816. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:24,764][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:37:25,071][98493] Updated weights for policy 0, policy_version 178672 (0.0007)
+[2023-07-06 11:37:25,487][98493] Updated weights for policy 0, policy_version 178720 (0.0007)
+[2023-07-06 11:37:27,570][98493] Updated weights for policy 0, policy_version 178772 (0.0007)
+[2023-07-06 11:37:28,170][98493] Updated weights for policy 0, policy_version 178819 (0.0007)
+[2023-07-06 11:37:28,646][98493] Updated weights for policy 0, policy_version 178880 (0.0007)
+[2023-07-06 11:37:29,764][98243] Fps is (10 sec: 117963.4, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 366477312. Throughput: 0: 27955.1. Samples: 91652096. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:29,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:37:30,126][98493] Updated weights for policy 0, policy_version 178950 (0.0007)
+[2023-07-06 11:37:30,547][98493] Updated weights for policy 0, policy_version 178998 (0.0006)
+[2023-07-06 11:37:32,200][98493] Updated weights for policy 0, policy_version 179030 (0.0006)
+[2023-07-06 11:37:32,720][98449] Signal inference workers to stop experience collection... (9200 times)
+[2023-07-06 11:37:32,729][98493] InferenceWorker_p0-w0: stopping experience collection (9200 times)
+[2023-07-06 11:37:32,814][98449] Signal inference workers to resume experience collection... (9200 times)
+[2023-07-06 11:37:32,815][98493] InferenceWorker_p0-w0: resuming experience collection (9200 times)
+[2023-07-06 11:37:32,816][98493] Updated weights for policy 0, policy_version 179088 (0.0007)
+[2023-07-06 11:37:34,077][98493] Updated weights for policy 0, policy_version 179138 (0.0007)
+[2023-07-06 11:37:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111411.3, 300 sec: 111522.4). Total num frames: 367001600. Throughput: 0: 27818.7. Samples: 91820544. Policy #0 lag: (min: 23.0, avg: 119.8, max: 279.0)
+[2023-07-06 11:37:34,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 11:37:34,770][98493] Updated weights for policy 0, policy_version 179216 (0.0007)
+[2023-07-06 11:37:35,208][98493] Updated weights for policy 0, policy_version 179264 (0.0006)
+[2023-07-06 11:37:37,030][98493] Updated weights for policy 0, policy_version 179322 (0.0007)
+[2023-07-06 11:37:37,777][98493] Updated weights for policy 0, policy_version 179364 (0.0006)
+[2023-07-06 11:37:39,031][98493] Updated weights for policy 0, policy_version 179428 (0.0007)
+[2023-07-06 11:37:39,617][98493] Updated weights for policy 0, policy_version 179494 (0.0010)
+[2023-07-06 11:37:39,765][98243] Fps is (10 sec: 114686.6, 60 sec: 113049.2, 300 sec: 111744.3). Total num frames: 367624192. Throughput: 0: 27955.0. Samples: 91906560. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:37:39,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:37:41,305][98493] Updated weights for policy 0, policy_version 179522 (0.0007)
+[2023-07-06 11:37:41,753][98493] Updated weights for policy 0, policy_version 179582 (0.0007)
+[2023-07-06 11:37:42,612][98493] Updated weights for policy 0, policy_version 179639 (0.0006)
+[2023-07-06 11:37:43,807][98493] Updated weights for policy 0, policy_version 179684 (0.0007)
+[2023-07-06 11:37:44,298][98493] Updated weights for policy 0, policy_version 179744 (0.0008)
+[2023-07-06 11:37:44,764][98243] Fps is (10 sec: 117964.3, 60 sec: 113595.8, 300 sec: 111855.5). Total num frames: 368181248. Throughput: 0: 27841.4. Samples: 92075008. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:37:44,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:37:46,309][98493] Updated weights for policy 0, policy_version 179808 (0.0007)
+[2023-07-06 11:37:46,914][98493] Updated weights for policy 0, policy_version 179847 (0.0008)
+[2023-07-06 11:37:47,331][98493] Updated weights for policy 0, policy_version 179899 (0.0008)
+[2023-07-06 11:37:48,458][98493] Updated weights for policy 0, policy_version 179943 (0.0007)
+[2023-07-06 11:37:49,018][98493] Updated weights for policy 0, policy_version 180005 (0.0008)
+[2023-07-06 11:37:49,764][98243] Fps is (10 sec: 108135.4, 60 sec: 113595.4, 300 sec: 111522.2). Total num frames: 368705536. Throughput: 0: 27818.7. Samples: 92239360. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:37:49,765][98243] Avg episode reward: [(0, '9.450')]
+[2023-07-06 11:37:51,186][98449] Signal inference workers to stop experience collection... (9250 times)
+[2023-07-06 11:37:51,213][98493] InferenceWorker_p0-w0: stopping experience collection (9250 times)
+[2023-07-06 11:37:51,219][98493] Updated weights for policy 0, policy_version 180070 (0.0007)
+[2023-07-06 11:37:51,266][98449] Signal inference workers to resume experience collection... (9250 times)
+[2023-07-06 11:37:51,266][98493] InferenceWorker_p0-w0: resuming experience collection (9250 times)
+[2023-07-06 11:37:51,759][98493] Updated weights for policy 0, policy_version 180134 (0.0007)
+[2023-07-06 11:37:52,859][98493] Updated weights for policy 0, policy_version 180181 (0.0007)
+[2023-07-06 11:37:53,364][98493] Updated weights for policy 0, policy_version 180240 (0.0007)
+[2023-07-06 11:37:53,743][98493] Updated weights for policy 0, policy_version 180283 (0.0007)
+[2023-07-06 11:37:54,764][98243] Fps is (10 sec: 104857.1, 60 sec: 113049.5, 300 sec: 111522.3). Total num frames: 369229824. Throughput: 0: 27943.9. Samples: 92326400. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:37:54,765][98243] Avg episode reward: [(0, '9.410')]
+[2023-07-06 11:37:55,904][98493] Updated weights for policy 0, policy_version 180336 (0.0007)
+[2023-07-06 11:37:56,570][98493] Updated weights for policy 0, policy_version 180387 (0.0006)
+[2023-07-06 11:37:57,304][98493] Updated weights for policy 0, policy_version 180432 (0.0007)
+[2023-07-06 11:37:57,687][98493] Updated weights for policy 0, policy_version 180480 (0.0006)
+[2023-07-06 11:37:58,439][98493] Updated weights for policy 0, policy_version 180540 (0.0007)
+[2023-07-06 11:37:59,764][98243] Fps is (10 sec: 104859.3, 60 sec: 111957.4, 300 sec: 111522.4). Total num frames: 369754112. Throughput: 0: 27807.3. Samples: 92490752. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:37:59,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 11:38:00,752][98493] Updated weights for policy 0, policy_version 180592 (0.0006)
+[2023-07-06 11:38:01,379][98493] Updated weights for policy 0, policy_version 180666 (0.0007)
+[2023-07-06 11:38:02,130][98493] Updated weights for policy 0, policy_version 180708 (0.0007)
+[2023-07-06 11:38:02,892][98493] Updated weights for policy 0, policy_version 180743 (0.0006)
+[2023-07-06 11:38:03,370][98493] Updated weights for policy 0, policy_version 180800 (0.0007)
+[2023-07-06 11:38:04,764][98243] Fps is (10 sec: 104858.2, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 370278400. Throughput: 0: 27966.6. Samples: 92663808. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:04,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:38:05,398][98493] Updated weights for policy 0, policy_version 180856 (0.0007)
+[2023-07-06 11:38:06,069][98493] Updated weights for policy 0, policy_version 180923 (0.0008)
+[2023-07-06 11:38:06,810][98493] Updated weights for policy 0, policy_version 180985 (0.0007)
+[2023-07-06 11:38:08,012][98493] Updated weights for policy 0, policy_version 181048 (0.0007)
+[2023-07-06 11:38:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109773.1, 300 sec: 111522.5). Total num frames: 370802688. Throughput: 0: 27830.0. Samples: 92743168. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:09,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:38:09,892][98449] Signal inference workers to stop experience collection... (9300 times)
+[2023-07-06 11:38:09,921][98493] InferenceWorker_p0-w0: stopping experience collection (9300 times)
+[2023-07-06 11:38:10,000][98449] Signal inference workers to resume experience collection... (9300 times)
+[2023-07-06 11:38:10,001][98493] InferenceWorker_p0-w0: resuming experience collection (9300 times)
+[2023-07-06 11:38:10,096][98493] Updated weights for policy 0, policy_version 181095 (0.0006)
+[2023-07-06 11:38:10,566][98493] Updated weights for policy 0, policy_version 181152 (0.0007)
+[2023-07-06 11:38:11,402][98493] Updated weights for policy 0, policy_version 181216 (0.0007)
+[2023-07-06 11:38:12,595][98493] Updated weights for policy 0, policy_version 181264 (0.0006)
+[2023-07-06 11:38:13,043][98493] Updated weights for policy 0, policy_version 181312 (0.0008)
+[2023-07-06 11:38:14,765][98243] Fps is (10 sec: 111408.3, 60 sec: 110318.5, 300 sec: 111522.3). Total num frames: 371392512. Throughput: 0: 27977.9. Samples: 92911104. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:14,766][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:38:14,925][98493] Updated weights for policy 0, policy_version 181365 (0.0007)
+[2023-07-06 11:38:15,366][98493] Updated weights for policy 0, policy_version 181415 (0.0007)
+[2023-07-06 11:38:15,783][98493] Updated weights for policy 0, policy_version 181443 (0.0007)
+[2023-07-06 11:38:16,224][98493] Updated weights for policy 0, policy_version 181501 (0.0008)
+[2023-07-06 11:38:17,528][98493] Updated weights for policy 0, policy_version 181552 (0.0007)
+[2023-07-06 11:38:19,535][98493] Updated weights for policy 0, policy_version 181606 (0.0008)
+[2023-07-06 11:38:19,764][98243] Fps is (10 sec: 117963.1, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 371982336. Throughput: 0: 28080.2. Samples: 93084160. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:19,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:38:20,126][98493] Updated weights for policy 0, policy_version 181672 (0.0008)
+[2023-07-06 11:38:20,843][98493] Updated weights for policy 0, policy_version 181744 (0.0007)
+[2023-07-06 11:38:22,031][98493] Updated weights for policy 0, policy_version 181792 (0.0007)
+[2023-07-06 11:38:23,924][98493] Updated weights for policy 0, policy_version 181826 (0.0006)
+[2023-07-06 11:38:24,376][98493] Updated weights for policy 0, policy_version 181878 (0.0008)
+[2023-07-06 11:38:24,776][98243] Fps is (10 sec: 117832.5, 60 sec: 112482.0, 300 sec: 111629.0). Total num frames: 372572160. Throughput: 0: 27902.7. Samples: 93162496. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:24,776][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 11:38:24,857][98493] Updated weights for policy 0, policy_version 181936 (0.0007)
+[2023-07-06 11:38:24,979][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000181952_372637696.pth...
+[2023-07-06 11:38:25,016][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000168832_345767936.pth
+[2023-07-06 11:38:25,437][98493] Updated weights for policy 0, policy_version 181971 (0.0006)
+[2023-07-06 11:38:26,444][98493] Updated weights for policy 0, policy_version 182032 (0.0006)
+[2023-07-06 11:38:26,643][98449] Signal inference workers to stop experience collection... (9350 times)
+[2023-07-06 11:38:26,674][98493] InferenceWorker_p0-w0: stopping experience collection (9350 times)
+[2023-07-06 11:38:26,708][98449] Signal inference workers to resume experience collection... (9350 times)
+[2023-07-06 11:38:26,709][98493] InferenceWorker_p0-w0: resuming experience collection (9350 times)
+[2023-07-06 11:38:28,764][98493] Updated weights for policy 0, policy_version 182096 (0.0007)
+[2023-07-06 11:38:29,274][98493] Updated weights for policy 0, policy_version 182145 (0.0007)
+[2023-07-06 11:38:29,740][98493] Updated weights for policy 0, policy_version 182198 (0.0007)
+[2023-07-06 11:38:29,764][98243] Fps is (10 sec: 114690.0, 60 sec: 110865.3, 300 sec: 111411.2). Total num frames: 373129216. Throughput: 0: 28012.1. Samples: 93335552. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:29,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:38:30,306][98493] Updated weights for policy 0, policy_version 182264 (0.0007)
+[2023-07-06 11:38:31,446][98493] Updated weights for policy 0, policy_version 182304 (0.0006)
+[2023-07-06 11:38:33,454][98493] Updated weights for policy 0, policy_version 182352 (0.0007)
+[2023-07-06 11:38:33,989][98493] Updated weights for policy 0, policy_version 182416 (0.0008)
+[2023-07-06 11:38:34,417][98493] Updated weights for policy 0, policy_version 182461 (0.0007)
+[2023-07-06 11:38:34,764][98243] Fps is (10 sec: 118100.1, 60 sec: 112503.4, 300 sec: 111744.5). Total num frames: 373751808. Throughput: 0: 27932.5. Samples: 93496320. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:34,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:38:34,933][98493] Updated weights for policy 0, policy_version 182522 (0.0007)
+[2023-07-06 11:38:36,315][98493] Updated weights for policy 0, policy_version 182576 (0.0007)
+[2023-07-06 11:38:38,284][98493] Updated weights for policy 0, policy_version 182629 (0.0007)
+[2023-07-06 11:38:38,721][98493] Updated weights for policy 0, policy_version 182676 (0.0007)
+[2023-07-06 11:38:39,285][98493] Updated weights for policy 0, policy_version 182736 (0.0007)
+[2023-07-06 11:38:39,764][98243] Fps is (10 sec: 121241.0, 60 sec: 111957.7, 300 sec: 111744.4). Total num frames: 374341632. Throughput: 0: 27978.0. Samples: 93585408. Policy #0 lag: (min: 47.0, avg: 159.8, max: 303.0)
+[2023-07-06 11:38:39,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:38:40,520][98493] Updated weights for policy 0, policy_version 182785 (0.0007)
+[2023-07-06 11:38:42,436][98493] Updated weights for policy 0, policy_version 182850 (0.0008)
+[2023-07-06 11:38:42,858][98493] Updated weights for policy 0, policy_version 182901 (0.0007)
+[2023-07-06 11:38:43,476][98493] Updated weights for policy 0, policy_version 182948 (0.0007)
+[2023-07-06 11:38:43,962][98493] Updated weights for policy 0, policy_version 182982 (0.0006)
+[2023-07-06 11:38:44,216][98449] Signal inference workers to stop experience collection... (9400 times)
+[2023-07-06 11:38:44,255][98493] InferenceWorker_p0-w0: stopping experience collection (9400 times)
+[2023-07-06 11:38:44,316][98449] Signal inference workers to resume experience collection... (9400 times)
+[2023-07-06 11:38:44,317][98493] InferenceWorker_p0-w0: resuming experience collection (9400 times)
+[2023-07-06 11:38:44,415][98493] Updated weights for policy 0, policy_version 183039 (0.0007)
+[2023-07-06 11:38:44,764][98243] Fps is (10 sec: 111411.5, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 374865920. Throughput: 0: 28000.7. Samples: 93750784. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:38:44,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 11:38:45,399][98493] Updated weights for policy 0, policy_version 183089 (0.0006)
+[2023-07-06 11:38:47,390][98493] Updated weights for policy 0, policy_version 183139 (0.0006)
+[2023-07-06 11:38:47,815][98493] Updated weights for policy 0, policy_version 183173 (0.0006)
+[2023-07-06 11:38:48,281][98493] Updated weights for policy 0, policy_version 183231 (0.0008)
+[2023-07-06 11:38:49,038][98493] Updated weights for policy 0, policy_version 183269 (0.0007)
+[2023-07-06 11:38:49,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 375390208. Throughput: 0: 27921.1. Samples: 93920256. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:38:49,764][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 11:38:49,850][98493] Updated weights for policy 0, policy_version 183316 (0.0007)
+[2023-07-06 11:38:50,192][98493] Updated weights for policy 0, policy_version 183360 (0.0006)
+[2023-07-06 11:38:52,395][98493] Updated weights for policy 0, policy_version 183429 (0.0007)
+[2023-07-06 11:38:52,867][98493] Updated weights for policy 0, policy_version 183488 (0.0007)
+[2023-07-06 11:38:53,762][98493] Updated weights for policy 0, policy_version 183545 (0.0009)
+[2023-07-06 11:38:54,764][98243] Fps is (10 sec: 111411.5, 60 sec: 112503.6, 300 sec: 111633.4). Total num frames: 375980032. Throughput: 0: 28034.9. Samples: 94004736. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:38:54,764][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 11:38:54,925][98493] Updated weights for policy 0, policy_version 183611 (0.0007)
+[2023-07-06 11:38:56,690][98493] Updated weights for policy 0, policy_version 183656 (0.0008)
+[2023-07-06 11:38:57,096][98493] Updated weights for policy 0, policy_version 183684 (0.0006)
+[2023-07-06 11:38:57,554][98493] Updated weights for policy 0, policy_version 183744 (0.0007)
+[2023-07-06 11:38:59,291][98493] Updated weights for policy 0, policy_version 183811 (0.0007)
+[2023-07-06 11:38:59,736][98493] Updated weights for policy 0, policy_version 183868 (0.0007)
+[2023-07-06 11:38:59,764][98243] Fps is (10 sec: 114687.6, 60 sec: 113049.6, 300 sec: 111411.2). Total num frames: 376537088. Throughput: 0: 28023.6. Samples: 94172160. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:38:59,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:39:01,631][98493] Updated weights for policy 0, policy_version 183923 (0.0007)
+[2023-07-06 11:39:02,194][98493] Updated weights for policy 0, policy_version 183994 (0.0007)
+[2023-07-06 11:39:02,696][98449] Signal inference workers to stop experience collection... (9450 times)
+[2023-07-06 11:39:02,729][98493] InferenceWorker_p0-w0: stopping experience collection (9450 times)
+[2023-07-06 11:39:02,730][98493] Updated weights for policy 0, policy_version 184037 (0.0006)
+[2023-07-06 11:39:02,811][98449] Signal inference workers to resume experience collection... (9450 times)
+[2023-07-06 11:39:02,811][98493] InferenceWorker_p0-w0: resuming experience collection (9450 times)
+[2023-07-06 11:39:04,409][98493] Updated weights for policy 0, policy_version 184098 (0.0018)
+[2023-07-06 11:39:04,764][98243] Fps is (10 sec: 111410.9, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 377094144. Throughput: 0: 27852.9. Samples: 94337536. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:04,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:39:06,060][98493] Updated weights for policy 0, policy_version 184152 (0.0006)
+[2023-07-06 11:39:06,414][98493] Updated weights for policy 0, policy_version 184192 (0.0006)
+[2023-07-06 11:39:06,899][98493] Updated weights for policy 0, policy_version 184248 (0.0006)
+[2023-07-06 11:39:07,618][98493] Updated weights for policy 0, policy_version 184312 (0.0007)
+[2023-07-06 11:39:08,925][98493] Updated weights for policy 0, policy_version 184359 (0.0007)
+[2023-07-06 11:39:09,764][98243] Fps is (10 sec: 108133.2, 60 sec: 113595.5, 300 sec: 111522.2). Total num frames: 377618432. Throughput: 0: 27939.5. Samples: 94419456. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:09,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 11:39:10,969][98493] Updated weights for policy 0, policy_version 184403 (0.0006)
+[2023-07-06 11:39:11,525][98493] Updated weights for policy 0, policy_version 184465 (0.0008)
+[2023-07-06 11:39:11,864][98493] Updated weights for policy 0, policy_version 184512 (0.0008)
+[2023-07-06 11:39:12,470][98493] Updated weights for policy 0, policy_version 184571 (0.0006)
+[2023-07-06 11:39:13,259][98493] Updated weights for policy 0, policy_version 184614 (0.0007)
+[2023-07-06 11:39:14,764][98243] Fps is (10 sec: 104857.1, 60 sec: 112503.9, 300 sec: 111522.3). Total num frames: 378142720. Throughput: 0: 27875.5. Samples: 94589952. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:14,765][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 11:39:15,603][98493] Updated weights for policy 0, policy_version 184675 (0.0007)
+[2023-07-06 11:39:15,820][98493] Updated weights for policy 0, policy_version 184703 (0.0006)
+[2023-07-06 11:39:16,406][98493] Updated weights for policy 0, policy_version 184752 (0.0008)
+[2023-07-06 11:39:16,887][98493] Updated weights for policy 0, policy_version 184784 (0.0007)
+[2023-07-06 11:39:17,323][98493] Updated weights for policy 0, policy_version 184827 (0.0006)
+[2023-07-06 11:39:17,797][98493] Updated weights for policy 0, policy_version 184880 (0.0007)
+[2023-07-06 11:39:19,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 378667008. Throughput: 0: 28194.0. Samples: 94765056. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:19,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:39:20,188][98493] Updated weights for policy 0, policy_version 184944 (0.0009)
+[2023-07-06 11:39:20,896][98493] Updated weights for policy 0, policy_version 184992 (0.0006)
+[2023-07-06 11:39:21,525][98493] Updated weights for policy 0, policy_version 185026 (0.0006)
+[2023-07-06 11:39:21,660][98449] Signal inference workers to stop experience collection... (9500 times)
+[2023-07-06 11:39:21,688][98493] InferenceWorker_p0-w0: stopping experience collection (9500 times)
+[2023-07-06 11:39:21,741][98449] Signal inference workers to resume experience collection... (9500 times)
+[2023-07-06 11:39:21,741][98493] InferenceWorker_p0-w0: resuming experience collection (9500 times)
+[2023-07-06 11:39:22,124][98493] Updated weights for policy 0, policy_version 185090 (0.0007)
+[2023-07-06 11:39:22,615][98493] Updated weights for policy 0, policy_version 185152 (0.0006)
+[2023-07-06 11:39:24,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111978.7, 300 sec: 111855.5). Total num frames: 379289600. Throughput: 0: 27898.3. Samples: 94840832. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:24,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:39:24,810][98493] Updated weights for policy 0, policy_version 185211 (0.0007)
+[2023-07-06 11:39:25,821][98493] Updated weights for policy 0, policy_version 185264 (0.0007)
+[2023-07-06 11:39:26,689][98493] Updated weights for policy 0, policy_version 185312 (0.0006)
+[2023-07-06 11:39:27,225][98493] Updated weights for policy 0, policy_version 185364 (0.0007)
+[2023-07-06 11:39:28,987][98493] Updated weights for policy 0, policy_version 185424 (0.0008)
+[2023-07-06 11:39:29,764][98243] Fps is (10 sec: 117966.4, 60 sec: 111957.3, 300 sec: 111966.6). Total num frames: 379846656. Throughput: 0: 28137.2. Samples: 95016960. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:29,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 11:39:30,142][98493] Updated weights for policy 0, policy_version 185488 (0.0008)
+[2023-07-06 11:39:30,556][98493] Updated weights for policy 0, policy_version 185536 (0.0007)
+[2023-07-06 11:39:31,436][98493] Updated weights for policy 0, policy_version 185589 (0.0008)
+[2023-07-06 11:39:31,926][98493] Updated weights for policy 0, policy_version 185648 (0.0007)
+[2023-07-06 11:39:33,892][98493] Updated weights for policy 0, policy_version 185698 (0.0008)
+[2023-07-06 11:39:34,764][98243] Fps is (10 sec: 108133.7, 60 sec: 110318.8, 300 sec: 111966.6). Total num frames: 380370944. Throughput: 0: 28103.0. Samples: 95184896. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:34,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:39:34,931][98493] Updated weights for policy 0, policy_version 185760 (0.0007)
+[2023-07-06 11:39:35,864][98493] Updated weights for policy 0, policy_version 185798 (0.0008)
+[2023-07-06 11:39:36,419][98493] Updated weights for policy 0, policy_version 185861 (0.0007)
+[2023-07-06 11:39:36,911][98493] Updated weights for policy 0, policy_version 185920 (0.0007)
+[2023-07-06 11:39:38,668][98493] Updated weights for policy 0, policy_version 185975 (0.0007)
+[2023-07-06 11:39:39,562][98493] Updated weights for policy 0, policy_version 186032 (0.0006)
+[2023-07-06 11:39:39,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111411.2, 300 sec: 112188.7). Total num frames: 381026304. Throughput: 0: 28057.6. Samples: 95267328. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:39,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:39:40,632][98449] Signal inference workers to stop experience collection... (9550 times)
+[2023-07-06 11:39:40,666][98493] InferenceWorker_p0-w0: stopping experience collection (9550 times)
+[2023-07-06 11:39:40,719][98449] Signal inference workers to resume experience collection... (9550 times)
+[2023-07-06 11:39:40,720][98493] InferenceWorker_p0-w0: resuming experience collection (9550 times)
+[2023-07-06 11:39:40,819][98493] Updated weights for policy 0, policy_version 186072 (0.0007)
+[2023-07-06 11:39:41,318][98493] Updated weights for policy 0, policy_version 186128 (0.0007)
+[2023-07-06 11:39:43,062][98493] Updated weights for policy 0, policy_version 186192 (0.0009)
+[2023-07-06 11:39:43,698][98493] Updated weights for policy 0, policy_version 186256 (0.0006)
+[2023-07-06 11:39:44,764][98243] Fps is (10 sec: 117963.5, 60 sec: 111410.8, 300 sec: 111966.5). Total num frames: 381550592. Throughput: 0: 28057.5. Samples: 95434752. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:44,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:39:45,355][98493] Updated weights for policy 0, policy_version 186305 (0.0007)
+[2023-07-06 11:39:45,930][98493] Updated weights for policy 0, policy_version 186377 (0.0007)
+[2023-07-06 11:39:46,359][98493] Updated weights for policy 0, policy_version 186428 (0.0006)
+[2023-07-06 11:39:48,047][98493] Updated weights for policy 0, policy_version 186489 (0.0008)
+[2023-07-06 11:39:49,073][98493] Updated weights for policy 0, policy_version 186556 (0.0007)
+[2023-07-06 11:39:49,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.0, 300 sec: 111744.5). Total num frames: 382074880. Throughput: 0: 28114.4. Samples: 95602688. Policy #0 lag: (min: 47.0, avg: 154.6, max: 310.0)
+[2023-07-06 11:39:49,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:39:50,418][98493] Updated weights for policy 0, policy_version 186609 (0.0007)
+[2023-07-06 11:39:50,877][98493] Updated weights for policy 0, policy_version 186659 (0.0007)
+[2023-07-06 11:39:52,586][98493] Updated weights for policy 0, policy_version 186723 (0.0007)
+[2023-07-06 11:39:53,523][98493] Updated weights for policy 0, policy_version 186776 (0.0007)
+[2023-07-06 11:39:54,568][98493] Updated weights for policy 0, policy_version 186832 (0.0006)
+[2023-07-06 11:39:54,764][98243] Fps is (10 sec: 111413.2, 60 sec: 111411.1, 300 sec: 111744.4). Total num frames: 382664704. Throughput: 0: 28125.9. Samples: 95685120. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:39:54,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 11:39:55,007][98493] Updated weights for policy 0, policy_version 186880 (0.0010)
+[2023-07-06 11:39:55,415][98493] Updated weights for policy 0, policy_version 186928 (0.0008)
+[2023-07-06 11:39:56,932][98493] Updated weights for policy 0, policy_version 186948 (0.0007)
+[2023-07-06 11:39:57,406][98493] Updated weights for policy 0, policy_version 187008 (0.0006)
+[2023-07-06 11:39:58,382][98449] Signal inference workers to stop experience collection... (9600 times)
+[2023-07-06 11:39:58,432][98493] InferenceWorker_p0-w0: stopping experience collection (9600 times)
+[2023-07-06 11:39:58,478][98449] Signal inference workers to resume experience collection... (9600 times)
+[2023-07-06 11:39:58,479][98493] InferenceWorker_p0-w0: resuming experience collection (9600 times)
+[2023-07-06 11:39:58,700][98493] Updated weights for policy 0, policy_version 187068 (0.0006)
+[2023-07-06 11:39:59,293][98493] Updated weights for policy 0, policy_version 187120 (0.0008)
+[2023-07-06 11:39:59,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111957.0, 300 sec: 111966.6). Total num frames: 383254528. Throughput: 0: 28125.8. Samples: 95855616. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:39:59,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:40:00,216][98493] Updated weights for policy 0, policy_version 187184 (0.0007)
+[2023-07-06 11:40:01,952][98493] Updated weights for policy 0, policy_version 187248 (0.0007)
+[2023-07-06 11:40:03,357][98493] Updated weights for policy 0, policy_version 187296 (0.0007)
+[2023-07-06 11:40:03,855][98493] Updated weights for policy 0, policy_version 187349 (0.0007)
+[2023-07-06 11:40:04,502][98493] Updated weights for policy 0, policy_version 187395 (0.0007)
+[2023-07-06 11:40:04,764][98243] Fps is (10 sec: 117965.0, 60 sec: 112503.4, 300 sec: 111966.7). Total num frames: 383844352. Throughput: 0: 27887.0. Samples: 96019968. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:04,765][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 11:40:04,947][98493] Updated weights for policy 0, policy_version 187453 (0.0006)
+[2023-07-06 11:40:06,538][98493] Updated weights for policy 0, policy_version 187493 (0.0007)
+[2023-07-06 11:40:07,977][98493] Updated weights for policy 0, policy_version 187546 (0.0007)
+[2023-07-06 11:40:08,517][98493] Updated weights for policy 0, policy_version 187616 (0.0008)
+[2023-07-06 11:40:09,764][98243] Fps is (10 sec: 108136.0, 60 sec: 111957.5, 300 sec: 111522.2). Total num frames: 384335872. Throughput: 0: 28194.1. Samples: 96109568. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:09,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 11:40:09,811][98493] Updated weights for policy 0, policy_version 187680 (0.0008)
+[2023-07-06 11:40:10,660][98493] Updated weights for policy 0, policy_version 187728 (0.0009)
+[2023-07-06 11:40:12,635][98493] Updated weights for policy 0, policy_version 187798 (0.0008)
+[2023-07-06 11:40:13,098][98493] Updated weights for policy 0, policy_version 187856 (0.0008)
+[2023-07-06 11:40:14,650][98493] Updated weights for policy 0, policy_version 187920 (0.0006)
+[2023-07-06 11:40:14,764][98243] Fps is (10 sec: 101581.1, 60 sec: 111957.4, 300 sec: 111411.2). Total num frames: 384860160. Throughput: 0: 27864.2. Samples: 96270848. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:14,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 11:40:15,234][98493] Updated weights for policy 0, policy_version 187971 (0.0007)
+[2023-07-06 11:40:15,678][98493] Updated weights for policy 0, policy_version 188029 (0.0006)
+[2023-07-06 11:40:17,131][98449] Signal inference workers to stop experience collection... (9650 times)
+[2023-07-06 11:40:17,143][98493] InferenceWorker_p0-w0: stopping experience collection (9650 times)
+[2023-07-06 11:40:17,222][98449] Signal inference workers to resume experience collection... (9650 times)
+[2023-07-06 11:40:17,223][98493] InferenceWorker_p0-w0: resuming experience collection (9650 times)
+[2023-07-06 11:40:17,595][98493] Updated weights for policy 0, policy_version 188086 (0.0007)
+[2023-07-06 11:40:18,157][98493] Updated weights for policy 0, policy_version 188154 (0.0007)
+[2023-07-06 11:40:19,709][98493] Updated weights for policy 0, policy_version 188199 (0.0006)
+[2023-07-06 11:40:19,764][98243] Fps is (10 sec: 108135.0, 60 sec: 112503.8, 300 sec: 111411.2). Total num frames: 385417216. Throughput: 0: 27921.1. Samples: 96441344. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:19,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:40:20,188][98493] Updated weights for policy 0, policy_version 188256 (0.0008)
+[2023-07-06 11:40:21,770][98493] Updated weights for policy 0, policy_version 188304 (0.0006)
+[2023-07-06 11:40:22,231][98493] Updated weights for policy 0, policy_version 188352 (0.0029)
+[2023-07-06 11:40:22,789][98493] Updated weights for policy 0, policy_version 188416 (0.0007)
+[2023-07-06 11:40:24,450][98493] Updated weights for policy 0, policy_version 188478 (0.0007)
+[2023-07-06 11:40:24,764][98243] Fps is (10 sec: 121240.4, 60 sec: 113049.5, 300 sec: 111744.5). Total num frames: 386072576. Throughput: 0: 27864.1. Samples: 96521216. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:24,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:40:24,909][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000188528_386105344.pth...
+[2023-07-06 11:40:24,927][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000175424_359268352.pth
+[2023-07-06 11:40:25,052][98493] Updated weights for policy 0, policy_version 188544 (0.0007)
+[2023-07-06 11:40:27,079][98493] Updated weights for policy 0, policy_version 188599 (0.0008)
+[2023-07-06 11:40:27,569][98493] Updated weights for policy 0, policy_version 188656 (0.0009)
+[2023-07-06 11:40:28,910][98493] Updated weights for policy 0, policy_version 188706 (0.0007)
+[2023-07-06 11:40:29,303][98493] Updated weights for policy 0, policy_version 188752 (0.0007)
+[2023-07-06 11:40:29,685][98493] Updated weights for policy 0, policy_version 188796 (0.0007)
+[2023-07-06 11:40:29,764][98243] Fps is (10 sec: 124517.3, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 386662400. Throughput: 0: 27943.9. Samples: 96692224. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:29,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:40:31,799][98493] Updated weights for policy 0, policy_version 188856 (0.0007)
+[2023-07-06 11:40:32,238][98493] Updated weights for policy 0, policy_version 188898 (0.0017)
+[2023-07-06 11:40:33,418][98493] Updated weights for policy 0, policy_version 188932 (0.0007)
+[2023-07-06 11:40:33,540][98449] Signal inference workers to stop experience collection... (9700 times)
+[2023-07-06 11:40:33,569][98493] InferenceWorker_p0-w0: stopping experience collection (9700 times)
+[2023-07-06 11:40:33,625][98449] Signal inference workers to resume experience collection... (9700 times)
+[2023-07-06 11:40:33,625][98493] InferenceWorker_p0-w0: resuming experience collection (9700 times)
+[2023-07-06 11:40:33,890][98493] Updated weights for policy 0, policy_version 188989 (0.0014)
+[2023-07-06 11:40:34,557][98493] Updated weights for policy 0, policy_version 189052 (0.0006)
+[2023-07-06 11:40:34,764][98243] Fps is (10 sec: 111412.1, 60 sec: 113595.9, 300 sec: 111966.7). Total num frames: 387186688. Throughput: 0: 27773.2. Samples: 96852480. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:34,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:40:34,765][98449] Saving new best policy, reward=9.730!
+[2023-07-06 11:40:36,549][98493] Updated weights for policy 0, policy_version 189120 (0.0007)
+[2023-07-06 11:40:37,050][98493] Updated weights for policy 0, policy_version 189179 (0.0007)
+[2023-07-06 11:40:38,339][98493] Updated weights for policy 0, policy_version 189232 (0.0008)
+[2023-07-06 11:40:39,178][98493] Updated weights for policy 0, policy_version 189288 (0.0006)
+[2023-07-06 11:40:39,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 387710976. Throughput: 0: 27864.2. Samples: 96939008. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:39,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 11:40:41,078][98493] Updated weights for policy 0, policy_version 189344 (0.0007)
+[2023-07-06 11:40:41,528][98493] Updated weights for policy 0, policy_version 189392 (0.0007)
+[2023-07-06 11:40:41,916][98493] Updated weights for policy 0, policy_version 189438 (0.0008)
+[2023-07-06 11:40:43,094][98493] Updated weights for policy 0, policy_version 189497 (0.0007)
+[2023-07-06 11:40:44,031][98493] Updated weights for policy 0, policy_version 189564 (0.0007)
+[2023-07-06 11:40:44,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.6, 300 sec: 111966.6). Total num frames: 388235264. Throughput: 0: 27807.4. Samples: 97106944. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:44,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 11:40:45,753][98493] Updated weights for policy 0, policy_version 189609 (0.0008)
+[2023-07-06 11:40:46,280][98493] Updated weights for policy 0, policy_version 189669 (0.0009)
+[2023-07-06 11:40:47,602][98493] Updated weights for policy 0, policy_version 189702 (0.0006)
+[2023-07-06 11:40:48,431][98493] Updated weights for policy 0, policy_version 189761 (0.0008)
+[2023-07-06 11:40:49,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.2, 300 sec: 111966.5). Total num frames: 388759552. Throughput: 0: 27921.0. Samples: 97276416. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:49,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 11:40:50,006][98493] Updated weights for policy 0, policy_version 189840 (0.0008)
+[2023-07-06 11:40:50,624][98493] Updated weights for policy 0, policy_version 189906 (0.0009)
+[2023-07-06 11:40:50,765][98449] Signal inference workers to stop experience collection... (9750 times)
+[2023-07-06 11:40:50,788][98493] InferenceWorker_p0-w0: stopping experience collection (9750 times)
+[2023-07-06 11:40:50,870][98449] Signal inference workers to resume experience collection... (9750 times)
+[2023-07-06 11:40:50,870][98493] InferenceWorker_p0-w0: resuming experience collection (9750 times)
+[2023-07-06 11:40:52,446][98493] Updated weights for policy 0, policy_version 189968 (0.0007)
+[2023-07-06 11:40:53,202][98493] Updated weights for policy 0, policy_version 190018 (0.0006)
+[2023-07-06 11:40:53,644][98493] Updated weights for policy 0, policy_version 190075 (0.0006)
+[2023-07-06 11:40:54,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110319.0, 300 sec: 111744.5). Total num frames: 389283840. Throughput: 0: 27739.0. Samples: 97357824. Policy #0 lag: (min: 0.0, avg: 103.0, max: 256.0)
+[2023-07-06 11:40:54,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 11:40:55,236][98493] Updated weights for policy 0, policy_version 190134 (0.0007)
+[2023-07-06 11:40:55,718][98493] Updated weights for policy 0, policy_version 190192 (0.0007)
+[2023-07-06 11:40:57,416][98493] Updated weights for policy 0, policy_version 190233 (0.0008)
+[2023-07-06 11:40:58,032][98493] Updated weights for policy 0, policy_version 190288 (0.0006)
+[2023-07-06 11:40:59,622][98493] Updated weights for policy 0, policy_version 190352 (0.0007)
+[2023-07-06 11:40:59,764][98243] Fps is (10 sec: 111412.5, 60 sec: 110319.3, 300 sec: 111633.4). Total num frames: 389873664. Throughput: 0: 27784.5. Samples: 97521152. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:40:59,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:41:00,259][98493] Updated weights for policy 0, policy_version 190425 (0.0008)
+[2023-07-06 11:41:01,965][98493] Updated weights for policy 0, policy_version 190480 (0.0006)
+[2023-07-06 11:41:02,854][98493] Updated weights for policy 0, policy_version 190551 (0.0008)
+[2023-07-06 11:41:04,312][98493] Updated weights for policy 0, policy_version 190608 (0.0007)
+[2023-07-06 11:41:04,764][98243] Fps is (10 sec: 117965.0, 60 sec: 110319.0, 300 sec: 111633.4). Total num frames: 390463488. Throughput: 0: 27670.7. Samples: 97686528. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 11:41:04,903][98493] Updated weights for policy 0, policy_version 190675 (0.0006)
+[2023-07-06 11:41:06,857][98493] Updated weights for policy 0, policy_version 190736 (0.0007)
+[2023-07-06 11:41:07,475][98493] Updated weights for policy 0, policy_version 190804 (0.0007)
+[2023-07-06 11:41:08,950][98493] Updated weights for policy 0, policy_version 190865 (0.0007)
+[2023-07-06 11:41:09,319][98493] Updated weights for policy 0, policy_version 190912 (0.0006)
+[2023-07-06 11:41:09,454][98449] Signal inference workers to stop experience collection... (9800 times)
+[2023-07-06 11:41:09,486][98493] InferenceWorker_p0-w0: stopping experience collection (9800 times)
+[2023-07-06 11:41:09,541][98449] Signal inference workers to resume experience collection... (9800 times)
+[2023-07-06 11:41:09,542][98493] InferenceWorker_p0-w0: resuming experience collection (9800 times)
+[2023-07-06 11:41:09,764][98243] Fps is (10 sec: 117964.3, 60 sec: 111957.4, 300 sec: 111744.5). Total num frames: 391053312. Throughput: 0: 27693.6. Samples: 97767424. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:41:09,940][98493] Updated weights for policy 0, policy_version 190970 (0.0007)
+[2023-07-06 11:41:09,983][98449] Saving new best policy, reward=9.770!
+[2023-07-06 11:41:12,060][98493] Updated weights for policy 0, policy_version 191024 (0.0008)
+[2023-07-06 11:41:12,434][98493] Updated weights for policy 0, policy_version 191061 (0.0008)
+[2023-07-06 11:41:12,804][98493] Updated weights for policy 0, policy_version 191104 (0.0006)
+[2023-07-06 11:41:13,613][98493] Updated weights for policy 0, policy_version 191163 (0.0007)
+[2023-07-06 11:41:14,289][98493] Updated weights for policy 0, policy_version 191216 (0.0007)
+[2023-07-06 11:41:14,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113049.4, 300 sec: 111744.4). Total num frames: 391643136. Throughput: 0: 27716.2. Samples: 97939456. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:14,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 11:41:16,718][98493] Updated weights for policy 0, policy_version 191268 (0.0007)
+[2023-07-06 11:41:17,220][98493] Updated weights for policy 0, policy_version 191328 (0.0008)
+[2023-07-06 11:41:18,060][98493] Updated weights for policy 0, policy_version 191392 (0.0007)
+[2023-07-06 11:41:18,695][98493] Updated weights for policy 0, policy_version 191440 (0.0006)
+[2023-07-06 11:41:19,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 392167424. Throughput: 0: 27864.2. Samples: 98106368. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:19,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 11:41:21,232][98493] Updated weights for policy 0, policy_version 191511 (0.0008)
+[2023-07-06 11:41:21,759][98493] Updated weights for policy 0, policy_version 191570 (0.0007)
+[2023-07-06 11:41:22,064][98493] Updated weights for policy 0, policy_version 191612 (0.0010)
+[2023-07-06 11:41:22,793][98493] Updated weights for policy 0, policy_version 191665 (0.0006)
+[2023-07-06 11:41:23,585][98493] Updated weights for policy 0, policy_version 191700 (0.0007)
+[2023-07-06 11:41:23,932][98493] Updated weights for policy 0, policy_version 191744 (0.0007)
+[2023-07-06 11:41:24,764][98243] Fps is (10 sec: 104858.6, 60 sec: 110319.1, 300 sec: 111522.3). Total num frames: 392691712. Throughput: 0: 27784.5. Samples: 98189312. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:24,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:41:25,863][98493] Updated weights for policy 0, policy_version 191804 (0.0008)
+[2023-07-06 11:41:26,544][98493] Updated weights for policy 0, policy_version 191856 (0.0007)
+[2023-07-06 11:41:27,084][98493] Updated weights for policy 0, policy_version 191895 (0.0008)
+[2023-07-06 11:41:27,206][98449] Signal inference workers to stop experience collection... (9850 times)
+[2023-07-06 11:41:27,222][98493] InferenceWorker_p0-w0: stopping experience collection (9850 times)
+[2023-07-06 11:41:27,281][98449] Signal inference workers to resume experience collection... (9850 times)
+[2023-07-06 11:41:27,281][98493] InferenceWorker_p0-w0: resuming experience collection (9850 times)
+[2023-07-06 11:41:27,431][98493] Updated weights for policy 0, policy_version 191936 (0.0008)
+[2023-07-06 11:41:28,658][98493] Updated weights for policy 0, policy_version 191995 (0.0006)
+[2023-07-06 11:41:29,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 393216000. Throughput: 0: 27852.8. Samples: 98360320. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:29,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:41:30,528][98493] Updated weights for policy 0, policy_version 192058 (0.0007)
+[2023-07-06 11:41:31,418][98493] Updated weights for policy 0, policy_version 192120 (0.0007)
+[2023-07-06 11:41:31,894][98493] Updated weights for policy 0, policy_version 192176 (0.0007)
+[2023-07-06 11:41:33,296][98493] Updated weights for policy 0, policy_version 192228 (0.0007)
+[2023-07-06 11:41:34,764][98243] Fps is (10 sec: 104858.8, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 393740288. Throughput: 0: 27966.7. Samples: 98534912. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:34,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:41:34,784][98493] Updated weights for policy 0, policy_version 192272 (0.0007)
+[2023-07-06 11:41:35,199][98493] Updated weights for policy 0, policy_version 192320 (0.0007)
+[2023-07-06 11:41:36,080][98493] Updated weights for policy 0, policy_version 192384 (0.0007)
+[2023-07-06 11:41:36,618][98493] Updated weights for policy 0, policy_version 192446 (0.0007)
+[2023-07-06 11:41:38,273][98493] Updated weights for policy 0, policy_version 192507 (0.0007)
+[2023-07-06 11:41:39,764][98243] Fps is (10 sec: 114688.0, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 394362880. Throughput: 0: 27989.3. Samples: 98617344. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:39,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:41:39,787][98493] Updated weights for policy 0, policy_version 192572 (0.0007)
+[2023-07-06 11:41:40,636][98493] Updated weights for policy 0, policy_version 192627 (0.0007)
+[2023-07-06 11:41:41,204][98493] Updated weights for policy 0, policy_version 192696 (0.0008)
+[2023-07-06 11:41:43,157][98493] Updated weights for policy 0, policy_version 192752 (0.0007)
+[2023-07-06 11:41:44,301][98493] Updated weights for policy 0, policy_version 192806 (0.0006)
+[2023-07-06 11:41:44,764][98243] Fps is (10 sec: 117963.1, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 394919936. Throughput: 0: 28034.8. Samples: 98782720. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 11:41:45,219][98493] Updated weights for policy 0, policy_version 192864 (0.0007)
+[2023-07-06 11:41:45,589][98449] Signal inference workers to stop experience collection... (9900 times)
+[2023-07-06 11:41:45,634][98493] InferenceWorker_p0-w0: stopping experience collection (9900 times)
+[2023-07-06 11:41:45,675][98449] Signal inference workers to resume experience collection... (9900 times)
+[2023-07-06 11:41:45,675][98493] InferenceWorker_p0-w0: resuming experience collection (9900 times)
+[2023-07-06 11:41:45,685][98493] Updated weights for policy 0, policy_version 192912 (0.0008)
+[2023-07-06 11:41:47,529][98493] Updated weights for policy 0, policy_version 192963 (0.0007)
+[2023-07-06 11:41:48,058][98493] Updated weights for policy 0, policy_version 193024 (0.0007)
+[2023-07-06 11:41:48,909][98493] Updated weights for policy 0, policy_version 193073 (0.0007)
+[2023-07-06 11:41:49,764][98243] Fps is (10 sec: 111411.5, 60 sec: 111957.5, 300 sec: 111966.6). Total num frames: 395476992. Throughput: 0: 28137.3. Samples: 98952704. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:49,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 11:41:49,834][98493] Updated weights for policy 0, policy_version 193120 (0.0006)
+[2023-07-06 11:41:50,458][98493] Updated weights for policy 0, policy_version 193186 (0.0007)
+[2023-07-06 11:41:52,309][98493] Updated weights for policy 0, policy_version 193220 (0.0006)
+[2023-07-06 11:41:52,770][98493] Updated weights for policy 0, policy_version 193276 (0.0006)
+[2023-07-06 11:41:53,511][98493] Updated weights for policy 0, policy_version 193339 (0.0007)
+[2023-07-06 11:41:54,461][98493] Updated weights for policy 0, policy_version 193381 (0.0007)
+[2023-07-06 11:41:54,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113595.6, 300 sec: 112077.7). Total num frames: 396099584. Throughput: 0: 28228.2. Samples: 99037696. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:41:54,948][98493] Updated weights for policy 0, policy_version 193440 (0.0007)
+[2023-07-06 11:41:56,863][98493] Updated weights for policy 0, policy_version 193473 (0.0007)
+[2023-07-06 11:41:57,346][98493] Updated weights for policy 0, policy_version 193535 (0.0007)
+[2023-07-06 11:41:58,111][98493] Updated weights for policy 0, policy_version 193576 (0.0007)
+[2023-07-06 11:41:59,024][98493] Updated weights for policy 0, policy_version 193625 (0.0007)
+[2023-07-06 11:41:59,578][98493] Updated weights for policy 0, policy_version 193682 (0.0008)
+[2023-07-06 11:41:59,764][98243] Fps is (10 sec: 121241.5, 60 sec: 113595.7, 300 sec: 112188.8). Total num frames: 396689408. Throughput: 0: 28171.5. Samples: 99207168. Policy #0 lag: (min: 15.0, avg: 108.2, max: 271.0)
+[2023-07-06 11:41:59,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:41:59,929][98449] Saving new best policy, reward=9.790!
+[2023-07-06 11:42:01,703][98493] Updated weights for policy 0, policy_version 193731 (0.0008)
+[2023-07-06 11:42:02,378][98493] Updated weights for policy 0, policy_version 193795 (0.0007)
+[2023-07-06 11:42:03,637][98493] Updated weights for policy 0, policy_version 193857 (0.0006)
+[2023-07-06 11:42:03,931][98449] Signal inference workers to stop experience collection... (9950 times)
+[2023-07-06 11:42:03,959][98493] InferenceWorker_p0-w0: stopping experience collection (9950 times)
+[2023-07-06 11:42:04,016][98449] Signal inference workers to resume experience collection... (9950 times)
+[2023-07-06 11:42:04,017][98493] InferenceWorker_p0-w0: resuming experience collection (9950 times)
+[2023-07-06 11:42:04,230][98493] Updated weights for policy 0, policy_version 193923 (0.0008)
+[2023-07-06 11:42:04,676][98493] Updated weights for policy 0, policy_version 193981 (0.0006)
+[2023-07-06 11:42:04,765][98243] Fps is (10 sec: 117959.0, 60 sec: 113594.7, 300 sec: 112077.5). Total num frames: 397279232. Throughput: 0: 28011.7. Samples: 99366912. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:42:07,055][98493] Updated weights for policy 0, policy_version 194034 (0.0008)
+[2023-07-06 11:42:07,567][98493] Updated weights for policy 0, policy_version 194096 (0.0008)
+[2023-07-06 11:42:08,376][98493] Updated weights for policy 0, policy_version 194133 (0.0007)
+[2023-07-06 11:42:08,866][98493] Updated weights for policy 0, policy_version 194192 (0.0006)
+[2023-07-06 11:42:09,764][98243] Fps is (10 sec: 111409.7, 60 sec: 112503.3, 300 sec: 111966.6). Total num frames: 397803520. Throughput: 0: 28057.5. Samples: 99451904. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:09,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:42:11,326][98493] Updated weights for policy 0, policy_version 194244 (0.0006)
+[2023-07-06 11:42:11,753][98493] Updated weights for policy 0, policy_version 194295 (0.0008)
+[2023-07-06 11:42:12,254][98493] Updated weights for policy 0, policy_version 194342 (0.0007)
+[2023-07-06 11:42:13,082][98493] Updated weights for policy 0, policy_version 194400 (0.0007)
+[2023-07-06 11:42:13,594][98493] Updated weights for policy 0, policy_version 194456 (0.0007)
+[2023-07-06 11:42:14,764][98243] Fps is (10 sec: 104863.3, 60 sec: 111411.4, 300 sec: 111966.6). Total num frames: 398327808. Throughput: 0: 27921.1. Samples: 99616768. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:14,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:42:15,992][98493] Updated weights for policy 0, policy_version 194498 (0.0007)
+[2023-07-06 11:42:16,469][98493] Updated weights for policy 0, policy_version 194554 (0.0007)
+[2023-07-06 11:42:17,000][98493] Updated weights for policy 0, policy_version 194619 (0.0007)
+[2023-07-06 11:42:17,898][98493] Updated weights for policy 0, policy_version 194664 (0.0007)
+[2023-07-06 11:42:18,341][98493] Updated weights for policy 0, policy_version 194710 (0.0007)
+[2023-07-06 11:42:19,765][98243] Fps is (10 sec: 104854.2, 60 sec: 111410.4, 300 sec: 111966.4). Total num frames: 398852096. Throughput: 0: 27932.1. Samples: 99791872. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:19,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:42:20,899][98493] Updated weights for policy 0, policy_version 194776 (0.0007)
+[2023-07-06 11:42:21,262][98449] Signal inference workers to stop experience collection... (10000 times)
+[2023-07-06 11:42:21,318][98493] InferenceWorker_p0-w0: stopping experience collection (10000 times)
+[2023-07-06 11:42:21,373][98449] Signal inference workers to resume experience collection... (10000 times)
+[2023-07-06 11:42:21,374][98493] InferenceWorker_p0-w0: resuming experience collection (10000 times)
+[2023-07-06 11:42:21,446][98493] Updated weights for policy 0, policy_version 194833 (0.0008)
+[2023-07-06 11:42:22,290][98493] Updated weights for policy 0, policy_version 194882 (0.0007)
+[2023-07-06 11:42:22,879][98493] Updated weights for policy 0, policy_version 194948 (0.0007)
+[2023-07-06 11:42:23,309][98493] Updated weights for policy 0, policy_version 195002 (0.0007)
+[2023-07-06 11:42:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 399376384. Throughput: 0: 27932.4. Samples: 99874304. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:42:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000195008_399376384.pth...
+[2023-07-06 11:42:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000181952_372637696.pth
+[2023-07-06 11:42:24,803][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000195008_399376384.pth
+[2023-07-06 11:42:25,757][98493] Updated weights for policy 0, policy_version 195045 (0.0006)
+[2023-07-06 11:42:26,436][98493] Updated weights for policy 0, policy_version 195129 (0.0008)
+[2023-07-06 11:42:27,394][98493] Updated weights for policy 0, policy_version 195184 (0.0007)
+[2023-07-06 11:42:27,843][98493] Updated weights for policy 0, policy_version 195232 (0.0007)
+[2023-07-06 11:42:28,120][98493] Updated weights for policy 0, policy_version 195264 (0.0006)
+[2023-07-06 11:42:29,764][98243] Fps is (10 sec: 104862.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 399900672. Throughput: 0: 27955.2. Samples: 100040704. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:29,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:42:30,411][98493] Updated weights for policy 0, policy_version 195321 (0.0008)
+[2023-07-06 11:42:31,056][98493] Updated weights for policy 0, policy_version 195377 (0.0007)
+[2023-07-06 11:42:31,933][98493] Updated weights for policy 0, policy_version 195424 (0.0007)
+[2023-07-06 11:42:32,619][98493] Updated weights for policy 0, policy_version 195491 (0.0007)
+[2023-07-06 11:42:34,371][98493] Updated weights for policy 0, policy_version 195536 (0.0008)
+[2023-07-06 11:42:34,764][98243] Fps is (10 sec: 117966.1, 60 sec: 113595.7, 300 sec: 111633.5). Total num frames: 400556032. Throughput: 0: 27943.8. Samples: 100210176. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:34,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:42:35,498][98493] Updated weights for policy 0, policy_version 195587 (0.0007)
+[2023-07-06 11:42:35,943][98493] Updated weights for policy 0, policy_version 195646 (0.0006)
+[2023-07-06 11:42:36,787][98493] Updated weights for policy 0, policy_version 195701 (0.0007)
+[2023-07-06 11:42:37,226][98493] Updated weights for policy 0, policy_version 195747 (0.0030)
+[2023-07-06 11:42:38,881][98449] Signal inference workers to stop experience collection... (10050 times)
+[2023-07-06 11:42:38,898][98493] InferenceWorker_p0-w0: stopping experience collection (10050 times)
+[2023-07-06 11:42:38,976][98449] Signal inference workers to resume experience collection... (10050 times)
+[2023-07-06 11:42:38,976][98493] InferenceWorker_p0-w0: resuming experience collection (10050 times)
+[2023-07-06 11:42:39,111][98493] Updated weights for policy 0, policy_version 195808 (0.0007)
+[2023-07-06 11:42:39,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111957.4, 300 sec: 111522.3). Total num frames: 401080320. Throughput: 0: 27852.8. Samples: 100291072. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:39,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 11:42:40,438][98493] Updated weights for policy 0, policy_version 195862 (0.0008)
+[2023-07-06 11:42:41,140][98493] Updated weights for policy 0, policy_version 195920 (0.0006)
+[2023-07-06 11:42:41,653][98493] Updated weights for policy 0, policy_version 195971 (0.0008)
+[2023-07-06 11:42:42,139][98493] Updated weights for policy 0, policy_version 196032 (0.0007)
+[2023-07-06 11:42:44,125][98493] Updated weights for policy 0, policy_version 196088 (0.0008)
+[2023-07-06 11:42:44,765][98243] Fps is (10 sec: 104851.9, 60 sec: 111410.4, 300 sec: 111522.2). Total num frames: 401604608. Throughput: 0: 27909.4. Samples: 100463104. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:44,766][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:42:45,231][98493] Updated weights for policy 0, policy_version 196144 (0.0008)
+[2023-07-06 11:42:45,977][98493] Updated weights for policy 0, policy_version 196192 (0.0007)
+[2023-07-06 11:42:46,544][98493] Updated weights for policy 0, policy_version 196256 (0.0008)
+[2023-07-06 11:42:48,604][98493] Updated weights for policy 0, policy_version 196306 (0.0007)
+[2023-07-06 11:42:49,764][98243] Fps is (10 sec: 104857.4, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 402128896. Throughput: 0: 28092.1. Samples: 100631040. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:42:49,864][98493] Updated weights for policy 0, policy_version 196368 (0.0007)
+[2023-07-06 11:42:50,277][98493] Updated weights for policy 0, policy_version 196416 (0.0008)
+[2023-07-06 11:42:51,034][98493] Updated weights for policy 0, policy_version 196468 (0.0007)
+[2023-07-06 11:42:51,578][98493] Updated weights for policy 0, policy_version 196538 (0.0007)
+[2023-07-06 11:42:53,332][98493] Updated weights for policy 0, policy_version 196585 (0.0009)
+[2023-07-06 11:42:54,518][98493] Updated weights for policy 0, policy_version 196626 (0.0007)
+[2023-07-06 11:42:54,764][98243] Fps is (10 sec: 114692.8, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 402751488. Throughput: 0: 28023.5. Samples: 100712960. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:54,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 11:42:55,041][98493] Updated weights for policy 0, policy_version 196675 (0.0006)
+[2023-07-06 11:42:55,588][98493] Updated weights for policy 0, policy_version 196740 (0.0008)
+[2023-07-06 11:42:55,704][98449] Signal inference workers to stop experience collection... (10100 times)
+[2023-07-06 11:42:55,734][98493] InferenceWorker_p0-w0: stopping experience collection (10100 times)
+[2023-07-06 11:42:55,799][98449] Signal inference workers to resume experience collection... (10100 times)
+[2023-07-06 11:42:55,799][98493] InferenceWorker_p0-w0: resuming experience collection (10100 times)
+[2023-07-06 11:42:56,032][98493] Updated weights for policy 0, policy_version 196794 (0.0007)
+[2023-07-06 11:42:57,861][98493] Updated weights for policy 0, policy_version 196834 (0.0006)
+[2023-07-06 11:42:59,284][98493] Updated weights for policy 0, policy_version 196887 (0.0006)
+[2023-07-06 11:42:59,753][98493] Updated weights for policy 0, policy_version 196934 (0.0008)
+[2023-07-06 11:42:59,764][98243] Fps is (10 sec: 117965.0, 60 sec: 110318.9, 300 sec: 111966.6). Total num frames: 403308544. Throughput: 0: 28182.8. Samples: 100884992. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:42:59,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 11:43:00,326][98493] Updated weights for policy 0, policy_version 196995 (0.0007)
+[2023-07-06 11:43:00,752][98493] Updated weights for policy 0, policy_version 197050 (0.0007)
+[2023-07-06 11:43:02,625][98493] Updated weights for policy 0, policy_version 197112 (0.0007)
+[2023-07-06 11:43:04,511][98493] Updated weights for policy 0, policy_version 197173 (0.0006)
+[2023-07-06 11:43:04,764][98243] Fps is (10 sec: 111412.3, 60 sec: 109773.9, 300 sec: 112077.7). Total num frames: 403865600. Throughput: 0: 27944.1. Samples: 101049344. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:43:04,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 11:43:05,026][98493] Updated weights for policy 0, policy_version 197232 (0.0007)
+[2023-07-06 11:43:05,540][98493] Updated weights for policy 0, policy_version 197284 (0.0007)
+[2023-07-06 11:43:07,186][98493] Updated weights for policy 0, policy_version 197344 (0.0007)
+[2023-07-06 11:43:07,474][98493] Updated weights for policy 0, policy_version 197374 (0.0006)
+[2023-07-06 11:43:09,101][98493] Updated weights for policy 0, policy_version 197413 (0.0008)
+[2023-07-06 11:43:09,651][98493] Updated weights for policy 0, policy_version 197475 (0.0007)
+[2023-07-06 11:43:09,764][98243] Fps is (10 sec: 114687.7, 60 sec: 110865.2, 300 sec: 112077.8). Total num frames: 404455424. Throughput: 0: 27932.5. Samples: 101131264. Policy #0 lag: (min: 2.0, avg: 117.3, max: 258.0)
+[2023-07-06 11:43:09,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:43:10,237][98493] Updated weights for policy 0, policy_version 197545 (0.0007)
+[2023-07-06 11:43:11,888][98493] Updated weights for policy 0, policy_version 197591 (0.0007)
+[2023-07-06 11:43:12,199][98493] Updated weights for policy 0, policy_version 197632 (0.0007)
+[2023-07-06 11:43:13,742][98449] Signal inference workers to stop experience collection... (10150 times)
+[2023-07-06 11:43:13,799][98493] InferenceWorker_p0-w0: stopping experience collection (10150 times)
+[2023-07-06 11:43:13,857][98449] Signal inference workers to resume experience collection... (10150 times)
+[2023-07-06 11:43:13,857][98493] InferenceWorker_p0-w0: resuming experience collection (10150 times)
+[2023-07-06 11:43:13,859][98493] Updated weights for policy 0, policy_version 197696 (0.0007)
+[2023-07-06 11:43:14,361][98493] Updated weights for policy 0, policy_version 197748 (0.0007)
+[2023-07-06 11:43:14,764][98243] Fps is (10 sec: 121241.0, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 405078016. Throughput: 0: 28000.7. Samples: 101300736. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:14,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 11:43:14,933][98493] Updated weights for policy 0, policy_version 197817 (0.0007)
+[2023-07-06 11:43:16,688][98493] Updated weights for policy 0, policy_version 197862 (0.0007)
+[2023-07-06 11:43:18,307][98493] Updated weights for policy 0, policy_version 197925 (0.0007)
+[2023-07-06 11:43:18,829][98493] Updated weights for policy 0, policy_version 197989 (0.0007)
+[2023-07-06 11:43:19,322][98493] Updated weights for policy 0, policy_version 198048 (0.0007)
+[2023-07-06 11:43:19,764][98243] Fps is (10 sec: 121239.9, 60 sec: 113596.3, 300 sec: 112193.0). Total num frames: 405667840. Throughput: 0: 27795.8. Samples: 101460992. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:19,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 11:43:21,255][98493] Updated weights for policy 0, policy_version 198102 (0.0006)
+[2023-07-06 11:43:22,975][98493] Updated weights for policy 0, policy_version 198170 (0.0007)
+[2023-07-06 11:43:23,543][98493] Updated weights for policy 0, policy_version 198230 (0.0006)
+[2023-07-06 11:43:24,037][98493] Updated weights for policy 0, policy_version 198288 (0.0008)
+[2023-07-06 11:43:24,419][98493] Updated weights for policy 0, policy_version 198334 (0.0007)
+[2023-07-06 11:43:24,764][98243] Fps is (10 sec: 111409.3, 60 sec: 113595.5, 300 sec: 112077.6). Total num frames: 406192128. Throughput: 0: 28034.7. Samples: 101552640. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:24,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 11:43:26,139][98493] Updated weights for policy 0, policy_version 198375 (0.0007)
+[2023-07-06 11:43:27,584][98493] Updated weights for policy 0, policy_version 198432 (0.0007)
+[2023-07-06 11:43:28,229][98493] Updated weights for policy 0, policy_version 198500 (0.0029)
+[2023-07-06 11:43:28,901][98493] Updated weights for policy 0, policy_version 198566 (0.0008)
+[2023-07-06 11:43:29,764][98243] Fps is (10 sec: 104859.0, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 406716416. Throughput: 0: 27784.8. Samples: 101713408. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:29,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 11:43:30,596][98449] Signal inference workers to stop experience collection... (10200 times)
+[2023-07-06 11:43:30,633][98493] InferenceWorker_p0-w0: stopping experience collection (10200 times)
+[2023-07-06 11:43:30,670][98449] Signal inference workers to resume experience collection... (10200 times)
+[2023-07-06 11:43:30,671][98493] InferenceWorker_p0-w0: resuming experience collection (10200 times)
+[2023-07-06 11:43:30,765][98493] Updated weights for policy 0, policy_version 198632 (0.0007)
+[2023-07-06 11:43:32,415][98493] Updated weights for policy 0, policy_version 198688 (0.0006)
+[2023-07-06 11:43:32,846][98493] Updated weights for policy 0, policy_version 198736 (0.0014)
+[2023-07-06 11:43:33,423][98493] Updated weights for policy 0, policy_version 198792 (0.0007)
+[2023-07-06 11:43:33,881][98493] Updated weights for policy 0, policy_version 198848 (0.0008)
+[2023-07-06 11:43:34,765][98243] Fps is (10 sec: 104856.7, 60 sec: 111410.6, 300 sec: 111522.2). Total num frames: 407240704. Throughput: 0: 27818.5. Samples: 101882880. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:34,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 11:43:35,656][98493] Updated weights for policy 0, policy_version 198905 (0.0007)
+[2023-07-06 11:43:37,326][98493] Updated weights for policy 0, policy_version 198944 (0.0007)
+[2023-07-06 11:43:37,902][98493] Updated weights for policy 0, policy_version 199008 (0.0007)
+[2023-07-06 11:43:38,331][98493] Updated weights for policy 0, policy_version 199056 (0.0014)
+[2023-07-06 11:43:39,765][98243] Fps is (10 sec: 104853.4, 60 sec: 111410.4, 300 sec: 111522.1). Total num frames: 407764992. Throughput: 0: 27886.7. Samples: 101967872. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:39,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 11:43:39,987][98493] Updated weights for policy 0, policy_version 199109 (0.0007)
+[2023-07-06 11:43:41,960][98493] Updated weights for policy 0, policy_version 199173 (0.0008)
+[2023-07-06 11:43:42,442][98493] Updated weights for policy 0, policy_version 199232 (0.0007)
+[2023-07-06 11:43:43,050][98493] Updated weights for policy 0, policy_version 199300 (0.0007)
+[2023-07-06 11:43:43,483][98493] Updated weights for policy 0, policy_version 199354 (0.0007)
+[2023-07-06 11:43:44,764][98243] Fps is (10 sec: 108137.1, 60 sec: 111958.2, 300 sec: 111633.3). Total num frames: 408322048. Throughput: 0: 27682.1. Samples: 102130688. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:44,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:43:44,903][98493] Updated weights for policy 0, policy_version 199397 (0.0006)
+[2023-07-06 11:43:46,737][98493] Updated weights for policy 0, policy_version 199447 (0.0007)
+[2023-07-06 11:43:47,277][98493] Updated weights for policy 0, policy_version 199507 (0.0008)
+[2023-07-06 11:43:47,407][98449] Signal inference workers to stop experience collection... (10250 times)
+[2023-07-06 11:43:47,443][98493] InferenceWorker_p0-w0: stopping experience collection (10250 times)
+[2023-07-06 11:43:47,500][98449] Signal inference workers to resume experience collection... (10250 times)
+[2023-07-06 11:43:47,500][98493] InferenceWorker_p0-w0: resuming experience collection (10250 times)
+[2023-07-06 11:43:47,883][98493] Updated weights for policy 0, policy_version 199572 (0.0007)
+[2023-07-06 11:43:49,291][98493] Updated weights for policy 0, policy_version 199632 (0.0007)
+[2023-07-06 11:43:49,691][98493] Updated weights for policy 0, policy_version 199676 (0.0007)
+[2023-07-06 11:43:49,764][98243] Fps is (10 sec: 117968.7, 60 sec: 113595.6, 300 sec: 111744.4). Total num frames: 408944640. Throughput: 0: 27761.7. Samples: 102298624. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:43:51,593][98493] Updated weights for policy 0, policy_version 199719 (0.0007)
+[2023-07-06 11:43:52,185][98493] Updated weights for policy 0, policy_version 199778 (0.0007)
+[2023-07-06 11:43:52,742][98493] Updated weights for policy 0, policy_version 199842 (0.0007)
+[2023-07-06 11:43:54,206][98493] Updated weights for policy 0, policy_version 199907 (0.0007)
+[2023-07-06 11:43:54,764][98243] Fps is (10 sec: 114685.9, 60 sec: 111957.1, 300 sec: 111633.3). Total num frames: 409468928. Throughput: 0: 27784.4. Samples: 102381568. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:54,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 11:43:55,935][98493] Updated weights for policy 0, policy_version 199952 (0.0006)
+[2023-07-06 11:43:56,655][98493] Updated weights for policy 0, policy_version 200032 (0.0007)
+[2023-07-06 11:43:57,211][98493] Updated weights for policy 0, policy_version 200086 (0.0008)
+[2023-07-06 11:43:59,027][98493] Updated weights for policy 0, policy_version 200131 (0.0007)
+[2023-07-06 11:43:59,539][98493] Updated weights for policy 0, policy_version 200192 (0.0008)
+[2023-07-06 11:43:59,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111410.8, 300 sec: 111522.2). Total num frames: 409993216. Throughput: 0: 27727.5. Samples: 102548480. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:43:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:44:01,039][98493] Updated weights for policy 0, policy_version 200246 (0.0008)
+[2023-07-06 11:44:01,613][98493] Updated weights for policy 0, policy_version 200306 (0.0008)
+[2023-07-06 11:44:02,107][98493] Updated weights for policy 0, policy_version 200362 (0.0007)
+[2023-07-06 11:44:04,060][98493] Updated weights for policy 0, policy_version 200402 (0.0007)
+[2023-07-06 11:44:04,764][98243] Fps is (10 sec: 104859.7, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 410517504. Throughput: 0: 27943.9. Samples: 102718464. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:44:04,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:44:05,266][98449] Signal inference workers to stop experience collection... (10300 times)
+[2023-07-06 11:44:05,280][98493] InferenceWorker_p0-w0: stopping experience collection (10300 times)
+[2023-07-06 11:44:05,303][98493] Updated weights for policy 0, policy_version 200454 (0.0007)
+[2023-07-06 11:44:05,350][98449] Signal inference workers to resume experience collection... (10300 times)
+[2023-07-06 11:44:05,350][98493] InferenceWorker_p0-w0: resuming experience collection (10300 times)
+[2023-07-06 11:44:05,903][98493] Updated weights for policy 0, policy_version 200528 (0.0008)
+[2023-07-06 11:44:06,417][98493] Updated weights for policy 0, policy_version 200581 (0.0007)
+[2023-07-06 11:44:06,795][98493] Updated weights for policy 0, policy_version 200624 (0.0007)
+[2023-07-06 11:44:08,877][98493] Updated weights for policy 0, policy_version 200688 (0.0007)
+[2023-07-06 11:44:09,764][98243] Fps is (10 sec: 104859.6, 60 sec: 109772.8, 300 sec: 111522.3). Total num frames: 411041792. Throughput: 0: 27693.6. Samples: 102798848. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:44:09,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:44:10,397][98493] Updated weights for policy 0, policy_version 200745 (0.0007)
+[2023-07-06 11:44:10,891][98493] Updated weights for policy 0, policy_version 200800 (0.0007)
+[2023-07-06 11:44:11,408][98493] Updated weights for policy 0, policy_version 200849 (0.0007)
+[2023-07-06 11:44:13,172][98493] Updated weights for policy 0, policy_version 200912 (0.0013)
+[2023-07-06 11:44:13,608][98493] Updated weights for policy 0, policy_version 200960 (0.0008)
+[2023-07-06 11:44:14,764][98243] Fps is (10 sec: 104857.5, 60 sec: 108134.4, 300 sec: 111522.3). Total num frames: 411566080. Throughput: 0: 27818.7. Samples: 102965248. Policy #0 lag: (min: 95.0, avg: 212.7, max: 351.0)
+[2023-07-06 11:44:14,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:44:15,103][98493] Updated weights for policy 0, policy_version 201008 (0.0008)
+[2023-07-06 11:44:15,684][98493] Updated weights for policy 0, policy_version 201072 (0.0012)
+[2023-07-06 11:44:16,281][98493] Updated weights for policy 0, policy_version 201136 (0.0008)
+[2023-07-06 11:44:18,102][98493] Updated weights for policy 0, policy_version 201200 (0.0006)
+[2023-07-06 11:44:19,764][98243] Fps is (10 sec: 108135.0, 60 sec: 107588.6, 300 sec: 111300.1). Total num frames: 412123136. Throughput: 0: 27841.6. Samples: 103135744. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:19,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:44:19,864][98493] Updated weights for policy 0, policy_version 201252 (0.0006)
+[2023-07-06 11:44:20,323][98493] Updated weights for policy 0, policy_version 201299 (0.0007)
+[2023-07-06 11:44:20,712][98449] Signal inference workers to stop experience collection... (10350 times)
+[2023-07-06 11:44:20,742][98493] InferenceWorker_p0-w0: stopping experience collection (10350 times)
+[2023-07-06 11:44:20,786][98449] Signal inference workers to resume experience collection... (10350 times)
+[2023-07-06 11:44:20,786][98493] InferenceWorker_p0-w0: resuming experience collection (10350 times)
+[2023-07-06 11:44:20,864][98493] Updated weights for policy 0, policy_version 201365 (0.0007)
+[2023-07-06 11:44:22,368][98493] Updated weights for policy 0, policy_version 201411 (0.0007)
+[2023-07-06 11:44:22,842][98493] Updated weights for policy 0, policy_version 201471 (0.0009)
+[2023-07-06 11:44:24,536][98493] Updated weights for policy 0, policy_version 201520 (0.0008)
+[2023-07-06 11:44:24,764][98243] Fps is (10 sec: 117965.4, 60 sec: 109227.1, 300 sec: 111522.3). Total num frames: 412745728. Throughput: 0: 27727.9. Samples: 103215616. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:24,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:44:24,935][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000201568_412811264.pth...
+[2023-07-06 11:44:25,015][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000188528_386105344.pth
+[2023-07-06 11:44:25,256][98493] Updated weights for policy 0, policy_version 201600 (0.0008)
+[2023-07-06 11:44:25,750][98493] Updated weights for policy 0, policy_version 201656 (0.0006)
+[2023-07-06 11:44:27,438][98493] Updated weights for policy 0, policy_version 201701 (0.0007)
+[2023-07-06 11:44:29,103][98493] Updated weights for policy 0, policy_version 201760 (0.0006)
+[2023-07-06 11:44:29,661][98493] Updated weights for policy 0, policy_version 201815 (0.0008)
+[2023-07-06 11:44:29,764][98243] Fps is (10 sec: 121241.4, 60 sec: 110319.0, 300 sec: 111744.5). Total num frames: 413335552. Throughput: 0: 27921.1. Samples: 103387136. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:44:30,106][98493] Updated weights for policy 0, policy_version 201872 (0.0007)
+[2023-07-06 11:44:30,493][98493] Updated weights for policy 0, policy_version 201916 (0.0006)
+[2023-07-06 11:44:32,355][98493] Updated weights for policy 0, policy_version 201983 (0.0008)
+[2023-07-06 11:44:34,032][98493] Updated weights for policy 0, policy_version 202047 (0.0007)
+[2023-07-06 11:44:34,546][98493] Updated weights for policy 0, policy_version 202100 (0.0008)
+[2023-07-06 11:44:34,764][98243] Fps is (10 sec: 121241.2, 60 sec: 111957.8, 300 sec: 111633.4). Total num frames: 413958144. Throughput: 0: 27750.5. Samples: 103547392. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:44:34,966][98493] Updated weights for policy 0, policy_version 202150 (0.0008)
+[2023-07-06 11:44:36,854][98493] Updated weights for policy 0, policy_version 202198 (0.0006)
+[2023-07-06 11:44:37,211][98493] Updated weights for policy 0, policy_version 202240 (0.0006)
+[2023-07-06 11:44:38,533][98449] Signal inference workers to stop experience collection... (10400 times)
+[2023-07-06 11:44:38,586][98493] InferenceWorker_p0-w0: stopping experience collection (10400 times)
+[2023-07-06 11:44:38,621][98449] Signal inference workers to resume experience collection... (10400 times)
+[2023-07-06 11:44:38,621][98493] InferenceWorker_p0-w0: resuming experience collection (10400 times)
+[2023-07-06 11:44:38,762][98493] Updated weights for policy 0, policy_version 202304 (0.0009)
+[2023-07-06 11:44:39,392][98493] Updated weights for policy 0, policy_version 202370 (0.0008)
+[2023-07-06 11:44:39,764][98243] Fps is (10 sec: 121242.4, 60 sec: 113050.5, 300 sec: 111855.6). Total num frames: 414547968. Throughput: 0: 27898.5. Samples: 103636992. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:39,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:44:39,834][98493] Updated weights for policy 0, policy_version 202425 (0.0007)
+[2023-07-06 11:44:41,914][98493] Updated weights for policy 0, policy_version 202496 (0.0007)
+[2023-07-06 11:44:43,383][98493] Updated weights for policy 0, policy_version 202546 (0.0007)
+[2023-07-06 11:44:43,943][98493] Updated weights for policy 0, policy_version 202612 (0.0007)
+[2023-07-06 11:44:44,418][98493] Updated weights for policy 0, policy_version 202672 (0.0006)
+[2023-07-06 11:44:44,764][98243] Fps is (10 sec: 114687.7, 60 sec: 113049.6, 300 sec: 111966.6). Total num frames: 415105024. Throughput: 0: 27807.4. Samples: 103799808. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:44,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 11:44:46,601][98493] Updated weights for policy 0, policy_version 202723 (0.0007)
+[2023-07-06 11:44:47,809][98493] Updated weights for policy 0, policy_version 202768 (0.0006)
+[2023-07-06 11:44:48,385][98493] Updated weights for policy 0, policy_version 202832 (0.0007)
+[2023-07-06 11:44:48,941][98493] Updated weights for policy 0, policy_version 202896 (0.0007)
+[2023-07-06 11:44:49,764][98243] Fps is (10 sec: 108132.0, 60 sec: 111411.1, 300 sec: 111744.4). Total num frames: 415629312. Throughput: 0: 27659.3. Samples: 103963136. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:49,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 11:44:51,155][98493] Updated weights for policy 0, policy_version 202960 (0.0006)
+[2023-07-06 11:44:51,575][98493] Updated weights for policy 0, policy_version 203008 (0.0008)
+[2023-07-06 11:44:52,611][98493] Updated weights for policy 0, policy_version 203069 (0.0006)
+[2023-07-06 11:44:53,221][98493] Updated weights for policy 0, policy_version 203120 (0.0007)
+[2023-07-06 11:44:53,719][98493] Updated weights for policy 0, policy_version 203174 (0.0007)
+[2023-07-06 11:44:54,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 416153600. Throughput: 0: 27830.0. Samples: 104051200. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:44:55,554][98449] Signal inference workers to stop experience collection... (10450 times)
+[2023-07-06 11:44:55,567][98493] InferenceWorker_p0-w0: stopping experience collection (10450 times)
+[2023-07-06 11:44:55,643][98449] Signal inference workers to resume experience collection... (10450 times)
+[2023-07-06 11:44:55,643][98493] InferenceWorker_p0-w0: resuming experience collection (10450 times)
+[2023-07-06 11:44:55,784][98493] Updated weights for policy 0, policy_version 203232 (0.0007)
+[2023-07-06 11:44:56,867][98493] Updated weights for policy 0, policy_version 203280 (0.0007)
+[2023-07-06 11:44:57,265][98493] Updated weights for policy 0, policy_version 203328 (0.0007)
+[2023-07-06 11:44:58,029][98493] Updated weights for policy 0, policy_version 203392 (0.0007)
+[2023-07-06 11:44:58,528][98493] Updated weights for policy 0, policy_version 203450 (0.0007)
+[2023-07-06 11:44:59,764][98243] Fps is (10 sec: 104859.2, 60 sec: 111411.6, 300 sec: 111300.1). Total num frames: 416677888. Throughput: 0: 27773.2. Samples: 104215040. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:44:59,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:45:00,863][98493] Updated weights for policy 0, policy_version 203504 (0.0007)
+[2023-07-06 11:45:01,880][98493] Updated weights for policy 0, policy_version 203568 (0.0006)
+[2023-07-06 11:45:02,663][98493] Updated weights for policy 0, policy_version 203623 (0.0007)
+[2023-07-06 11:45:03,117][98493] Updated weights for policy 0, policy_version 203680 (0.0007)
+[2023-07-06 11:45:04,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.0, 300 sec: 111411.2). Total num frames: 417202176. Throughput: 0: 27761.7. Samples: 104385024. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:45:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 11:45:05,048][98493] Updated weights for policy 0, policy_version 203713 (0.0007)
+[2023-07-06 11:45:05,505][98493] Updated weights for policy 0, policy_version 203774 (0.0008)
+[2023-07-06 11:45:06,800][98493] Updated weights for policy 0, policy_version 203834 (0.0007)
+[2023-07-06 11:45:07,450][98493] Updated weights for policy 0, policy_version 203892 (0.0007)
+[2023-07-06 11:45:08,033][98493] Updated weights for policy 0, policy_version 203961 (0.0008)
+[2023-07-06 11:45:09,779][98243] Fps is (10 sec: 104708.2, 60 sec: 111384.8, 300 sec: 111405.8). Total num frames: 417726464. Throughput: 0: 27741.6. Samples: 104464384. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:45:09,779][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:45:10,140][98493] Updated weights for policy 0, policy_version 204004 (0.0010)
+[2023-07-06 11:45:11,200][98493] Updated weights for policy 0, policy_version 204055 (0.0007)
+[2023-07-06 11:45:11,837][98493] Updated weights for policy 0, policy_version 204121 (0.0007)
+[2023-07-06 11:45:12,378][98449] Signal inference workers to stop experience collection... (10500 times)
+[2023-07-06 11:45:12,405][98493] Updated weights for policy 0, policy_version 204184 (0.0008)
+[2023-07-06 11:45:12,414][98493] InferenceWorker_p0-w0: stopping experience collection (10500 times)
+[2023-07-06 11:45:12,462][98449] Signal inference workers to resume experience collection... (10500 times)
+[2023-07-06 11:45:12,463][98493] InferenceWorker_p0-w0: resuming experience collection (10500 times)
+[2023-07-06 11:45:14,665][98493] Updated weights for policy 0, policy_version 204240 (0.0006)
+[2023-07-06 11:45:14,765][98243] Fps is (10 sec: 108131.5, 60 sec: 111956.6, 300 sec: 111411.0). Total num frames: 418283520. Throughput: 0: 27670.5. Samples: 104632320. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:45:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:45:15,972][98493] Updated weights for policy 0, policy_version 204304 (0.0007)
+[2023-07-06 11:45:16,548][98493] Updated weights for policy 0, policy_version 204355 (0.0007)
+[2023-07-06 11:45:17,040][98493] Updated weights for policy 0, policy_version 204416 (0.0008)
+[2023-07-06 11:45:17,576][98493] Updated weights for policy 0, policy_version 204480 (0.0008)
+[2023-07-06 11:45:19,764][98243] Fps is (10 sec: 111570.5, 60 sec: 111957.3, 300 sec: 111078.0). Total num frames: 418840576. Throughput: 0: 27841.4. Samples: 104800256. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:45:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:45:19,840][98493] Updated weights for policy 0, policy_version 204532 (0.0007)
+[2023-07-06 11:45:20,902][98493] Updated weights for policy 0, policy_version 204578 (0.0008)
+[2023-07-06 11:45:21,348][98493] Updated weights for policy 0, policy_version 204626 (0.0007)
+[2023-07-06 11:45:21,961][98493] Updated weights for policy 0, policy_version 204695 (0.0007)
+[2023-07-06 11:45:22,301][98493] Updated weights for policy 0, policy_version 204736 (0.0007)
+[2023-07-06 11:45:24,361][98493] Updated weights for policy 0, policy_version 204795 (0.0007)
+[2023-07-06 11:45:24,764][98243] Fps is (10 sec: 114692.0, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 419430400. Throughput: 0: 27659.3. Samples: 104881664. Policy #0 lag: (min: 7.0, avg: 116.0, max: 263.0)
+[2023-07-06 11:45:24,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:45:25,713][98493] Updated weights for policy 0, policy_version 204848 (0.0007)
+[2023-07-06 11:45:26,261][98493] Updated weights for policy 0, policy_version 204905 (0.0007)
+[2023-07-06 11:45:26,742][98493] Updated weights for policy 0, policy_version 204960 (0.0007)
+[2023-07-06 11:45:28,873][98493] Updated weights for policy 0, policy_version 205008 (0.0006)
+[2023-07-06 11:45:29,765][98243] Fps is (10 sec: 111406.2, 60 sec: 110318.1, 300 sec: 111077.8). Total num frames: 419954688. Throughput: 0: 27841.2. Samples: 105052672. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:45:30,089][98493] Updated weights for policy 0, policy_version 205063 (0.0007)
+[2023-07-06 11:45:30,595][98449] Signal inference workers to stop experience collection... (10550 times)
+[2023-07-06 11:45:30,651][98493] InferenceWorker_p0-w0: stopping experience collection (10550 times)
+[2023-07-06 11:45:30,652][98493] Updated weights for policy 0, policy_version 205125 (0.0008)
+[2023-07-06 11:45:30,715][98449] Signal inference workers to resume experience collection... (10550 times)
+[2023-07-06 11:45:30,716][98493] InferenceWorker_p0-w0: resuming experience collection (10550 times)
+[2023-07-06 11:45:31,150][98493] Updated weights for policy 0, policy_version 205184 (0.0009)
+[2023-07-06 11:45:31,655][98493] Updated weights for policy 0, policy_version 205245 (0.0007)
+[2023-07-06 11:45:33,905][98493] Updated weights for policy 0, policy_version 205302 (0.0007)
+[2023-07-06 11:45:34,765][98243] Fps is (10 sec: 104851.6, 60 sec: 108679.4, 300 sec: 111077.7). Total num frames: 420478976. Throughput: 0: 27909.4. Samples: 105219072. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:34,766][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 11:45:35,110][98493] Updated weights for policy 0, policy_version 205349 (0.0007)
+[2023-07-06 11:45:35,672][98493] Updated weights for policy 0, policy_version 205412 (0.0008)
+[2023-07-06 11:45:36,248][98493] Updated weights for policy 0, policy_version 205480 (0.0007)
+[2023-07-06 11:45:38,432][98493] Updated weights for policy 0, policy_version 205536 (0.0009)
+[2023-07-06 11:45:39,472][98493] Updated weights for policy 0, policy_version 205593 (0.0007)
+[2023-07-06 11:45:39,764][98243] Fps is (10 sec: 114692.6, 60 sec: 109226.5, 300 sec: 111411.2). Total num frames: 421101568. Throughput: 0: 27796.0. Samples: 105302016. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 11:45:40,172][98493] Updated weights for policy 0, policy_version 205636 (0.0007)
+[2023-07-06 11:45:40,730][98493] Updated weights for policy 0, policy_version 205698 (0.0007)
+[2023-07-06 11:45:41,254][98493] Updated weights for policy 0, policy_version 205756 (0.0007)
+[2023-07-06 11:45:43,326][98493] Updated weights for policy 0, policy_version 205810 (0.0007)
+[2023-07-06 11:45:43,992][98493] Updated weights for policy 0, policy_version 205846 (0.0007)
+[2023-07-06 11:45:44,764][98243] Fps is (10 sec: 117971.9, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 421658624. Throughput: 0: 27921.1. Samples: 105471488. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:45:44,956][98493] Updated weights for policy 0, policy_version 205920 (0.0006)
+[2023-07-06 11:45:45,464][98493] Updated weights for policy 0, policy_version 205976 (0.0007)
+[2023-07-06 11:45:47,658][98493] Updated weights for policy 0, policy_version 206037 (0.0007)
+[2023-07-06 11:45:48,344][98449] Signal inference workers to stop experience collection... (10600 times)
+[2023-07-06 11:45:48,354][98493] InferenceWorker_p0-w0: stopping experience collection (10600 times)
+[2023-07-06 11:45:48,372][98493] Updated weights for policy 0, policy_version 206083 (0.0006)
+[2023-07-06 11:45:48,434][98449] Signal inference workers to resume experience collection... (10600 times)
+[2023-07-06 11:45:48,435][98493] InferenceWorker_p0-w0: resuming experience collection (10600 times)
+[2023-07-06 11:45:48,839][98493] Updated weights for policy 0, policy_version 206136 (0.0007)
+[2023-07-06 11:45:49,682][98493] Updated weights for policy 0, policy_version 206192 (0.0006)
+[2023-07-06 11:45:49,764][98243] Fps is (10 sec: 117965.3, 60 sec: 110865.4, 300 sec: 111855.5). Total num frames: 422281216. Throughput: 0: 27841.5. Samples: 105637888. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:45:50,246][98493] Updated weights for policy 0, policy_version 206256 (0.0007)
+[2023-07-06 11:45:52,396][98493] Updated weights for policy 0, policy_version 206294 (0.0007)
+[2023-07-06 11:45:53,211][98493] Updated weights for policy 0, policy_version 206352 (0.0007)
+[2023-07-06 11:45:54,069][98493] Updated weights for policy 0, policy_version 206405 (0.0007)
+[2023-07-06 11:45:54,551][98493] Updated weights for policy 0, policy_version 206464 (0.0033)
+[2023-07-06 11:45:54,764][98243] Fps is (10 sec: 121241.5, 60 sec: 111957.5, 300 sec: 111855.5). Total num frames: 422871040. Throughput: 0: 27941.3. Samples: 105721344. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:45:54,960][98449] Saving new best policy, reward=9.810!
+[2023-07-06 11:45:55,048][98493] Updated weights for policy 0, policy_version 206521 (0.0007)
+[2023-07-06 11:45:57,293][98493] Updated weights for policy 0, policy_version 206576 (0.0007)
+[2023-07-06 11:45:58,223][98493] Updated weights for policy 0, policy_version 206627 (0.0007)
+[2023-07-06 11:45:58,859][98493] Updated weights for policy 0, policy_version 206695 (0.0007)
+[2023-07-06 11:45:59,538][98493] Updated weights for policy 0, policy_version 206752 (0.0006)
+[2023-07-06 11:45:59,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113049.4, 300 sec: 111855.5). Total num frames: 423460864. Throughput: 0: 27921.2. Samples: 105888768. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:45:59,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:45:59,823][98449] Saving new best policy, reward=9.830!
+[2023-07-06 11:46:01,908][98493] Updated weights for policy 0, policy_version 206807 (0.0007)
+[2023-07-06 11:46:02,225][98493] Updated weights for policy 0, policy_version 206848 (0.0007)
+[2023-07-06 11:46:03,100][98493] Updated weights for policy 0, policy_version 206905 (0.0007)
+[2023-07-06 11:46:03,614][98493] Updated weights for policy 0, policy_version 206949 (0.0007)
+[2023-07-06 11:46:04,275][98493] Updated weights for policy 0, policy_version 206997 (0.0007)
+[2023-07-06 11:46:04,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113595.9, 300 sec: 111744.4). Total num frames: 424017920. Throughput: 0: 27784.5. Samples: 106050560. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:46:04,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:46:06,789][98493] Updated weights for policy 0, policy_version 207072 (0.0007)
+[2023-07-06 11:46:07,206][98449] Signal inference workers to stop experience collection... (10650 times)
+[2023-07-06 11:46:07,223][98493] Updated weights for policy 0, policy_version 207106 (0.0021)
+[2023-07-06 11:46:07,231][98493] InferenceWorker_p0-w0: stopping experience collection (10650 times)
+[2023-07-06 11:46:07,298][98449] Signal inference workers to resume experience collection... (10650 times)
+[2023-07-06 11:46:07,298][98493] InferenceWorker_p0-w0: resuming experience collection (10650 times)
+[2023-07-06 11:46:07,653][98493] Updated weights for policy 0, policy_version 207161 (0.0008)
+[2023-07-06 11:46:08,302][98493] Updated weights for policy 0, policy_version 207206 (0.0009)
+[2023-07-06 11:46:09,158][98493] Updated weights for policy 0, policy_version 207269 (0.0007)
+[2023-07-06 11:46:09,764][98243] Fps is (10 sec: 108135.2, 60 sec: 113622.7, 300 sec: 111522.3). Total num frames: 424542208. Throughput: 0: 27909.7. Samples: 106137600. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:46:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:46:11,594][98493] Updated weights for policy 0, policy_version 207337 (0.0007)
+[2023-07-06 11:46:12,292][98493] Updated weights for policy 0, policy_version 207384 (0.0007)
+[2023-07-06 11:46:12,932][98493] Updated weights for policy 0, policy_version 207456 (0.0007)
+[2023-07-06 11:46:13,787][98493] Updated weights for policy 0, policy_version 207526 (0.0007)
+[2023-07-06 11:46:14,766][98243] Fps is (10 sec: 104838.5, 60 sec: 113046.8, 300 sec: 111521.6). Total num frames: 425066496. Throughput: 0: 27704.0. Samples: 106299392. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:46:14,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:46:16,087][98493] Updated weights for policy 0, policy_version 207568 (0.0006)
+[2023-07-06 11:46:16,915][98493] Updated weights for policy 0, policy_version 207621 (0.0007)
+[2023-07-06 11:46:17,471][98493] Updated weights for policy 0, policy_version 207682 (0.0007)
+[2023-07-06 11:46:17,964][98493] Updated weights for policy 0, policy_version 207743 (0.0008)
+[2023-07-06 11:46:18,332][98493] Updated weights for policy 0, policy_version 207783 (0.0019)
+[2023-07-06 11:46:19,764][98243] Fps is (10 sec: 104858.1, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 425590784. Throughput: 0: 27864.6. Samples: 106472960. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:46:19,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:46:21,073][98493] Updated weights for policy 0, policy_version 207833 (0.0007)
+[2023-07-06 11:46:21,509][98493] Updated weights for policy 0, policy_version 207875 (0.0007)
+[2023-07-06 11:46:21,987][98493] Updated weights for policy 0, policy_version 207934 (0.0007)
+[2023-07-06 11:46:22,574][98493] Updated weights for policy 0, policy_version 207996 (0.0010)
+[2023-07-06 11:46:22,947][98449] Signal inference workers to stop experience collection... (10700 times)
+[2023-07-06 11:46:22,984][98493] InferenceWorker_p0-w0: stopping experience collection (10700 times)
+[2023-07-06 11:46:22,988][98493] Updated weights for policy 0, policy_version 208040 (0.0007)
+[2023-07-06 11:46:23,026][98449] Signal inference workers to resume experience collection... (10700 times)
+[2023-07-06 11:46:23,026][98493] InferenceWorker_p0-w0: resuming experience collection (10700 times)
+[2023-07-06 11:46:24,765][98243] Fps is (10 sec: 104873.4, 60 sec: 111410.6, 300 sec: 111522.2). Total num frames: 426115072. Throughput: 0: 27784.4. Samples: 106552320. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:46:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:46:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000208064_426115072.pth...
+[2023-07-06 11:46:24,797][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000195008_399376384.pth
+[2023-07-06 11:46:25,932][98493] Updated weights for policy 0, policy_version 208089 (0.0006)
+[2023-07-06 11:46:26,476][98493] Updated weights for policy 0, policy_version 208149 (0.0007)
+[2023-07-06 11:46:27,189][98493] Updated weights for policy 0, policy_version 208232 (0.0008)
+[2023-07-06 11:46:27,755][98493] Updated weights for policy 0, policy_version 208304 (0.0007)
+[2023-07-06 11:46:29,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111412.0, 300 sec: 111522.2). Total num frames: 426639360. Throughput: 0: 27693.5. Samples: 106717696. Policy #0 lag: (min: 5.0, avg: 84.8, max: 261.0)
+[2023-07-06 11:46:29,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:46:30,895][98493] Updated weights for policy 0, policy_version 208352 (0.0007)
+[2023-07-06 11:46:31,406][98493] Updated weights for policy 0, policy_version 208403 (0.0007)
+[2023-07-06 11:46:31,900][98493] Updated weights for policy 0, policy_version 208464 (0.0007)
+[2023-07-06 11:46:32,442][98493] Updated weights for policy 0, policy_version 208528 (0.0007)
+[2023-07-06 11:46:34,764][98243] Fps is (10 sec: 104861.1, 60 sec: 111412.3, 300 sec: 111189.0). Total num frames: 427163648. Throughput: 0: 27795.9. Samples: 106888704. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:46:34,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:46:34,765][98449] Saving new best policy, reward=9.850!
+[2023-07-06 11:46:35,457][98493] Updated weights for policy 0, policy_version 208592 (0.0007)
+[2023-07-06 11:46:35,960][98493] Updated weights for policy 0, policy_version 208642 (0.0007)
+[2023-07-06 11:46:36,514][98493] Updated weights for policy 0, policy_version 208710 (0.0007)
+[2023-07-06 11:46:36,957][98493] Updated weights for policy 0, policy_version 208755 (0.0007)
+[2023-07-06 11:46:37,437][98493] Updated weights for policy 0, policy_version 208816 (0.0007)
+[2023-07-06 11:46:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 427687936. Throughput: 0: 27636.6. Samples: 106964992. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:46:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:46:39,767][98449] Saving new best policy, reward=9.860!
+[2023-07-06 11:46:40,231][98493] Updated weights for policy 0, policy_version 208865 (0.0007)
+[2023-07-06 11:46:40,515][98449] Signal inference workers to stop experience collection... (10750 times)
+[2023-07-06 11:46:40,547][98493] InferenceWorker_p0-w0: stopping experience collection (10750 times)
+[2023-07-06 11:46:40,602][98449] Signal inference workers to resume experience collection... (10750 times)
+[2023-07-06 11:46:40,602][98493] InferenceWorker_p0-w0: resuming experience collection (10750 times)
+[2023-07-06 11:46:40,692][98493] Updated weights for policy 0, policy_version 208916 (0.0007)
+[2023-07-06 11:46:41,205][98493] Updated weights for policy 0, policy_version 208976 (0.0007)
+[2023-07-06 11:46:41,579][98493] Updated weights for policy 0, policy_version 209022 (0.0006)
+[2023-07-06 11:46:42,357][98493] Updated weights for policy 0, policy_version 209083 (0.0007)
+[2023-07-06 11:46:44,764][98243] Fps is (10 sec: 111410.7, 60 sec: 110318.8, 300 sec: 111189.0). Total num frames: 428277760. Throughput: 0: 27784.6. Samples: 107139072. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:46:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:46:44,879][98493] Updated weights for policy 0, policy_version 209146 (0.0006)
+[2023-07-06 11:46:45,477][98493] Updated weights for policy 0, policy_version 209200 (0.0008)
+[2023-07-06 11:46:46,000][98493] Updated weights for policy 0, policy_version 209252 (0.0007)
+[2023-07-06 11:46:46,637][98493] Updated weights for policy 0, policy_version 209296 (0.0006)
+[2023-07-06 11:46:47,056][98493] Updated weights for policy 0, policy_version 209344 (0.0007)
+[2023-07-06 11:46:49,483][98493] Updated weights for policy 0, policy_version 209392 (0.0007)
+[2023-07-06 11:46:49,764][98243] Fps is (10 sec: 117965.1, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 428867584. Throughput: 0: 27932.4. Samples: 107307520. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:46:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 11:46:50,245][98493] Updated weights for policy 0, policy_version 209456 (0.0007)
+[2023-07-06 11:46:50,688][98493] Updated weights for policy 0, policy_version 209504 (0.0007)
+[2023-07-06 11:46:51,416][98493] Updated weights for policy 0, policy_version 209568 (0.0007)
+[2023-07-06 11:46:54,025][98493] Updated weights for policy 0, policy_version 209624 (0.0007)
+[2023-07-06 11:46:54,623][98493] Updated weights for policy 0, policy_version 209665 (0.0009)
+[2023-07-06 11:46:54,764][98243] Fps is (10 sec: 114688.5, 60 sec: 109226.7, 300 sec: 110966.9). Total num frames: 429424640. Throughput: 0: 27807.3. Samples: 107388928. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:46:54,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:46:55,186][98493] Updated weights for policy 0, policy_version 209733 (0.0007)
+[2023-07-06 11:46:55,691][98493] Updated weights for policy 0, policy_version 209792 (0.0007)
+[2023-07-06 11:46:56,118][98493] Updated weights for policy 0, policy_version 209840 (0.0006)
+[2023-07-06 11:46:58,206][98449] Signal inference workers to stop experience collection... (10800 times)
+[2023-07-06 11:46:58,220][98493] InferenceWorker_p0-w0: stopping experience collection (10800 times)
+[2023-07-06 11:46:58,292][98449] Signal inference workers to resume experience collection... (10800 times)
+[2023-07-06 11:46:58,292][98493] InferenceWorker_p0-w0: resuming experience collection (10800 times)
+[2023-07-06 11:46:58,481][98493] Updated weights for policy 0, policy_version 209889 (0.0006)
+[2023-07-06 11:46:59,666][98493] Updated weights for policy 0, policy_version 209947 (0.0008)
+[2023-07-06 11:46:59,764][98243] Fps is (10 sec: 111411.8, 60 sec: 108680.8, 300 sec: 110856.0). Total num frames: 429981696. Throughput: 0: 28013.3. Samples: 107559936. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:46:59,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:47:00,282][98493] Updated weights for policy 0, policy_version 210007 (0.0008)
+[2023-07-06 11:47:00,772][98493] Updated weights for policy 0, policy_version 210064 (0.0007)
+[2023-07-06 11:47:01,199][98493] Updated weights for policy 0, policy_version 210112 (0.0006)
+[2023-07-06 11:47:04,243][98493] Updated weights for policy 0, policy_version 210178 (0.0007)
+[2023-07-06 11:47:04,765][98243] Fps is (10 sec: 114683.7, 60 sec: 109226.0, 300 sec: 111077.9). Total num frames: 430571520. Throughput: 0: 27841.2. Samples: 107725824. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:04,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:47:04,815][98493] Updated weights for policy 0, policy_version 210244 (0.0008)
+[2023-07-06 11:47:05,308][98493] Updated weights for policy 0, policy_version 210304 (0.0007)
+[2023-07-06 11:47:05,807][98493] Updated weights for policy 0, policy_version 210364 (0.0007)
+[2023-07-06 11:47:07,981][98493] Updated weights for policy 0, policy_version 210423 (0.0007)
+[2023-07-06 11:47:09,366][98493] Updated weights for policy 0, policy_version 210480 (0.0007)
+[2023-07-06 11:47:09,764][98243] Fps is (10 sec: 117963.9, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 431161344. Throughput: 0: 27875.7. Samples: 107806720. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:09,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:47:09,840][98493] Updated weights for policy 0, policy_version 210533 (0.0008)
+[2023-07-06 11:47:10,279][98493] Updated weights for policy 0, policy_version 210581 (0.0007)
+[2023-07-06 11:47:12,524][98493] Updated weights for policy 0, policy_version 210647 (0.0008)
+[2023-07-06 11:47:13,848][98493] Updated weights for policy 0, policy_version 210689 (0.0007)
+[2023-07-06 11:47:14,402][98493] Updated weights for policy 0, policy_version 210756 (0.0008)
+[2023-07-06 11:47:14,548][98449] Signal inference workers to stop experience collection... (10850 times)
+[2023-07-06 11:47:14,575][98493] InferenceWorker_p0-w0: stopping experience collection (10850 times)
+[2023-07-06 11:47:14,642][98449] Signal inference workers to resume experience collection... (10850 times)
+[2023-07-06 11:47:14,642][98493] InferenceWorker_p0-w0: resuming experience collection (10850 times)
+[2023-07-06 11:47:14,764][98243] Fps is (10 sec: 111416.1, 60 sec: 110322.4, 300 sec: 111300.3). Total num frames: 431685632. Throughput: 0: 27955.2. Samples: 107975680. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:14,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:47:14,903][98493] Updated weights for policy 0, policy_version 210816 (0.0007)
+[2023-07-06 11:47:15,425][98493] Updated weights for policy 0, policy_version 210873 (0.0007)
+[2023-07-06 11:47:17,403][98493] Updated weights for policy 0, policy_version 210928 (0.0007)
+[2023-07-06 11:47:18,686][98493] Updated weights for policy 0, policy_version 210977 (0.0008)
+[2023-07-06 11:47:19,124][98493] Updated weights for policy 0, policy_version 211026 (0.0007)
+[2023-07-06 11:47:19,601][98493] Updated weights for policy 0, policy_version 211088 (0.0008)
+[2023-07-06 11:47:19,764][98243] Fps is (10 sec: 117964.7, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 432340992. Throughput: 0: 27739.0. Samples: 108136960. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:47:21,680][98493] Updated weights for policy 0, policy_version 211142 (0.0008)
+[2023-07-06 11:47:22,149][98493] Updated weights for policy 0, policy_version 211200 (0.0008)
+[2023-07-06 11:47:23,731][98493] Updated weights for policy 0, policy_version 211272 (0.0007)
+[2023-07-06 11:47:24,245][98493] Updated weights for policy 0, policy_version 211333 (0.0007)
+[2023-07-06 11:47:24,671][98493] Updated weights for policy 0, policy_version 211389 (0.0007)
+[2023-07-06 11:47:24,764][98243] Fps is (10 sec: 124517.4, 60 sec: 113596.3, 300 sec: 111966.6). Total num frames: 432930816. Throughput: 0: 28046.2. Samples: 108227072. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:24,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 11:47:26,729][98493] Updated weights for policy 0, policy_version 211429 (0.0007)
+[2023-07-06 11:47:28,247][98493] Updated weights for policy 0, policy_version 211496 (0.0008)
+[2023-07-06 11:47:28,706][98493] Updated weights for policy 0, policy_version 211552 (0.0008)
+[2023-07-06 11:47:29,257][98493] Updated weights for policy 0, policy_version 211616 (0.0007)
+[2023-07-06 11:47:29,764][98243] Fps is (10 sec: 111409.3, 60 sec: 113595.3, 300 sec: 111522.2). Total num frames: 433455104. Throughput: 0: 27829.9. Samples: 108391424. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:47:31,280][98493] Updated weights for policy 0, policy_version 211664 (0.0006)
+[2023-07-06 11:47:31,446][98449] Signal inference workers to stop experience collection... (10900 times)
+[2023-07-06 11:47:31,491][98493] InferenceWorker_p0-w0: stopping experience collection (10900 times)
+[2023-07-06 11:47:31,548][98449] Signal inference workers to resume experience collection... (10900 times)
+[2023-07-06 11:47:31,549][98493] InferenceWorker_p0-w0: resuming experience collection (10900 times)
+[2023-07-06 11:47:32,572][98493] Updated weights for policy 0, policy_version 211728 (0.0007)
+[2023-07-06 11:47:33,205][98493] Updated weights for policy 0, policy_version 211794 (0.0009)
+[2023-07-06 11:47:33,768][98493] Updated weights for policy 0, policy_version 211862 (0.0007)
+[2023-07-06 11:47:34,764][98243] Fps is (10 sec: 104857.1, 60 sec: 113595.6, 300 sec: 111522.2). Total num frames: 433979392. Throughput: 0: 27693.5. Samples: 108553728. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:34,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:47:36,349][98493] Updated weights for policy 0, policy_version 211911 (0.0008)
+[2023-07-06 11:47:36,813][98493] Updated weights for policy 0, policy_version 211968 (0.0007)
+[2023-07-06 11:47:37,662][98493] Updated weights for policy 0, policy_version 212032 (0.0006)
+[2023-07-06 11:47:38,333][98493] Updated weights for policy 0, policy_version 212098 (0.0007)
+[2023-07-06 11:47:38,790][98493] Updated weights for policy 0, policy_version 212154 (0.0007)
+[2023-07-06 11:47:39,765][98243] Fps is (10 sec: 104857.0, 60 sec: 113595.3, 300 sec: 111522.4). Total num frames: 434503680. Throughput: 0: 27807.1. Samples: 108640256. Policy #0 lag: (min: 117.0, avg: 225.0, max: 309.0)
+[2023-07-06 11:47:39,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:47:41,295][98493] Updated weights for policy 0, policy_version 212216 (0.0007)
+[2023-07-06 11:47:42,166][98493] Updated weights for policy 0, policy_version 212272 (0.0007)
+[2023-07-06 11:47:43,039][98493] Updated weights for policy 0, policy_version 212339 (0.0007)
+[2023-07-06 11:47:43,563][98493] Updated weights for policy 0, policy_version 212400 (0.0008)
+[2023-07-06 11:47:44,764][98243] Fps is (10 sec: 104858.9, 60 sec: 112503.7, 300 sec: 111522.3). Total num frames: 435027968. Throughput: 0: 27500.1. Samples: 108797440. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:47:44,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:47:46,128][98493] Updated weights for policy 0, policy_version 212453 (0.0006)
+[2023-07-06 11:47:46,599][98493] Updated weights for policy 0, policy_version 212503 (0.0007)
+[2023-07-06 11:47:47,433][98493] Updated weights for policy 0, policy_version 212548 (0.0007)
+[2023-07-06 11:47:47,923][98493] Updated weights for policy 0, policy_version 212608 (0.0009)
+[2023-07-06 11:47:47,975][98449] Signal inference workers to stop experience collection... (10950 times)
+[2023-07-06 11:47:48,009][98493] InferenceWorker_p0-w0: stopping experience collection (10950 times)
+[2023-07-06 11:47:48,052][98449] Signal inference workers to resume experience collection... (10950 times)
+[2023-07-06 11:47:48,052][98493] InferenceWorker_p0-w0: resuming experience collection (10950 times)
+[2023-07-06 11:47:48,455][98493] Updated weights for policy 0, policy_version 212669 (0.0007)
+[2023-07-06 11:47:49,764][98243] Fps is (10 sec: 104860.2, 60 sec: 111411.2, 300 sec: 111189.1). Total num frames: 435552256. Throughput: 0: 27716.5. Samples: 108973056. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:47:49,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 11:47:50,714][98493] Updated weights for policy 0, policy_version 212708 (0.0007)
+[2023-07-06 11:47:51,381][98493] Updated weights for policy 0, policy_version 212754 (0.0006)
+[2023-07-06 11:47:51,689][98493] Updated weights for policy 0, policy_version 212796 (0.0006)
+[2023-07-06 11:47:52,387][98493] Updated weights for policy 0, policy_version 212850 (0.0008)
+[2023-07-06 11:47:52,946][98493] Updated weights for policy 0, policy_version 212921 (0.0007)
+[2023-07-06 11:47:54,764][98243] Fps is (10 sec: 104856.9, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 436076544. Throughput: 0: 27704.9. Samples: 109053440. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:47:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:47:55,333][98493] Updated weights for policy 0, policy_version 212968 (0.0007)
+[2023-07-06 11:47:56,272][98493] Updated weights for policy 0, policy_version 213024 (0.0008)
+[2023-07-06 11:47:56,786][98493] Updated weights for policy 0, policy_version 213077 (0.0007)
+[2023-07-06 11:47:57,288][98493] Updated weights for policy 0, policy_version 213136 (0.0006)
+[2023-07-06 11:47:59,764][98243] Fps is (10 sec: 104856.2, 60 sec: 110318.6, 300 sec: 110966.8). Total num frames: 436600832. Throughput: 0: 27670.6. Samples: 109220864. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:47:59,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:47:59,787][98493] Updated weights for policy 0, policy_version 213186 (0.0008)
+[2023-07-06 11:47:59,997][98449] Saving new best policy, reward=9.870!
+[2023-07-06 11:48:00,771][98493] Updated weights for policy 0, policy_version 213253 (0.0007)
+[2023-07-06 11:48:01,214][98493] Updated weights for policy 0, policy_version 213307 (0.0007)
+[2023-07-06 11:48:01,564][98493] Updated weights for policy 0, policy_version 213344 (0.0034)
+[2023-07-06 11:48:02,082][98493] Updated weights for policy 0, policy_version 213394 (0.0009)
+[2023-07-06 11:48:02,446][98493] Updated weights for policy 0, policy_version 213440 (0.0007)
+[2023-07-06 11:48:04,764][98243] Fps is (10 sec: 111410.8, 60 sec: 110319.5, 300 sec: 110966.9). Total num frames: 437190656. Throughput: 0: 27875.5. Samples: 109391360. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:48:04,786][98493] Updated weights for policy 0, policy_version 213488 (0.0006)
+[2023-07-06 11:48:05,584][98493] Updated weights for policy 0, policy_version 213540 (0.0007)
+[2023-07-06 11:48:05,992][98449] Signal inference workers to stop experience collection... (11000 times)
+[2023-07-06 11:48:06,005][98493] InferenceWorker_p0-w0: stopping experience collection (11000 times)
+[2023-07-06 11:48:06,082][98449] Signal inference workers to resume experience collection... (11000 times)
+[2023-07-06 11:48:06,082][98493] InferenceWorker_p0-w0: resuming experience collection (11000 times)
+[2023-07-06 11:48:06,212][98493] Updated weights for policy 0, policy_version 213600 (0.0008)
+[2023-07-06 11:48:06,718][98493] Updated weights for policy 0, policy_version 213651 (0.0007)
+[2023-07-06 11:48:07,093][98493] Updated weights for policy 0, policy_version 213696 (0.0006)
+[2023-07-06 11:48:09,437][98493] Updated weights for policy 0, policy_version 213760 (0.0006)
+[2023-07-06 11:48:09,764][98243] Fps is (10 sec: 117966.5, 60 sec: 110319.0, 300 sec: 110855.8). Total num frames: 437780480. Throughput: 0: 27682.1. Samples: 109472768. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:09,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:48:10,501][98493] Updated weights for policy 0, policy_version 213819 (0.0007)
+[2023-07-06 11:48:11,030][98493] Updated weights for policy 0, policy_version 213860 (0.0007)
+[2023-07-06 11:48:11,457][98493] Updated weights for policy 0, policy_version 213907 (0.0007)
+[2023-07-06 11:48:13,777][98493] Updated weights for policy 0, policy_version 213960 (0.0007)
+[2023-07-06 11:48:14,687][98493] Updated weights for policy 0, policy_version 214019 (0.0007)
+[2023-07-06 11:48:14,764][98243] Fps is (10 sec: 114687.2, 60 sec: 110864.7, 300 sec: 110744.7). Total num frames: 438337536. Throughput: 0: 27841.5. Samples: 109644288. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:14,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 11:48:15,148][98493] Updated weights for policy 0, policy_version 214074 (0.0007)
+[2023-07-06 11:48:16,074][98493] Updated weights for policy 0, policy_version 214129 (0.0008)
+[2023-07-06 11:48:16,517][98493] Updated weights for policy 0, policy_version 214183 (0.0012)
+[2023-07-06 11:48:18,302][98493] Updated weights for policy 0, policy_version 214210 (0.0006)
+[2023-07-06 11:48:18,785][98493] Updated weights for policy 0, policy_version 214272 (0.0007)
+[2023-07-06 11:48:19,736][98493] Updated weights for policy 0, policy_version 214336 (0.0007)
+[2023-07-06 11:48:19,764][98243] Fps is (10 sec: 117964.1, 60 sec: 110318.9, 300 sec: 111078.0). Total num frames: 438960128. Throughput: 0: 27909.7. Samples: 109809664. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:19,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:48:20,743][98493] Updated weights for policy 0, policy_version 214400 (0.0008)
+[2023-07-06 11:48:21,263][98493] Updated weights for policy 0, policy_version 214458 (0.0007)
+[2023-07-06 11:48:23,156][98493] Updated weights for policy 0, policy_version 214512 (0.0007)
+[2023-07-06 11:48:24,196][98449] Signal inference workers to stop experience collection... (11050 times)
+[2023-07-06 11:48:24,230][98493] InferenceWorker_p0-w0: stopping experience collection (11050 times)
+[2023-07-06 11:48:24,273][98449] Signal inference workers to resume experience collection... (11050 times)
+[2023-07-06 11:48:24,273][98493] InferenceWorker_p0-w0: resuming experience collection (11050 times)
+[2023-07-06 11:48:24,367][98493] Updated weights for policy 0, policy_version 214567 (0.0006)
+[2023-07-06 11:48:24,764][98243] Fps is (10 sec: 114688.7, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 439484416. Throughput: 0: 27887.1. Samples: 109895168. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 11:48:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000214592_439484416.pth...
+[2023-07-06 11:48:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000201568_412811264.pth
+[2023-07-06 11:48:25,363][98493] Updated weights for policy 0, policy_version 214630 (0.0008)
+[2023-07-06 11:48:25,989][98493] Updated weights for policy 0, policy_version 214704 (0.0007)
+[2023-07-06 11:48:27,595][98493] Updated weights for policy 0, policy_version 214738 (0.0007)
+[2023-07-06 11:48:29,209][98493] Updated weights for policy 0, policy_version 214810 (0.0007)
+[2023-07-06 11:48:29,622][98493] Updated weights for policy 0, policy_version 214854 (0.0007)
+[2023-07-06 11:48:29,764][98243] Fps is (10 sec: 108133.4, 60 sec: 109772.9, 300 sec: 111189.1). Total num frames: 440041472. Throughput: 0: 28125.7. Samples: 110063104. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:48:30,152][98493] Updated weights for policy 0, policy_version 214912 (0.0008)
+[2023-07-06 11:48:30,688][98493] Updated weights for policy 0, policy_version 214976 (0.0007)
+[2023-07-06 11:48:32,573][98493] Updated weights for policy 0, policy_version 215031 (0.0007)
+[2023-07-06 11:48:34,004][98493] Updated weights for policy 0, policy_version 215072 (0.0007)
+[2023-07-06 11:48:34,544][98493] Updated weights for policy 0, policy_version 215136 (0.0007)
+[2023-07-06 11:48:34,764][98243] Fps is (10 sec: 114687.7, 60 sec: 110865.0, 300 sec: 111411.3). Total num frames: 440631296. Throughput: 0: 27898.3. Samples: 110228480. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:34,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:48:35,083][98493] Updated weights for policy 0, policy_version 215193 (0.0008)
+[2023-07-06 11:48:35,353][98493] Updated weights for policy 0, policy_version 215232 (0.0007)
+[2023-07-06 11:48:37,029][98493] Updated weights for policy 0, policy_version 215294 (0.0007)
+[2023-07-06 11:48:38,742][98493] Updated weights for policy 0, policy_version 215354 (0.0007)
+[2023-07-06 11:48:39,348][98493] Updated weights for policy 0, policy_version 215416 (0.0008)
+[2023-07-06 11:48:39,764][98243] Fps is (10 sec: 117966.5, 60 sec: 111957.8, 300 sec: 111522.3). Total num frames: 441221120. Throughput: 0: 28012.1. Samples: 110313984. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:48:39,985][98493] Updated weights for policy 0, policy_version 215472 (0.0009)
+[2023-07-06 11:48:41,392][98493] Updated weights for policy 0, policy_version 215504 (0.0007)
+[2023-07-06 11:48:41,453][98449] Signal inference workers to stop experience collection... (11100 times)
+[2023-07-06 11:48:41,480][98493] InferenceWorker_p0-w0: stopping experience collection (11100 times)
+[2023-07-06 11:48:41,536][98449] Signal inference workers to resume experience collection... (11100 times)
+[2023-07-06 11:48:41,537][98493] InferenceWorker_p0-w0: resuming experience collection (11100 times)
+[2023-07-06 11:48:41,741][98493] Updated weights for policy 0, policy_version 215546 (0.0007)
+[2023-07-06 11:48:43,303][98493] Updated weights for policy 0, policy_version 215584 (0.0009)
+[2023-07-06 11:48:43,945][98493] Updated weights for policy 0, policy_version 215656 (0.0007)
+[2023-07-06 11:48:44,569][98493] Updated weights for policy 0, policy_version 215723 (0.0026)
+[2023-07-06 11:48:44,764][98243] Fps is (10 sec: 121242.6, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 441843712. Throughput: 0: 28034.9. Samples: 110482432. Policy #0 lag: (min: 15.0, avg: 88.6, max: 271.0)
+[2023-07-06 11:48:44,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:48:46,214][98493] Updated weights for policy 0, policy_version 215776 (0.0006)
+[2023-07-06 11:48:46,508][98493] Updated weights for policy 0, policy_version 215807 (0.0007)
+[2023-07-06 11:48:47,999][98493] Updated weights for policy 0, policy_version 215856 (0.0006)
+[2023-07-06 11:48:48,436][98493] Updated weights for policy 0, policy_version 215904 (0.0009)
+[2023-07-06 11:48:48,895][98493] Updated weights for policy 0, policy_version 215952 (0.0006)
+[2023-07-06 11:48:49,764][98243] Fps is (10 sec: 114688.2, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 442368000. Throughput: 0: 27955.2. Samples: 110649344. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:48:49,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:48:50,658][98493] Updated weights for policy 0, policy_version 216002 (0.0011)
+[2023-07-06 11:48:51,142][98493] Updated weights for policy 0, policy_version 216064 (0.0007)
+[2023-07-06 11:48:52,982][98493] Updated weights for policy 0, policy_version 216134 (0.0007)
+[2023-07-06 11:48:53,402][98493] Updated weights for policy 0, policy_version 216184 (0.0007)
+[2023-07-06 11:48:53,934][98493] Updated weights for policy 0, policy_version 216240 (0.0008)
+[2023-07-06 11:48:54,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113595.8, 300 sec: 111522.4). Total num frames: 442892288. Throughput: 0: 28057.6. Samples: 110735360. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:48:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:48:55,802][98493] Updated weights for policy 0, policy_version 216296 (0.0007)
+[2023-07-06 11:48:57,318][98493] Updated weights for policy 0, policy_version 216344 (0.0007)
+[2023-07-06 11:48:57,602][98493] Updated weights for policy 0, policy_version 216380 (0.0007)
+[2023-07-06 11:48:58,074][98493] Updated weights for policy 0, policy_version 216419 (0.0008)
+[2023-07-06 11:48:58,494][98449] Signal inference workers to stop experience collection... (11150 times)
+[2023-07-06 11:48:58,536][98493] InferenceWorker_p0-w0: stopping experience collection (11150 times)
+[2023-07-06 11:48:58,616][98449] Signal inference workers to resume experience collection... (11150 times)
+[2023-07-06 11:48:58,616][98493] InferenceWorker_p0-w0: resuming experience collection (11150 times)
+[2023-07-06 11:48:58,618][98493] Updated weights for policy 0, policy_version 216480 (0.0008)
+[2023-07-06 11:48:59,764][98243] Fps is (10 sec: 104855.9, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 443416576. Throughput: 0: 27807.3. Samples: 110895616. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:48:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:49:00,623][98493] Updated weights for policy 0, policy_version 216544 (0.0007)
+[2023-07-06 11:49:02,073][98493] Updated weights for policy 0, policy_version 216592 (0.0006)
+[2023-07-06 11:49:02,530][98493] Updated weights for policy 0, policy_version 216640 (0.0007)
+[2023-07-06 11:49:03,086][98493] Updated weights for policy 0, policy_version 216704 (0.0007)
+[2023-07-06 11:49:03,583][98493] Updated weights for policy 0, policy_version 216760 (0.0011)
+[2023-07-06 11:49:04,764][98243] Fps is (10 sec: 104857.2, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 443940864. Throughput: 0: 27909.7. Samples: 111065600. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:49:05,453][98493] Updated weights for policy 0, policy_version 216824 (0.0008)
+[2023-07-06 11:49:06,934][98493] Updated weights for policy 0, policy_version 216872 (0.0007)
+[2023-07-06 11:49:07,590][98493] Updated weights for policy 0, policy_version 216935 (0.0007)
+[2023-07-06 11:49:08,189][98493] Updated weights for policy 0, policy_version 217000 (0.0007)
+[2023-07-06 11:49:09,764][98243] Fps is (10 sec: 104859.2, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 444465152. Throughput: 0: 27795.9. Samples: 111145984. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:09,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 11:49:09,906][98449] Saving new best policy, reward=9.890!
+[2023-07-06 11:49:10,223][98493] Updated weights for policy 0, policy_version 217072 (0.0008)
+[2023-07-06 11:49:11,818][98493] Updated weights for policy 0, policy_version 217125 (0.0007)
+[2023-07-06 11:49:12,376][98493] Updated weights for policy 0, policy_version 217185 (0.0007)
+[2023-07-06 11:49:12,870][98493] Updated weights for policy 0, policy_version 217248 (0.0007)
+[2023-07-06 11:49:14,622][98493] Updated weights for policy 0, policy_version 217304 (0.0007)
+[2023-07-06 11:49:14,764][98243] Fps is (10 sec: 111411.9, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 445054976. Throughput: 0: 27773.3. Samples: 111312896. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:14,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:49:16,191][98493] Updated weights for policy 0, policy_version 217347 (0.0006)
+[2023-07-06 11:49:16,715][98449] Signal inference workers to stop experience collection... (11200 times)
+[2023-07-06 11:49:16,762][98493] InferenceWorker_p0-w0: stopping experience collection (11200 times)
+[2023-07-06 11:49:16,763][98493] Updated weights for policy 0, policy_version 217415 (0.0007)
+[2023-07-06 11:49:16,809][98449] Signal inference workers to resume experience collection... (11200 times)
+[2023-07-06 11:49:16,810][98493] InferenceWorker_p0-w0: resuming experience collection (11200 times)
+[2023-07-06 11:49:17,343][98493] Updated weights for policy 0, policy_version 217477 (0.0008)
+[2023-07-06 11:49:17,748][98493] Updated weights for policy 0, policy_version 217533 (0.0007)
+[2023-07-06 11:49:19,549][98493] Updated weights for policy 0, policy_version 217592 (0.0006)
+[2023-07-06 11:49:19,764][98243] Fps is (10 sec: 117964.4, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 445644800. Throughput: 0: 27852.8. Samples: 111481856. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:49:20,970][98493] Updated weights for policy 0, policy_version 217620 (0.0006)
+[2023-07-06 11:49:21,567][98493] Updated weights for policy 0, policy_version 217684 (0.0007)
+[2023-07-06 11:49:22,229][98493] Updated weights for policy 0, policy_version 217760 (0.0007)
+[2023-07-06 11:49:23,960][98493] Updated weights for policy 0, policy_version 217808 (0.0006)
+[2023-07-06 11:49:24,343][98493] Updated weights for policy 0, policy_version 217852 (0.0006)
+[2023-07-06 11:49:24,764][98243] Fps is (10 sec: 111408.7, 60 sec: 111410.9, 300 sec: 111300.0). Total num frames: 446169088. Throughput: 0: 27750.3. Samples: 111562752. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:49:26,042][98493] Updated weights for policy 0, policy_version 217895 (0.0007)
+[2023-07-06 11:49:26,500][98493] Updated weights for policy 0, policy_version 217952 (0.0007)
+[2023-07-06 11:49:27,014][98493] Updated weights for policy 0, policy_version 218003 (0.0008)
+[2023-07-06 11:49:27,359][98493] Updated weights for policy 0, policy_version 218048 (0.0007)
+[2023-07-06 11:49:29,002][98493] Updated weights for policy 0, policy_version 218103 (0.0007)
+[2023-07-06 11:49:29,765][98243] Fps is (10 sec: 104855.3, 60 sec: 110864.9, 300 sec: 110966.8). Total num frames: 446693376. Throughput: 0: 27864.0. Samples: 111736320. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:49:30,351][98493] Updated weights for policy 0, policy_version 218131 (0.0006)
+[2023-07-06 11:49:30,984][98493] Updated weights for policy 0, policy_version 218208 (0.0007)
+[2023-07-06 11:49:31,507][98493] Updated weights for policy 0, policy_version 218264 (0.0009)
+[2023-07-06 11:49:33,248][98493] Updated weights for policy 0, policy_version 218311 (0.0007)
+[2023-07-06 11:49:33,336][98449] Signal inference workers to stop experience collection... (11250 times)
+[2023-07-06 11:49:33,379][98493] InferenceWorker_p0-w0: stopping experience collection (11250 times)
+[2023-07-06 11:49:33,440][98449] Signal inference workers to resume experience collection... (11250 times)
+[2023-07-06 11:49:33,441][98493] InferenceWorker_p0-w0: resuming experience collection (11250 times)
+[2023-07-06 11:49:33,670][98493] Updated weights for policy 0, policy_version 218362 (0.0007)
+[2023-07-06 11:49:34,764][98243] Fps is (10 sec: 104859.0, 60 sec: 109772.8, 300 sec: 110744.7). Total num frames: 447217664. Throughput: 0: 27955.2. Samples: 111907328. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:34,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:49:35,297][98493] Updated weights for policy 0, policy_version 218416 (0.0007)
+[2023-07-06 11:49:35,825][98493] Updated weights for policy 0, policy_version 218471 (0.0008)
+[2023-07-06 11:49:36,299][98493] Updated weights for policy 0, policy_version 218528 (0.0008)
+[2023-07-06 11:49:37,823][98493] Updated weights for policy 0, policy_version 218577 (0.0007)
+[2023-07-06 11:49:39,764][98243] Fps is (10 sec: 104859.9, 60 sec: 108680.5, 300 sec: 110633.6). Total num frames: 447741952. Throughput: 0: 27807.3. Samples: 111986688. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:49:39,923][98493] Updated weights for policy 0, policy_version 218640 (0.0007)
+[2023-07-06 11:49:40,491][98493] Updated weights for policy 0, policy_version 218704 (0.0007)
+[2023-07-06 11:49:40,985][98493] Updated weights for policy 0, policy_version 218756 (0.0007)
+[2023-07-06 11:49:41,406][98493] Updated weights for policy 0, policy_version 218809 (0.0007)
+[2023-07-06 11:49:42,669][98493] Updated weights for policy 0, policy_version 218864 (0.0006)
+[2023-07-06 11:49:44,679][98493] Updated weights for policy 0, policy_version 218899 (0.0007)
+[2023-07-06 11:49:44,764][98243] Fps is (10 sec: 111410.5, 60 sec: 108134.2, 300 sec: 110855.8). Total num frames: 448331776. Throughput: 0: 27978.0. Samples: 112154624. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:49:45,278][98493] Updated weights for policy 0, policy_version 218976 (0.0007)
+[2023-07-06 11:49:45,784][98493] Updated weights for policy 0, policy_version 219029 (0.0009)
+[2023-07-06 11:49:46,946][98493] Updated weights for policy 0, policy_version 219076 (0.0007)
+[2023-07-06 11:49:47,363][98493] Updated weights for policy 0, policy_version 219130 (0.0007)
+[2023-07-06 11:49:49,390][98493] Updated weights for policy 0, policy_version 219168 (0.0007)
+[2023-07-06 11:49:49,764][98243] Fps is (10 sec: 117965.2, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 448921600. Throughput: 0: 28000.7. Samples: 112325632. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:49,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 11:49:49,889][98493] Updated weights for policy 0, policy_version 219219 (0.0007)
+[2023-07-06 11:49:50,010][98449] Signal inference workers to stop experience collection... (11300 times)
+[2023-07-06 11:49:50,048][98493] InferenceWorker_p0-w0: stopping experience collection (11300 times)
+[2023-07-06 11:49:50,083][98449] Signal inference workers to resume experience collection... (11300 times)
+[2023-07-06 11:49:50,084][98493] InferenceWorker_p0-w0: resuming experience collection (11300 times)
+[2023-07-06 11:49:50,437][98493] Updated weights for policy 0, policy_version 219283 (0.0007)
+[2023-07-06 11:49:51,432][98493] Updated weights for policy 0, policy_version 219332 (0.0007)
+[2023-07-06 11:49:51,873][98493] Updated weights for policy 0, policy_version 219388 (0.0007)
+[2023-07-06 11:49:54,112][98493] Updated weights for policy 0, policy_version 219428 (0.0008)
+[2023-07-06 11:49:54,532][98493] Updated weights for policy 0, policy_version 219476 (0.0009)
+[2023-07-06 11:49:54,764][98243] Fps is (10 sec: 121243.7, 60 sec: 110865.1, 300 sec: 111411.2). Total num frames: 449544192. Throughput: 0: 28046.3. Samples: 112408064. Policy #0 lag: (min: 31.0, avg: 165.2, max: 271.0)
+[2023-07-06 11:49:54,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:49:55,110][98493] Updated weights for policy 0, policy_version 219543 (0.0006)
+[2023-07-06 11:49:55,479][98493] Updated weights for policy 0, policy_version 219584 (0.0007)
+[2023-07-06 11:49:56,356][98493] Updated weights for policy 0, policy_version 219644 (0.0008)
+[2023-07-06 11:49:59,170][98493] Updated weights for policy 0, policy_version 219718 (0.0009)
+[2023-07-06 11:49:59,727][98493] Updated weights for policy 0, policy_version 219778 (0.0007)
+[2023-07-06 11:49:59,764][98243] Fps is (10 sec: 117963.7, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 450101248. Throughput: 0: 28194.0. Samples: 112581632. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:49:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 11:50:00,109][98493] Updated weights for policy 0, policy_version 219824 (0.0009)
+[2023-07-06 11:50:00,976][98493] Updated weights for policy 0, policy_version 219872 (0.0007)
+[2023-07-06 11:50:03,413][98493] Updated weights for policy 0, policy_version 219920 (0.0007)
+[2023-07-06 11:50:04,058][98493] Updated weights for policy 0, policy_version 219989 (0.0008)
+[2023-07-06 11:50:04,551][98493] Updated weights for policy 0, policy_version 220039 (0.0007)
+[2023-07-06 11:50:04,764][98243] Fps is (10 sec: 114687.8, 60 sec: 112503.6, 300 sec: 111749.8). Total num frames: 450691072. Throughput: 0: 27909.7. Samples: 112737792. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:04,774][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:50:05,492][98493] Updated weights for policy 0, policy_version 220100 (0.0007)
+[2023-07-06 11:50:08,089][98449] Signal inference workers to stop experience collection... (11350 times)
+[2023-07-06 11:50:08,095][98493] Updated weights for policy 0, policy_version 220162 (0.0007)
+[2023-07-06 11:50:08,119][98493] InferenceWorker_p0-w0: stopping experience collection (11350 times)
+[2023-07-06 11:50:08,182][98449] Signal inference workers to resume experience collection... (11350 times)
+[2023-07-06 11:50:08,183][98493] InferenceWorker_p0-w0: resuming experience collection (11350 times)
+[2023-07-06 11:50:08,529][98493] Updated weights for policy 0, policy_version 220210 (0.0007)
+[2023-07-06 11:50:08,892][98493] Updated weights for policy 0, policy_version 220256 (0.0007)
+[2023-07-06 11:50:09,542][98493] Updated weights for policy 0, policy_version 220329 (0.0008)
+[2023-07-06 11:50:09,764][98243] Fps is (10 sec: 117964.4, 60 sec: 113595.5, 300 sec: 111855.6). Total num frames: 451280896. Throughput: 0: 28046.3. Samples: 112824832. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:50:10,490][98493] Updated weights for policy 0, policy_version 220384 (0.0007)
+[2023-07-06 11:50:12,957][98493] Updated weights for policy 0, policy_version 220441 (0.0009)
+[2023-07-06 11:50:13,356][98493] Updated weights for policy 0, policy_version 220486 (0.0007)
+[2023-07-06 11:50:13,895][98493] Updated weights for policy 0, policy_version 220547 (0.0008)
+[2023-07-06 11:50:14,324][98493] Updated weights for policy 0, policy_version 220603 (0.0008)
+[2023-07-06 11:50:14,764][98243] Fps is (10 sec: 111411.0, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 451805184. Throughput: 0: 27818.8. Samples: 112988160. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:14,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:50:15,258][98493] Updated weights for policy 0, policy_version 220644 (0.0006)
+[2023-07-06 11:50:17,717][98493] Updated weights for policy 0, policy_version 220706 (0.0007)
+[2023-07-06 11:50:18,199][98493] Updated weights for policy 0, policy_version 220768 (0.0007)
+[2023-07-06 11:50:18,640][98493] Updated weights for policy 0, policy_version 220816 (0.0007)
+[2023-07-06 11:50:19,090][98493] Updated weights for policy 0, policy_version 220864 (0.0007)
+[2023-07-06 11:50:19,764][98243] Fps is (10 sec: 108136.3, 60 sec: 111957.5, 300 sec: 111633.4). Total num frames: 452362240. Throughput: 0: 27773.2. Samples: 113157120. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:50:21,996][98493] Updated weights for policy 0, policy_version 220929 (0.0007)
+[2023-07-06 11:50:22,491][98493] Updated weights for policy 0, policy_version 220992 (0.0007)
+[2023-07-06 11:50:22,970][98493] Updated weights for policy 0, policy_version 221053 (0.0007)
+[2023-07-06 11:50:23,331][98449] Signal inference workers to stop experience collection... (11400 times)
+[2023-07-06 11:50:23,361][98493] InferenceWorker_p0-w0: stopping experience collection (11400 times)
+[2023-07-06 11:50:23,415][98449] Signal inference workers to resume experience collection... (11400 times)
+[2023-07-06 11:50:23,416][98493] InferenceWorker_p0-w0: resuming experience collection (11400 times)
+[2023-07-06 11:50:23,617][98493] Updated weights for policy 0, policy_version 221112 (0.0008)
+[2023-07-06 11:50:24,764][98243] Fps is (10 sec: 108133.3, 60 sec: 111957.5, 300 sec: 111633.5). Total num frames: 452886528. Throughput: 0: 27886.9. Samples: 113241600. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:50:24,874][98493] Updated weights for policy 0, policy_version 221155 (0.0008)
+[2023-07-06 11:50:24,940][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000221168_452952064.pth...
+[2023-07-06 11:50:24,958][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000208064_426115072.pth
+[2023-07-06 11:50:26,603][98493] Updated weights for policy 0, policy_version 221200 (0.0007)
+[2023-07-06 11:50:27,112][98493] Updated weights for policy 0, policy_version 221251 (0.0007)
+[2023-07-06 11:50:27,562][98493] Updated weights for policy 0, policy_version 221310 (0.0006)
+[2023-07-06 11:50:28,273][98493] Updated weights for policy 0, policy_version 221360 (0.0007)
+[2023-07-06 11:50:29,448][98493] Updated weights for policy 0, policy_version 221408 (0.0006)
+[2023-07-06 11:50:29,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113596.3, 300 sec: 111966.8). Total num frames: 453509120. Throughput: 0: 27841.5. Samples: 113407488. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:50:31,225][98493] Updated weights for policy 0, policy_version 221458 (0.0007)
+[2023-07-06 11:50:31,669][98493] Updated weights for policy 0, policy_version 221506 (0.0007)
+[2023-07-06 11:50:32,149][98493] Updated weights for policy 0, policy_version 221566 (0.0008)
+[2023-07-06 11:50:32,936][98493] Updated weights for policy 0, policy_version 221624 (0.0008)
+[2023-07-06 11:50:34,172][98493] Updated weights for policy 0, policy_version 221669 (0.0006)
+[2023-07-06 11:50:34,764][98243] Fps is (10 sec: 114689.0, 60 sec: 113595.8, 300 sec: 111633.4). Total num frames: 454033408. Throughput: 0: 27875.6. Samples: 113580032. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:34,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:50:35,755][98493] Updated weights for policy 0, policy_version 221719 (0.0006)
+[2023-07-06 11:50:36,345][98493] Updated weights for policy 0, policy_version 221792 (0.0007)
+[2023-07-06 11:50:37,648][98493] Updated weights for policy 0, policy_version 221856 (0.0006)
+[2023-07-06 11:50:38,807][98493] Updated weights for policy 0, policy_version 221908 (0.0007)
+[2023-07-06 11:50:39,095][98493] Updated weights for policy 0, policy_version 221949 (0.0006)
+[2023-07-06 11:50:39,764][98243] Fps is (10 sec: 104856.6, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 454557696. Throughput: 0: 27841.3. Samples: 113660928. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:50:40,657][98493] Updated weights for policy 0, policy_version 222000 (0.0007)
+[2023-07-06 11:50:41,138][98449] Signal inference workers to stop experience collection... (11450 times)
+[2023-07-06 11:50:41,157][98493] InferenceWorker_p0-w0: stopping experience collection (11450 times)
+[2023-07-06 11:50:41,224][98449] Signal inference workers to resume experience collection... (11450 times)
+[2023-07-06 11:50:41,225][98493] InferenceWorker_p0-w0: resuming experience collection (11450 times)
+[2023-07-06 11:50:41,306][98493] Updated weights for policy 0, policy_version 222074 (0.0008)
+[2023-07-06 11:50:42,347][98493] Updated weights for policy 0, policy_version 222112 (0.0009)
+[2023-07-06 11:50:43,420][98493] Updated weights for policy 0, policy_version 222160 (0.0007)
+[2023-07-06 11:50:43,849][98493] Updated weights for policy 0, policy_version 222208 (0.0007)
+[2023-07-06 11:50:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 112503.7, 300 sec: 111189.0). Total num frames: 455081984. Throughput: 0: 27727.7. Samples: 113829376. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:50:45,401][98493] Updated weights for policy 0, policy_version 222259 (0.0008)
+[2023-07-06 11:50:45,882][98493] Updated weights for policy 0, policy_version 222320 (0.0007)
+[2023-07-06 11:50:47,031][98493] Updated weights for policy 0, policy_version 222359 (0.0007)
+[2023-07-06 11:50:48,166][98493] Updated weights for policy 0, policy_version 222416 (0.0006)
+[2023-07-06 11:50:48,578][98493] Updated weights for policy 0, policy_version 222464 (0.0007)
+[2023-07-06 11:50:49,764][98243] Fps is (10 sec: 111412.3, 60 sec: 112503.5, 300 sec: 111189.1). Total num frames: 455671808. Throughput: 0: 28080.4. Samples: 114001408. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:49,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:50:49,951][98493] Updated weights for policy 0, policy_version 222513 (0.0007)
+[2023-07-06 11:50:50,456][98493] Updated weights for policy 0, policy_version 222576 (0.0008)
+[2023-07-06 11:50:51,873][98493] Updated weights for policy 0, policy_version 222629 (0.0007)
+[2023-07-06 11:50:52,948][98493] Updated weights for policy 0, policy_version 222690 (0.0007)
+[2023-07-06 11:50:54,219][98493] Updated weights for policy 0, policy_version 222725 (0.0007)
+[2023-07-06 11:50:54,680][98493] Updated weights for policy 0, policy_version 222770 (0.0008)
+[2023-07-06 11:50:54,764][98243] Fps is (10 sec: 117964.2, 60 sec: 111957.2, 300 sec: 111189.1). Total num frames: 456261632. Throughput: 0: 28000.8. Samples: 114084864. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:54,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 11:50:55,184][98493] Updated weights for policy 0, policy_version 222832 (0.0006)
+[2023-07-06 11:50:56,328][98493] Updated weights for policy 0, policy_version 222881 (0.0007)
+[2023-07-06 11:50:57,466][98493] Updated weights for policy 0, policy_version 222936 (0.0006)
+[2023-07-06 11:50:58,919][98493] Updated weights for policy 0, policy_version 222992 (0.0006)
+[2023-07-06 11:50:59,659][98493] Updated weights for policy 0, policy_version 223045 (0.0007)
+[2023-07-06 11:50:59,756][98449] Signal inference workers to stop experience collection... (11500 times)
+[2023-07-06 11:50:59,764][98243] Fps is (10 sec: 114687.1, 60 sec: 111957.4, 300 sec: 111189.0). Total num frames: 456818688. Throughput: 0: 28160.0. Samples: 114255360. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:50:59,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:50:59,796][98493] InferenceWorker_p0-w0: stopping experience collection (11500 times)
+[2023-07-06 11:50:59,844][98449] Signal inference workers to resume experience collection... (11500 times)
+[2023-07-06 11:50:59,844][98493] InferenceWorker_p0-w0: resuming experience collection (11500 times)
+[2023-07-06 11:51:00,114][98493] Updated weights for policy 0, policy_version 223104 (0.0007)
+[2023-07-06 11:51:01,256][98493] Updated weights for policy 0, policy_version 223162 (0.0007)
+[2023-07-06 11:51:02,149][98493] Updated weights for policy 0, policy_version 223216 (0.0007)
+[2023-07-06 11:51:03,978][98493] Updated weights for policy 0, policy_version 223272 (0.0008)
+[2023-07-06 11:51:04,489][98493] Updated weights for policy 0, policy_version 223328 (0.0007)
+[2023-07-06 11:51:04,764][98243] Fps is (10 sec: 117965.6, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 457441280. Throughput: 0: 27989.3. Samples: 114416640. Policy #0 lag: (min: 15.0, avg: 72.4, max: 271.0)
+[2023-07-06 11:51:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:51:05,769][98493] Updated weights for policy 0, policy_version 223384 (0.0007)
+[2023-07-06 11:51:06,290][98493] Updated weights for policy 0, policy_version 223425 (0.0007)
+[2023-07-06 11:51:06,787][98493] Updated weights for policy 0, policy_version 223488 (0.0008)
+[2023-07-06 11:51:08,927][98493] Updated weights for policy 0, policy_version 223541 (0.0007)
+[2023-07-06 11:51:09,408][98493] Updated weights for policy 0, policy_version 223600 (0.0008)
+[2023-07-06 11:51:09,764][98243] Fps is (10 sec: 114688.8, 60 sec: 111411.5, 300 sec: 111523.0). Total num frames: 457965568. Throughput: 0: 28046.3. Samples: 114503680. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:51:10,455][98493] Updated weights for policy 0, policy_version 223638 (0.0006)
+[2023-07-06 11:51:10,811][98493] Updated weights for policy 0, policy_version 223680 (0.0007)
+[2023-07-06 11:51:11,504][98493] Updated weights for policy 0, policy_version 223737 (0.0007)
+[2023-07-06 11:51:13,387][98493] Updated weights for policy 0, policy_version 223776 (0.0007)
+[2023-07-06 11:51:13,974][98493] Updated weights for policy 0, policy_version 223840 (0.0007)
+[2023-07-06 11:51:14,765][98243] Fps is (10 sec: 104849.5, 60 sec: 111409.8, 300 sec: 111522.0). Total num frames: 458489856. Throughput: 0: 28159.5. Samples: 114674688. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:14,766][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:51:15,028][98493] Updated weights for policy 0, policy_version 223904 (0.0008)
+[2023-07-06 11:51:15,864][98493] Updated weights for policy 0, policy_version 223941 (0.0006)
+[2023-07-06 11:51:16,281][98493] Updated weights for policy 0, policy_version 223995 (0.0007)
+[2023-07-06 11:51:17,987][98493] Updated weights for policy 0, policy_version 224059 (0.0008)
+[2023-07-06 11:51:18,363][98449] Signal inference workers to stop experience collection... (11550 times)
+[2023-07-06 11:51:18,405][98493] InferenceWorker_p0-w0: stopping experience collection (11550 times)
+[2023-07-06 11:51:18,441][98449] Signal inference workers to resume experience collection... (11550 times)
+[2023-07-06 11:51:18,441][98493] InferenceWorker_p0-w0: resuming experience collection (11550 times)
+[2023-07-06 11:51:18,535][98493] Updated weights for policy 0, policy_version 224105 (0.0008)
+[2023-07-06 11:51:19,533][98493] Updated weights for policy 0, policy_version 224134 (0.0013)
+[2023-07-06 11:51:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111957.3, 300 sec: 111744.6). Total num frames: 459079680. Throughput: 0: 28023.5. Samples: 114841088. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:51:20,777][98493] Updated weights for policy 0, policy_version 224198 (0.0007)
+[2023-07-06 11:51:21,203][98493] Updated weights for policy 0, policy_version 224251 (0.0006)
+[2023-07-06 11:51:22,474][98493] Updated weights for policy 0, policy_version 224304 (0.0007)
+[2023-07-06 11:51:22,748][98493] Updated weights for policy 0, policy_version 224326 (0.0007)
+[2023-07-06 11:51:24,200][98493] Updated weights for policy 0, policy_version 224385 (0.0008)
+[2023-07-06 11:51:24,604][98493] Updated weights for policy 0, policy_version 224433 (0.0007)
+[2023-07-06 11:51:24,764][98243] Fps is (10 sec: 117973.5, 60 sec: 113049.7, 300 sec: 111966.6). Total num frames: 459669504. Throughput: 0: 28103.1. Samples: 114925568. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 11:51:25,972][98493] Updated weights for policy 0, policy_version 224487 (0.0007)
+[2023-07-06 11:51:26,794][98493] Updated weights for policy 0, policy_version 224544 (0.0006)
+[2023-07-06 11:51:27,512][98493] Updated weights for policy 0, policy_version 224608 (0.0007)
+[2023-07-06 11:51:29,124][98493] Updated weights for policy 0, policy_version 224661 (0.0007)
+[2023-07-06 11:51:29,764][98243] Fps is (10 sec: 111412.0, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 460193792. Throughput: 0: 28069.0. Samples: 115092480. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:29,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:51:30,571][98493] Updated weights for policy 0, policy_version 224720 (0.0018)
+[2023-07-06 11:51:31,494][98493] Updated weights for policy 0, policy_version 224784 (0.0007)
+[2023-07-06 11:51:32,060][98493] Updated weights for policy 0, policy_version 224834 (0.0007)
+[2023-07-06 11:51:32,475][98493] Updated weights for policy 0, policy_version 224880 (0.0007)
+[2023-07-06 11:51:33,913][98493] Updated weights for policy 0, policy_version 224928 (0.0007)
+[2023-07-06 11:51:34,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 460718080. Throughput: 0: 27977.9. Samples: 115260416. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 11:51:35,214][98493] Updated weights for policy 0, policy_version 224965 (0.0007)
+[2023-07-06 11:51:35,650][98493] Updated weights for policy 0, policy_version 225017 (0.0007)
+[2023-07-06 11:51:36,180][98493] Updated weights for policy 0, policy_version 225056 (0.0007)
+[2023-07-06 11:51:36,670][98493] Updated weights for policy 0, policy_version 225093 (0.0007)
+[2023-07-06 11:51:36,934][98449] Signal inference workers to stop experience collection... (11600 times)
+[2023-07-06 11:51:36,982][98493] InferenceWorker_p0-w0: stopping experience collection (11600 times)
+[2023-07-06 11:51:37,016][98449] Signal inference workers to resume experience collection... (11600 times)
+[2023-07-06 11:51:37,016][98493] InferenceWorker_p0-w0: resuming experience collection (11600 times)
+[2023-07-06 11:51:37,064][98493] Updated weights for policy 0, policy_version 225140 (0.0008)
+[2023-07-06 11:51:38,650][98493] Updated weights for policy 0, policy_version 225194 (0.0010)
+[2023-07-06 11:51:39,765][98243] Fps is (10 sec: 104852.1, 60 sec: 111410.5, 300 sec: 111744.3). Total num frames: 461242368. Throughput: 0: 28034.6. Samples: 115346432. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:51:39,815][98493] Updated weights for policy 0, policy_version 225232 (0.0008)
+[2023-07-06 11:51:40,243][98493] Updated weights for policy 0, policy_version 225280 (0.0008)
+[2023-07-06 11:51:40,838][98493] Updated weights for policy 0, policy_version 225335 (0.0007)
+[2023-07-06 11:51:41,597][98493] Updated weights for policy 0, policy_version 225376 (0.0019)
+[2023-07-06 11:51:42,974][98493] Updated weights for policy 0, policy_version 225424 (0.0007)
+[2023-07-06 11:51:43,381][98493] Updated weights for policy 0, policy_version 225470 (0.0008)
+[2023-07-06 11:51:44,504][98493] Updated weights for policy 0, policy_version 225507 (0.0007)
+[2023-07-06 11:51:44,764][98243] Fps is (10 sec: 117963.7, 60 sec: 113595.5, 300 sec: 111966.5). Total num frames: 461897728. Throughput: 0: 28091.7. Samples: 115519488. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:51:45,090][98493] Updated weights for policy 0, policy_version 225568 (0.0006)
+[2023-07-06 11:51:46,244][98493] Updated weights for policy 0, policy_version 225624 (0.0008)
+[2023-07-06 11:51:47,857][98493] Updated weights for policy 0, policy_version 225686 (0.0007)
+[2023-07-06 11:51:48,942][98493] Updated weights for policy 0, policy_version 225751 (0.0007)
+[2023-07-06 11:51:49,663][98493] Updated weights for policy 0, policy_version 225796 (0.0006)
+[2023-07-06 11:51:49,765][98243] Fps is (10 sec: 121243.9, 60 sec: 113049.0, 300 sec: 111966.5). Total num frames: 462454784. Throughput: 0: 28216.7. Samples: 115686400. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:49,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:51:50,108][98493] Updated weights for policy 0, policy_version 225850 (0.0007)
+[2023-07-06 11:51:51,203][98493] Updated weights for policy 0, policy_version 225912 (0.0008)
+[2023-07-06 11:51:52,573][98493] Updated weights for policy 0, policy_version 225952 (0.0007)
+[2023-07-06 11:51:53,583][98493] Updated weights for policy 0, policy_version 225990 (0.0006)
+[2023-07-06 11:51:54,150][98493] Updated weights for policy 0, policy_version 226048 (0.0008)
+[2023-07-06 11:51:54,646][98493] Updated weights for policy 0, policy_version 226111 (0.0007)
+[2023-07-06 11:51:54,764][98243] Fps is (10 sec: 117965.6, 60 sec: 113595.7, 300 sec: 112188.7). Total num frames: 463077376. Throughput: 0: 28182.7. Samples: 115771904. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:54,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:51:55,650][98493] Updated weights for policy 0, policy_version 226160 (0.0008)
+[2023-07-06 11:51:56,967][98449] Signal inference workers to stop experience collection... (11650 times)
+[2023-07-06 11:51:56,996][98493] InferenceWorker_p0-w0: stopping experience collection (11650 times)
+[2023-07-06 11:51:57,058][98449] Signal inference workers to resume experience collection... (11650 times)
+[2023-07-06 11:51:57,058][98493] InferenceWorker_p0-w0: resuming experience collection (11650 times)
+[2023-07-06 11:51:57,144][98493] Updated weights for policy 0, policy_version 226197 (0.0007)
+[2023-07-06 11:51:58,222][98493] Updated weights for policy 0, policy_version 226248 (0.0006)
+[2023-07-06 11:51:58,676][98493] Updated weights for policy 0, policy_version 226299 (0.0031)
+[2023-07-06 11:51:59,153][98493] Updated weights for policy 0, policy_version 226352 (0.0008)
+[2023-07-06 11:51:59,764][98243] Fps is (10 sec: 114691.3, 60 sec: 113049.7, 300 sec: 111966.7). Total num frames: 463601664. Throughput: 0: 28171.9. Samples: 115942400. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:51:59,764][98493] Updated weights for policy 0, policy_version 226372 (0.0007)
+[2023-07-06 11:51:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:52:00,221][98493] Updated weights for policy 0, policy_version 226432 (0.0007)
+[2023-07-06 11:52:02,112][98493] Updated weights for policy 0, policy_version 226492 (0.0008)
+[2023-07-06 11:52:03,112][98493] Updated weights for policy 0, policy_version 226544 (0.0006)
+[2023-07-06 11:52:03,907][98493] Updated weights for policy 0, policy_version 226601 (0.0006)
+[2023-07-06 11:52:04,738][98493] Updated weights for policy 0, policy_version 226658 (0.0006)
+[2023-07-06 11:52:04,765][98243] Fps is (10 sec: 111407.8, 60 sec: 112502.8, 300 sec: 111966.5). Total num frames: 464191488. Throughput: 0: 28148.4. Samples: 116107776. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:52:04,766][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:52:06,520][98493] Updated weights for policy 0, policy_version 226720 (0.0007)
+[2023-07-06 11:52:07,463][98493] Updated weights for policy 0, policy_version 226768 (0.0007)
+[2023-07-06 11:52:08,488][98493] Updated weights for policy 0, policy_version 226821 (0.0008)
+[2023-07-06 11:52:09,069][98493] Updated weights for policy 0, policy_version 226882 (0.0008)
+[2023-07-06 11:52:09,580][98493] Updated weights for policy 0, policy_version 226944 (0.0007)
+[2023-07-06 11:52:09,764][98243] Fps is (10 sec: 117964.3, 60 sec: 113595.7, 300 sec: 112188.7). Total num frames: 464781312. Throughput: 0: 28194.1. Samples: 116194304. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:52:09,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 11:52:09,768][98449] Saving new best policy, reward=9.900!
+[2023-07-06 11:52:11,535][98493] Updated weights for policy 0, policy_version 227001 (0.0007)
+[2023-07-06 11:52:12,226][98493] Updated weights for policy 0, policy_version 227056 (0.0007)
+[2023-07-06 11:52:13,495][98493] Updated weights for policy 0, policy_version 227106 (0.0007)
+[2023-07-06 11:52:13,926][98493] Updated weights for policy 0, policy_version 227156 (0.0008)
+[2023-07-06 11:52:14,053][98449] Signal inference workers to stop experience collection... (11700 times)
+[2023-07-06 11:52:14,085][98493] InferenceWorker_p0-w0: stopping experience collection (11700 times)
+[2023-07-06 11:52:14,121][98449] Signal inference workers to resume experience collection... (11700 times)
+[2023-07-06 11:52:14,121][98493] InferenceWorker_p0-w0: resuming experience collection (11700 times)
+[2023-07-06 11:52:14,764][98243] Fps is (10 sec: 111415.1, 60 sec: 113597.1, 300 sec: 111744.4). Total num frames: 465305600. Throughput: 0: 28182.7. Samples: 116360704. Policy #0 lag: (min: 15.0, avg: 96.9, max: 271.0)
+[2023-07-06 11:52:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:52:15,791][98493] Updated weights for policy 0, policy_version 227216 (0.0007)
+[2023-07-06 11:52:16,677][98493] Updated weights for policy 0, policy_version 227268 (0.0007)
+[2023-07-06 11:52:17,166][98493] Updated weights for policy 0, policy_version 227328 (0.0007)
+[2023-07-06 11:52:18,316][98493] Updated weights for policy 0, policy_version 227392 (0.0007)
+[2023-07-06 11:52:18,762][98493] Updated weights for policy 0, policy_version 227440 (0.0007)
+[2023-07-06 11:52:19,764][98243] Fps is (10 sec: 104857.2, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 465829888. Throughput: 0: 28148.6. Samples: 116527104. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:19,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:52:20,865][98493] Updated weights for policy 0, policy_version 227489 (0.0007)
+[2023-07-06 11:52:21,501][98493] Updated weights for policy 0, policy_version 227536 (0.0007)
+[2023-07-06 11:52:21,894][98493] Updated weights for policy 0, policy_version 227580 (0.0006)
+[2023-07-06 11:52:22,877][98493] Updated weights for policy 0, policy_version 227617 (0.0007)
+[2023-07-06 11:52:23,476][98493] Updated weights for policy 0, policy_version 227683 (0.0007)
+[2023-07-06 11:52:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 466354176. Throughput: 0: 28171.6. Samples: 116614144. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:52:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000227712_466354176.pth...
+[2023-07-06 11:52:24,798][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000214592_439484416.pth
+[2023-07-06 11:52:25,388][98493] Updated weights for policy 0, policy_version 227735 (0.0007)
+[2023-07-06 11:52:26,367][98493] Updated weights for policy 0, policy_version 227808 (0.0010)
+[2023-07-06 11:52:27,240][98493] Updated weights for policy 0, policy_version 227842 (0.0006)
+[2023-07-06 11:52:27,739][98493] Updated weights for policy 0, policy_version 227904 (0.0007)
+[2023-07-06 11:52:28,270][98493] Updated weights for policy 0, policy_version 227966 (0.0008)
+[2023-07-06 11:52:29,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111410.9, 300 sec: 111522.3). Total num frames: 466878464. Throughput: 0: 27943.8. Samples: 116776960. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:52:30,342][98493] Updated weights for policy 0, policy_version 228021 (0.0007)
+[2023-07-06 11:52:31,026][98493] Updated weights for policy 0, policy_version 228069 (0.0012)
+[2023-07-06 11:52:32,450][98493] Updated weights for policy 0, policy_version 228130 (0.0007)
+[2023-07-06 11:52:32,715][98449] Signal inference workers to stop experience collection... (11750 times)
+[2023-07-06 11:52:32,737][98493] InferenceWorker_p0-w0: stopping experience collection (11750 times)
+[2023-07-06 11:52:32,795][98449] Signal inference workers to resume experience collection... (11750 times)
+[2023-07-06 11:52:32,795][98493] InferenceWorker_p0-w0: resuming experience collection (11750 times)
+[2023-07-06 11:52:32,955][98493] Updated weights for policy 0, policy_version 228192 (0.0007)
+[2023-07-06 11:52:34,764][98243] Fps is (10 sec: 108134.9, 60 sec: 111957.4, 300 sec: 111633.5). Total num frames: 467435520. Throughput: 0: 28023.6. Samples: 116947456. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:52:34,789][98493] Updated weights for policy 0, policy_version 228244 (0.0007)
+[2023-07-06 11:52:35,298][98493] Updated weights for policy 0, policy_version 228291 (0.0007)
+[2023-07-06 11:52:35,786][98493] Updated weights for policy 0, policy_version 228352 (0.0007)
+[2023-07-06 11:52:37,413][98493] Updated weights for policy 0, policy_version 228416 (0.0007)
+[2023-07-06 11:52:37,923][98493] Updated weights for policy 0, policy_version 228475 (0.0007)
+[2023-07-06 11:52:39,717][98493] Updated weights for policy 0, policy_version 228528 (0.0007)
+[2023-07-06 11:52:39,764][98243] Fps is (10 sec: 114689.5, 60 sec: 113050.5, 300 sec: 111855.5). Total num frames: 468025344. Throughput: 0: 27909.7. Samples: 117027840. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:39,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:52:40,421][98493] Updated weights for policy 0, policy_version 228579 (0.0007)
+[2023-07-06 11:52:41,728][98493] Updated weights for policy 0, policy_version 228632 (0.0007)
+[2023-07-06 11:52:42,294][98493] Updated weights for policy 0, policy_version 228696 (0.0008)
+[2023-07-06 11:52:44,129][98493] Updated weights for policy 0, policy_version 228737 (0.0008)
+[2023-07-06 11:52:44,565][98493] Updated weights for policy 0, policy_version 228786 (0.0008)
+[2023-07-06 11:52:44,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111411.6, 300 sec: 111966.6). Total num frames: 468582400. Throughput: 0: 27898.3. Samples: 117197824. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:44,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:52:45,114][98493] Updated weights for policy 0, policy_version 228858 (0.0007)
+[2023-07-06 11:52:46,274][98493] Updated weights for policy 0, policy_version 228904 (0.0007)
+[2023-07-06 11:52:46,930][98493] Updated weights for policy 0, policy_version 228960 (0.0007)
+[2023-07-06 11:52:48,843][98493] Updated weights for policy 0, policy_version 228998 (0.0007)
+[2023-07-06 11:52:49,400][98493] Updated weights for policy 0, policy_version 229058 (0.0006)
+[2023-07-06 11:52:49,764][98243] Fps is (10 sec: 117965.5, 60 sec: 112504.2, 300 sec: 112299.9). Total num frames: 469204992. Throughput: 0: 27944.1. Samples: 117365248. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:52:50,824][98493] Updated weights for policy 0, policy_version 229122 (0.0008)
+[2023-07-06 11:52:50,955][98449] Signal inference workers to stop experience collection... (11800 times)
+[2023-07-06 11:52:51,000][98493] InferenceWorker_p0-w0: stopping experience collection (11800 times)
+[2023-07-06 11:52:51,031][98449] Signal inference workers to resume experience collection... (11800 times)
+[2023-07-06 11:52:51,031][98493] InferenceWorker_p0-w0: resuming experience collection (11800 times)
+[2023-07-06 11:52:51,254][98493] Updated weights for policy 0, policy_version 229172 (0.0006)
+[2023-07-06 11:52:51,830][98493] Updated weights for policy 0, policy_version 229240 (0.0006)
+[2023-07-06 11:52:53,757][98493] Updated weights for policy 0, policy_version 229285 (0.0006)
+[2023-07-06 11:52:54,343][98493] Updated weights for policy 0, policy_version 229353 (0.0007)
+[2023-07-06 11:52:54,764][98243] Fps is (10 sec: 117962.8, 60 sec: 111411.1, 300 sec: 112410.9). Total num frames: 469762048. Throughput: 0: 27898.3. Samples: 117449728. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:52:55,562][98493] Updated weights for policy 0, policy_version 229396 (0.0006)
+[2023-07-06 11:52:55,943][98493] Updated weights for policy 0, policy_version 229438 (0.0006)
+[2023-07-06 11:52:56,368][98493] Updated weights for policy 0, policy_version 229478 (0.0007)
+[2023-07-06 11:52:58,444][98493] Updated weights for policy 0, policy_version 229527 (0.0007)
+[2023-07-06 11:52:59,069][98493] Updated weights for policy 0, policy_version 229594 (0.0007)
+[2023-07-06 11:52:59,345][98493] Updated weights for policy 0, policy_version 229628 (0.0006)
+[2023-07-06 11:52:59,764][98243] Fps is (10 sec: 108130.9, 60 sec: 111410.7, 300 sec: 112188.7). Total num frames: 470286336. Throughput: 0: 27943.7. Samples: 117618176. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:52:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 11:53:00,225][98493] Updated weights for policy 0, policy_version 229680 (0.0007)
+[2023-07-06 11:53:00,901][98493] Updated weights for policy 0, policy_version 229728 (0.0008)
+[2023-07-06 11:53:03,086][98493] Updated weights for policy 0, policy_version 229776 (0.0007)
+[2023-07-06 11:53:03,680][98493] Updated weights for policy 0, policy_version 229829 (0.0008)
+[2023-07-06 11:53:04,095][98493] Updated weights for policy 0, policy_version 229884 (0.0007)
+[2023-07-06 11:53:04,764][98243] Fps is (10 sec: 104857.4, 60 sec: 110319.4, 300 sec: 111966.5). Total num frames: 470810624. Throughput: 0: 27989.3. Samples: 117786624. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:53:04,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:53:05,210][98493] Updated weights for policy 0, policy_version 229946 (0.0008)
+[2023-07-06 11:53:05,804][98493] Updated weights for policy 0, policy_version 230000 (0.0007)
+[2023-07-06 11:53:07,768][98493] Updated weights for policy 0, policy_version 230055 (0.0007)
+[2023-07-06 11:53:08,221][98493] Updated weights for policy 0, policy_version 230103 (0.0007)
+[2023-07-06 11:53:08,349][98449] Signal inference workers to stop experience collection... (11850 times)
+[2023-07-06 11:53:08,387][98493] InferenceWorker_p0-w0: stopping experience collection (11850 times)
+[2023-07-06 11:53:08,448][98449] Signal inference workers to resume experience collection... (11850 times)
+[2023-07-06 11:53:08,448][98493] InferenceWorker_p0-w0: resuming experience collection (11850 times)
+[2023-07-06 11:53:08,584][98493] Updated weights for policy 0, policy_version 230144 (0.0007)
+[2023-07-06 11:53:09,764][98243] Fps is (10 sec: 111414.2, 60 sec: 110319.0, 300 sec: 112077.7). Total num frames: 471400448. Throughput: 0: 27955.2. Samples: 117872128. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:53:09,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:53:09,824][98493] Updated weights for policy 0, policy_version 230184 (0.0007)
+[2023-07-06 11:53:10,393][98493] Updated weights for policy 0, policy_version 230227 (0.0007)
+[2023-07-06 11:53:10,702][98493] Updated weights for policy 0, policy_version 230265 (0.0006)
+[2023-07-06 11:53:12,553][98493] Updated weights for policy 0, policy_version 230329 (0.0007)
+[2023-07-06 11:53:12,958][98493] Updated weights for policy 0, policy_version 230370 (0.0007)
+[2023-07-06 11:53:14,346][98493] Updated weights for policy 0, policy_version 230419 (0.0007)
+[2023-07-06 11:53:14,758][98493] Updated weights for policy 0, policy_version 230464 (0.0006)
+[2023-07-06 11:53:14,764][98243] Fps is (10 sec: 117966.5, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 471990272. Throughput: 0: 28057.7. Samples: 118039552. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:53:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:53:15,337][98493] Updated weights for policy 0, policy_version 230528 (0.0008)
+[2023-07-06 11:53:17,488][98493] Updated weights for policy 0, policy_version 230601 (0.0008)
+[2023-07-06 11:53:17,887][98493] Updated weights for policy 0, policy_version 230649 (0.0007)
+[2023-07-06 11:53:19,258][98493] Updated weights for policy 0, policy_version 230704 (0.0008)
+[2023-07-06 11:53:19,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111957.6, 300 sec: 112077.7). Total num frames: 472547328. Throughput: 0: 27898.3. Samples: 118202880. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:53:19,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:53:19,843][98493] Updated weights for policy 0, policy_version 230755 (0.0007)
+[2023-07-06 11:53:21,761][98493] Updated weights for policy 0, policy_version 230787 (0.0008)
+[2023-07-06 11:53:22,259][98493] Updated weights for policy 0, policy_version 230848 (0.0007)
+[2023-07-06 11:53:22,797][98493] Updated weights for policy 0, policy_version 230912 (0.0007)
+[2023-07-06 11:53:23,883][98493] Updated weights for policy 0, policy_version 230971 (0.0007)
+[2023-07-06 11:53:24,526][98493] Updated weights for policy 0, policy_version 231034 (0.0008)
+[2023-07-06 11:53:24,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113595.8, 300 sec: 112299.9). Total num frames: 473169920. Throughput: 0: 28000.7. Samples: 118287872. Policy #0 lag: (min: 2.0, avg: 107.6, max: 258.0)
+[2023-07-06 11:53:24,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:53:26,651][98493] Updated weights for policy 0, policy_version 231077 (0.0006)
+[2023-07-06 11:53:26,997][98449] Signal inference workers to stop experience collection... (11900 times)
+[2023-07-06 11:53:27,044][98493] InferenceWorker_p0-w0: stopping experience collection (11900 times)
+[2023-07-06 11:53:27,096][98449] Signal inference workers to resume experience collection... (11900 times)
+[2023-07-06 11:53:27,097][98493] InferenceWorker_p0-w0: resuming experience collection (11900 times)
+[2023-07-06 11:53:27,176][98493] Updated weights for policy 0, policy_version 231124 (0.0007)
+[2023-07-06 11:53:27,860][98493] Updated weights for policy 0, policy_version 231169 (0.0006)
+[2023-07-06 11:53:28,321][98493] Updated weights for policy 0, policy_version 231229 (0.0007)
+[2023-07-06 11:53:29,440][98493] Updated weights for policy 0, policy_version 231293 (0.0006)
+[2023-07-06 11:53:29,764][98243] Fps is (10 sec: 114687.0, 60 sec: 113595.9, 300 sec: 112077.7). Total num frames: 473694208. Throughput: 0: 27977.9. Samples: 118456832. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:53:31,437][98493] Updated weights for policy 0, policy_version 231344 (0.0007)
+[2023-07-06 11:53:32,000][98493] Updated weights for policy 0, policy_version 231408 (0.0007)
+[2023-07-06 11:53:32,627][98493] Updated weights for policy 0, policy_version 231444 (0.0006)
+[2023-07-06 11:53:33,795][98493] Updated weights for policy 0, policy_version 231489 (0.0006)
+[2023-07-06 11:53:34,287][98493] Updated weights for policy 0, policy_version 231551 (0.0007)
+[2023-07-06 11:53:34,764][98243] Fps is (10 sec: 104857.5, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 474218496. Throughput: 0: 28023.4. Samples: 118626304. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:34,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:53:36,094][98493] Updated weights for policy 0, policy_version 231590 (0.0008)
+[2023-07-06 11:53:36,698][98493] Updated weights for policy 0, policy_version 231664 (0.0007)
+[2023-07-06 11:53:37,387][98493] Updated weights for policy 0, policy_version 231716 (0.0007)
+[2023-07-06 11:53:38,511][98493] Updated weights for policy 0, policy_version 231748 (0.0007)
+[2023-07-06 11:53:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111957.2, 300 sec: 111522.3). Total num frames: 474742784. Throughput: 0: 27932.5. Samples: 118706688. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:39,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:53:40,653][98493] Updated weights for policy 0, policy_version 231813 (0.0008)
+[2023-07-06 11:53:41,234][98493] Updated weights for policy 0, policy_version 231878 (0.0006)
+[2023-07-06 11:53:41,741][98493] Updated weights for policy 0, policy_version 231936 (0.0006)
+[2023-07-06 11:53:42,259][98493] Updated weights for policy 0, policy_version 231995 (0.0008)
+[2023-07-06 11:53:43,758][98493] Updated weights for policy 0, policy_version 232059 (0.0007)
+[2023-07-06 11:53:44,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 475267072. Throughput: 0: 27909.9. Samples: 118874112. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:44,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 11:53:44,765][98449] Saving new best policy, reward=9.930!
+[2023-07-06 11:53:45,491][98449] Signal inference workers to stop experience collection... (11950 times)
+[2023-07-06 11:53:45,524][98493] InferenceWorker_p0-w0: stopping experience collection (11950 times)
+[2023-07-06 11:53:45,571][98449] Signal inference workers to resume experience collection... (11950 times)
+[2023-07-06 11:53:45,571][98493] InferenceWorker_p0-w0: resuming experience collection (11950 times)
+[2023-07-06 11:53:45,731][98493] Updated weights for policy 0, policy_version 232112 (0.0007)
+[2023-07-06 11:53:46,379][98493] Updated weights for policy 0, policy_version 232187 (0.0007)
+[2023-07-06 11:53:46,930][98493] Updated weights for policy 0, policy_version 232240 (0.0007)
+[2023-07-06 11:53:48,326][98493] Updated weights for policy 0, policy_version 232288 (0.0007)
+[2023-07-06 11:53:49,764][98243] Fps is (10 sec: 104858.2, 60 sec: 109772.6, 300 sec: 111522.3). Total num frames: 475791360. Throughput: 0: 27943.9. Samples: 119044096. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:53:50,175][98493] Updated weights for policy 0, policy_version 232336 (0.0007)
+[2023-07-06 11:53:50,753][98493] Updated weights for policy 0, policy_version 232400 (0.0007)
+[2023-07-06 11:53:51,200][98493] Updated weights for policy 0, policy_version 232448 (0.0032)
+[2023-07-06 11:53:51,717][98493] Updated weights for policy 0, policy_version 232508 (0.0007)
+[2023-07-06 11:53:53,101][98493] Updated weights for policy 0, policy_version 232554 (0.0007)
+[2023-07-06 11:53:54,765][98243] Fps is (10 sec: 104853.7, 60 sec: 109226.2, 300 sec: 111522.2). Total num frames: 476315648. Throughput: 0: 27863.9. Samples: 119126016. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 11:53:54,873][98493] Updated weights for policy 0, policy_version 232592 (0.0007)
+[2023-07-06 11:53:55,311][98493] Updated weights for policy 0, policy_version 232640 (0.0006)
+[2023-07-06 11:53:55,871][98493] Updated weights for policy 0, policy_version 232704 (0.0007)
+[2023-07-06 11:53:56,374][98493] Updated weights for policy 0, policy_version 232760 (0.0007)
+[2023-07-06 11:53:57,754][98493] Updated weights for policy 0, policy_version 232802 (0.0006)
+[2023-07-06 11:53:59,574][98493] Updated weights for policy 0, policy_version 232851 (0.0008)
+[2023-07-06 11:53:59,764][98243] Fps is (10 sec: 111411.6, 60 sec: 110319.4, 300 sec: 111744.5). Total num frames: 476905472. Throughput: 0: 27898.3. Samples: 119294976. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:53:59,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:54:00,058][98493] Updated weights for policy 0, policy_version 232912 (0.0008)
+[2023-07-06 11:54:00,524][98493] Updated weights for policy 0, policy_version 232960 (0.0036)
+[2023-07-06 11:54:00,867][98449] Signal inference workers to stop experience collection... (12000 times)
+[2023-07-06 11:54:00,909][98493] InferenceWorker_p0-w0: stopping experience collection (12000 times)
+[2023-07-06 11:54:00,962][98449] Signal inference workers to resume experience collection... (12000 times)
+[2023-07-06 11:54:00,963][98493] InferenceWorker_p0-w0: resuming experience collection (12000 times)
+[2023-07-06 11:54:00,990][98493] Updated weights for policy 0, policy_version 233009 (0.0007)
+[2023-07-06 11:54:02,217][98493] Updated weights for policy 0, policy_version 233058 (0.0007)
+[2023-07-06 11:54:04,579][98493] Updated weights for policy 0, policy_version 233144 (0.0009)
+[2023-07-06 11:54:04,764][98243] Fps is (10 sec: 117968.9, 60 sec: 111411.4, 300 sec: 111966.6). Total num frames: 477495296. Throughput: 0: 27921.0. Samples: 119459328. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:04,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 11:54:05,158][98493] Updated weights for policy 0, policy_version 233208 (0.0008)
+[2023-07-06 11:54:05,564][98493] Updated weights for policy 0, policy_version 233237 (0.0008)
+[2023-07-06 11:54:06,813][98493] Updated weights for policy 0, policy_version 233312 (0.0008)
+[2023-07-06 11:54:09,086][98493] Updated weights for policy 0, policy_version 233360 (0.0007)
+[2023-07-06 11:54:09,656][98493] Updated weights for policy 0, policy_version 233424 (0.0007)
+[2023-07-06 11:54:09,764][98243] Fps is (10 sec: 114687.5, 60 sec: 110865.0, 300 sec: 111855.5). Total num frames: 478052352. Throughput: 0: 27852.8. Samples: 119541248. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:09,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:54:10,150][98493] Updated weights for policy 0, policy_version 233477 (0.0008)
+[2023-07-06 11:54:10,519][98493] Updated weights for policy 0, policy_version 233520 (0.0007)
+[2023-07-06 11:54:11,544][98493] Updated weights for policy 0, policy_version 233575 (0.0007)
+[2023-07-06 11:54:13,902][98493] Updated weights for policy 0, policy_version 233632 (0.0007)
+[2023-07-06 11:54:14,389][98493] Updated weights for policy 0, policy_version 233683 (0.0006)
+[2023-07-06 11:54:14,764][98243] Fps is (10 sec: 117962.6, 60 sec: 111410.8, 300 sec: 111966.5). Total num frames: 478674944. Throughput: 0: 27977.9. Samples: 119715840. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:54:14,842][98493] Updated weights for policy 0, policy_version 233735 (0.0007)
+[2023-07-06 11:54:15,218][98493] Updated weights for policy 0, policy_version 233784 (0.0007)
+[2023-07-06 11:54:16,250][98493] Updated weights for policy 0, policy_version 233829 (0.0006)
+[2023-07-06 11:54:18,269][98493] Updated weights for policy 0, policy_version 233872 (0.0019)
+[2023-07-06 11:54:18,783][98493] Updated weights for policy 0, policy_version 233922 (0.0007)
+[2023-07-06 11:54:18,926][98449] Signal inference workers to stop experience collection... (12050 times)
+[2023-07-06 11:54:18,961][98493] InferenceWorker_p0-w0: stopping experience collection (12050 times)
+[2023-07-06 11:54:18,998][98449] Signal inference workers to resume experience collection... (12050 times)
+[2023-07-06 11:54:18,998][98493] InferenceWorker_p0-w0: resuming experience collection (12050 times)
+[2023-07-06 11:54:19,251][98493] Updated weights for policy 0, policy_version 233982 (0.0006)
+[2023-07-06 11:54:19,764][98243] Fps is (10 sec: 121241.6, 60 sec: 111957.2, 300 sec: 112188.8). Total num frames: 479264768. Throughput: 0: 27852.8. Samples: 119879680. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:19,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:54:19,940][98493] Updated weights for policy 0, policy_version 234043 (0.0007)
+[2023-07-06 11:54:21,192][98493] Updated weights for policy 0, policy_version 234107 (0.0007)
+[2023-07-06 11:54:23,212][98493] Updated weights for policy 0, policy_version 234150 (0.0007)
+[2023-07-06 11:54:23,757][98493] Updated weights for policy 0, policy_version 234212 (0.0007)
+[2023-07-06 11:54:24,438][98493] Updated weights for policy 0, policy_version 234278 (0.0007)
+[2023-07-06 11:54:24,764][98243] Fps is (10 sec: 117966.2, 60 sec: 111411.1, 300 sec: 112411.0). Total num frames: 479854592. Throughput: 0: 28012.1. Samples: 119967232. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:24,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:54:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000234304_479854592.pth...
+[2023-07-06 11:54:24,798][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000221168_452952064.pth
+[2023-07-06 11:54:25,713][98493] Updated weights for policy 0, policy_version 234309 (0.0006)
+[2023-07-06 11:54:27,583][98493] Updated weights for policy 0, policy_version 234369 (0.0007)
+[2023-07-06 11:54:28,037][98493] Updated weights for policy 0, policy_version 234420 (0.0007)
+[2023-07-06 11:54:28,581][98493] Updated weights for policy 0, policy_version 234490 (0.0007)
+[2023-07-06 11:54:29,217][98493] Updated weights for policy 0, policy_version 234553 (0.0007)
+[2023-07-06 11:54:29,764][98243] Fps is (10 sec: 111410.3, 60 sec: 111411.1, 300 sec: 112410.9). Total num frames: 480378880. Throughput: 0: 27898.2. Samples: 120129536. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:29,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 11:54:30,497][98493] Updated weights for policy 0, policy_version 234618 (0.0007)
+[2023-07-06 11:54:32,593][98493] Updated weights for policy 0, policy_version 234673 (0.0007)
+[2023-07-06 11:54:32,999][98493] Updated weights for policy 0, policy_version 234720 (0.0041)
+[2023-07-06 11:54:33,867][98493] Updated weights for policy 0, policy_version 234793 (0.0008)
+[2023-07-06 11:54:34,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.0, 300 sec: 112410.9). Total num frames: 480903168. Throughput: 0: 27864.1. Samples: 120297984. Policy #0 lag: (min: 47.0, avg: 122.0, max: 303.0)
+[2023-07-06 11:54:34,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 11:54:34,970][98493] Updated weights for policy 0, policy_version 234848 (0.0007)
+[2023-07-06 11:54:37,043][98493] Updated weights for policy 0, policy_version 234912 (0.0014)
+[2023-07-06 11:54:37,741][98449] Signal inference workers to stop experience collection... (12100 times)
+[2023-07-06 11:54:37,791][98493] InferenceWorker_p0-w0: stopping experience collection (12100 times)
+[2023-07-06 11:54:37,796][98493] Updated weights for policy 0, policy_version 234952 (0.0006)
+[2023-07-06 11:54:37,836][98449] Signal inference workers to resume experience collection... (12100 times)
+[2023-07-06 11:54:37,837][98493] InferenceWorker_p0-w0: resuming experience collection (12100 times)
+[2023-07-06 11:54:38,229][98493] Updated weights for policy 0, policy_version 234998 (0.0007)
+[2023-07-06 11:54:38,771][98493] Updated weights for policy 0, policy_version 235064 (0.0007)
+[2023-07-06 11:54:39,676][98493] Updated weights for policy 0, policy_version 235109 (0.0007)
+[2023-07-06 11:54:39,764][98243] Fps is (10 sec: 114687.0, 60 sec: 113049.4, 300 sec: 112522.0). Total num frames: 481525760. Throughput: 0: 27966.7. Samples: 120384512. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:54:39,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 11:54:41,441][98493] Updated weights for policy 0, policy_version 235152 (0.0006)
+[2023-07-06 11:54:41,852][98493] Updated weights for policy 0, policy_version 235200 (0.0006)
+[2023-07-06 11:54:42,955][98493] Updated weights for policy 0, policy_version 235268 (0.0006)
+[2023-07-06 11:54:44,408][98493] Updated weights for policy 0, policy_version 235344 (0.0007)
+[2023-07-06 11:54:44,764][98243] Fps is (10 sec: 114689.4, 60 sec: 113049.6, 300 sec: 112299.8). Total num frames: 482050048. Throughput: 0: 27795.9. Samples: 120545792. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:54:44,764][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 11:54:46,469][98493] Updated weights for policy 0, policy_version 235413 (0.0007)
+[2023-07-06 11:54:47,425][98493] Updated weights for policy 0, policy_version 235480 (0.0007)
+[2023-07-06 11:54:47,953][98493] Updated weights for policy 0, policy_version 235539 (0.0008)
+[2023-07-06 11:54:48,322][98493] Updated weights for policy 0, policy_version 235584 (0.0007)
+[2023-07-06 11:54:49,625][98493] Updated weights for policy 0, policy_version 235648 (0.0007)
+[2023-07-06 11:54:49,764][98243] Fps is (10 sec: 108134.9, 60 sec: 113595.5, 300 sec: 112077.6). Total num frames: 482607104. Throughput: 0: 27784.4. Samples: 120709632. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:54:49,765][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 11:54:49,766][98449] Saving new best policy, reward=9.950!
+[2023-07-06 11:54:51,668][98493] Updated weights for policy 0, policy_version 235709 (0.0007)
+[2023-07-06 11:54:52,291][98493] Updated weights for policy 0, policy_version 235765 (0.0007)
+[2023-07-06 11:54:52,846][98493] Updated weights for policy 0, policy_version 235837 (0.0007)
+[2023-07-06 11:54:54,416][98493] Updated weights for policy 0, policy_version 235888 (0.0007)
+[2023-07-06 11:54:54,764][98243] Fps is (10 sec: 108132.3, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 483131392. Throughput: 0: 27807.2. Samples: 120792576. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:54:54,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 11:54:56,176][98449] Signal inference workers to stop experience collection... (12150 times)
+[2023-07-06 11:54:56,207][98493] InferenceWorker_p0-w0: stopping experience collection (12150 times)
+[2023-07-06 11:54:56,260][98449] Signal inference workers to resume experience collection... (12150 times)
+[2023-07-06 11:54:56,260][98493] InferenceWorker_p0-w0: resuming experience collection (12150 times)
+[2023-07-06 11:54:56,261][98493] Updated weights for policy 0, policy_version 235936 (0.0020)
+[2023-07-06 11:54:56,881][98493] Updated weights for policy 0, policy_version 236006 (0.0007)
+[2023-07-06 11:54:57,316][98493] Updated weights for policy 0, policy_version 236054 (0.0007)
+[2023-07-06 11:54:58,518][98493] Updated weights for policy 0, policy_version 236098 (0.0006)
+[2023-07-06 11:54:58,955][98493] Updated weights for policy 0, policy_version 236153 (0.0007)
+[2023-07-06 11:54:59,764][98243] Fps is (10 sec: 104858.8, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 483655680. Throughput: 0: 27716.4. Samples: 120963072. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:54:59,765][98243] Avg episode reward: [(0, '9.970')]
+[2023-07-06 11:54:59,765][98449] Saving new best policy, reward=9.970!
+[2023-07-06 11:55:01,411][98493] Updated weights for policy 0, policy_version 236216 (0.0007)
+[2023-07-06 11:55:01,851][98493] Updated weights for policy 0, policy_version 236261 (0.0008)
+[2023-07-06 11:55:02,446][98493] Updated weights for policy 0, policy_version 236323 (0.0007)
+[2023-07-06 11:55:03,303][98493] Updated weights for policy 0, policy_version 236368 (0.0006)
+[2023-07-06 11:55:03,695][98493] Updated weights for policy 0, policy_version 236411 (0.0007)
+[2023-07-06 11:55:04,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 484179968. Throughput: 0: 27841.4. Samples: 121132544. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:04,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 11:55:06,195][98493] Updated weights for policy 0, policy_version 236486 (0.0007)
+[2023-07-06 11:55:06,723][98493] Updated weights for policy 0, policy_version 236544 (0.0008)
+[2023-07-06 11:55:07,250][98493] Updated weights for policy 0, policy_version 236606 (0.0007)
+[2023-07-06 11:55:08,461][98493] Updated weights for policy 0, policy_version 236665 (0.0007)
+[2023-07-06 11:55:09,764][98243] Fps is (10 sec: 104857.0, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 484704256. Throughput: 0: 27625.2. Samples: 121210368. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:09,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 11:55:10,706][98493] Updated weights for policy 0, policy_version 236714 (0.0027)
+[2023-07-06 11:55:11,119][98493] Updated weights for policy 0, policy_version 236761 (0.0007)
+[2023-07-06 11:55:11,639][98449] Signal inference workers to stop experience collection... (12200 times)
+[2023-07-06 11:55:11,677][98493] InferenceWorker_p0-w0: stopping experience collection (12200 times)
+[2023-07-06 11:55:11,681][98493] Updated weights for policy 0, policy_version 236824 (0.0008)
+[2023-07-06 11:55:11,715][98449] Signal inference workers to resume experience collection... (12200 times)
+[2023-07-06 11:55:11,716][98493] InferenceWorker_p0-w0: resuming experience collection (12200 times)
+[2023-07-06 11:55:12,850][98493] Updated weights for policy 0, policy_version 236889 (0.0007)
+[2023-07-06 11:55:13,171][98493] Updated weights for policy 0, policy_version 236926 (0.0007)
+[2023-07-06 11:55:14,764][98243] Fps is (10 sec: 104857.3, 60 sec: 109226.9, 300 sec: 111411.2). Total num frames: 485228544. Throughput: 0: 27795.9. Samples: 121380352. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:14,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 11:55:15,393][98493] Updated weights for policy 0, policy_version 236985 (0.0007)
+[2023-07-06 11:55:15,876][98493] Updated weights for policy 0, policy_version 237040 (0.0007)
+[2023-07-06 11:55:16,413][98493] Updated weights for policy 0, policy_version 237098 (0.0007)
+[2023-07-06 11:55:17,581][98493] Updated weights for policy 0, policy_version 237139 (0.0007)
+[2023-07-06 11:55:19,616][98493] Updated weights for policy 0, policy_version 237186 (0.0007)
+[2023-07-06 11:55:19,764][98243] Fps is (10 sec: 108134.8, 60 sec: 108680.5, 300 sec: 111522.3). Total num frames: 485785600. Throughput: 0: 27841.5. Samples: 121550848. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 11:55:20,233][98493] Updated weights for policy 0, policy_version 237254 (0.0006)
+[2023-07-06 11:55:20,759][98493] Updated weights for policy 0, policy_version 237313 (0.0006)
+[2023-07-06 11:55:21,226][98493] Updated weights for policy 0, policy_version 237370 (0.0007)
+[2023-07-06 11:55:22,502][98493] Updated weights for policy 0, policy_version 237396 (0.0007)
+[2023-07-06 11:55:24,340][98493] Updated weights for policy 0, policy_version 237456 (0.0008)
+[2023-07-06 11:55:24,764][98243] Fps is (10 sec: 117966.0, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 486408192. Throughput: 0: 27648.1. Samples: 121628672. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:24,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 11:55:24,821][98493] Updated weights for policy 0, policy_version 237509 (0.0007)
+[2023-07-06 11:55:25,314][98493] Updated weights for policy 0, policy_version 237568 (0.0008)
+[2023-07-06 11:55:25,830][98493] Updated weights for policy 0, policy_version 237625 (0.0009)
+[2023-07-06 11:55:27,389][98493] Updated weights for policy 0, policy_version 237669 (0.0007)
+[2023-07-06 11:55:29,012][98493] Updated weights for policy 0, policy_version 237728 (0.0007)
+[2023-07-06 11:55:29,214][98449] Signal inference workers to stop experience collection... (12250 times)
+[2023-07-06 11:55:29,233][98493] InferenceWorker_p0-w0: stopping experience collection (12250 times)
+[2023-07-06 11:55:29,318][98449] Signal inference workers to resume experience collection... (12250 times)
+[2023-07-06 11:55:29,318][98493] InferenceWorker_p0-w0: resuming experience collection (12250 times)
+[2023-07-06 11:55:29,681][98493] Updated weights for policy 0, policy_version 237797 (0.0007)
+[2023-07-06 11:55:29,764][98243] Fps is (10 sec: 124518.9, 60 sec: 110865.2, 300 sec: 111855.5). Total num frames: 487030784. Throughput: 0: 27932.4. Samples: 121802752. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:29,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 11:55:30,275][98493] Updated weights for policy 0, policy_version 237850 (0.0008)
+[2023-07-06 11:55:30,583][98493] Updated weights for policy 0, policy_version 237888 (0.0008)
+[2023-07-06 11:55:32,109][98493] Updated weights for policy 0, policy_version 237946 (0.0007)
+[2023-07-06 11:55:33,930][98493] Updated weights for policy 0, policy_version 238000 (0.0006)
+[2023-07-06 11:55:34,484][98493] Updated weights for policy 0, policy_version 238064 (0.0006)
+[2023-07-06 11:55:34,764][98243] Fps is (10 sec: 117962.9, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 487587840. Throughput: 0: 27886.9. Samples: 121964544. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:55:34,995][98493] Updated weights for policy 0, policy_version 238112 (0.0007)
+[2023-07-06 11:55:36,594][98493] Updated weights for policy 0, policy_version 238176 (0.0006)
+[2023-07-06 11:55:38,228][98493] Updated weights for policy 0, policy_version 238224 (0.0007)
+[2023-07-06 11:55:38,751][98493] Updated weights for policy 0, policy_version 238277 (0.0008)
+[2023-07-06 11:55:39,222][98493] Updated weights for policy 0, policy_version 238336 (0.0007)
+[2023-07-06 11:55:39,764][98243] Fps is (10 sec: 114687.3, 60 sec: 110865.3, 300 sec: 112188.7). Total num frames: 488177664. Throughput: 0: 28000.8. Samples: 122052608. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:55:39,875][98493] Updated weights for policy 0, policy_version 238395 (0.0006)
+[2023-07-06 11:55:41,412][98493] Updated weights for policy 0, policy_version 238448 (0.0007)
+[2023-07-06 11:55:43,176][98493] Updated weights for policy 0, policy_version 238496 (0.0007)
+[2023-07-06 11:55:43,686][98493] Updated weights for policy 0, policy_version 238546 (0.0007)
+[2023-07-06 11:55:44,248][98493] Updated weights for policy 0, policy_version 238610 (0.0008)
+[2023-07-06 11:55:44,586][98493] Updated weights for policy 0, policy_version 238656 (0.0007)
+[2023-07-06 11:55:44,764][98243] Fps is (10 sec: 117965.7, 60 sec: 111957.2, 300 sec: 112188.7). Total num frames: 488767488. Throughput: 0: 27955.2. Samples: 122221056. Policy #0 lag: (min: 15.0, avg: 89.1, max: 271.0)
+[2023-07-06 11:55:44,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:55:46,037][98493] Updated weights for policy 0, policy_version 238714 (0.0007)
+[2023-07-06 11:55:47,608][98449] Signal inference workers to stop experience collection... (12300 times)
+[2023-07-06 11:55:47,640][98493] InferenceWorker_p0-w0: stopping experience collection (12300 times)
+[2023-07-06 11:55:47,716][98449] Signal inference workers to resume experience collection... (12300 times)
+[2023-07-06 11:55:47,716][98493] InferenceWorker_p0-w0: resuming experience collection (12300 times)
+[2023-07-06 11:55:48,096][98493] Updated weights for policy 0, policy_version 238777 (0.0007)
+[2023-07-06 11:55:48,640][98493] Updated weights for policy 0, policy_version 238835 (0.0007)
+[2023-07-06 11:55:49,151][98493] Updated weights for policy 0, policy_version 238896 (0.0008)
+[2023-07-06 11:55:49,764][98243] Fps is (10 sec: 111410.1, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 489291776. Throughput: 0: 27818.6. Samples: 122384384. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:55:49,765][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 11:55:50,552][98493] Updated weights for policy 0, policy_version 238936 (0.0007)
+[2023-07-06 11:55:52,226][98493] Updated weights for policy 0, policy_version 238979 (0.0007)
+[2023-07-06 11:55:52,655][98493] Updated weights for policy 0, policy_version 239025 (0.0008)
+[2023-07-06 11:55:53,137][98493] Updated weights for policy 0, policy_version 239082 (0.0008)
+[2023-07-06 11:55:53,654][98493] Updated weights for policy 0, policy_version 239136 (0.0009)
+[2023-07-06 11:55:54,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.5, 300 sec: 111855.5). Total num frames: 489816064. Throughput: 0: 28080.4. Samples: 122473984. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:55:54,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 11:55:55,132][98493] Updated weights for policy 0, policy_version 239200 (0.0007)
+[2023-07-06 11:55:57,020][98493] Updated weights for policy 0, policy_version 239248 (0.0007)
+[2023-07-06 11:55:57,644][98493] Updated weights for policy 0, policy_version 239300 (0.0010)
+[2023-07-06 11:55:58,136][98493] Updated weights for policy 0, policy_version 239360 (0.0008)
+[2023-07-06 11:55:58,644][98493] Updated weights for policy 0, policy_version 239422 (0.0007)
+[2023-07-06 11:55:59,765][98243] Fps is (10 sec: 104852.4, 60 sec: 111410.0, 300 sec: 111522.0). Total num frames: 490340352. Throughput: 0: 27875.2. Samples: 122634752. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:55:59,766][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 11:56:00,251][98493] Updated weights for policy 0, policy_version 239480 (0.0007)
+[2023-07-06 11:56:01,951][98493] Updated weights for policy 0, policy_version 239526 (0.0008)
+[2023-07-06 11:56:02,485][98493] Updated weights for policy 0, policy_version 239574 (0.0007)
+[2023-07-06 11:56:03,131][98449] Signal inference workers to stop experience collection... (12350 times)
+[2023-07-06 11:56:03,152][98493] InferenceWorker_p0-w0: stopping experience collection (12350 times)
+[2023-07-06 11:56:03,153][98493] Updated weights for policy 0, policy_version 239650 (0.0007)
+[2023-07-06 11:56:03,218][98449] Signal inference workers to resume experience collection... (12350 times)
+[2023-07-06 11:56:03,219][98493] InferenceWorker_p0-w0: resuming experience collection (12350 times)
+[2023-07-06 11:56:04,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111957.3, 300 sec: 111633.3). Total num frames: 490897408. Throughput: 0: 27898.3. Samples: 122806272. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:04,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 11:56:04,871][98493] Updated weights for policy 0, policy_version 239716 (0.0007)
+[2023-07-06 11:56:06,403][98493] Updated weights for policy 0, policy_version 239767 (0.0008)
+[2023-07-06 11:56:06,979][98493] Updated weights for policy 0, policy_version 239831 (0.0009)
+[2023-07-06 11:56:07,537][98493] Updated weights for policy 0, policy_version 239891 (0.0007)
+[2023-07-06 11:56:07,845][98493] Updated weights for policy 0, policy_version 239931 (0.0006)
+[2023-07-06 11:56:09,720][98493] Updated weights for policy 0, policy_version 239995 (0.0007)
+[2023-07-06 11:56:09,764][98243] Fps is (10 sec: 117972.9, 60 sec: 113595.9, 300 sec: 111966.9). Total num frames: 491520000. Throughput: 0: 27886.9. Samples: 122883584. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:09,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:56:11,483][98493] Updated weights for policy 0, policy_version 240056 (0.0008)
+[2023-07-06 11:56:12,007][98493] Updated weights for policy 0, policy_version 240100 (0.0009)
+[2023-07-06 11:56:12,561][98493] Updated weights for policy 0, policy_version 240164 (0.0008)
+[2023-07-06 11:56:14,107][98493] Updated weights for policy 0, policy_version 240224 (0.0006)
+[2023-07-06 11:56:14,764][98243] Fps is (10 sec: 114688.4, 60 sec: 113595.8, 300 sec: 111744.4). Total num frames: 492044288. Throughput: 0: 27841.4. Samples: 123055616. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:14,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:56:15,878][98493] Updated weights for policy 0, policy_version 240278 (0.0006)
+[2023-07-06 11:56:16,526][98493] Updated weights for policy 0, policy_version 240336 (0.0007)
+[2023-07-06 11:56:17,070][98493] Updated weights for policy 0, policy_version 240400 (0.0007)
+[2023-07-06 11:56:18,830][98493] Updated weights for policy 0, policy_version 240449 (0.0007)
+[2023-07-06 11:56:19,277][98493] Updated weights for policy 0, policy_version 240508 (0.0007)
+[2023-07-06 11:56:19,764][98243] Fps is (10 sec: 104857.3, 60 sec: 113049.7, 300 sec: 111522.3). Total num frames: 492568576. Throughput: 0: 27955.3. Samples: 123222528. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:19,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 11:56:20,782][98493] Updated weights for policy 0, policy_version 240560 (0.0006)
+[2023-07-06 11:56:21,381][98493] Updated weights for policy 0, policy_version 240615 (0.0008)
+[2023-07-06 11:56:21,457][98449] Signal inference workers to stop experience collection... (12400 times)
+[2023-07-06 11:56:21,510][98493] InferenceWorker_p0-w0: stopping experience collection (12400 times)
+[2023-07-06 11:56:21,571][98449] Signal inference workers to resume experience collection... (12400 times)
+[2023-07-06 11:56:21,571][98493] InferenceWorker_p0-w0: resuming experience collection (12400 times)
+[2023-07-06 11:56:21,941][98493] Updated weights for policy 0, policy_version 240677 (0.0008)
+[2023-07-06 11:56:23,582][98493] Updated weights for policy 0, policy_version 240736 (0.0007)
+[2023-07-06 11:56:23,889][98493] Updated weights for policy 0, policy_version 240768 (0.0007)
+[2023-07-06 11:56:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.1, 300 sec: 111522.2). Total num frames: 493092864. Throughput: 0: 27784.5. Samples: 123302912. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:24,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 11:56:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000240768_493092864.pth...
+[2023-07-06 11:56:24,801][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000227712_466354176.pth
+[2023-07-06 11:56:25,413][98493] Updated weights for policy 0, policy_version 240823 (0.0008)
+[2023-07-06 11:56:26,287][98493] Updated weights for policy 0, policy_version 240880 (0.0007)
+[2023-07-06 11:56:26,872][98493] Updated weights for policy 0, policy_version 240944 (0.0007)
+[2023-07-06 11:56:28,221][98493] Updated weights for policy 0, policy_version 241008 (0.0006)
+[2023-07-06 11:56:29,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109772.8, 300 sec: 111522.3). Total num frames: 493617152. Throughput: 0: 27750.4. Samples: 123469824. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:29,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 11:56:30,050][98493] Updated weights for policy 0, policy_version 241048 (0.0007)
+[2023-07-06 11:56:30,750][98493] Updated weights for policy 0, policy_version 241090 (0.0007)
+[2023-07-06 11:56:31,351][98493] Updated weights for policy 0, policy_version 241157 (0.0007)
+[2023-07-06 11:56:31,800][98493] Updated weights for policy 0, policy_version 241209 (0.0007)
+[2023-07-06 11:56:32,870][98493] Updated weights for policy 0, policy_version 241257 (0.0008)
+[2023-07-06 11:56:34,764][98243] Fps is (10 sec: 108135.3, 60 sec: 109773.1, 300 sec: 111633.6). Total num frames: 494174208. Throughput: 0: 27943.9. Samples: 123641856. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 11:56:34,830][98493] Updated weights for policy 0, policy_version 241298 (0.0007)
+[2023-07-06 11:56:35,490][98493] Updated weights for policy 0, policy_version 241348 (0.0007)
+[2023-07-06 11:56:35,981][98493] Updated weights for policy 0, policy_version 241408 (0.0007)
+[2023-07-06 11:56:36,433][98493] Updated weights for policy 0, policy_version 241456 (0.0008)
+[2023-07-06 11:56:37,610][98493] Updated weights for policy 0, policy_version 241520 (0.0006)
+[2023-07-06 11:56:39,379][98493] Updated weights for policy 0, policy_version 241556 (0.0008)
+[2023-07-06 11:56:39,764][98243] Fps is (10 sec: 117964.6, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 494796800. Throughput: 0: 27648.0. Samples: 123718144. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:56:40,170][98493] Updated weights for policy 0, policy_version 241616 (0.0007)
+[2023-07-06 11:56:40,201][98449] Signal inference workers to stop experience collection... (12450 times)
+[2023-07-06 11:56:40,249][98493] InferenceWorker_p0-w0: stopping experience collection (12450 times)
+[2023-07-06 11:56:40,304][98449] Signal inference workers to resume experience collection... (12450 times)
+[2023-07-06 11:56:40,304][98493] InferenceWorker_p0-w0: resuming experience collection (12450 times)
+[2023-07-06 11:56:40,670][98493] Updated weights for policy 0, policy_version 241672 (0.0007)
+[2023-07-06 11:56:41,157][98493] Updated weights for policy 0, policy_version 241728 (0.0007)
+[2023-07-06 11:56:42,466][98493] Updated weights for policy 0, policy_version 241791 (0.0008)
+[2023-07-06 11:56:44,464][98493] Updated weights for policy 0, policy_version 241847 (0.0007)
+[2023-07-06 11:56:44,764][98243] Fps is (10 sec: 114687.9, 60 sec: 109226.8, 300 sec: 111411.3). Total num frames: 495321088. Throughput: 0: 27978.4. Samples: 123893760. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 11:56:44,966][98493] Updated weights for policy 0, policy_version 241891 (0.0006)
+[2023-07-06 11:56:45,536][98493] Updated weights for policy 0, policy_version 241961 (0.0008)
+[2023-07-06 11:56:46,917][98493] Updated weights for policy 0, policy_version 242016 (0.0006)
+[2023-07-06 11:56:49,042][98493] Updated weights for policy 0, policy_version 242072 (0.0006)
+[2023-07-06 11:56:49,576][98493] Updated weights for policy 0, policy_version 242131 (0.0007)
+[2023-07-06 11:56:49,764][98243] Fps is (10 sec: 111412.8, 60 sec: 110319.4, 300 sec: 111300.2). Total num frames: 495910912. Throughput: 0: 27807.4. Samples: 124057600. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:49,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:56:50,218][98493] Updated weights for policy 0, policy_version 242208 (0.0008)
+[2023-07-06 11:56:51,599][98493] Updated weights for policy 0, policy_version 242272 (0.0009)
+[2023-07-06 11:56:53,995][98493] Updated weights for policy 0, policy_version 242321 (0.0007)
+[2023-07-06 11:56:54,558][98493] Updated weights for policy 0, policy_version 242387 (0.0007)
+[2023-07-06 11:56:54,764][98243] Fps is (10 sec: 111409.8, 60 sec: 110318.8, 300 sec: 111300.1). Total num frames: 496435200. Throughput: 0: 27921.0. Samples: 124140032. Policy #0 lag: (min: 1.0, avg: 74.9, max: 257.0)
+[2023-07-06 11:56:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:56:54,933][98493] Updated weights for policy 0, policy_version 242432 (0.0007)
+[2023-07-06 11:56:55,362][98493] Updated weights for policy 0, policy_version 242480 (0.0007)
+[2023-07-06 11:56:56,163][98493] Updated weights for policy 0, policy_version 242512 (0.0006)
+[2023-07-06 11:56:58,387][98449] Signal inference workers to stop experience collection... (12500 times)
+[2023-07-06 11:56:58,447][98493] InferenceWorker_p0-w0: stopping experience collection (12500 times)
+[2023-07-06 11:56:58,448][98493] Updated weights for policy 0, policy_version 242566 (0.0008)
+[2023-07-06 11:56:58,498][98449] Signal inference workers to resume experience collection... (12500 times)
+[2023-07-06 11:56:58,499][98493] InferenceWorker_p0-w0: resuming experience collection (12500 times)
+[2023-07-06 11:56:58,996][98493] Updated weights for policy 0, policy_version 242627 (0.0007)
+[2023-07-06 11:56:59,470][98493] Updated weights for policy 0, policy_version 242681 (0.0006)
+[2023-07-06 11:56:59,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111958.5, 300 sec: 111411.3). Total num frames: 497057792. Throughput: 0: 27841.4. Samples: 124308480. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:56:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 11:56:59,942][98493] Updated weights for policy 0, policy_version 242736 (0.0008)
+[2023-07-06 11:57:01,111][98493] Updated weights for policy 0, policy_version 242790 (0.0007)
+[2023-07-06 11:57:01,312][98493] Updated weights for policy 0, policy_version 242816 (0.0006)
+[2023-07-06 11:57:03,678][98493] Updated weights for policy 0, policy_version 242880 (0.0007)
+[2023-07-06 11:57:04,295][98493] Updated weights for policy 0, policy_version 242948 (0.0011)
+[2023-07-06 11:57:04,760][98493] Updated weights for policy 0, policy_version 243005 (0.0006)
+[2023-07-06 11:57:04,764][98243] Fps is (10 sec: 121242.1, 60 sec: 112503.4, 300 sec: 111411.2). Total num frames: 497647616. Throughput: 0: 27693.5. Samples: 124468736. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:04,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 11:57:05,768][98493] Updated weights for policy 0, policy_version 243068 (0.0008)
+[2023-07-06 11:57:08,176][98493] Updated weights for policy 0, policy_version 243133 (0.0008)
+[2023-07-06 11:57:08,789][98493] Updated weights for policy 0, policy_version 243169 (0.0019)
+[2023-07-06 11:57:09,257][98493] Updated weights for policy 0, policy_version 243222 (0.0007)
+[2023-07-06 11:57:09,764][98243] Fps is (10 sec: 114687.3, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 498204672. Throughput: 0: 27943.8. Samples: 124560384. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:09,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:57:10,265][98493] Updated weights for policy 0, policy_version 243280 (0.0008)
+[2023-07-06 11:57:12,304][98493] Updated weights for policy 0, policy_version 243330 (0.0007)
+[2023-07-06 11:57:12,803][98493] Updated weights for policy 0, policy_version 243392 (0.0006)
+[2023-07-06 11:57:13,841][98493] Updated weights for policy 0, policy_version 243472 (0.0008)
+[2023-07-06 11:57:14,013][98449] Signal inference workers to stop experience collection... (12550 times)
+[2023-07-06 11:57:14,064][98493] InferenceWorker_p0-w0: stopping experience collection (12550 times)
+[2023-07-06 11:57:14,098][98449] Signal inference workers to resume experience collection... (12550 times)
+[2023-07-06 11:57:14,098][98493] InferenceWorker_p0-w0: resuming experience collection (12550 times)
+[2023-07-06 11:57:14,221][98493] Updated weights for policy 0, policy_version 243520 (0.0007)
+[2023-07-06 11:57:14,765][98243] Fps is (10 sec: 108131.8, 60 sec: 111410.7, 300 sec: 111522.2). Total num frames: 498728960. Throughput: 0: 27864.0. Samples: 124723712. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:14,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:57:15,301][98493] Updated weights for policy 0, policy_version 243578 (0.0008)
+[2023-07-06 11:57:17,386][98493] Updated weights for policy 0, policy_version 243632 (0.0007)
+[2023-07-06 11:57:17,974][98493] Updated weights for policy 0, policy_version 243689 (0.0007)
+[2023-07-06 11:57:18,373][98493] Updated weights for policy 0, policy_version 243731 (0.0008)
+[2023-07-06 11:57:19,661][98493] Updated weights for policy 0, policy_version 243798 (0.0007)
+[2023-07-06 11:57:19,764][98243] Fps is (10 sec: 111412.0, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 499318784. Throughput: 0: 27739.0. Samples: 124890112. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 11:57:21,972][98493] Updated weights for policy 0, policy_version 243863 (0.0008)
+[2023-07-06 11:57:22,730][98493] Updated weights for policy 0, policy_version 243920 (0.0006)
+[2023-07-06 11:57:23,250][98493] Updated weights for policy 0, policy_version 243970 (0.0007)
+[2023-07-06 11:57:23,695][98493] Updated weights for policy 0, policy_version 244027 (0.0008)
+[2023-07-06 11:57:24,651][98493] Updated weights for policy 0, policy_version 244090 (0.0007)
+[2023-07-06 11:57:24,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 499908608. Throughput: 0: 27943.8. Samples: 124975616. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:57:27,024][98493] Updated weights for policy 0, policy_version 244150 (0.0007)
+[2023-07-06 11:57:27,776][98493] Updated weights for policy 0, policy_version 244198 (0.0008)
+[2023-07-06 11:57:28,167][98493] Updated weights for policy 0, policy_version 244240 (0.0007)
+[2023-07-06 11:57:28,580][98493] Updated weights for policy 0, policy_version 244287 (0.0007)
+[2023-07-06 11:57:29,279][98493] Updated weights for policy 0, policy_version 244336 (0.0008)
+[2023-07-06 11:57:29,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113595.7, 300 sec: 111855.5). Total num frames: 500432896. Throughput: 0: 27613.8. Samples: 125136384. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:57:31,530][98493] Updated weights for policy 0, policy_version 244384 (0.0007)
+[2023-07-06 11:57:32,102][98493] Updated weights for policy 0, policy_version 244419 (0.0008)
+[2023-07-06 11:57:32,706][98449] Signal inference workers to stop experience collection... (12600 times)
+[2023-07-06 11:57:32,746][98493] InferenceWorker_p0-w0: stopping experience collection (12600 times)
+[2023-07-06 11:57:32,752][98493] Updated weights for policy 0, policy_version 244487 (0.0007)
+[2023-07-06 11:57:32,793][98449] Signal inference workers to resume experience collection... (12600 times)
+[2023-07-06 11:57:32,794][98493] InferenceWorker_p0-w0: resuming experience collection (12600 times)
+[2023-07-06 11:57:33,190][98493] Updated weights for policy 0, policy_version 244541 (0.0007)
+[2023-07-06 11:57:34,015][98493] Updated weights for policy 0, policy_version 244593 (0.0009)
+[2023-07-06 11:57:34,764][98243] Fps is (10 sec: 104858.7, 60 sec: 113049.5, 300 sec: 111633.3). Total num frames: 500957184. Throughput: 0: 27739.0. Samples: 125305856. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:57:36,240][98493] Updated weights for policy 0, policy_version 244628 (0.0006)
+[2023-07-06 11:57:36,734][98493] Updated weights for policy 0, policy_version 244673 (0.0007)
+[2023-07-06 11:57:37,192][98493] Updated weights for policy 0, policy_version 244723 (0.0008)
+[2023-07-06 11:57:37,654][98493] Updated weights for policy 0, policy_version 244784 (0.0008)
+[2023-07-06 11:57:38,619][98493] Updated weights for policy 0, policy_version 244839 (0.0006)
+[2023-07-06 11:57:39,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 501481472. Throughput: 0: 27773.2. Samples: 125389824. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:57:41,217][98493] Updated weights for policy 0, policy_version 244912 (0.0007)
+[2023-07-06 11:57:41,751][98493] Updated weights for policy 0, policy_version 244968 (0.0006)
+[2023-07-06 11:57:42,172][98493] Updated weights for policy 0, policy_version 245014 (0.0006)
+[2023-07-06 11:57:43,079][98493] Updated weights for policy 0, policy_version 245076 (0.0007)
+[2023-07-06 11:57:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.1, 300 sec: 111189.0). Total num frames: 502005760. Throughput: 0: 27716.3. Samples: 125555712. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:44,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 11:57:45,406][98493] Updated weights for policy 0, policy_version 245123 (0.0007)
+[2023-07-06 11:57:45,852][98493] Updated weights for policy 0, policy_version 245180 (0.0006)
+[2023-07-06 11:57:46,377][98493] Updated weights for policy 0, policy_version 245222 (0.0006)
+[2023-07-06 11:57:46,925][98493] Updated weights for policy 0, policy_version 245282 (0.0008)
+[2023-07-06 11:57:47,534][98493] Updated weights for policy 0, policy_version 245329 (0.0007)
+[2023-07-06 11:57:47,845][98493] Updated weights for policy 0, policy_version 245369 (0.0006)
+[2023-07-06 11:57:49,764][98243] Fps is (10 sec: 104857.8, 60 sec: 110318.7, 300 sec: 111078.0). Total num frames: 502530048. Throughput: 0: 28046.3. Samples: 125730816. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:57:50,592][98493] Updated weights for policy 0, policy_version 245426 (0.0007)
+[2023-07-06 11:57:50,742][98449] Signal inference workers to stop experience collection... (12650 times)
+[2023-07-06 11:57:50,781][98493] InferenceWorker_p0-w0: stopping experience collection (12650 times)
+[2023-07-06 11:57:50,820][98449] Signal inference workers to resume experience collection... (12650 times)
+[2023-07-06 11:57:50,821][98493] InferenceWorker_p0-w0: resuming experience collection (12650 times)
+[2023-07-06 11:57:51,070][98493] Updated weights for policy 0, policy_version 245477 (0.0007)
+[2023-07-06 11:57:51,600][98493] Updated weights for policy 0, policy_version 245528 (0.0007)
+[2023-07-06 11:57:52,207][98493] Updated weights for policy 0, policy_version 245600 (0.0007)
+[2023-07-06 11:57:54,765][98243] Fps is (10 sec: 104854.4, 60 sec: 110318.5, 300 sec: 111077.9). Total num frames: 503054336. Throughput: 0: 27670.6. Samples: 125805568. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:54,766][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:57:54,995][98493] Updated weights for policy 0, policy_version 245655 (0.0007)
+[2023-07-06 11:57:55,536][98493] Updated weights for policy 0, policy_version 245712 (0.0008)
+[2023-07-06 11:57:56,084][98493] Updated weights for policy 0, policy_version 245769 (0.0007)
+[2023-07-06 11:57:56,496][98493] Updated weights for policy 0, policy_version 245811 (0.0008)
+[2023-07-06 11:57:57,072][98493] Updated weights for policy 0, policy_version 245878 (0.0008)
+[2023-07-06 11:57:59,764][98243] Fps is (10 sec: 111411.0, 60 sec: 109772.8, 300 sec: 111300.2). Total num frames: 503644160. Throughput: 0: 27955.4. Samples: 125981696. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:57:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:57:59,803][98493] Updated weights for policy 0, policy_version 245936 (0.0006)
+[2023-07-06 11:58:00,322][98493] Updated weights for policy 0, policy_version 245968 (0.0006)
+[2023-07-06 11:58:00,683][98493] Updated weights for policy 0, policy_version 246011 (0.0008)
+[2023-07-06 11:58:01,278][98493] Updated weights for policy 0, policy_version 246064 (0.0007)
+[2023-07-06 11:58:01,815][98493] Updated weights for policy 0, policy_version 246128 (0.0008)
+[2023-07-06 11:58:04,271][98493] Updated weights for policy 0, policy_version 246186 (0.0007)
+[2023-07-06 11:58:04,764][98243] Fps is (10 sec: 117968.9, 60 sec: 109773.0, 300 sec: 111300.1). Total num frames: 504233984. Throughput: 0: 28012.1. Samples: 126150656. Policy #0 lag: (min: 15.0, avg: 82.8, max: 271.0)
+[2023-07-06 11:58:04,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:58:05,252][98493] Updated weights for policy 0, policy_version 246240 (0.0007)
+[2023-07-06 11:58:05,881][98493] Updated weights for policy 0, policy_version 246312 (0.0008)
+[2023-07-06 11:58:06,398][98493] Updated weights for policy 0, policy_version 246372 (0.0007)
+[2023-07-06 11:58:08,737][98449] Signal inference workers to stop experience collection... (12700 times)
+[2023-07-06 11:58:08,771][98493] InferenceWorker_p0-w0: stopping experience collection (12700 times)
+[2023-07-06 11:58:08,836][98449] Signal inference workers to resume experience collection... (12700 times)
+[2023-07-06 11:58:08,836][98493] InferenceWorker_p0-w0: resuming experience collection (12700 times)
+[2023-07-06 11:58:08,931][98493] Updated weights for policy 0, policy_version 246425 (0.0007)
+[2023-07-06 11:58:09,244][98493] Updated weights for policy 0, policy_version 246464 (0.0007)
+[2023-07-06 11:58:09,764][98243] Fps is (10 sec: 111410.7, 60 sec: 109226.7, 300 sec: 111077.9). Total num frames: 504758272. Throughput: 0: 27887.0. Samples: 126230528. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:09,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:58:10,277][98493] Updated weights for policy 0, policy_version 246528 (0.0010)
+[2023-07-06 11:58:10,712][98493] Updated weights for policy 0, policy_version 246576 (0.0007)
+[2023-07-06 11:58:11,150][98493] Updated weights for policy 0, policy_version 246624 (0.0011)
+[2023-07-06 11:58:13,428][98493] Updated weights for policy 0, policy_version 246659 (0.0010)
+[2023-07-06 11:58:13,845][98493] Updated weights for policy 0, policy_version 246713 (0.0006)
+[2023-07-06 11:58:14,764][98243] Fps is (10 sec: 111409.3, 60 sec: 110319.3, 300 sec: 111189.0). Total num frames: 505348096. Throughput: 0: 28103.1. Samples: 126401024. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:58:14,766][98493] Updated weights for policy 0, policy_version 246759 (0.0007)
+[2023-07-06 11:58:15,338][98493] Updated weights for policy 0, policy_version 246819 (0.0008)
+[2023-07-06 11:58:15,916][98493] Updated weights for policy 0, policy_version 246883 (0.0007)
+[2023-07-06 11:58:18,179][98493] Updated weights for policy 0, policy_version 246916 (0.0006)
+[2023-07-06 11:58:18,633][98493] Updated weights for policy 0, policy_version 246973 (0.0007)
+[2023-07-06 11:58:19,467][98493] Updated weights for policy 0, policy_version 247040 (0.0008)
+[2023-07-06 11:58:19,764][98243] Fps is (10 sec: 124519.5, 60 sec: 111411.2, 300 sec: 111300.1). Total num frames: 506003456. Throughput: 0: 28012.1. Samples: 126566400. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:58:20,043][98493] Updated weights for policy 0, policy_version 247104 (0.0008)
+[2023-07-06 11:58:20,562][98493] Updated weights for policy 0, policy_version 247159 (0.0007)
+[2023-07-06 11:58:23,063][98493] Updated weights for policy 0, policy_version 247209 (0.0006)
+[2023-07-06 11:58:23,846][98493] Updated weights for policy 0, policy_version 247269 (0.0007)
+[2023-07-06 11:58:24,292][98493] Updated weights for policy 0, policy_version 247312 (0.0006)
+[2023-07-06 11:58:24,490][98449] Signal inference workers to stop experience collection... (12750 times)
+[2023-07-06 11:58:24,521][98493] InferenceWorker_p0-w0: stopping experience collection (12750 times)
+[2023-07-06 11:58:24,569][98449] Signal inference workers to resume experience collection... (12750 times)
+[2023-07-06 11:58:24,570][98493] InferenceWorker_p0-w0: resuming experience collection (12750 times)
+[2023-07-06 11:58:24,764][98243] Fps is (10 sec: 124520.0, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 506593280. Throughput: 0: 28137.3. Samples: 126656000. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:24,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:58:24,868][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000247376_506626048.pth...
+[2023-07-06 11:58:24,868][98493] Updated weights for policy 0, policy_version 247376 (0.0007)
+[2023-07-06 11:58:24,943][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000234304_479854592.pth
+[2023-07-06 11:58:27,710][98493] Updated weights for policy 0, policy_version 247429 (0.0006)
+[2023-07-06 11:58:28,153][98493] Updated weights for policy 0, policy_version 247486 (0.0008)
+[2023-07-06 11:58:28,792][98493] Updated weights for policy 0, policy_version 247539 (0.0007)
+[2023-07-06 11:58:29,347][98493] Updated weights for policy 0, policy_version 247612 (0.0007)
+[2023-07-06 11:58:29,764][98243] Fps is (10 sec: 117963.2, 60 sec: 112503.3, 300 sec: 111744.4). Total num frames: 507183104. Throughput: 0: 28046.2. Samples: 126817792. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:29,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 11:58:29,846][98493] Updated weights for policy 0, policy_version 247652 (0.0007)
+[2023-07-06 11:58:32,612][98493] Updated weights for policy 0, policy_version 247721 (0.0007)
+[2023-07-06 11:58:33,307][98493] Updated weights for policy 0, policy_version 247760 (0.0007)
+[2023-07-06 11:58:33,980][98493] Updated weights for policy 0, policy_version 247832 (0.0007)
+[2023-07-06 11:58:34,636][98493] Updated weights for policy 0, policy_version 247907 (0.0008)
+[2023-07-06 11:58:34,766][98243] Fps is (10 sec: 114664.7, 60 sec: 113045.8, 300 sec: 111854.8). Total num frames: 507740160. Throughput: 0: 27669.5. Samples: 126976000. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:34,767][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 11:58:37,179][98493] Updated weights for policy 0, policy_version 247961 (0.0007)
+[2023-07-06 11:58:37,919][98493] Updated weights for policy 0, policy_version 248002 (0.0007)
+[2023-07-06 11:58:38,363][98493] Updated weights for policy 0, policy_version 248060 (0.0007)
+[2023-07-06 11:58:38,963][98493] Updated weights for policy 0, policy_version 248117 (0.0007)
+[2023-07-06 11:58:39,571][98493] Updated weights for policy 0, policy_version 248192 (0.0007)
+[2023-07-06 11:58:39,764][98243] Fps is (10 sec: 111412.2, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 508297216. Throughput: 0: 28046.4. Samples: 127067648. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 11:58:42,179][98493] Updated weights for policy 0, policy_version 248250 (0.0007)
+[2023-07-06 11:58:42,743][98449] Signal inference workers to stop experience collection... (12800 times)
+[2023-07-06 11:58:42,781][98493] InferenceWorker_p0-w0: stopping experience collection (12800 times)
+[2023-07-06 11:58:42,838][98449] Signal inference workers to resume experience collection... (12800 times)
+[2023-07-06 11:58:42,838][98493] InferenceWorker_p0-w0: resuming experience collection (12800 times)
+[2023-07-06 11:58:42,983][98493] Updated weights for policy 0, policy_version 248304 (0.0007)
+[2023-07-06 11:58:43,416][98493] Updated weights for policy 0, policy_version 248352 (0.0007)
+[2023-07-06 11:58:43,846][98493] Updated weights for policy 0, policy_version 248400 (0.0007)
+[2023-07-06 11:58:44,261][98493] Updated weights for policy 0, policy_version 248445 (0.0007)
+[2023-07-06 11:58:44,764][98243] Fps is (10 sec: 108156.5, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 508821504. Throughput: 0: 27784.6. Samples: 127232000. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 11:58:46,985][98493] Updated weights for policy 0, policy_version 248500 (0.0008)
+[2023-07-06 11:58:47,408][98493] Updated weights for policy 0, policy_version 248549 (0.0007)
+[2023-07-06 11:58:47,891][98493] Updated weights for policy 0, policy_version 248608 (0.0007)
+[2023-07-06 11:58:48,332][98493] Updated weights for policy 0, policy_version 248656 (0.0007)
+[2023-07-06 11:58:49,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113595.7, 300 sec: 111966.7). Total num frames: 509345792. Throughput: 0: 27773.1. Samples: 127400448. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:49,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 11:58:51,209][98493] Updated weights for policy 0, policy_version 248705 (0.0006)
+[2023-07-06 11:58:51,723][98493] Updated weights for policy 0, policy_version 248766 (0.0037)
+[2023-07-06 11:58:52,198][98493] Updated weights for policy 0, policy_version 248816 (0.0007)
+[2023-07-06 11:58:52,761][98493] Updated weights for policy 0, policy_version 248880 (0.0007)
+[2023-07-06 11:58:53,247][98493] Updated weights for policy 0, policy_version 248933 (0.0007)
+[2023-07-06 11:58:54,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113596.4, 300 sec: 111744.4). Total num frames: 509870080. Throughput: 0: 27830.1. Samples: 127482880. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:54,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:58:56,213][98493] Updated weights for policy 0, policy_version 249008 (0.0008)
+[2023-07-06 11:58:57,100][98493] Updated weights for policy 0, policy_version 249062 (0.0007)
+[2023-07-06 11:58:57,580][98493] Updated weights for policy 0, policy_version 249120 (0.0007)
+[2023-07-06 11:58:57,796][98449] Signal inference workers to stop experience collection... (12850 times)
+[2023-07-06 11:58:57,809][98493] InferenceWorker_p0-w0: stopping experience collection (12850 times)
+[2023-07-06 11:58:57,875][98449] Signal inference workers to resume experience collection... (12850 times)
+[2023-07-06 11:58:57,876][98493] InferenceWorker_p0-w0: resuming experience collection (12850 times)
+[2023-07-06 11:58:58,094][98493] Updated weights for policy 0, policy_version 249175 (0.0008)
+[2023-07-06 11:58:59,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 510394368. Throughput: 0: 27750.5. Samples: 127649792. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:58:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 11:59:00,656][98493] Updated weights for policy 0, policy_version 249220 (0.0007)
+[2023-07-06 11:59:01,132][98493] Updated weights for policy 0, policy_version 249280 (0.0007)
+[2023-07-06 11:59:02,031][98493] Updated weights for policy 0, policy_version 249350 (0.0008)
+[2023-07-06 11:59:02,616][98493] Updated weights for policy 0, policy_version 249413 (0.0006)
+[2023-07-06 11:59:03,035][98493] Updated weights for policy 0, policy_version 249470 (0.0006)
+[2023-07-06 11:59:04,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.1, 300 sec: 111411.2). Total num frames: 510918656. Throughput: 0: 27852.8. Samples: 127819776. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:59:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:59:05,738][98493] Updated weights for policy 0, policy_version 249520 (0.0007)
+[2023-07-06 11:59:06,524][98493] Updated weights for policy 0, policy_version 249572 (0.0007)
+[2023-07-06 11:59:07,014][98493] Updated weights for policy 0, policy_version 249632 (0.0008)
+[2023-07-06 11:59:07,617][98493] Updated weights for policy 0, policy_version 249697 (0.0007)
+[2023-07-06 11:59:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 511442944. Throughput: 0: 27579.7. Samples: 127897088. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:59:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:59:10,117][98493] Updated weights for policy 0, policy_version 249744 (0.0006)
+[2023-07-06 11:59:10,989][98493] Updated weights for policy 0, policy_version 249794 (0.0007)
+[2023-07-06 11:59:11,586][98493] Updated weights for policy 0, policy_version 249872 (0.0008)
+[2023-07-06 11:59:12,105][98493] Updated weights for policy 0, policy_version 249925 (0.0007)
+[2023-07-06 11:59:14,690][98493] Updated weights for policy 0, policy_version 249985 (0.0007)
+[2023-07-06 11:59:14,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110319.2, 300 sec: 110855.8). Total num frames: 511967232. Throughput: 0: 27727.7. Samples: 128065536. Policy #0 lag: (min: 15.0, avg: 91.3, max: 271.0)
+[2023-07-06 11:59:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 11:59:15,077][98493] Updated weights for policy 0, policy_version 250032 (0.0008)
+[2023-07-06 11:59:15,836][98449] Signal inference workers to stop experience collection... (12900 times)
+[2023-07-06 11:59:15,869][98493] InferenceWorker_p0-w0: stopping experience collection (12900 times)
+[2023-07-06 11:59:15,919][98449] Signal inference workers to resume experience collection... (12900 times)
+[2023-07-06 11:59:15,919][98493] InferenceWorker_p0-w0: resuming experience collection (12900 times)
+[2023-07-06 11:59:16,002][98493] Updated weights for policy 0, policy_version 250084 (0.0007)
+[2023-07-06 11:59:16,430][98493] Updated weights for policy 0, policy_version 250134 (0.0008)
+[2023-07-06 11:59:16,984][98493] Updated weights for policy 0, policy_version 250194 (0.0008)
+[2023-07-06 11:59:19,526][98493] Updated weights for policy 0, policy_version 250256 (0.0007)
+[2023-07-06 11:59:19,764][98243] Fps is (10 sec: 111411.7, 60 sec: 109226.7, 300 sec: 110855.8). Total num frames: 512557056. Throughput: 0: 28036.1. Samples: 128237568. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:19,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:59:19,910][98493] Updated weights for policy 0, policy_version 250301 (0.0008)
+[2023-07-06 11:59:20,897][98493] Updated weights for policy 0, policy_version 250355 (0.0007)
+[2023-07-06 11:59:21,441][98493] Updated weights for policy 0, policy_version 250418 (0.0007)
+[2023-07-06 11:59:21,938][98493] Updated weights for policy 0, policy_version 250480 (0.0007)
+[2023-07-06 11:59:24,563][98493] Updated weights for policy 0, policy_version 250532 (0.0007)
+[2023-07-06 11:59:24,764][98243] Fps is (10 sec: 117964.5, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 513146880. Throughput: 0: 27750.4. Samples: 128316416. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 11:59:25,185][98493] Updated weights for policy 0, policy_version 250582 (0.0008)
+[2023-07-06 11:59:25,946][98493] Updated weights for policy 0, policy_version 250660 (0.0007)
+[2023-07-06 11:59:26,397][98493] Updated weights for policy 0, policy_version 250710 (0.0006)
+[2023-07-06 11:59:26,741][98493] Updated weights for policy 0, policy_version 250752 (0.0009)
+[2023-07-06 11:59:29,426][98493] Updated weights for policy 0, policy_version 250816 (0.0008)
+[2023-07-06 11:59:29,764][98243] Fps is (10 sec: 117963.8, 60 sec: 109226.8, 300 sec: 111300.1). Total num frames: 513736704. Throughput: 0: 27955.2. Samples: 128489984. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 11:59:29,866][98493] Updated weights for policy 0, policy_version 250864 (0.0008)
+[2023-07-06 11:59:30,666][98493] Updated weights for policy 0, policy_version 250916 (0.0007)
+[2023-07-06 11:59:31,156][98493] Updated weights for policy 0, policy_version 250976 (0.0008)
+[2023-07-06 11:59:31,205][98449] Signal inference workers to stop experience collection... (12950 times)
+[2023-07-06 11:59:31,244][98493] InferenceWorker_p0-w0: stopping experience collection (12950 times)
+[2023-07-06 11:59:31,286][98449] Signal inference workers to resume experience collection... (12950 times)
+[2023-07-06 11:59:31,287][98493] InferenceWorker_p0-w0: resuming experience collection (12950 times)
+[2023-07-06 11:59:33,744][98493] Updated weights for policy 0, policy_version 251024 (0.0007)
+[2023-07-06 11:59:34,147][98493] Updated weights for policy 0, policy_version 251062 (0.0008)
+[2023-07-06 11:59:34,700][98493] Updated weights for policy 0, policy_version 251129 (0.0010)
+[2023-07-06 11:59:34,764][98243] Fps is (10 sec: 117965.5, 60 sec: 109776.6, 300 sec: 111189.1). Total num frames: 514326528. Throughput: 0: 27852.8. Samples: 128653824. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:34,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:59:35,219][98493] Updated weights for policy 0, policy_version 251172 (0.0006)
+[2023-07-06 11:59:35,707][98493] Updated weights for policy 0, policy_version 251232 (0.0007)
+[2023-07-06 11:59:38,390][98493] Updated weights for policy 0, policy_version 251280 (0.0007)
+[2023-07-06 11:59:38,885][98493] Updated weights for policy 0, policy_version 251333 (0.0006)
+[2023-07-06 11:59:39,764][98243] Fps is (10 sec: 111410.0, 60 sec: 109226.4, 300 sec: 111189.0). Total num frames: 514850816. Throughput: 0: 27977.8. Samples: 128741888. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:39,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 11:59:39,880][98493] Updated weights for policy 0, policy_version 251408 (0.0006)
+[2023-07-06 11:59:40,500][98493] Updated weights for policy 0, policy_version 251478 (0.0009)
+[2023-07-06 11:59:42,896][98493] Updated weights for policy 0, policy_version 251530 (0.0007)
+[2023-07-06 11:59:43,472][98493] Updated weights for policy 0, policy_version 251590 (0.0007)
+[2023-07-06 11:59:43,920][98493] Updated weights for policy 0, policy_version 251648 (0.0007)
+[2023-07-06 11:59:44,764][98243] Fps is (10 sec: 108135.0, 60 sec: 109773.0, 300 sec: 111189.1). Total num frames: 515407872. Throughput: 0: 27864.3. Samples: 128903680. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:44,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 11:59:44,984][98493] Updated weights for policy 0, policy_version 251696 (0.0006)
+[2023-07-06 11:59:45,590][98493] Updated weights for policy 0, policy_version 251770 (0.0007)
+[2023-07-06 11:59:47,793][98493] Updated weights for policy 0, policy_version 251809 (0.0006)
+[2023-07-06 11:59:48,248][98493] Updated weights for policy 0, policy_version 251858 (0.0007)
+[2023-07-06 11:59:49,300][98449] Signal inference workers to stop experience collection... (13000 times)
+[2023-07-06 11:59:49,347][98493] InferenceWorker_p0-w0: stopping experience collection (13000 times)
+[2023-07-06 11:59:49,423][98449] Signal inference workers to resume experience collection... (13000 times)
+[2023-07-06 11:59:49,423][98493] InferenceWorker_p0-w0: resuming experience collection (13000 times)
+[2023-07-06 11:59:49,425][98493] Updated weights for policy 0, policy_version 251920 (0.0007)
+[2023-07-06 11:59:49,764][98243] Fps is (10 sec: 114690.0, 60 sec: 110865.1, 300 sec: 111411.3). Total num frames: 515997696. Throughput: 0: 27818.7. Samples: 129071616. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:49,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 11:59:50,001][98493] Updated weights for policy 0, policy_version 251984 (0.0006)
+[2023-07-06 11:59:51,979][98493] Updated weights for policy 0, policy_version 252036 (0.0006)
+[2023-07-06 11:59:52,413][98493] Updated weights for policy 0, policy_version 252091 (0.0007)
+[2023-07-06 11:59:53,152][98493] Updated weights for policy 0, policy_version 252133 (0.0007)
+[2023-07-06 11:59:54,289][98493] Updated weights for policy 0, policy_version 252201 (0.0008)
+[2023-07-06 11:59:54,764][98243] Fps is (10 sec: 121240.9, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 516620288. Throughput: 0: 28023.5. Samples: 129158144. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:54,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 11:59:54,937][98493] Updated weights for policy 0, policy_version 252281 (0.0008)
+[2023-07-06 11:59:57,015][98493] Updated weights for policy 0, policy_version 252323 (0.0007)
+[2023-07-06 11:59:57,656][98493] Updated weights for policy 0, policy_version 252384 (0.0007)
+[2023-07-06 11:59:58,759][98493] Updated weights for policy 0, policy_version 252432 (0.0007)
+[2023-07-06 11:59:59,293][98493] Updated weights for policy 0, policy_version 252486 (0.0008)
+[2023-07-06 11:59:59,729][98493] Updated weights for policy 0, policy_version 252541 (0.0008)
+[2023-07-06 11:59:59,764][98243] Fps is (10 sec: 121241.8, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 517210112. Throughput: 0: 28000.7. Samples: 129325568. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 11:59:59,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:00:01,907][98493] Updated weights for policy 0, policy_version 252605 (0.0007)
+[2023-07-06 12:00:02,588][98493] Updated weights for policy 0, policy_version 252663 (0.0007)
+[2023-07-06 12:00:03,876][98493] Updated weights for policy 0, policy_version 252722 (0.0007)
+[2023-07-06 12:00:04,439][98493] Updated weights for policy 0, policy_version 252793 (0.0007)
+[2023-07-06 12:00:04,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 517734400. Throughput: 0: 27761.8. Samples: 129486848. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 12:00:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:00:06,394][98493] Updated weights for policy 0, policy_version 252848 (0.0006)
+[2023-07-06 12:00:06,984][98449] Signal inference workers to stop experience collection... (13050 times)
+[2023-07-06 12:00:07,029][98493] InferenceWorker_p0-w0: stopping experience collection (13050 times)
+[2023-07-06 12:00:07,071][98449] Signal inference workers to resume experience collection... (13050 times)
+[2023-07-06 12:00:07,071][98493] InferenceWorker_p0-w0: resuming experience collection (13050 times)
+[2023-07-06 12:00:07,197][98493] Updated weights for policy 0, policy_version 252912 (0.0007)
+[2023-07-06 12:00:08,733][98493] Updated weights for policy 0, policy_version 252976 (0.0007)
+[2023-07-06 12:00:09,210][98493] Updated weights for policy 0, policy_version 253028 (0.0007)
+[2023-07-06 12:00:09,764][98243] Fps is (10 sec: 104857.3, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 518258688. Throughput: 0: 27921.1. Samples: 129572864. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 12:00:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:00:10,979][98493] Updated weights for policy 0, policy_version 253088 (0.0008)
+[2023-07-06 12:00:11,644][98493] Updated weights for policy 0, policy_version 253136 (0.0006)
+[2023-07-06 12:00:12,008][98493] Updated weights for policy 0, policy_version 253182 (0.0006)
+[2023-07-06 12:00:13,451][98493] Updated weights for policy 0, policy_version 253241 (0.0007)
+[2023-07-06 12:00:13,985][98493] Updated weights for policy 0, policy_version 253308 (0.0007)
+[2023-07-06 12:00:14,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113595.6, 300 sec: 111855.5). Total num frames: 518782976. Throughput: 0: 27773.2. Samples: 129739776. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 12:00:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:00:15,671][98493] Updated weights for policy 0, policy_version 253370 (0.0008)
+[2023-07-06 12:00:16,646][98493] Updated weights for policy 0, policy_version 253432 (0.0008)
+[2023-07-06 12:00:18,066][98493] Updated weights for policy 0, policy_version 253474 (0.0007)
+[2023-07-06 12:00:18,518][98493] Updated weights for policy 0, policy_version 253526 (0.0014)
+[2023-07-06 12:00:19,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 519307264. Throughput: 0: 27943.8. Samples: 129911296. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 12:00:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:00:20,217][98493] Updated weights for policy 0, policy_version 253584 (0.0007)
+[2023-07-06 12:00:20,661][98493] Updated weights for policy 0, policy_version 253630 (0.0006)
+[2023-07-06 12:00:21,179][98493] Updated weights for policy 0, policy_version 253692 (0.0007)
+[2023-07-06 12:00:22,858][98493] Updated weights for policy 0, policy_version 253744 (0.0007)
+[2023-07-06 12:00:23,446][98493] Updated weights for policy 0, policy_version 253808 (0.0007)
+[2023-07-06 12:00:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.1, 300 sec: 111189.0). Total num frames: 519831552. Throughput: 0: 27875.6. Samples: 129996288. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 12:00:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:00:24,861][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000253840_519864320.pth...
+[2023-07-06 12:00:24,926][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000240768_493092864.pth
+[2023-07-06 12:00:24,926][98449] Signal inference workers to stop experience collection... (13100 times)
+[2023-07-06 12:00:24,959][98493] InferenceWorker_p0-w0: stopping experience collection (13100 times)
+[2023-07-06 12:00:25,042][98449] Signal inference workers to resume experience collection... (13100 times)
+[2023-07-06 12:00:25,043][98493] InferenceWorker_p0-w0: resuming experience collection (13100 times)
+[2023-07-06 12:00:25,147][98493] Updated weights for policy 0, policy_version 253864 (0.0007)
+[2023-07-06 12:00:25,707][98493] Updated weights for policy 0, policy_version 253921 (0.0007)
+[2023-07-06 12:00:27,334][98493] Updated weights for policy 0, policy_version 253970 (0.0007)
+[2023-07-06 12:00:27,915][98493] Updated weights for policy 0, policy_version 254037 (0.0007)
+[2023-07-06 12:00:29,521][98493] Updated weights for policy 0, policy_version 254082 (0.0007)
+[2023-07-06 12:00:29,764][98243] Fps is (10 sec: 111411.7, 60 sec: 111411.4, 300 sec: 111300.2). Total num frames: 520421376. Throughput: 0: 27932.4. Samples: 130160640. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 12:00:29,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:00:30,052][98493] Updated weights for policy 0, policy_version 254144 (0.0007)
+[2023-07-06 12:00:30,563][98493] Updated weights for policy 0, policy_version 254204 (0.0007)
+[2023-07-06 12:00:32,346][98493] Updated weights for policy 0, policy_version 254257 (0.0007)
+[2023-07-06 12:00:32,901][98493] Updated weights for policy 0, policy_version 254329 (0.0007)
+[2023-07-06 12:00:34,328][98493] Updated weights for policy 0, policy_version 254370 (0.0006)
+[2023-07-06 12:00:34,764][98243] Fps is (10 sec: 121242.3, 60 sec: 111957.2, 300 sec: 111411.2). Total num frames: 521043968. Throughput: 0: 27875.5. Samples: 130326016. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:00:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:00:34,835][98493] Updated weights for policy 0, policy_version 254432 (0.0007)
+[2023-07-06 12:00:37,014][98493] Updated weights for policy 0, policy_version 254496 (0.0007)
+[2023-07-06 12:00:37,640][98493] Updated weights for policy 0, policy_version 254564 (0.0008)
+[2023-07-06 12:00:38,955][98493] Updated weights for policy 0, policy_version 254624 (0.0009)
+[2023-07-06 12:00:39,452][98493] Updated weights for policy 0, policy_version 254678 (0.0033)
+[2023-07-06 12:00:39,764][98243] Fps is (10 sec: 124518.7, 60 sec: 113596.1, 300 sec: 111522.3). Total num frames: 521666560. Throughput: 0: 27795.9. Samples: 130408960. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:00:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:00:41,545][98493] Updated weights for policy 0, policy_version 254736 (0.0007)
+[2023-07-06 12:00:41,731][98449] Signal inference workers to stop experience collection... (13150 times)
+[2023-07-06 12:00:41,762][98493] InferenceWorker_p0-w0: stopping experience collection (13150 times)
+[2023-07-06 12:00:41,826][98449] Signal inference workers to resume experience collection... (13150 times)
+[2023-07-06 12:00:41,826][98493] InferenceWorker_p0-w0: resuming experience collection (13150 times)
+[2023-07-06 12:00:42,082][98493] Updated weights for policy 0, policy_version 254787 (0.0007)
+[2023-07-06 12:00:42,503][98493] Updated weights for policy 0, policy_version 254842 (0.0007)
+[2023-07-06 12:00:43,811][98493] Updated weights for policy 0, policy_version 254884 (0.0007)
+[2023-07-06 12:00:44,508][98493] Updated weights for policy 0, policy_version 254970 (0.0007)
+[2023-07-06 12:00:44,764][98243] Fps is (10 sec: 114688.0, 60 sec: 113049.4, 300 sec: 111522.3). Total num frames: 522190848. Throughput: 0: 27875.5. Samples: 130579968. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:00:44,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:00:46,727][98493] Updated weights for policy 0, policy_version 255028 (0.0008)
+[2023-07-06 12:00:47,301][98493] Updated weights for policy 0, policy_version 255093 (0.0007)
+[2023-07-06 12:00:48,499][98493] Updated weights for policy 0, policy_version 255138 (0.0009)
+[2023-07-06 12:00:48,952][98493] Updated weights for policy 0, policy_version 255188 (0.0008)
+[2023-07-06 12:00:49,764][98243] Fps is (10 sec: 104855.3, 60 sec: 111957.0, 300 sec: 111522.2). Total num frames: 522715136. Throughput: 0: 27898.2. Samples: 130742272. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:00:49,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:00:50,885][98493] Updated weights for policy 0, policy_version 255234 (0.0007)
+[2023-07-06 12:00:51,315][98493] Updated weights for policy 0, policy_version 255292 (0.0007)
+[2023-07-06 12:00:51,893][98493] Updated weights for policy 0, policy_version 255356 (0.0008)
+[2023-07-06 12:00:53,253][98493] Updated weights for policy 0, policy_version 255408 (0.0006)
+[2023-07-06 12:00:53,881][98493] Updated weights for policy 0, policy_version 255481 (0.0007)
+[2023-07-06 12:00:54,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110318.8, 300 sec: 111522.5). Total num frames: 523239424. Throughput: 0: 27932.4. Samples: 130829824. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:00:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:00:55,702][98493] Updated weights for policy 0, policy_version 255536 (0.0012)
+[2023-07-06 12:00:56,489][98493] Updated weights for policy 0, policy_version 255589 (0.0007)
+[2023-07-06 12:00:57,755][98493] Updated weights for policy 0, policy_version 255648 (0.0007)
+[2023-07-06 12:00:58,351][98449] Signal inference workers to stop experience collection... (13200 times)
+[2023-07-06 12:00:58,393][98493] InferenceWorker_p0-w0: stopping experience collection (13200 times)
+[2023-07-06 12:00:58,431][98449] Signal inference workers to resume experience collection... (13200 times)
+[2023-07-06 12:00:58,432][98493] InferenceWorker_p0-w0: resuming experience collection (13200 times)
+[2023-07-06 12:00:58,433][98493] Updated weights for policy 0, policy_version 255712 (0.0007)
+[2023-07-06 12:00:58,695][98493] Updated weights for policy 0, policy_version 255744 (0.0008)
+[2023-07-06 12:00:59,764][98243] Fps is (10 sec: 104858.9, 60 sec: 109226.5, 300 sec: 111411.2). Total num frames: 523763712. Throughput: 0: 27841.4. Samples: 130992640. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:00:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:01:00,351][98493] Updated weights for policy 0, policy_version 255802 (0.0007)
+[2023-07-06 12:01:01,245][98493] Updated weights for policy 0, policy_version 255840 (0.0006)
+[2023-07-06 12:01:02,287][98493] Updated weights for policy 0, policy_version 255889 (0.0006)
+[2023-07-06 12:01:02,818][98493] Updated weights for policy 0, policy_version 255952 (0.0006)
+[2023-07-06 12:01:03,239][98493] Updated weights for policy 0, policy_version 256000 (0.0006)
+[2023-07-06 12:01:04,765][98243] Fps is (10 sec: 104855.2, 60 sec: 109226.2, 300 sec: 111077.9). Total num frames: 524288000. Throughput: 0: 27909.5. Samples: 131167232. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:01:05,308][98493] Updated weights for policy 0, policy_version 256059 (0.0008)
+[2023-07-06 12:01:05,977][98493] Updated weights for policy 0, policy_version 256105 (0.0008)
+[2023-07-06 12:01:06,940][98493] Updated weights for policy 0, policy_version 256160 (0.0007)
+[2023-07-06 12:01:07,444][98493] Updated weights for policy 0, policy_version 256212 (0.0007)
+[2023-07-06 12:01:09,638][98493] Updated weights for policy 0, policy_version 256258 (0.0006)
+[2023-07-06 12:01:09,764][98243] Fps is (10 sec: 108134.8, 60 sec: 109772.8, 300 sec: 111189.0). Total num frames: 524845056. Throughput: 0: 27739.1. Samples: 131244544. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:01:10,094][98493] Updated weights for policy 0, policy_version 256318 (0.0008)
+[2023-07-06 12:01:10,711][98493] Updated weights for policy 0, policy_version 256369 (0.0020)
+[2023-07-06 12:01:11,718][98493] Updated weights for policy 0, policy_version 256409 (0.0007)
+[2023-07-06 12:01:12,269][98493] Updated weights for policy 0, policy_version 256471 (0.0007)
+[2023-07-06 12:01:12,589][98493] Updated weights for policy 0, policy_version 256510 (0.0006)
+[2023-07-06 12:01:14,568][98493] Updated weights for policy 0, policy_version 256570 (0.0006)
+[2023-07-06 12:01:14,764][98243] Fps is (10 sec: 117967.6, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 525467648. Throughput: 0: 27932.4. Samples: 131417600. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:14,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:01:15,437][98493] Updated weights for policy 0, policy_version 256631 (0.0007)
+[2023-07-06 12:01:16,558][98493] Updated weights for policy 0, policy_version 256688 (0.0007)
+[2023-07-06 12:01:16,616][98449] Signal inference workers to stop experience collection... (13250 times)
+[2023-07-06 12:01:16,633][98493] InferenceWorker_p0-w0: stopping experience collection (13250 times)
+[2023-07-06 12:01:16,709][98449] Signal inference workers to resume experience collection... (13250 times)
+[2023-07-06 12:01:16,709][98493] InferenceWorker_p0-w0: resuming experience collection (13250 times)
+[2023-07-06 12:01:17,078][98493] Updated weights for policy 0, policy_version 256744 (0.0006)
+[2023-07-06 12:01:19,072][98493] Updated weights for policy 0, policy_version 256784 (0.0008)
+[2023-07-06 12:01:19,521][98493] Updated weights for policy 0, policy_version 256832 (0.0007)
+[2023-07-06 12:01:19,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 525991936. Throughput: 0: 27955.2. Samples: 131584000. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:19,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:01:20,177][98493] Updated weights for policy 0, policy_version 256889 (0.0007)
+[2023-07-06 12:01:21,246][98493] Updated weights for policy 0, policy_version 256928 (0.0006)
+[2023-07-06 12:01:21,879][98493] Updated weights for policy 0, policy_version 256999 (0.0009)
+[2023-07-06 12:01:23,870][98493] Updated weights for policy 0, policy_version 257047 (0.0006)
+[2023-07-06 12:01:24,185][98493] Updated weights for policy 0, policy_version 257086 (0.0007)
+[2023-07-06 12:01:24,764][98243] Fps is (10 sec: 114688.2, 60 sec: 113049.7, 300 sec: 111855.5). Total num frames: 526614528. Throughput: 0: 27932.4. Samples: 131665920. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:24,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:01:24,808][98493] Updated weights for policy 0, policy_version 257147 (0.0008)
+[2023-07-06 12:01:26,061][98493] Updated weights for policy 0, policy_version 257200 (0.0006)
+[2023-07-06 12:01:26,470][98493] Updated weights for policy 0, policy_version 257238 (0.0007)
+[2023-07-06 12:01:26,756][98493] Updated weights for policy 0, policy_version 257276 (0.0007)
+[2023-07-06 12:01:28,959][98493] Updated weights for policy 0, policy_version 257344 (0.0008)
+[2023-07-06 12:01:29,512][98493] Updated weights for policy 0, policy_version 257408 (0.0007)
+[2023-07-06 12:01:29,764][98243] Fps is (10 sec: 117964.6, 60 sec: 112503.3, 300 sec: 111855.5). Total num frames: 527171584. Throughput: 0: 27977.9. Samples: 131838976. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:01:30,825][98493] Updated weights for policy 0, policy_version 257470 (0.0006)
+[2023-07-06 12:01:31,350][98493] Updated weights for policy 0, policy_version 257533 (0.0007)
+[2023-07-06 12:01:33,431][98493] Updated weights for policy 0, policy_version 257598 (0.0007)
+[2023-07-06 12:01:34,098][98493] Updated weights for policy 0, policy_version 257657 (0.0008)
+[2023-07-06 12:01:34,764][98243] Fps is (10 sec: 108134.1, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 527695872. Throughput: 0: 27966.7. Samples: 132000768. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:01:35,305][98449] Signal inference workers to stop experience collection... (13300 times)
+[2023-07-06 12:01:35,333][98493] InferenceWorker_p0-w0: stopping experience collection (13300 times)
+[2023-07-06 12:01:35,401][98449] Signal inference workers to resume experience collection... (13300 times)
+[2023-07-06 12:01:35,401][98493] InferenceWorker_p0-w0: resuming experience collection (13300 times)
+[2023-07-06 12:01:35,694][98493] Updated weights for policy 0, policy_version 257712 (0.0007)
+[2023-07-06 12:01:36,099][98493] Updated weights for policy 0, policy_version 257760 (0.0007)
+[2023-07-06 12:01:37,603][98493] Updated weights for policy 0, policy_version 257793 (0.0007)
+[2023-07-06 12:01:38,036][98493] Updated weights for policy 0, policy_version 257850 (0.0006)
+[2023-07-06 12:01:38,591][98493] Updated weights for policy 0, policy_version 257893 (0.0007)
+[2023-07-06 12:01:39,764][98243] Fps is (10 sec: 104857.4, 60 sec: 109226.5, 300 sec: 111522.2). Total num frames: 528220160. Throughput: 0: 27966.6. Samples: 132088320. Policy #0 lag: (min: 49.0, avg: 145.1, max: 305.0)
+[2023-07-06 12:01:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:01:40,114][98493] Updated weights for policy 0, policy_version 257952 (0.0008)
+[2023-07-06 12:01:40,759][98493] Updated weights for policy 0, policy_version 258021 (0.0008)
+[2023-07-06 12:01:42,378][98493] Updated weights for policy 0, policy_version 258049 (0.0006)
+[2023-07-06 12:01:42,888][98493] Updated weights for policy 0, policy_version 258112 (0.0008)
+[2023-07-06 12:01:43,400][98493] Updated weights for policy 0, policy_version 258169 (0.0007)
+[2023-07-06 12:01:44,764][98243] Fps is (10 sec: 104855.8, 60 sec: 109226.3, 300 sec: 111300.0). Total num frames: 528744448. Throughput: 0: 27921.0. Samples: 132249088. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:01:44,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:01:45,251][98493] Updated weights for policy 0, policy_version 258226 (0.0008)
+[2023-07-06 12:01:45,809][98493] Updated weights for policy 0, policy_version 258298 (0.0007)
+[2023-07-06 12:01:47,628][98493] Updated weights for policy 0, policy_version 258354 (0.0007)
+[2023-07-06 12:01:48,116][98493] Updated weights for policy 0, policy_version 258416 (0.0007)
+[2023-07-06 12:01:49,764][98243] Fps is (10 sec: 111411.6, 60 sec: 110319.2, 300 sec: 111522.3). Total num frames: 529334272. Throughput: 0: 27841.6. Samples: 132420096. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:01:49,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:01:49,802][98493] Updated weights for policy 0, policy_version 258468 (0.0007)
+[2023-07-06 12:01:50,395][98493] Updated weights for policy 0, policy_version 258530 (0.0007)
+[2023-07-06 12:01:52,222][98449] Signal inference workers to stop experience collection... (13350 times)
+[2023-07-06 12:01:52,267][98493] Updated weights for policy 0, policy_version 258594 (0.0007)
+[2023-07-06 12:01:52,275][98493] InferenceWorker_p0-w0: stopping experience collection (13350 times)
+[2023-07-06 12:01:52,343][98449] Signal inference workers to resume experience collection... (13350 times)
+[2023-07-06 12:01:52,344][98493] InferenceWorker_p0-w0: resuming experience collection (13350 times)
+[2023-07-06 12:01:52,717][98493] Updated weights for policy 0, policy_version 258646 (0.0007)
+[2023-07-06 12:01:54,108][98493] Updated weights for policy 0, policy_version 258704 (0.0006)
+[2023-07-06 12:01:54,764][98243] Fps is (10 sec: 121244.1, 60 sec: 111957.4, 300 sec: 111522.3). Total num frames: 529956864. Throughput: 0: 27898.3. Samples: 132499968. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:01:54,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:01:54,799][98493] Updated weights for policy 0, policy_version 258776 (0.0007)
+[2023-07-06 12:01:56,716][98493] Updated weights for policy 0, policy_version 258817 (0.0006)
+[2023-07-06 12:01:57,189][98493] Updated weights for policy 0, policy_version 258880 (0.0008)
+[2023-07-06 12:01:57,600][98493] Updated weights for policy 0, policy_version 258928 (0.0007)
+[2023-07-06 12:01:58,937][98493] Updated weights for policy 0, policy_version 258976 (0.0006)
+[2023-07-06 12:01:59,576][98493] Updated weights for policy 0, policy_version 259033 (0.0008)
+[2023-07-06 12:01:59,764][98243] Fps is (10 sec: 121242.2, 60 sec: 113049.8, 300 sec: 111522.3). Total num frames: 530546688. Throughput: 0: 27818.7. Samples: 132669440. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:01:59,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:02:01,477][98493] Updated weights for policy 0, policy_version 259077 (0.0007)
+[2023-07-06 12:02:01,962][98493] Updated weights for policy 0, policy_version 259136 (0.0008)
+[2023-07-06 12:02:02,467][98493] Updated weights for policy 0, policy_version 259194 (0.0007)
+[2023-07-06 12:02:03,608][98493] Updated weights for policy 0, policy_version 259238 (0.0006)
+[2023-07-06 12:02:04,373][98493] Updated weights for policy 0, policy_version 259283 (0.0006)
+[2023-07-06 12:02:04,764][98243] Fps is (10 sec: 114687.7, 60 sec: 113596.2, 300 sec: 111522.3). Total num frames: 531103744. Throughput: 0: 27682.1. Samples: 132829696. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:02:06,250][98493] Updated weights for policy 0, policy_version 259336 (0.0007)
+[2023-07-06 12:02:06,663][98493] Updated weights for policy 0, policy_version 259381 (0.0009)
+[2023-07-06 12:02:07,135][98493] Updated weights for policy 0, policy_version 259440 (0.0007)
+[2023-07-06 12:02:08,029][98493] Updated weights for policy 0, policy_version 259476 (0.0006)
+[2023-07-06 12:02:09,015][98493] Updated weights for policy 0, policy_version 259528 (0.0008)
+[2023-07-06 12:02:09,240][98449] Signal inference workers to stop experience collection... (13400 times)
+[2023-07-06 12:02:09,273][98493] InferenceWorker_p0-w0: stopping experience collection (13400 times)
+[2023-07-06 12:02:09,318][98449] Signal inference workers to resume experience collection... (13400 times)
+[2023-07-06 12:02:09,318][98493] InferenceWorker_p0-w0: resuming experience collection (13400 times)
+[2023-07-06 12:02:09,443][98493] Updated weights for policy 0, policy_version 259582 (0.0007)
+[2023-07-06 12:02:09,764][98243] Fps is (10 sec: 108132.0, 60 sec: 113049.3, 300 sec: 111522.3). Total num frames: 531628032. Throughput: 0: 27841.3. Samples: 132918784. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:09,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:02:11,345][98493] Updated weights for policy 0, policy_version 259648 (0.0007)
+[2023-07-06 12:02:11,846][98493] Updated weights for policy 0, policy_version 259709 (0.0007)
+[2023-07-06 12:02:12,957][98493] Updated weights for policy 0, policy_version 259760 (0.0006)
+[2023-07-06 12:02:13,887][98493] Updated weights for policy 0, policy_version 259812 (0.0007)
+[2023-07-06 12:02:14,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 532152320. Throughput: 0: 27704.9. Samples: 133085696. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:14,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:02:15,584][98493] Updated weights for policy 0, policy_version 259856 (0.0007)
+[2023-07-06 12:02:16,191][98493] Updated weights for policy 0, policy_version 259926 (0.0006)
+[2023-07-06 12:02:16,519][98493] Updated weights for policy 0, policy_version 259967 (0.0006)
+[2023-07-06 12:02:17,723][98493] Updated weights for policy 0, policy_version 260032 (0.0006)
+[2023-07-06 12:02:18,760][98493] Updated weights for policy 0, policy_version 260096 (0.0007)
+[2023-07-06 12:02:19,764][98243] Fps is (10 sec: 104859.7, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 532676608. Throughput: 0: 27852.8. Samples: 133254144. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:19,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:02:20,778][98493] Updated weights for policy 0, policy_version 260148 (0.0008)
+[2023-07-06 12:02:21,273][98493] Updated weights for policy 0, policy_version 260208 (0.0007)
+[2023-07-06 12:02:22,248][98493] Updated weights for policy 0, policy_version 260264 (0.0007)
+[2023-07-06 12:02:23,091][98493] Updated weights for policy 0, policy_version 260311 (0.0006)
+[2023-07-06 12:02:24,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109772.7, 300 sec: 111078.0). Total num frames: 533200896. Throughput: 0: 27727.6. Samples: 133336064. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:24,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:02:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000260352_533200896.pth...
+[2023-07-06 12:02:24,803][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000247376_506626048.pth
+[2023-07-06 12:02:24,807][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000260352_533200896.pth
+[2023-07-06 12:02:25,268][98493] Updated weights for policy 0, policy_version 260368 (0.0006)
+[2023-07-06 12:02:25,807][98493] Updated weights for policy 0, policy_version 260432 (0.0007)
+[2023-07-06 12:02:26,764][98493] Updated weights for policy 0, policy_version 260505 (0.0008)
+[2023-07-06 12:02:27,322][98449] Signal inference workers to stop experience collection... (13450 times)
+[2023-07-06 12:02:27,334][98493] Updated weights for policy 0, policy_version 260546 (0.0007)
+[2023-07-06 12:02:27,352][98493] InferenceWorker_p0-w0: stopping experience collection (13450 times)
+[2023-07-06 12:02:27,409][98449] Signal inference workers to resume experience collection... (13450 times)
+[2023-07-06 12:02:27,409][98493] InferenceWorker_p0-w0: resuming experience collection (13450 times)
+[2023-07-06 12:02:27,769][98493] Updated weights for policy 0, policy_version 260600 (0.0007)
+[2023-07-06 12:02:29,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 533725184. Throughput: 0: 27818.8. Samples: 133500928. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:29,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:02:30,186][98493] Updated weights for policy 0, policy_version 260640 (0.0007)
+[2023-07-06 12:02:30,690][98493] Updated weights for policy 0, policy_version 260691 (0.0007)
+[2023-07-06 12:02:31,406][98493] Updated weights for policy 0, policy_version 260759 (0.0007)
+[2023-07-06 12:02:32,226][98493] Updated weights for policy 0, policy_version 260807 (0.0007)
+[2023-07-06 12:02:34,687][98493] Updated weights for policy 0, policy_version 260865 (0.0008)
+[2023-07-06 12:02:34,764][98243] Fps is (10 sec: 108135.4, 60 sec: 109772.9, 300 sec: 111189.1). Total num frames: 534282240. Throughput: 0: 27875.6. Samples: 133674496. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:34,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:02:35,190][98493] Updated weights for policy 0, policy_version 260928 (0.0007)
+[2023-07-06 12:02:35,714][98493] Updated weights for policy 0, policy_version 260989 (0.0008)
+[2023-07-06 12:02:36,296][98493] Updated weights for policy 0, policy_version 261031 (0.0008)
+[2023-07-06 12:02:36,992][98493] Updated weights for policy 0, policy_version 261073 (0.0009)
+[2023-07-06 12:02:37,299][98493] Updated weights for policy 0, policy_version 261118 (0.0006)
+[2023-07-06 12:02:39,764][98243] Fps is (10 sec: 114688.3, 60 sec: 110865.1, 300 sec: 111411.2). Total num frames: 534872064. Throughput: 0: 27818.7. Samples: 133751808. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:39,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:02:39,788][98493] Updated weights for policy 0, policy_version 261175 (0.0008)
+[2023-07-06 12:02:40,323][98493] Updated weights for policy 0, policy_version 261241 (0.0007)
+[2023-07-06 12:02:40,997][98493] Updated weights for policy 0, policy_version 261306 (0.0007)
+[2023-07-06 12:02:42,137][98493] Updated weights for policy 0, policy_version 261371 (0.0007)
+[2023-07-06 12:02:44,338][98493] Updated weights for policy 0, policy_version 261417 (0.0007)
+[2023-07-06 12:02:44,762][98493] Updated weights for policy 0, policy_version 261462 (0.0006)
+[2023-07-06 12:02:44,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111957.8, 300 sec: 111633.4). Total num frames: 535461888. Throughput: 0: 27841.4. Samples: 133922304. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:44,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:02:45,554][98493] Updated weights for policy 0, policy_version 261507 (0.0007)
+[2023-07-06 12:02:45,659][98449] Signal inference workers to stop experience collection... (13500 times)
+[2023-07-06 12:02:45,691][98493] InferenceWorker_p0-w0: stopping experience collection (13500 times)
+[2023-07-06 12:02:45,735][98449] Signal inference workers to resume experience collection... (13500 times)
+[2023-07-06 12:02:45,735][98493] InferenceWorker_p0-w0: resuming experience collection (13500 times)
+[2023-07-06 12:02:46,643][98493] Updated weights for policy 0, policy_version 261571 (0.0007)
+[2023-07-06 12:02:47,126][98493] Updated weights for policy 0, policy_version 261632 (0.0006)
+[2023-07-06 12:02:48,945][98493] Updated weights for policy 0, policy_version 261681 (0.0008)
+[2023-07-06 12:02:49,385][98493] Updated weights for policy 0, policy_version 261731 (0.0007)
+[2023-07-06 12:02:49,764][98243] Fps is (10 sec: 121241.4, 60 sec: 112503.4, 300 sec: 111966.7). Total num frames: 536084480. Throughput: 0: 27966.6. Samples: 134088192. Policy #0 lag: (min: 95.0, avg: 190.9, max: 351.0)
+[2023-07-06 12:02:49,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:02:50,382][98493] Updated weights for policy 0, policy_version 261786 (0.0006)
+[2023-07-06 12:02:51,250][98493] Updated weights for policy 0, policy_version 261840 (0.0007)
+[2023-07-06 12:02:51,645][98493] Updated weights for policy 0, policy_version 261884 (0.0007)
+[2023-07-06 12:02:53,243][98493] Updated weights for policy 0, policy_version 261924 (0.0007)
+[2023-07-06 12:02:53,876][98493] Updated weights for policy 0, policy_version 262000 (0.0008)
+[2023-07-06 12:02:54,764][98243] Fps is (10 sec: 114687.2, 60 sec: 110865.0, 300 sec: 111744.4). Total num frames: 536608768. Throughput: 0: 27932.5. Samples: 134175744. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:02:54,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:02:55,305][98493] Updated weights for policy 0, policy_version 262048 (0.0008)
+[2023-07-06 12:02:55,660][98493] Updated weights for policy 0, policy_version 262080 (0.0007)
+[2023-07-06 12:02:57,622][98493] Updated weights for policy 0, policy_version 262146 (0.0007)
+[2023-07-06 12:02:58,242][98493] Updated weights for policy 0, policy_version 262224 (0.0008)
+[2023-07-06 12:02:59,764][98243] Fps is (10 sec: 104856.2, 60 sec: 109772.5, 300 sec: 111522.2). Total num frames: 537133056. Throughput: 0: 27818.6. Samples: 134337536. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:02:59,773][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:02:59,952][98493] Updated weights for policy 0, policy_version 262288 (0.0007)
+[2023-07-06 12:03:00,528][98493] Updated weights for policy 0, policy_version 262352 (0.0008)
+[2023-07-06 12:03:02,821][98493] Updated weights for policy 0, policy_version 262425 (0.0008)
+[2023-07-06 12:03:03,191][98449] Signal inference workers to stop experience collection... (13550 times)
+[2023-07-06 12:03:03,234][98493] InferenceWorker_p0-w0: stopping experience collection (13550 times)
+[2023-07-06 12:03:03,284][98449] Signal inference workers to resume experience collection... (13550 times)
+[2023-07-06 12:03:03,285][98493] InferenceWorker_p0-w0: resuming experience collection (13550 times)
+[2023-07-06 12:03:03,426][98493] Updated weights for policy 0, policy_version 262496 (0.0007)
+[2023-07-06 12:03:04,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 537657344. Throughput: 0: 27841.4. Samples: 134507008. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:04,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:03:04,916][98493] Updated weights for policy 0, policy_version 262560 (0.0008)
+[2023-07-06 12:03:05,316][98493] Updated weights for policy 0, policy_version 262598 (0.0007)
+[2023-07-06 12:03:05,776][98493] Updated weights for policy 0, policy_version 262656 (0.0007)
+[2023-07-06 12:03:07,853][98493] Updated weights for policy 0, policy_version 262720 (0.0007)
+[2023-07-06 12:03:08,360][98493] Updated weights for policy 0, policy_version 262776 (0.0008)
+[2023-07-06 12:03:09,620][98493] Updated weights for policy 0, policy_version 262832 (0.0007)
+[2023-07-06 12:03:09,764][98243] Fps is (10 sec: 114690.3, 60 sec: 110865.5, 300 sec: 111633.4). Total num frames: 538279936. Throughput: 0: 27841.5. Samples: 134588928. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:09,764][98243] Avg episode reward: [(0, '9.480')]
+[2023-07-06 12:03:10,263][98493] Updated weights for policy 0, policy_version 262904 (0.0007)
+[2023-07-06 12:03:12,560][98493] Updated weights for policy 0, policy_version 262944 (0.0007)
+[2023-07-06 12:03:13,062][98493] Updated weights for policy 0, policy_version 262996 (0.0007)
+[2023-07-06 12:03:13,889][98493] Updated weights for policy 0, policy_version 263043 (0.0007)
+[2023-07-06 12:03:14,455][98493] Updated weights for policy 0, policy_version 263107 (0.0007)
+[2023-07-06 12:03:14,764][98243] Fps is (10 sec: 124518.9, 60 sec: 112503.7, 300 sec: 111522.3). Total num frames: 538902528. Throughput: 0: 27852.9. Samples: 134754304. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:14,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:03:14,898][98493] Updated weights for policy 0, policy_version 263165 (0.0007)
+[2023-07-06 12:03:17,823][98493] Updated weights for policy 0, policy_version 263238 (0.0008)
+[2023-07-06 12:03:18,266][98493] Updated weights for policy 0, policy_version 263292 (0.0006)
+[2023-07-06 12:03:18,917][98493] Updated weights for policy 0, policy_version 263354 (0.0006)
+[2023-07-06 12:03:19,380][98449] Signal inference workers to stop experience collection... (13600 times)
+[2023-07-06 12:03:19,408][98493] InferenceWorker_p0-w0: stopping experience collection (13600 times)
+[2023-07-06 12:03:19,470][98449] Signal inference workers to resume experience collection... (13600 times)
+[2023-07-06 12:03:19,470][98493] InferenceWorker_p0-w0: resuming experience collection (13600 times)
+[2023-07-06 12:03:19,471][98493] Updated weights for policy 0, policy_version 263408 (0.0007)
+[2023-07-06 12:03:19,764][98243] Fps is (10 sec: 121240.2, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 539492352. Throughput: 0: 27545.5. Samples: 134914048. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:19,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:03:22,093][98493] Updated weights for policy 0, policy_version 263443 (0.0007)
+[2023-07-06 12:03:22,560][98493] Updated weights for policy 0, policy_version 263504 (0.0006)
+[2023-07-06 12:03:23,243][98493] Updated weights for policy 0, policy_version 263555 (0.0007)
+[2023-07-06 12:03:23,842][98493] Updated weights for policy 0, policy_version 263624 (0.0008)
+[2023-07-06 12:03:24,253][98493] Updated weights for policy 0, policy_version 263674 (0.0006)
+[2023-07-06 12:03:24,764][98243] Fps is (10 sec: 111409.4, 60 sec: 113595.6, 300 sec: 111300.1). Total num frames: 540016640. Throughput: 0: 27841.4. Samples: 135004672. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:24,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:03:27,113][98493] Updated weights for policy 0, policy_version 263744 (0.0007)
+[2023-07-06 12:03:27,617][98493] Updated weights for policy 0, policy_version 263801 (0.0007)
+[2023-07-06 12:03:28,290][98493] Updated weights for policy 0, policy_version 263848 (0.0007)
+[2023-07-06 12:03:28,852][98493] Updated weights for policy 0, policy_version 263911 (0.0006)
+[2023-07-06 12:03:29,764][98243] Fps is (10 sec: 104858.6, 60 sec: 113595.8, 300 sec: 111189.8). Total num frames: 540540928. Throughput: 0: 27591.1. Samples: 135163904. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:29,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 12:03:31,709][98493] Updated weights for policy 0, policy_version 263968 (0.0006)
+[2023-07-06 12:03:32,298][98493] Updated weights for policy 0, policy_version 264032 (0.0008)
+[2023-07-06 12:03:32,930][98493] Updated weights for policy 0, policy_version 264082 (0.0008)
+[2023-07-06 12:03:33,384][98493] Updated weights for policy 0, policy_version 264132 (0.0007)
+[2023-07-06 12:03:34,764][98243] Fps is (10 sec: 104858.7, 60 sec: 113049.5, 300 sec: 111078.0). Total num frames: 541065216. Throughput: 0: 27670.8. Samples: 135333376. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:34,765][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 12:03:36,216][98493] Updated weights for policy 0, policy_version 264195 (0.0007)
+[2023-07-06 12:03:36,702][98493] Updated weights for policy 0, policy_version 264254 (0.0008)
+[2023-07-06 12:03:37,224][98449] Signal inference workers to stop experience collection... (13650 times)
+[2023-07-06 12:03:37,240][98493] InferenceWorker_p0-w0: stopping experience collection (13650 times)
+[2023-07-06 12:03:37,249][98493] Updated weights for policy 0, policy_version 264307 (0.0007)
+[2023-07-06 12:03:37,310][98449] Signal inference workers to resume experience collection... (13650 times)
+[2023-07-06 12:03:37,311][98493] InferenceWorker_p0-w0: resuming experience collection (13650 times)
+[2023-07-06 12:03:37,709][98493] Updated weights for policy 0, policy_version 264368 (0.0006)
+[2023-07-06 12:03:38,465][98493] Updated weights for policy 0, policy_version 264419 (0.0006)
+[2023-07-06 12:03:39,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111957.4, 300 sec: 111078.0). Total num frames: 541589504. Throughput: 0: 27557.0. Samples: 135415808. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:39,764][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 12:03:41,052][98493] Updated weights for policy 0, policy_version 264466 (0.0006)
+[2023-07-06 12:03:41,556][98493] Updated weights for policy 0, policy_version 264528 (0.0007)
+[2023-07-06 12:03:42,134][98493] Updated weights for policy 0, policy_version 264592 (0.0008)
+[2023-07-06 12:03:42,923][98493] Updated weights for policy 0, policy_version 264643 (0.0007)
+[2023-07-06 12:03:44,764][98243] Fps is (10 sec: 104855.6, 60 sec: 110864.6, 300 sec: 111077.9). Total num frames: 542113792. Throughput: 0: 27625.2. Samples: 135580672. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:44,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 12:03:45,642][98493] Updated weights for policy 0, policy_version 264706 (0.0007)
+[2023-07-06 12:03:46,116][98493] Updated weights for policy 0, policy_version 264758 (0.0007)
+[2023-07-06 12:03:46,677][98493] Updated weights for policy 0, policy_version 264825 (0.0007)
+[2023-07-06 12:03:47,123][98493] Updated weights for policy 0, policy_version 264880 (0.0010)
+[2023-07-06 12:03:47,846][98493] Updated weights for policy 0, policy_version 264917 (0.0007)
+[2023-07-06 12:03:49,765][98243] Fps is (10 sec: 104853.7, 60 sec: 109226.1, 300 sec: 111077.8). Total num frames: 542638080. Throughput: 0: 27738.8. Samples: 135755264. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:49,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:03:50,222][98493] Updated weights for policy 0, policy_version 264976 (0.0007)
+[2023-07-06 12:03:50,735][98493] Updated weights for policy 0, policy_version 265027 (0.0008)
+[2023-07-06 12:03:51,366][98493] Updated weights for policy 0, policy_version 265089 (0.0007)
+[2023-07-06 12:03:51,815][98493] Updated weights for policy 0, policy_version 265146 (0.0007)
+[2023-07-06 12:03:52,805][98493] Updated weights for policy 0, policy_version 265184 (0.0009)
+[2023-07-06 12:03:54,765][98243] Fps is (10 sec: 104855.3, 60 sec: 109226.0, 300 sec: 111077.8). Total num frames: 543162368. Throughput: 0: 27681.8. Samples: 135834624. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:54,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:03:55,098][98493] Updated weights for policy 0, policy_version 265238 (0.0007)
+[2023-07-06 12:03:55,222][98449] Signal inference workers to stop experience collection... (13700 times)
+[2023-07-06 12:03:55,244][98493] InferenceWorker_p0-w0: stopping experience collection (13700 times)
+[2023-07-06 12:03:55,303][98449] Signal inference workers to resume experience collection... (13700 times)
+[2023-07-06 12:03:55,304][98493] InferenceWorker_p0-w0: resuming experience collection (13700 times)
+[2023-07-06 12:03:55,538][98493] Updated weights for policy 0, policy_version 265282 (0.0007)
+[2023-07-06 12:03:56,037][98493] Updated weights for policy 0, policy_version 265344 (0.0007)
+[2023-07-06 12:03:56,540][98493] Updated weights for policy 0, policy_version 265404 (0.0008)
+[2023-07-06 12:03:57,631][98493] Updated weights for policy 0, policy_version 265456 (0.0006)
+[2023-07-06 12:03:59,764][98243] Fps is (10 sec: 111413.0, 60 sec: 110318.9, 300 sec: 111300.0). Total num frames: 543752192. Throughput: 0: 27773.0. Samples: 136004096. Policy #0 lag: (min: 54.0, avg: 191.3, max: 310.0)
+[2023-07-06 12:03:59,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:03:59,973][98493] Updated weights for policy 0, policy_version 265527 (0.0008)
+[2023-07-06 12:04:00,439][98493] Updated weights for policy 0, policy_version 265584 (0.0008)
+[2023-07-06 12:04:00,938][98493] Updated weights for policy 0, policy_version 265632 (0.0007)
+[2023-07-06 12:04:02,318][98493] Updated weights for policy 0, policy_version 265689 (0.0007)
+[2023-07-06 12:04:04,606][98493] Updated weights for policy 0, policy_version 265753 (0.0009)
+[2023-07-06 12:04:04,764][98243] Fps is (10 sec: 111415.9, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 544276480. Throughput: 0: 27921.1. Samples: 136170496. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:04,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:04:05,021][98493] Updated weights for policy 0, policy_version 265795 (0.0007)
+[2023-07-06 12:04:05,509][98493] Updated weights for policy 0, policy_version 265856 (0.0007)
+[2023-07-06 12:04:06,006][98493] Updated weights for policy 0, policy_version 265913 (0.0007)
+[2023-07-06 12:04:06,959][98493] Updated weights for policy 0, policy_version 265955 (0.0006)
+[2023-07-06 12:04:09,458][98493] Updated weights for policy 0, policy_version 266000 (0.0006)
+[2023-07-06 12:04:09,764][98243] Fps is (10 sec: 108136.5, 60 sec: 109226.6, 300 sec: 111411.2). Total num frames: 544833536. Throughput: 0: 27705.0. Samples: 136251392. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:09,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:04:09,949][98493] Updated weights for policy 0, policy_version 266052 (0.0007)
+[2023-07-06 12:04:10,484][98493] Updated weights for policy 0, policy_version 266115 (0.0007)
+[2023-07-06 12:04:10,917][98493] Updated weights for policy 0, policy_version 266169 (0.0007)
+[2023-07-06 12:04:11,256][98449] Signal inference workers to stop experience collection... (13750 times)
+[2023-07-06 12:04:11,285][98493] InferenceWorker_p0-w0: stopping experience collection (13750 times)
+[2023-07-06 12:04:11,357][98449] Signal inference workers to resume experience collection... (13750 times)
+[2023-07-06 12:04:11,357][98493] InferenceWorker_p0-w0: resuming experience collection (13750 times)
+[2023-07-06 12:04:11,587][98493] Updated weights for policy 0, policy_version 266215 (0.0012)
+[2023-07-06 12:04:14,264][98493] Updated weights for policy 0, policy_version 266277 (0.0007)
+[2023-07-06 12:04:14,764][98243] Fps is (10 sec: 117965.6, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 545456128. Throughput: 0: 28023.5. Samples: 136424960. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:14,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:04:14,848][98493] Updated weights for policy 0, policy_version 266344 (0.0008)
+[2023-07-06 12:04:15,449][98493] Updated weights for policy 0, policy_version 266416 (0.0007)
+[2023-07-06 12:04:16,355][98493] Updated weights for policy 0, policy_version 266464 (0.0006)
+[2023-07-06 12:04:18,796][98493] Updated weights for policy 0, policy_version 266497 (0.0007)
+[2023-07-06 12:04:19,317][98493] Updated weights for policy 0, policy_version 266560 (0.0008)
+[2023-07-06 12:04:19,764][98243] Fps is (10 sec: 117966.3, 60 sec: 108680.9, 300 sec: 111411.3). Total num frames: 546013184. Throughput: 0: 27761.9. Samples: 136582656. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:19,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:04:20,005][98493] Updated weights for policy 0, policy_version 266640 (0.0008)
+[2023-07-06 12:04:20,428][98493] Updated weights for policy 0, policy_version 266688 (0.0007)
+[2023-07-06 12:04:21,354][98493] Updated weights for policy 0, policy_version 266746 (0.0006)
+[2023-07-06 12:04:23,860][98493] Updated weights for policy 0, policy_version 266792 (0.0007)
+[2023-07-06 12:04:24,292][98493] Updated weights for policy 0, policy_version 266839 (0.0007)
+[2023-07-06 12:04:24,755][98493] Updated weights for policy 0, policy_version 266896 (0.0007)
+[2023-07-06 12:04:24,764][98243] Fps is (10 sec: 114686.2, 60 sec: 109772.9, 300 sec: 111411.2). Total num frames: 546603008. Throughput: 0: 27818.6. Samples: 136667648. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:24,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:04:24,924][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000266912_546635776.pth...
+[2023-07-06 12:04:24,995][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000253840_519864320.pth
+[2023-07-06 12:04:25,395][98493] Updated weights for policy 0, policy_version 266947 (0.0007)
+[2023-07-06 12:04:28,207][98493] Updated weights for policy 0, policy_version 267012 (0.0006)
+[2023-07-06 12:04:28,823][98493] Updated weights for policy 0, policy_version 267088 (0.0008)
+[2023-07-06 12:04:28,880][98449] Signal inference workers to stop experience collection... (13800 times)
+[2023-07-06 12:04:28,903][98493] InferenceWorker_p0-w0: stopping experience collection (13800 times)
+[2023-07-06 12:04:28,974][98449] Signal inference workers to resume experience collection... (13800 times)
+[2023-07-06 12:04:28,974][98493] InferenceWorker_p0-w0: resuming experience collection (13800 times)
+[2023-07-06 12:04:29,335][98493] Updated weights for policy 0, policy_version 267140 (0.0008)
+[2023-07-06 12:04:29,764][98243] Fps is (10 sec: 117962.8, 60 sec: 110864.9, 300 sec: 111411.2). Total num frames: 547192832. Throughput: 0: 27875.6. Samples: 136835072. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:29,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:04:29,767][98493] Updated weights for policy 0, policy_version 267194 (0.0007)
+[2023-07-06 12:04:30,563][98493] Updated weights for policy 0, policy_version 267238 (0.0007)
+[2023-07-06 12:04:33,143][98493] Updated weights for policy 0, policy_version 267296 (0.0007)
+[2023-07-06 12:04:33,786][98493] Updated weights for policy 0, policy_version 267367 (0.0008)
+[2023-07-06 12:04:34,265][98493] Updated weights for policy 0, policy_version 267424 (0.0007)
+[2023-07-06 12:04:34,765][98243] Fps is (10 sec: 117962.5, 60 sec: 111956.8, 300 sec: 111633.3). Total num frames: 547782656. Throughput: 0: 27602.5. Samples: 136997376. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:34,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:04:34,880][98493] Updated weights for policy 0, policy_version 267488 (0.0007)
+[2023-07-06 12:04:37,827][98493] Updated weights for policy 0, policy_version 267522 (0.0006)
+[2023-07-06 12:04:38,345][98493] Updated weights for policy 0, policy_version 267584 (0.0006)
+[2023-07-06 12:04:38,993][98493] Updated weights for policy 0, policy_version 267655 (0.0006)
+[2023-07-06 12:04:39,518][98493] Updated weights for policy 0, policy_version 267718 (0.0007)
+[2023-07-06 12:04:39,764][98243] Fps is (10 sec: 114688.1, 60 sec: 112503.4, 300 sec: 111633.3). Total num frames: 548339712. Throughput: 0: 27909.9. Samples: 137090560. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:39,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:04:42,692][98493] Updated weights for policy 0, policy_version 267779 (0.0007)
+[2023-07-06 12:04:43,183][98493] Updated weights for policy 0, policy_version 267840 (0.0009)
+[2023-07-06 12:04:43,694][98493] Updated weights for policy 0, policy_version 267891 (0.0007)
+[2023-07-06 12:04:44,291][98493] Updated weights for policy 0, policy_version 267968 (0.0007)
+[2023-07-06 12:04:44,342][98449] Signal inference workers to stop experience collection... (13850 times)
+[2023-07-06 12:04:44,374][98493] InferenceWorker_p0-w0: stopping experience collection (13850 times)
+[2023-07-06 12:04:44,422][98449] Signal inference workers to resume experience collection... (13850 times)
+[2023-07-06 12:04:44,422][98493] InferenceWorker_p0-w0: resuming experience collection (13850 times)
+[2023-07-06 12:04:44,764][98243] Fps is (10 sec: 111411.6, 60 sec: 113049.5, 300 sec: 111522.2). Total num frames: 548896768. Throughput: 0: 27682.1. Samples: 137249792. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:44,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:04:44,833][98493] Updated weights for policy 0, policy_version 268032 (0.0007)
+[2023-07-06 12:04:47,906][98493] Updated weights for policy 0, policy_version 268089 (0.0008)
+[2023-07-06 12:04:48,446][98493] Updated weights for policy 0, policy_version 268154 (0.0007)
+[2023-07-06 12:04:48,975][98493] Updated weights for policy 0, policy_version 268212 (0.0007)
+[2023-07-06 12:04:49,430][98493] Updated weights for policy 0, policy_version 268265 (0.0008)
+[2023-07-06 12:04:49,764][98243] Fps is (10 sec: 111409.4, 60 sec: 113596.0, 300 sec: 111300.0). Total num frames: 549453824. Throughput: 0: 27545.5. Samples: 137410048. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:49,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:04:52,278][98493] Updated weights for policy 0, policy_version 268320 (0.0006)
+[2023-07-06 12:04:52,791][98493] Updated weights for policy 0, policy_version 268374 (0.0007)
+[2023-07-06 12:04:53,270][98493] Updated weights for policy 0, policy_version 268432 (0.0008)
+[2023-07-06 12:04:53,788][98493] Updated weights for policy 0, policy_version 268489 (0.0006)
+[2023-07-06 12:04:54,199][98493] Updated weights for policy 0, policy_version 268541 (0.0006)
+[2023-07-06 12:04:54,764][98243] Fps is (10 sec: 108136.5, 60 sec: 113596.4, 300 sec: 111077.9). Total num frames: 549978112. Throughput: 0: 27773.1. Samples: 137501184. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:04:57,082][98493] Updated weights for policy 0, policy_version 268596 (0.0008)
+[2023-07-06 12:04:57,558][98493] Updated weights for policy 0, policy_version 268656 (0.0007)
+[2023-07-06 12:04:58,120][98493] Updated weights for policy 0, policy_version 268720 (0.0007)
+[2023-07-06 12:04:58,622][98493] Updated weights for policy 0, policy_version 268769 (0.0007)
+[2023-07-06 12:04:59,765][98243] Fps is (10 sec: 104857.0, 60 sec: 112503.4, 300 sec: 111077.9). Total num frames: 550502400. Throughput: 0: 27488.5. Samples: 137661952. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:04:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:05:01,492][98493] Updated weights for policy 0, policy_version 268816 (0.0007)
+[2023-07-06 12:05:01,704][98449] Signal inference workers to stop experience collection... (13900 times)
+[2023-07-06 12:05:01,734][98493] InferenceWorker_p0-w0: stopping experience collection (13900 times)
+[2023-07-06 12:05:01,780][98449] Signal inference workers to resume experience collection... (13900 times)
+[2023-07-06 12:05:01,781][98493] InferenceWorker_p0-w0: resuming experience collection (13900 times)
+[2023-07-06 12:05:02,018][98493] Updated weights for policy 0, policy_version 268873 (0.0007)
+[2023-07-06 12:05:02,543][98493] Updated weights for policy 0, policy_version 268928 (0.0007)
+[2023-07-06 12:05:03,111][98493] Updated weights for policy 0, policy_version 268992 (0.0007)
+[2023-07-06 12:05:03,540][98493] Updated weights for policy 0, policy_version 269040 (0.0007)
+[2023-07-06 12:05:04,765][98243] Fps is (10 sec: 104855.0, 60 sec: 112502.9, 300 sec: 111077.9). Total num frames: 551026688. Throughput: 0: 27716.0. Samples: 137829888. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:05:04,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:05:06,468][98493] Updated weights for policy 0, policy_version 269088 (0.0006)
+[2023-07-06 12:05:06,909][98493] Updated weights for policy 0, policy_version 269136 (0.0006)
+[2023-07-06 12:05:07,451][98493] Updated weights for policy 0, policy_version 269188 (0.0007)
+[2023-07-06 12:05:08,021][98493] Updated weights for policy 0, policy_version 269255 (0.0008)
+[2023-07-06 12:05:08,431][98493] Updated weights for policy 0, policy_version 269307 (0.0007)
+[2023-07-06 12:05:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111956.9, 300 sec: 111077.9). Total num frames: 551550976. Throughput: 0: 27682.0. Samples: 137913344. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:05:09,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 12:05:11,421][98493] Updated weights for policy 0, policy_version 269354 (0.0007)
+[2023-07-06 12:05:11,953][98493] Updated weights for policy 0, policy_version 269413 (0.0007)
+[2023-07-06 12:05:12,377][98493] Updated weights for policy 0, policy_version 269460 (0.0007)
+[2023-07-06 12:05:12,942][98493] Updated weights for policy 0, policy_version 269524 (0.0007)
+[2023-07-06 12:05:14,764][98243] Fps is (10 sec: 104859.6, 60 sec: 110318.6, 300 sec: 111077.9). Total num frames: 552075264. Throughput: 0: 27670.7. Samples: 138080256. Policy #0 lag: (min: 15.0, avg: 81.6, max: 271.0)
+[2023-07-06 12:05:14,765][98243] Avg episode reward: [(0, '9.480')]
+[2023-07-06 12:05:15,814][98493] Updated weights for policy 0, policy_version 269569 (0.0007)
+[2023-07-06 12:05:16,398][98493] Updated weights for policy 0, policy_version 269636 (0.0008)
+[2023-07-06 12:05:16,784][98449] Signal inference workers to stop experience collection... (13950 times)
+[2023-07-06 12:05:16,818][98493] InferenceWorker_p0-w0: stopping experience collection (13950 times)
+[2023-07-06 12:05:16,856][98449] Signal inference workers to resume experience collection... (13950 times)
+[2023-07-06 12:05:16,857][98493] InferenceWorker_p0-w0: resuming experience collection (13950 times)
+[2023-07-06 12:05:16,939][98493] Updated weights for policy 0, policy_version 269699 (0.0007)
+[2023-07-06 12:05:17,508][98493] Updated weights for policy 0, policy_version 269764 (0.0007)
+[2023-07-06 12:05:19,764][98243] Fps is (10 sec: 104860.0, 60 sec: 109772.6, 300 sec: 111078.0). Total num frames: 552599552. Throughput: 0: 27853.0. Samples: 138250752. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:19,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:05:20,371][98493] Updated weights for policy 0, policy_version 269826 (0.0006)
+[2023-07-06 12:05:21,032][98493] Updated weights for policy 0, policy_version 269906 (0.0008)
+[2023-07-06 12:05:21,518][98493] Updated weights for policy 0, policy_version 269968 (0.0007)
+[2023-07-06 12:05:21,958][98493] Updated weights for policy 0, policy_version 270016 (0.0008)
+[2023-07-06 12:05:22,463][98493] Updated weights for policy 0, policy_version 270076 (0.0008)
+[2023-07-06 12:05:24,765][98243] Fps is (10 sec: 104855.1, 60 sec: 108680.1, 300 sec: 110855.7). Total num frames: 553123840. Throughput: 0: 27465.8. Samples: 138326528. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:24,766][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:05:25,244][98493] Updated weights for policy 0, policy_version 270130 (0.0007)
+[2023-07-06 12:05:25,822][98493] Updated weights for policy 0, policy_version 270200 (0.0007)
+[2023-07-06 12:05:26,624][98493] Updated weights for policy 0, policy_version 270244 (0.0006)
+[2023-07-06 12:05:27,220][98493] Updated weights for policy 0, policy_version 270310 (0.0008)
+[2023-07-06 12:05:29,450][98493] Updated weights for policy 0, policy_version 270341 (0.0007)
+[2023-07-06 12:05:29,764][98243] Fps is (10 sec: 111410.9, 60 sec: 108680.6, 300 sec: 110744.7). Total num frames: 553713664. Throughput: 0: 27784.7. Samples: 138500096. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:29,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:05:29,947][98493] Updated weights for policy 0, policy_version 270400 (0.0009)
+[2023-07-06 12:05:30,460][98493] Updated weights for policy 0, policy_version 270457 (0.0007)
+[2023-07-06 12:05:31,271][98493] Updated weights for policy 0, policy_version 270500 (0.0007)
+[2023-07-06 12:05:31,811][98449] Signal inference workers to stop experience collection... (14000 times)
+[2023-07-06 12:05:31,825][98493] InferenceWorker_p0-w0: stopping experience collection (14000 times)
+[2023-07-06 12:05:31,833][98493] Updated weights for policy 0, policy_version 270562 (0.0007)
+[2023-07-06 12:05:31,896][98449] Signal inference workers to resume experience collection... (14000 times)
+[2023-07-06 12:05:31,896][98493] InferenceWorker_p0-w0: resuming experience collection (14000 times)
+[2023-07-06 12:05:34,250][98493] Updated weights for policy 0, policy_version 270614 (0.0007)
+[2023-07-06 12:05:34,734][98493] Updated weights for policy 0, policy_version 270672 (0.0008)
+[2023-07-06 12:05:34,765][98243] Fps is (10 sec: 121239.8, 60 sec: 109226.3, 300 sec: 110744.5). Total num frames: 554336256. Throughput: 0: 27966.4. Samples: 138668544. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:34,766][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:05:35,148][98493] Updated weights for policy 0, policy_version 270720 (0.0006)
+[2023-07-06 12:05:36,092][98493] Updated weights for policy 0, policy_version 270784 (0.0007)
+[2023-07-06 12:05:36,597][98493] Updated weights for policy 0, policy_version 270845 (0.0007)
+[2023-07-06 12:05:39,335][98493] Updated weights for policy 0, policy_version 270905 (0.0008)
+[2023-07-06 12:05:39,764][98243] Fps is (10 sec: 117965.0, 60 sec: 109226.7, 300 sec: 110855.8). Total num frames: 554893312. Throughput: 0: 27761.8. Samples: 138750464. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:39,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:05:39,804][98493] Updated weights for policy 0, policy_version 270960 (0.0007)
+[2023-07-06 12:05:40,589][98493] Updated weights for policy 0, policy_version 271024 (0.0007)
+[2023-07-06 12:05:41,117][98493] Updated weights for policy 0, policy_version 271077 (0.0007)
+[2023-07-06 12:05:43,567][98493] Updated weights for policy 0, policy_version 271121 (0.0009)
+[2023-07-06 12:05:44,015][98493] Updated weights for policy 0, policy_version 271172 (0.0007)
+[2023-07-06 12:05:44,491][98493] Updated weights for policy 0, policy_version 271232 (0.0007)
+[2023-07-06 12:05:44,764][98243] Fps is (10 sec: 114693.6, 60 sec: 109773.2, 300 sec: 111078.0). Total num frames: 555483136. Throughput: 0: 27978.1. Samples: 138920960. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:05:45,689][98493] Updated weights for policy 0, policy_version 271312 (0.0007)
+[2023-07-06 12:05:48,004][98493] Updated weights for policy 0, policy_version 271363 (0.0008)
+[2023-07-06 12:05:48,470][98493] Updated weights for policy 0, policy_version 271413 (0.0008)
+[2023-07-06 12:05:49,075][98493] Updated weights for policy 0, policy_version 271473 (0.0009)
+[2023-07-06 12:05:49,764][98243] Fps is (10 sec: 111410.7, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 556007424. Throughput: 0: 27841.6. Samples: 139082752. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:49,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:05:49,991][98449] Signal inference workers to stop experience collection... (14050 times)
+[2023-07-06 12:05:50,004][98493] InferenceWorker_p0-w0: stopping experience collection (14050 times)
+[2023-07-06 12:05:50,089][98449] Signal inference workers to resume experience collection... (14050 times)
+[2023-07-06 12:05:50,089][98493] InferenceWorker_p0-w0: resuming experience collection (14050 times)
+[2023-07-06 12:05:50,193][98493] Updated weights for policy 0, policy_version 271513 (0.0007)
+[2023-07-06 12:05:50,659][98493] Updated weights for policy 0, policy_version 271553 (0.0008)
+[2023-07-06 12:05:51,106][98493] Updated weights for policy 0, policy_version 271609 (0.0009)
+[2023-07-06 12:05:53,181][98493] Updated weights for policy 0, policy_version 271638 (0.0011)
+[2023-07-06 12:05:53,772][98493] Updated weights for policy 0, policy_version 271704 (0.0011)
+[2023-07-06 12:05:54,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 556531712. Throughput: 0: 27841.6. Samples: 139166208. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:54,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:05:54,790][98493] Updated weights for policy 0, policy_version 271752 (0.0007)
+[2023-07-06 12:05:55,349][98493] Updated weights for policy 0, policy_version 271813 (0.0010)
+[2023-07-06 12:05:57,655][98493] Updated weights for policy 0, policy_version 271873 (0.0006)
+[2023-07-06 12:05:58,228][98493] Updated weights for policy 0, policy_version 271940 (0.0008)
+[2023-07-06 12:05:58,655][98493] Updated weights for policy 0, policy_version 271994 (0.0007)
+[2023-07-06 12:05:59,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109227.1, 300 sec: 111078.1). Total num frames: 557056000. Throughput: 0: 27716.3. Samples: 139327488. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:05:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:06:00,100][98493] Updated weights for policy 0, policy_version 272048 (0.0007)
+[2023-07-06 12:06:00,529][98493] Updated weights for policy 0, policy_version 272096 (0.0007)
+[2023-07-06 12:06:02,509][98493] Updated weights for policy 0, policy_version 272152 (0.0007)
+[2023-07-06 12:06:02,954][98493] Updated weights for policy 0, policy_version 272208 (0.0008)
+[2023-07-06 12:06:04,555][98493] Updated weights for policy 0, policy_version 272277 (0.0008)
+[2023-07-06 12:06:04,764][98243] Fps is (10 sec: 114686.4, 60 sec: 110865.3, 300 sec: 111300.1). Total num frames: 557678592. Throughput: 0: 27647.9. Samples: 139494912. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:06:04,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:06:05,140][98493] Updated weights for policy 0, policy_version 272344 (0.0007)
+[2023-07-06 12:06:07,121][98493] Updated weights for policy 0, policy_version 272400 (0.0007)
+[2023-07-06 12:06:07,171][98449] Signal inference workers to stop experience collection... (14100 times)
+[2023-07-06 12:06:07,212][98493] InferenceWorker_p0-w0: stopping experience collection (14100 times)
+[2023-07-06 12:06:07,265][98449] Signal inference workers to resume experience collection... (14100 times)
+[2023-07-06 12:06:07,265][98493] InferenceWorker_p0-w0: resuming experience collection (14100 times)
+[2023-07-06 12:06:07,753][98493] Updated weights for policy 0, policy_version 272468 (0.0008)
+[2023-07-06 12:06:09,258][98493] Updated weights for policy 0, policy_version 272519 (0.0007)
+[2023-07-06 12:06:09,764][98243] Fps is (10 sec: 117965.8, 60 sec: 111411.7, 300 sec: 111078.0). Total num frames: 558235648. Throughput: 0: 27762.0. Samples: 139575808. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:06:09,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:06:09,837][98493] Updated weights for policy 0, policy_version 272583 (0.0007)
+[2023-07-06 12:06:10,237][98493] Updated weights for policy 0, policy_version 272635 (0.0007)
+[2023-07-06 12:06:11,977][98493] Updated weights for policy 0, policy_version 272693 (0.0007)
+[2023-07-06 12:06:12,461][98493] Updated weights for policy 0, policy_version 272752 (0.0007)
+[2023-07-06 12:06:14,442][98493] Updated weights for policy 0, policy_version 272801 (0.0010)
+[2023-07-06 12:06:14,764][98243] Fps is (10 sec: 108136.4, 60 sec: 111411.5, 300 sec: 111078.0). Total num frames: 558759936. Throughput: 0: 27693.6. Samples: 139746304. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:06:14,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:06:14,958][98493] Updated weights for policy 0, policy_version 272864 (0.0006)
+[2023-07-06 12:06:16,360][98493] Updated weights for policy 0, policy_version 272928 (0.0007)
+[2023-07-06 12:06:16,866][98493] Updated weights for policy 0, policy_version 272979 (0.0007)
+[2023-07-06 12:06:19,183][98493] Updated weights for policy 0, policy_version 273043 (0.0007)
+[2023-07-06 12:06:19,731][98493] Updated weights for policy 0, policy_version 273111 (0.0006)
+[2023-07-06 12:06:19,764][98243] Fps is (10 sec: 108134.6, 60 sec: 111957.5, 300 sec: 110855.8). Total num frames: 559316992. Throughput: 0: 27614.2. Samples: 139911168. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:06:19,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:06:20,988][98493] Updated weights for policy 0, policy_version 273168 (0.0007)
+[2023-07-06 12:06:21,598][98493] Updated weights for policy 0, policy_version 273235 (0.0007)
+[2023-07-06 12:06:23,532][98493] Updated weights for policy 0, policy_version 273288 (0.0006)
+[2023-07-06 12:06:23,764][98449] Signal inference workers to stop experience collection... (14150 times)
+[2023-07-06 12:06:23,813][98493] InferenceWorker_p0-w0: stopping experience collection (14150 times)
+[2023-07-06 12:06:23,864][98449] Signal inference workers to resume experience collection... (14150 times)
+[2023-07-06 12:06:23,865][98493] InferenceWorker_p0-w0: resuming experience collection (14150 times)
+[2023-07-06 12:06:23,943][98493] Updated weights for policy 0, policy_version 273330 (0.0008)
+[2023-07-06 12:06:24,480][98493] Updated weights for policy 0, policy_version 273392 (0.0007)
+[2023-07-06 12:06:24,764][98243] Fps is (10 sec: 117964.0, 60 sec: 113596.3, 300 sec: 111078.0). Total num frames: 559939584. Throughput: 0: 27648.0. Samples: 139994624. Policy #0 lag: (min: 15.0, avg: 71.3, max: 271.0)
+[2023-07-06 12:06:24,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:06:24,779][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000273408_559939584.pth...
+[2023-07-06 12:06:24,823][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000260352_533200896.pth
+[2023-07-06 12:06:25,950][98493] Updated weights for policy 0, policy_version 273440 (0.0007)
+[2023-07-06 12:06:26,488][98493] Updated weights for policy 0, policy_version 273490 (0.0009)
+[2023-07-06 12:06:28,204][98493] Updated weights for policy 0, policy_version 273557 (0.0008)
+[2023-07-06 12:06:28,757][98493] Updated weights for policy 0, policy_version 273619 (0.0008)
+[2023-07-06 12:06:29,764][98243] Fps is (10 sec: 114685.6, 60 sec: 112503.3, 300 sec: 111077.9). Total num frames: 560463872. Throughput: 0: 27556.9. Samples: 140161024. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:29,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:06:30,681][98493] Updated weights for policy 0, policy_version 273680 (0.0008)
+[2023-07-06 12:06:31,225][98493] Updated weights for policy 0, policy_version 273744 (0.0008)
+[2023-07-06 12:06:32,915][98493] Updated weights for policy 0, policy_version 273808 (0.0007)
+[2023-07-06 12:06:33,466][98493] Updated weights for policy 0, policy_version 273872 (0.0008)
+[2023-07-06 12:06:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 110866.0, 300 sec: 111078.0). Total num frames: 560988160. Throughput: 0: 27693.5. Samples: 140328960. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:06:35,434][98493] Updated weights for policy 0, policy_version 273925 (0.0007)
+[2023-07-06 12:06:36,068][98493] Updated weights for policy 0, policy_version 274000 (0.0008)
+[2023-07-06 12:06:37,525][98493] Updated weights for policy 0, policy_version 274064 (0.0007)
+[2023-07-06 12:06:38,179][98493] Updated weights for policy 0, policy_version 274136 (0.0007)
+[2023-07-06 12:06:39,764][98243] Fps is (10 sec: 104858.7, 60 sec: 110318.9, 300 sec: 111078.0). Total num frames: 561512448. Throughput: 0: 27613.9. Samples: 140408832. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:39,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:06:40,314][98493] Updated weights for policy 0, policy_version 274179 (0.0007)
+[2023-07-06 12:06:40,723][98449] Signal inference workers to stop experience collection... (14200 times)
+[2023-07-06 12:06:40,771][98493] InferenceWorker_p0-w0: stopping experience collection (14200 times)
+[2023-07-06 12:06:40,813][98449] Signal inference workers to resume experience collection... (14200 times)
+[2023-07-06 12:06:40,813][98493] InferenceWorker_p0-w0: resuming experience collection (14200 times)
+[2023-07-06 12:06:40,887][98493] Updated weights for policy 0, policy_version 274242 (0.0008)
+[2023-07-06 12:06:41,330][98493] Updated weights for policy 0, policy_version 274298 (0.0006)
+[2023-07-06 12:06:42,658][98493] Updated weights for policy 0, policy_version 274352 (0.0007)
+[2023-07-06 12:06:43,172][98493] Updated weights for policy 0, policy_version 274404 (0.0008)
+[2023-07-06 12:06:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 109226.7, 300 sec: 110855.8). Total num frames: 562036736. Throughput: 0: 27659.4. Samples: 140572160. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:44,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:06:45,013][98493] Updated weights for policy 0, policy_version 274448 (0.0007)
+[2023-07-06 12:06:45,541][98493] Updated weights for policy 0, policy_version 274501 (0.0009)
+[2023-07-06 12:06:45,977][98493] Updated weights for policy 0, policy_version 274559 (0.0029)
+[2023-07-06 12:06:47,445][98493] Updated weights for policy 0, policy_version 274613 (0.0008)
+[2023-07-06 12:06:47,902][98493] Updated weights for policy 0, policy_version 274660 (0.0006)
+[2023-07-06 12:06:49,765][98243] Fps is (10 sec: 111407.8, 60 sec: 110318.4, 300 sec: 110744.6). Total num frames: 562626560. Throughput: 0: 27750.3. Samples: 140743680. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:49,766][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:06:49,823][98493] Updated weights for policy 0, policy_version 274724 (0.0007)
+[2023-07-06 12:06:50,434][98493] Updated weights for policy 0, policy_version 274791 (0.0008)
+[2023-07-06 12:06:51,764][98493] Updated weights for policy 0, policy_version 274838 (0.0007)
+[2023-07-06 12:06:52,237][98493] Updated weights for policy 0, policy_version 274882 (0.0008)
+[2023-07-06 12:06:52,673][98493] Updated weights for policy 0, policy_version 274940 (0.0008)
+[2023-07-06 12:06:54,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110319.0, 300 sec: 110522.6). Total num frames: 563150848. Throughput: 0: 27693.5. Samples: 140822016. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:54,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:06:54,868][98493] Updated weights for policy 0, policy_version 274996 (0.0007)
+[2023-07-06 12:06:55,345][98493] Updated weights for policy 0, policy_version 275056 (0.0006)
+[2023-07-06 12:06:56,587][98493] Updated weights for policy 0, policy_version 275120 (0.0007)
+[2023-07-06 12:06:56,796][98449] Signal inference workers to stop experience collection... (14250 times)
+[2023-07-06 12:06:56,826][98493] InferenceWorker_p0-w0: stopping experience collection (14250 times)
+[2023-07-06 12:06:56,868][98449] Signal inference workers to resume experience collection... (14250 times)
+[2023-07-06 12:06:56,868][98493] InferenceWorker_p0-w0: resuming experience collection (14250 times)
+[2023-07-06 12:06:57,152][98493] Updated weights for policy 0, policy_version 275184 (0.0007)
+[2023-07-06 12:06:59,250][98493] Updated weights for policy 0, policy_version 275233 (0.0007)
+[2023-07-06 12:06:59,764][98243] Fps is (10 sec: 114691.6, 60 sec: 111957.3, 300 sec: 110744.7). Total num frames: 563773440. Throughput: 0: 27750.4. Samples: 140995072. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:06:59,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:06:59,771][98493] Updated weights for policy 0, policy_version 275296 (0.0007)
+[2023-07-06 12:07:01,184][98493] Updated weights for policy 0, policy_version 275360 (0.0008)
+[2023-07-06 12:07:01,627][98493] Updated weights for policy 0, policy_version 275408 (0.0006)
+[2023-07-06 12:07:03,841][98493] Updated weights for policy 0, policy_version 275461 (0.0007)
+[2023-07-06 12:07:04,407][98493] Updated weights for policy 0, policy_version 275525 (0.0007)
+[2023-07-06 12:07:04,764][98243] Fps is (10 sec: 121241.3, 60 sec: 111411.5, 300 sec: 110967.0). Total num frames: 564363264. Throughput: 0: 27716.2. Samples: 141158400. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:04,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:07:04,880][98493] Updated weights for policy 0, policy_version 275584 (0.0006)
+[2023-07-06 12:07:06,094][98493] Updated weights for policy 0, policy_version 275643 (0.0006)
+[2023-07-06 12:07:06,613][98493] Updated weights for policy 0, policy_version 275683 (0.0007)
+[2023-07-06 12:07:08,535][98493] Updated weights for policy 0, policy_version 275744 (0.0006)
+[2023-07-06 12:07:09,220][98493] Updated weights for policy 0, policy_version 275808 (0.0006)
+[2023-07-06 12:07:09,764][98243] Fps is (10 sec: 114686.7, 60 sec: 111410.8, 300 sec: 111077.9). Total num frames: 564920320. Throughput: 0: 27727.6. Samples: 141242368. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:09,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:07:10,512][98493] Updated weights for policy 0, policy_version 275856 (0.0007)
+[2023-07-06 12:07:11,173][98493] Updated weights for policy 0, policy_version 275905 (0.0006)
+[2023-07-06 12:07:12,999][98493] Updated weights for policy 0, policy_version 275984 (0.0007)
+[2023-07-06 12:07:13,431][98493] Updated weights for policy 0, policy_version 276032 (0.0007)
+[2023-07-06 12:07:14,193][98493] Updated weights for policy 0, policy_version 276090 (0.0007)
+[2023-07-06 12:07:14,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 565444608. Throughput: 0: 27727.7. Samples: 141408768. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:14,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:07:15,544][98449] Signal inference workers to stop experience collection... (14300 times)
+[2023-07-06 12:07:15,569][98493] Updated weights for policy 0, policy_version 276133 (0.0007)
+[2023-07-06 12:07:15,576][98493] InferenceWorker_p0-w0: stopping experience collection (14300 times)
+[2023-07-06 12:07:15,625][98449] Signal inference workers to resume experience collection... (14300 times)
+[2023-07-06 12:07:15,625][98493] InferenceWorker_p0-w0: resuming experience collection (14300 times)
+[2023-07-06 12:07:15,977][98493] Updated weights for policy 0, policy_version 276178 (0.0007)
+[2023-07-06 12:07:16,316][98493] Updated weights for policy 0, policy_version 276221 (0.0007)
+[2023-07-06 12:07:17,969][98493] Updated weights for policy 0, policy_version 276272 (0.0007)
+[2023-07-06 12:07:18,737][98493] Updated weights for policy 0, policy_version 276322 (0.0007)
+[2023-07-06 12:07:19,764][98243] Fps is (10 sec: 108135.9, 60 sec: 111411.1, 300 sec: 111189.1). Total num frames: 566001664. Throughput: 0: 27830.1. Samples: 141581312. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:19,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:07:19,792][98493] Updated weights for policy 0, policy_version 276376 (0.0007)
+[2023-07-06 12:07:20,411][98493] Updated weights for policy 0, policy_version 276434 (0.0007)
+[2023-07-06 12:07:22,164][98493] Updated weights for policy 0, policy_version 276486 (0.0007)
+[2023-07-06 12:07:23,011][98493] Updated weights for policy 0, policy_version 276547 (0.0009)
+[2023-07-06 12:07:24,430][98493] Updated weights for policy 0, policy_version 276609 (0.0006)
+[2023-07-06 12:07:24,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110319.1, 300 sec: 111300.2). Total num frames: 566558720. Throughput: 0: 27898.4. Samples: 141664256. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:24,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:07:24,865][98493] Updated weights for policy 0, policy_version 276658 (0.0007)
+[2023-07-06 12:07:25,347][98493] Updated weights for policy 0, policy_version 276720 (0.0008)
+[2023-07-06 12:07:27,344][98493] Updated weights for policy 0, policy_version 276784 (0.0007)
+[2023-07-06 12:07:28,047][98493] Updated weights for policy 0, policy_version 276836 (0.0007)
+[2023-07-06 12:07:29,364][98493] Updated weights for policy 0, policy_version 276899 (0.0007)
+[2023-07-06 12:07:29,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111957.6, 300 sec: 111522.3). Total num frames: 567181312. Throughput: 0: 28012.1. Samples: 141832704. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:29,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:07:29,900][98493] Updated weights for policy 0, policy_version 276961 (0.0007)
+[2023-07-06 12:07:31,725][98493] Updated weights for policy 0, policy_version 277017 (0.0007)
+[2023-07-06 12:07:32,741][98493] Updated weights for policy 0, policy_version 277072 (0.0006)
+[2023-07-06 12:07:33,737][98493] Updated weights for policy 0, policy_version 277121 (0.0007)
+[2023-07-06 12:07:33,890][98449] Signal inference workers to stop experience collection... (14350 times)
+[2023-07-06 12:07:33,910][98493] InferenceWorker_p0-w0: stopping experience collection (14350 times)
+[2023-07-06 12:07:33,983][98449] Signal inference workers to resume experience collection... (14350 times)
+[2023-07-06 12:07:33,983][98493] InferenceWorker_p0-w0: resuming experience collection (14350 times)
+[2023-07-06 12:07:34,217][98493] Updated weights for policy 0, policy_version 277171 (0.0006)
+[2023-07-06 12:07:34,710][98493] Updated weights for policy 0, policy_version 277232 (0.0007)
+[2023-07-06 12:07:34,764][98243] Fps is (10 sec: 121241.1, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 567771136. Throughput: 0: 27853.0. Samples: 141997056. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:34,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:07:36,588][98493] Updated weights for policy 0, policy_version 277284 (0.0008)
+[2023-07-06 12:07:37,760][98493] Updated weights for policy 0, policy_version 277345 (0.0007)
+[2023-07-06 12:07:38,573][98493] Updated weights for policy 0, policy_version 277408 (0.0006)
+[2023-07-06 12:07:39,213][98493] Updated weights for policy 0, policy_version 277476 (0.0007)
+[2023-07-06 12:07:39,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.7, 300 sec: 111411.2). Total num frames: 568328192. Throughput: 0: 28023.4. Samples: 142083072. Policy #0 lag: (min: 15.0, avg: 112.7, max: 271.0)
+[2023-07-06 12:07:39,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:07:41,161][98493] Updated weights for policy 0, policy_version 277520 (0.0006)
+[2023-07-06 12:07:42,384][98493] Updated weights for policy 0, policy_version 277570 (0.0007)
+[2023-07-06 12:07:42,877][98493] Updated weights for policy 0, policy_version 277632 (0.0007)
+[2023-07-06 12:07:43,693][98493] Updated weights for policy 0, policy_version 277712 (0.0008)
+[2023-07-06 12:07:44,764][98243] Fps is (10 sec: 108133.1, 60 sec: 113595.5, 300 sec: 111077.9). Total num frames: 568852480. Throughput: 0: 27795.9. Samples: 142245888. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:07:44,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:07:45,733][98493] Updated weights for policy 0, policy_version 277763 (0.0006)
+[2023-07-06 12:07:46,187][98493] Updated weights for policy 0, policy_version 277819 (0.0007)
+[2023-07-06 12:07:47,669][98493] Updated weights for policy 0, policy_version 277879 (0.0006)
+[2023-07-06 12:07:48,110][98493] Updated weights for policy 0, policy_version 277926 (0.0007)
+[2023-07-06 12:07:48,568][98493] Updated weights for policy 0, policy_version 277978 (0.0007)
+[2023-07-06 12:07:49,764][98243] Fps is (10 sec: 104857.7, 60 sec: 112504.1, 300 sec: 111078.0). Total num frames: 569376768. Throughput: 0: 27909.7. Samples: 142414336. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:07:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:07:50,338][98493] Updated weights for policy 0, policy_version 278032 (0.0007)
+[2023-07-06 12:07:51,997][98493] Updated weights for policy 0, policy_version 278096 (0.0007)
+[2023-07-06 12:07:52,045][98449] Signal inference workers to stop experience collection... (14400 times)
+[2023-07-06 12:07:52,095][98493] InferenceWorker_p0-w0: stopping experience collection (14400 times)
+[2023-07-06 12:07:52,124][98449] Signal inference workers to resume experience collection... (14400 times)
+[2023-07-06 12:07:52,125][98493] InferenceWorker_p0-w0: resuming experience collection (14400 times)
+[2023-07-06 12:07:52,519][98493] Updated weights for policy 0, policy_version 278160 (0.0008)
+[2023-07-06 12:07:53,011][98493] Updated weights for policy 0, policy_version 278213 (0.0008)
+[2023-07-06 12:07:54,764][98243] Fps is (10 sec: 104858.8, 60 sec: 112503.4, 300 sec: 111078.0). Total num frames: 569901056. Throughput: 0: 27921.2. Samples: 142498816. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:07:54,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:07:55,100][98493] Updated weights for policy 0, policy_version 278273 (0.0007)
+[2023-07-06 12:07:55,568][98493] Updated weights for policy 0, policy_version 278334 (0.0007)
+[2023-07-06 12:07:57,240][98493] Updated weights for policy 0, policy_version 278400 (0.0008)
+[2023-07-06 12:07:57,921][98493] Updated weights for policy 0, policy_version 278480 (0.0008)
+[2023-07-06 12:07:59,630][98493] Updated weights for policy 0, policy_version 278529 (0.0007)
+[2023-07-06 12:07:59,764][98243] Fps is (10 sec: 108134.3, 60 sec: 111411.2, 300 sec: 111189.0). Total num frames: 570458112. Throughput: 0: 27784.5. Samples: 142659072. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:07:59,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:08:00,105][98493] Updated weights for policy 0, policy_version 278592 (0.0007)
+[2023-07-06 12:08:02,056][98493] Updated weights for policy 0, policy_version 278640 (0.0006)
+[2023-07-06 12:08:02,704][98493] Updated weights for policy 0, policy_version 278709 (0.0008)
+[2023-07-06 12:08:03,155][98493] Updated weights for policy 0, policy_version 278758 (0.0008)
+[2023-07-06 12:08:04,756][98493] Updated weights for policy 0, policy_version 278822 (0.0007)
+[2023-07-06 12:08:04,764][98243] Fps is (10 sec: 111409.5, 60 sec: 110864.7, 300 sec: 110966.8). Total num frames: 571015168. Throughput: 0: 27693.4. Samples: 142827520. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:04,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:08:06,440][98493] Updated weights for policy 0, policy_version 278852 (0.0007)
+[2023-07-06 12:08:06,873][98493] Updated weights for policy 0, policy_version 278901 (0.0007)
+[2023-07-06 12:08:07,418][98493] Updated weights for policy 0, policy_version 278962 (0.0008)
+[2023-07-06 12:08:07,695][98449] Signal inference workers to stop experience collection... (14450 times)
+[2023-07-06 12:08:07,729][98493] InferenceWorker_p0-w0: stopping experience collection (14450 times)
+[2023-07-06 12:08:07,773][98449] Signal inference workers to resume experience collection... (14450 times)
+[2023-07-06 12:08:07,773][98493] InferenceWorker_p0-w0: resuming experience collection (14450 times)
+[2023-07-06 12:08:07,900][98493] Updated weights for policy 0, policy_version 279024 (0.0006)
+[2023-07-06 12:08:09,352][98493] Updated weights for policy 0, policy_version 279075 (0.0007)
+[2023-07-06 12:08:09,764][98243] Fps is (10 sec: 114686.8, 60 sec: 111411.2, 300 sec: 110855.7). Total num frames: 571604992. Throughput: 0: 27727.5. Samples: 142912000. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:09,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:08:11,186][98493] Updated weights for policy 0, policy_version 279122 (0.0006)
+[2023-07-06 12:08:11,637][98493] Updated weights for policy 0, policy_version 279172 (0.0006)
+[2023-07-06 12:08:12,193][98493] Updated weights for policy 0, policy_version 279236 (0.0007)
+[2023-07-06 12:08:12,635][98493] Updated weights for policy 0, policy_version 279291 (0.0007)
+[2023-07-06 12:08:14,243][98493] Updated weights for policy 0, policy_version 279353 (0.0007)
+[2023-07-06 12:08:14,764][98243] Fps is (10 sec: 111413.0, 60 sec: 111411.1, 300 sec: 110633.7). Total num frames: 572129280. Throughput: 0: 27784.5. Samples: 143083008. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:14,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:08:16,116][98493] Updated weights for policy 0, policy_version 279408 (0.0007)
+[2023-07-06 12:08:16,642][98493] Updated weights for policy 0, policy_version 279459 (0.0007)
+[2023-07-06 12:08:17,136][98493] Updated weights for policy 0, policy_version 279520 (0.0007)
+[2023-07-06 12:08:18,620][98493] Updated weights for policy 0, policy_version 279574 (0.0007)
+[2023-07-06 12:08:19,765][98243] Fps is (10 sec: 104856.4, 60 sec: 110864.6, 300 sec: 110633.6). Total num frames: 572653568. Throughput: 0: 27909.5. Samples: 143252992. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:19,766][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:08:20,412][98493] Updated weights for policy 0, policy_version 279618 (0.0008)
+[2023-07-06 12:08:20,967][98493] Updated weights for policy 0, policy_version 279685 (0.0007)
+[2023-07-06 12:08:21,525][98493] Updated weights for policy 0, policy_version 279745 (0.0007)
+[2023-07-06 12:08:21,947][98493] Updated weights for policy 0, policy_version 279802 (0.0007)
+[2023-07-06 12:08:23,317][98493] Updated weights for policy 0, policy_version 279840 (0.0006)
+[2023-07-06 12:08:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 110318.8, 300 sec: 110633.6). Total num frames: 573177856. Throughput: 0: 27830.1. Samples: 143335424. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:24,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:08:24,780][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000279872_573177856.pth...
+[2023-07-06 12:08:24,813][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000266912_546635776.pth
+[2023-07-06 12:08:25,118][98493] Updated weights for policy 0, policy_version 279888 (0.0008)
+[2023-07-06 12:08:25,440][98449] Signal inference workers to stop experience collection... (14500 times)
+[2023-07-06 12:08:25,483][98493] InferenceWorker_p0-w0: stopping experience collection (14500 times)
+[2023-07-06 12:08:25,564][98449] Signal inference workers to resume experience collection... (14500 times)
+[2023-07-06 12:08:25,564][98493] InferenceWorker_p0-w0: resuming experience collection (14500 times)
+[2023-07-06 12:08:25,659][98493] Updated weights for policy 0, policy_version 279945 (0.0006)
+[2023-07-06 12:08:26,132][98493] Updated weights for policy 0, policy_version 280000 (0.0007)
+[2023-07-06 12:08:26,685][98493] Updated weights for policy 0, policy_version 280064 (0.0006)
+[2023-07-06 12:08:28,060][98493] Updated weights for policy 0, policy_version 280112 (0.0008)
+[2023-07-06 12:08:29,764][98243] Fps is (10 sec: 104860.8, 60 sec: 108680.6, 300 sec: 110633.7). Total num frames: 573702144. Throughput: 0: 27978.1. Samples: 143504896. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:29,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:08:29,864][98493] Updated weights for policy 0, policy_version 280146 (0.0006)
+[2023-07-06 12:08:30,320][98493] Updated weights for policy 0, policy_version 280195 (0.0006)
+[2023-07-06 12:08:30,887][98493] Updated weights for policy 0, policy_version 280265 (0.0007)
+[2023-07-06 12:08:31,317][98493] Updated weights for policy 0, policy_version 280313 (0.0007)
+[2023-07-06 12:08:32,554][98493] Updated weights for policy 0, policy_version 280368 (0.0007)
+[2023-07-06 12:08:34,435][98493] Updated weights for policy 0, policy_version 280403 (0.0007)
+[2023-07-06 12:08:34,764][98243] Fps is (10 sec: 114685.8, 60 sec: 109226.3, 300 sec: 110966.8). Total num frames: 574324736. Throughput: 0: 27989.2. Samples: 143673856. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:34,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:08:34,912][98493] Updated weights for policy 0, policy_version 280455 (0.0008)
+[2023-07-06 12:08:35,366][98493] Updated weights for policy 0, policy_version 280512 (0.0007)
+[2023-07-06 12:08:35,843][98493] Updated weights for policy 0, policy_version 280571 (0.0006)
+[2023-07-06 12:08:37,269][98493] Updated weights for policy 0, policy_version 280624 (0.0007)
+[2023-07-06 12:08:39,179][98493] Updated weights for policy 0, policy_version 280679 (0.0007)
+[2023-07-06 12:08:39,764][98243] Fps is (10 sec: 121241.1, 60 sec: 109772.9, 300 sec: 111189.1). Total num frames: 574914560. Throughput: 0: 27886.9. Samples: 143753728. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:39,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:08:39,926][98493] Updated weights for policy 0, policy_version 280743 (0.0007)
+[2023-07-06 12:08:40,520][98493] Updated weights for policy 0, policy_version 280816 (0.0007)
+[2023-07-06 12:08:42,005][98449] Signal inference workers to stop experience collection... (14550 times)
+[2023-07-06 12:08:42,041][98493] InferenceWorker_p0-w0: stopping experience collection (14550 times)
+[2023-07-06 12:08:42,106][98449] Signal inference workers to resume experience collection... (14550 times)
+[2023-07-06 12:08:42,106][98493] InferenceWorker_p0-w0: resuming experience collection (14550 times)
+[2023-07-06 12:08:42,108][98493] Updated weights for policy 0, policy_version 280864 (0.0007)
+[2023-07-06 12:08:42,378][98493] Updated weights for policy 0, policy_version 280896 (0.0006)
+[2023-07-06 12:08:44,050][98493] Updated weights for policy 0, policy_version 280956 (0.0021)
+[2023-07-06 12:08:44,746][98493] Updated weights for policy 0, policy_version 281009 (0.0007)
+[2023-07-06 12:08:44,764][98243] Fps is (10 sec: 117966.8, 60 sec: 110865.2, 300 sec: 111411.3). Total num frames: 575504384. Throughput: 0: 28114.5. Samples: 143924224. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:44,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 12:08:45,219][98493] Updated weights for policy 0, policy_version 281062 (0.0008)
+[2023-07-06 12:08:46,714][98493] Updated weights for policy 0, policy_version 281126 (0.0019)
+[2023-07-06 12:08:48,550][98493] Updated weights for policy 0, policy_version 281184 (0.0007)
+[2023-07-06 12:08:49,287][98493] Updated weights for policy 0, policy_version 281239 (0.0007)
+[2023-07-06 12:08:49,762][98493] Updated weights for policy 0, policy_version 281296 (0.0007)
+[2023-07-06 12:08:49,764][98243] Fps is (10 sec: 117964.1, 60 sec: 111957.3, 300 sec: 111633.5). Total num frames: 576094208. Throughput: 0: 27898.4. Samples: 144082944. Policy #0 lag: (min: 0.0, avg: 89.2, max: 256.0)
+[2023-07-06 12:08:49,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:08:50,171][98493] Updated weights for policy 0, policy_version 281343 (0.0007)
+[2023-07-06 12:08:51,529][98493] Updated weights for policy 0, policy_version 281393 (0.0007)
+[2023-07-06 12:08:53,179][98493] Updated weights for policy 0, policy_version 281440 (0.0008)
+[2023-07-06 12:08:54,089][98493] Updated weights for policy 0, policy_version 281492 (0.0006)
+[2023-07-06 12:08:54,527][98493] Updated weights for policy 0, policy_version 281540 (0.0008)
+[2023-07-06 12:08:54,765][98243] Fps is (10 sec: 114681.7, 60 sec: 112502.4, 300 sec: 111522.1). Total num frames: 576651264. Throughput: 0: 28045.9. Samples: 144174080. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:08:54,766][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:08:54,978][98493] Updated weights for policy 0, policy_version 281592 (0.0008)
+[2023-07-06 12:08:56,098][98493] Updated weights for policy 0, policy_version 281638 (0.0006)
+[2023-07-06 12:08:57,710][98493] Updated weights for policy 0, policy_version 281686 (0.0006)
+[2023-07-06 12:08:58,635][98493] Updated weights for policy 0, policy_version 281744 (0.0006)
+[2023-07-06 12:08:59,254][98493] Updated weights for policy 0, policy_version 281813 (0.0008)
+[2023-07-06 12:08:59,386][98449] Signal inference workers to stop experience collection... (14600 times)
+[2023-07-06 12:08:59,416][98493] InferenceWorker_p0-w0: stopping experience collection (14600 times)
+[2023-07-06 12:08:59,487][98449] Signal inference workers to resume experience collection... (14600 times)
+[2023-07-06 12:08:59,487][98493] InferenceWorker_p0-w0: resuming experience collection (14600 times)
+[2023-07-06 12:08:59,637][98493] Updated weights for policy 0, policy_version 281856 (0.0011)
+[2023-07-06 12:08:59,764][98243] Fps is (10 sec: 114688.8, 60 sec: 113049.7, 300 sec: 111744.4). Total num frames: 577241088. Throughput: 0: 27943.8. Samples: 144340480. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:08:59,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:09:01,085][98493] Updated weights for policy 0, policy_version 281916 (0.0008)
+[2023-07-06 12:09:02,571][98493] Updated weights for policy 0, policy_version 281979 (0.0008)
+[2023-07-06 12:09:03,765][98493] Updated weights for policy 0, policy_version 282032 (0.0007)
+[2023-07-06 12:09:04,254][98493] Updated weights for policy 0, policy_version 282087 (0.0007)
+[2023-07-06 12:09:04,764][98243] Fps is (10 sec: 111416.1, 60 sec: 112503.5, 300 sec: 111633.3). Total num frames: 577765376. Throughput: 0: 27739.1. Samples: 144501248. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:04,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:09:05,737][98493] Updated weights for policy 0, policy_version 282160 (0.0007)
+[2023-07-06 12:09:07,006][98493] Updated weights for policy 0, policy_version 282208 (0.0007)
+[2023-07-06 12:09:07,301][98493] Updated weights for policy 0, policy_version 282240 (0.0006)
+[2023-07-06 12:09:08,470][98493] Updated weights for policy 0, policy_version 282291 (0.0006)
+[2023-07-06 12:09:09,005][98493] Updated weights for policy 0, policy_version 282352 (0.0007)
+[2023-07-06 12:09:09,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.4, 300 sec: 111300.1). Total num frames: 578289664. Throughput: 0: 27841.4. Samples: 144588288. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:09,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:09:10,371][98493] Updated weights for policy 0, policy_version 282407 (0.0008)
+[2023-07-06 12:09:12,032][98493] Updated weights for policy 0, policy_version 282468 (0.0008)
+[2023-07-06 12:09:12,841][98493] Updated weights for policy 0, policy_version 282528 (0.0008)
+[2023-07-06 12:09:13,320][98493] Updated weights for policy 0, policy_version 282576 (0.0007)
+[2023-07-06 12:09:13,694][98493] Updated weights for policy 0, policy_version 282622 (0.0008)
+[2023-07-06 12:09:14,764][98243] Fps is (10 sec: 108136.8, 60 sec: 111957.5, 300 sec: 111300.1). Total num frames: 578846720. Throughput: 0: 27704.9. Samples: 144751616. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:14,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:09:15,055][98493] Updated weights for policy 0, policy_version 282672 (0.0006)
+[2023-07-06 12:09:16,766][98493] Updated weights for policy 0, policy_version 282720 (0.0006)
+[2023-07-06 12:09:17,385][98493] Updated weights for policy 0, policy_version 282768 (0.0006)
+[2023-07-06 12:09:17,859][98449] Signal inference workers to stop experience collection... (14650 times)
+[2023-07-06 12:09:17,893][98493] InferenceWorker_p0-w0: stopping experience collection (14650 times)
+[2023-07-06 12:09:17,958][98449] Signal inference workers to resume experience collection... (14650 times)
+[2023-07-06 12:09:17,958][98493] InferenceWorker_p0-w0: resuming experience collection (14650 times)
+[2023-07-06 12:09:18,051][98493] Updated weights for policy 0, policy_version 282840 (0.0007)
+[2023-07-06 12:09:19,380][98493] Updated weights for policy 0, policy_version 282881 (0.0011)
+[2023-07-06 12:09:19,764][98243] Fps is (10 sec: 114689.0, 60 sec: 113050.2, 300 sec: 111300.2). Total num frames: 579436544. Throughput: 0: 27750.6. Samples: 144922624. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:19,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:09:19,837][98493] Updated weights for policy 0, policy_version 282940 (0.0007)
+[2023-07-06 12:09:21,585][98493] Updated weights for policy 0, policy_version 283006 (0.0007)
+[2023-07-06 12:09:22,679][98493] Updated weights for policy 0, policy_version 283074 (0.0007)
+[2023-07-06 12:09:23,129][98493] Updated weights for policy 0, policy_version 283134 (0.0007)
+[2023-07-06 12:09:24,287][98493] Updated weights for policy 0, policy_version 283174 (0.0008)
+[2023-07-06 12:09:24,764][98243] Fps is (10 sec: 114684.9, 60 sec: 113595.4, 300 sec: 111189.0). Total num frames: 579993600. Throughput: 0: 27829.9. Samples: 145006080. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:24,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:09:26,254][98493] Updated weights for policy 0, policy_version 283234 (0.0006)
+[2023-07-06 12:09:27,422][98493] Updated weights for policy 0, policy_version 283304 (0.0007)
+[2023-07-06 12:09:27,965][98493] Updated weights for policy 0, policy_version 283365 (0.0008)
+[2023-07-06 12:09:28,613][98493] Updated weights for policy 0, policy_version 283416 (0.0006)
+[2023-07-06 12:09:29,764][98243] Fps is (10 sec: 108132.7, 60 sec: 113595.5, 300 sec: 110967.0). Total num frames: 580517888. Throughput: 0: 27648.0. Samples: 145168384. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:29,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:09:30,551][98493] Updated weights for policy 0, policy_version 283463 (0.0007)
+[2023-07-06 12:09:31,015][98493] Updated weights for policy 0, policy_version 283520 (0.0006)
+[2023-07-06 12:09:32,416][98493] Updated weights for policy 0, policy_version 283568 (0.0007)
+[2023-07-06 12:09:32,837][98493] Updated weights for policy 0, policy_version 283616 (0.0007)
+[2023-07-06 12:09:33,345][98493] Updated weights for policy 0, policy_version 283667 (0.0008)
+[2023-07-06 12:09:34,764][98243] Fps is (10 sec: 104859.5, 60 sec: 111957.7, 300 sec: 110855.8). Total num frames: 581042176. Throughput: 0: 27989.4. Samples: 145342464. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:34,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:09:35,198][98493] Updated weights for policy 0, policy_version 283716 (0.0007)
+[2023-07-06 12:09:35,617][98493] Updated weights for policy 0, policy_version 283772 (0.0007)
+[2023-07-06 12:09:36,652][98449] Signal inference workers to stop experience collection... (14700 times)
+[2023-07-06 12:09:36,712][98493] InferenceWorker_p0-w0: stopping experience collection (14700 times)
+[2023-07-06 12:09:36,757][98449] Signal inference workers to resume experience collection... (14700 times)
+[2023-07-06 12:09:36,758][98493] InferenceWorker_p0-w0: resuming experience collection (14700 times)
+[2023-07-06 12:09:37,041][98493] Updated weights for policy 0, policy_version 283840 (0.0008)
+[2023-07-06 12:09:37,459][98493] Updated weights for policy 0, policy_version 283888 (0.0006)
+[2023-07-06 12:09:37,981][98493] Updated weights for policy 0, policy_version 283944 (0.0007)
+[2023-07-06 12:09:39,764][98243] Fps is (10 sec: 104857.4, 60 sec: 110864.9, 300 sec: 110744.8). Total num frames: 581566464. Throughput: 0: 27750.7. Samples: 145422848. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:39,770][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:09:40,241][98493] Updated weights for policy 0, policy_version 284003 (0.0008)
+[2023-07-06 12:09:41,453][98493] Updated weights for policy 0, policy_version 284064 (0.0007)
+[2023-07-06 12:09:42,014][98493] Updated weights for policy 0, policy_version 284128 (0.0008)
+[2023-07-06 12:09:42,441][98493] Updated weights for policy 0, policy_version 284161 (0.0007)
+[2023-07-06 12:09:42,868][98493] Updated weights for policy 0, policy_version 284218 (0.0007)
+[2023-07-06 12:09:44,764][98243] Fps is (10 sec: 104857.1, 60 sec: 109772.8, 300 sec: 110633.7). Total num frames: 582090752. Throughput: 0: 27795.9. Samples: 145591296. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:44,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:09:45,145][98493] Updated weights for policy 0, policy_version 284272 (0.0007)
+[2023-07-06 12:09:46,069][98493] Updated weights for policy 0, policy_version 284330 (0.0007)
+[2023-07-06 12:09:46,587][98493] Updated weights for policy 0, policy_version 284384 (0.0007)
+[2023-07-06 12:09:47,152][98493] Updated weights for policy 0, policy_version 284442 (0.0007)
+[2023-07-06 12:09:49,438][98493] Updated weights for policy 0, policy_version 284483 (0.0019)
+[2023-07-06 12:09:49,764][98243] Fps is (10 sec: 111411.9, 60 sec: 109772.8, 300 sec: 110855.8). Total num frames: 582680576. Throughput: 0: 27955.3. Samples: 145759232. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:49,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:09:49,940][98493] Updated weights for policy 0, policy_version 284544 (0.0007)
+[2023-07-06 12:09:50,862][98493] Updated weights for policy 0, policy_version 284601 (0.0007)
+[2023-07-06 12:09:51,409][98493] Updated weights for policy 0, policy_version 284642 (0.0008)
+[2023-07-06 12:09:51,911][98493] Updated weights for policy 0, policy_version 284704 (0.0007)
+[2023-07-06 12:09:54,376][98449] Signal inference workers to stop experience collection... (14750 times)
+[2023-07-06 12:09:54,414][98493] InferenceWorker_p0-w0: stopping experience collection (14750 times)
+[2023-07-06 12:09:54,416][98493] Updated weights for policy 0, policy_version 284742 (0.0007)
+[2023-07-06 12:09:54,479][98449] Signal inference workers to resume experience collection... (14750 times)
+[2023-07-06 12:09:54,480][98493] InferenceWorker_p0-w0: resuming experience collection (14750 times)
+[2023-07-06 12:09:54,764][98243] Fps is (10 sec: 114689.5, 60 sec: 109774.0, 300 sec: 110967.0). Total num frames: 583237632. Throughput: 0: 27864.2. Samples: 145842176. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:54,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:09:54,866][98493] Updated weights for policy 0, policy_version 284795 (0.0016)
+[2023-07-06 12:09:55,326][98493] Updated weights for policy 0, policy_version 284848 (0.0008)
+[2023-07-06 12:09:56,162][98493] Updated weights for policy 0, policy_version 284905 (0.0007)
+[2023-07-06 12:09:56,694][98493] Updated weights for policy 0, policy_version 284965 (0.0007)
+[2023-07-06 12:09:59,410][98493] Updated weights for policy 0, policy_version 285029 (0.0007)
+[2023-07-06 12:09:59,765][98243] Fps is (10 sec: 114685.5, 60 sec: 109772.3, 300 sec: 111189.1). Total num frames: 583827456. Throughput: 0: 28102.9. Samples: 146016256. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:09:59,766][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:09:59,847][98493] Updated weights for policy 0, policy_version 285076 (0.0007)
+[2023-07-06 12:10:00,419][98493] Updated weights for policy 0, policy_version 285121 (0.0007)
+[2023-07-06 12:10:01,036][98493] Updated weights for policy 0, policy_version 285190 (0.0008)
+[2023-07-06 12:10:01,530][98493] Updated weights for policy 0, policy_version 285248 (0.0008)
+[2023-07-06 12:10:04,376][98493] Updated weights for policy 0, policy_version 285298 (0.0008)
+[2023-07-06 12:10:04,764][98243] Fps is (10 sec: 114687.1, 60 sec: 110319.2, 300 sec: 111300.2). Total num frames: 584384512. Throughput: 0: 27909.6. Samples: 146178560. Policy #0 lag: (min: 47.0, avg: 127.3, max: 303.0)
+[2023-07-06 12:10:04,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:10:04,927][98493] Updated weights for policy 0, policy_version 285371 (0.0006)
+[2023-07-06 12:10:05,669][98493] Updated weights for policy 0, policy_version 285424 (0.0007)
+[2023-07-06 12:10:06,150][98493] Updated weights for policy 0, policy_version 285475 (0.0008)
+[2023-07-06 12:10:08,728][98493] Updated weights for policy 0, policy_version 285536 (0.0007)
+[2023-07-06 12:10:09,043][98493] Updated weights for policy 0, policy_version 285568 (0.0007)
+[2023-07-06 12:10:09,478][98493] Updated weights for policy 0, policy_version 285616 (0.0007)
+[2023-07-06 12:10:09,764][98243] Fps is (10 sec: 114690.6, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 584974336. Throughput: 0: 27898.4. Samples: 146261504. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:09,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:10:10,092][98449] Signal inference workers to stop experience collection... (14800 times)
+[2023-07-06 12:10:10,124][98493] InferenceWorker_p0-w0: stopping experience collection (14800 times)
+[2023-07-06 12:10:10,171][98449] Signal inference workers to resume experience collection... (14800 times)
+[2023-07-06 12:10:10,171][98493] InferenceWorker_p0-w0: resuming experience collection (14800 times)
+[2023-07-06 12:10:10,277][98493] Updated weights for policy 0, policy_version 285671 (0.0007)
+[2023-07-06 12:10:10,829][98493] Updated weights for policy 0, policy_version 285730 (0.0008)
+[2023-07-06 12:10:13,245][98493] Updated weights for policy 0, policy_version 285784 (0.0007)
+[2023-07-06 12:10:13,953][98493] Updated weights for policy 0, policy_version 285840 (0.0007)
+[2023-07-06 12:10:14,325][98493] Updated weights for policy 0, policy_version 285884 (0.0008)
+[2023-07-06 12:10:14,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111411.1, 300 sec: 111633.4). Total num frames: 585531392. Throughput: 0: 28057.7. Samples: 146430976. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:14,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:10:14,999][98493] Updated weights for policy 0, policy_version 285936 (0.0008)
+[2023-07-06 12:10:15,432][98493] Updated weights for policy 0, policy_version 285984 (0.0007)
+[2023-07-06 12:10:17,694][98493] Updated weights for policy 0, policy_version 286018 (0.0007)
+[2023-07-06 12:10:18,415][98493] Updated weights for policy 0, policy_version 286082 (0.0008)
+[2023-07-06 12:10:19,363][98493] Updated weights for policy 0, policy_version 286146 (0.0007)
+[2023-07-06 12:10:19,764][98243] Fps is (10 sec: 114688.8, 60 sec: 111411.1, 300 sec: 111855.7). Total num frames: 586121216. Throughput: 0: 27887.0. Samples: 146597376. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:19,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:10:19,798][98493] Updated weights for policy 0, policy_version 286198 (0.0007)
+[2023-07-06 12:10:20,279][98493] Updated weights for policy 0, policy_version 286256 (0.0007)
+[2023-07-06 12:10:22,846][98493] Updated weights for policy 0, policy_version 286309 (0.0006)
+[2023-07-06 12:10:23,313][98493] Updated weights for policy 0, policy_version 286368 (0.0007)
+[2023-07-06 12:10:24,086][98493] Updated weights for policy 0, policy_version 286416 (0.0006)
+[2023-07-06 12:10:24,583][98493] Updated weights for policy 0, policy_version 286472 (0.0006)
+[2023-07-06 12:10:24,764][98243] Fps is (10 sec: 121241.8, 60 sec: 112504.0, 300 sec: 111966.6). Total num frames: 586743808. Throughput: 0: 28069.1. Samples: 146685952. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:24,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:10:24,898][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000286512_586776576.pth...
+[2023-07-06 12:10:24,930][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000273408_559939584.pth
+[2023-07-06 12:10:25,024][98493] Updated weights for policy 0, policy_version 286523 (0.0007)
+[2023-07-06 12:10:27,740][98493] Updated weights for policy 0, policy_version 286580 (0.0007)
+[2023-07-06 12:10:27,846][98449] Signal inference workers to stop experience collection... (14850 times)
+[2023-07-06 12:10:27,883][98493] InferenceWorker_p0-w0: stopping experience collection (14850 times)
+[2023-07-06 12:10:27,924][98449] Signal inference workers to resume experience collection... (14850 times)
+[2023-07-06 12:10:27,924][98493] InferenceWorker_p0-w0: resuming experience collection (14850 times)
+[2023-07-06 12:10:28,322][98493] Updated weights for policy 0, policy_version 286648 (0.0008)
+[2023-07-06 12:10:28,795][98493] Updated weights for policy 0, policy_version 286704 (0.0007)
+[2023-07-06 12:10:29,358][98493] Updated weights for policy 0, policy_version 286752 (0.0007)
+[2023-07-06 12:10:29,764][98243] Fps is (10 sec: 121240.5, 60 sec: 113595.8, 300 sec: 111855.7). Total num frames: 587333632. Throughput: 0: 27921.1. Samples: 146847744. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:29,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:10:32,325][98493] Updated weights for policy 0, policy_version 286808 (0.0007)
+[2023-07-06 12:10:32,909][98493] Updated weights for policy 0, policy_version 286872 (0.0008)
+[2023-07-06 12:10:33,454][98493] Updated weights for policy 0, policy_version 286931 (0.0008)
+[2023-07-06 12:10:34,027][98493] Updated weights for policy 0, policy_version 286999 (0.0007)
+[2023-07-06 12:10:34,764][98243] Fps is (10 sec: 111410.6, 60 sec: 113595.8, 300 sec: 111744.4). Total num frames: 587857920. Throughput: 0: 27841.5. Samples: 147012096. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:34,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:10:37,045][98493] Updated weights for policy 0, policy_version 287058 (0.0008)
+[2023-07-06 12:10:37,487][98493] Updated weights for policy 0, policy_version 287115 (0.0006)
+[2023-07-06 12:10:37,905][98493] Updated weights for policy 0, policy_version 287156 (0.0006)
+[2023-07-06 12:10:38,488][98493] Updated weights for policy 0, policy_version 287232 (0.0007)
+[2023-07-06 12:10:39,244][98493] Updated weights for policy 0, policy_version 287290 (0.0012)
+[2023-07-06 12:10:39,765][98243] Fps is (10 sec: 104854.1, 60 sec: 113595.2, 300 sec: 111522.1). Total num frames: 588382208. Throughput: 0: 27966.3. Samples: 147100672. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:39,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:10:41,693][98493] Updated weights for policy 0, policy_version 287334 (0.0007)
+[2023-07-06 12:10:42,269][98493] Updated weights for policy 0, policy_version 287393 (0.0007)
+[2023-07-06 12:10:42,647][98493] Updated weights for policy 0, policy_version 287440 (0.0008)
+[2023-07-06 12:10:43,016][98493] Updated weights for policy 0, policy_version 287483 (0.0006)
+[2023-07-06 12:10:43,481][98449] Signal inference workers to stop experience collection... (14900 times)
+[2023-07-06 12:10:43,507][98493] InferenceWorker_p0-w0: stopping experience collection (14900 times)
+[2023-07-06 12:10:43,567][98449] Signal inference workers to resume experience collection... (14900 times)
+[2023-07-06 12:10:43,567][98493] InferenceWorker_p0-w0: resuming experience collection (14900 times)
+[2023-07-06 12:10:43,791][98493] Updated weights for policy 0, policy_version 287525 (0.0008)
+[2023-07-06 12:10:44,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 588906496. Throughput: 0: 27750.6. Samples: 147265024. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:44,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:10:46,201][98493] Updated weights for policy 0, policy_version 287557 (0.0006)
+[2023-07-06 12:10:46,828][98493] Updated weights for policy 0, policy_version 287632 (0.0007)
+[2023-07-06 12:10:47,334][98493] Updated weights for policy 0, policy_version 287685 (0.0008)
+[2023-07-06 12:10:47,776][98493] Updated weights for policy 0, policy_version 287739 (0.0007)
+[2023-07-06 12:10:48,362][98493] Updated weights for policy 0, policy_version 287793 (0.0026)
+[2023-07-06 12:10:49,764][98243] Fps is (10 sec: 104861.8, 60 sec: 112503.6, 300 sec: 111522.3). Total num frames: 589430784. Throughput: 0: 27955.2. Samples: 147436544. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:49,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 12:10:50,897][98493] Updated weights for policy 0, policy_version 287824 (0.0010)
+[2023-07-06 12:10:51,436][98493] Updated weights for policy 0, policy_version 287888 (0.0007)
+[2023-07-06 12:10:52,026][98493] Updated weights for policy 0, policy_version 287952 (0.0007)
+[2023-07-06 12:10:52,946][98493] Updated weights for policy 0, policy_version 288002 (0.0008)
+[2023-07-06 12:10:53,383][98493] Updated weights for policy 0, policy_version 288060 (0.0006)
+[2023-07-06 12:10:54,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111957.1, 300 sec: 111522.3). Total num frames: 589955072. Throughput: 0: 27875.5. Samples: 147515904. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:54,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:10:56,006][98493] Updated weights for policy 0, policy_version 288114 (0.0007)
+[2023-07-06 12:10:56,479][98493] Updated weights for policy 0, policy_version 288176 (0.0007)
+[2023-07-06 12:10:57,048][98493] Updated weights for policy 0, policy_version 288240 (0.0006)
+[2023-07-06 12:10:57,941][98493] Updated weights for policy 0, policy_version 288289 (0.0007)
+[2023-07-06 12:10:59,764][98243] Fps is (10 sec: 104854.8, 60 sec: 110865.1, 300 sec: 111189.0). Total num frames: 590479360. Throughput: 0: 27852.6. Samples: 147684352. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:10:59,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:11:00,402][98493] Updated weights for policy 0, policy_version 288352 (0.0006)
+[2023-07-06 12:11:00,829][98493] Updated weights for policy 0, policy_version 288400 (0.0007)
+[2023-07-06 12:11:00,883][98449] Signal inference workers to stop experience collection... (14950 times)
+[2023-07-06 12:11:00,909][98493] InferenceWorker_p0-w0: stopping experience collection (14950 times)
+[2023-07-06 12:11:00,975][98449] Signal inference workers to resume experience collection... (14950 times)
+[2023-07-06 12:11:00,975][98493] InferenceWorker_p0-w0: resuming experience collection (14950 times)
+[2023-07-06 12:11:01,279][98493] Updated weights for policy 0, policy_version 288448 (0.0007)
+[2023-07-06 12:11:01,827][98493] Updated weights for policy 0, policy_version 288510 (0.0007)
+[2023-07-06 12:11:02,614][98493] Updated weights for policy 0, policy_version 288550 (0.0008)
+[2023-07-06 12:11:04,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110318.9, 300 sec: 111077.9). Total num frames: 591003648. Throughput: 0: 28023.4. Samples: 147858432. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:11:04,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:11:04,933][98493] Updated weights for policy 0, policy_version 288592 (0.0008)
+[2023-07-06 12:11:05,450][98493] Updated weights for policy 0, policy_version 288641 (0.0007)
+[2023-07-06 12:11:05,875][98493] Updated weights for policy 0, policy_version 288694 (0.0007)
+[2023-07-06 12:11:06,356][98493] Updated weights for policy 0, policy_version 288742 (0.0007)
+[2023-07-06 12:11:06,571][98493] Updated weights for policy 0, policy_version 288768 (0.0007)
+[2023-07-06 12:11:07,268][98493] Updated weights for policy 0, policy_version 288821 (0.0007)
+[2023-07-06 12:11:09,756][98493] Updated weights for policy 0, policy_version 288880 (0.0007)
+[2023-07-06 12:11:09,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110864.7, 300 sec: 111411.1). Total num frames: 591626240. Throughput: 0: 27807.1. Samples: 147937280. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:11:09,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:11:10,330][98493] Updated weights for policy 0, policy_version 288933 (0.0007)
+[2023-07-06 12:11:10,907][98493] Updated weights for policy 0, policy_version 288965 (0.0007)
+[2023-07-06 12:11:11,669][98493] Updated weights for policy 0, policy_version 289026 (0.0008)
+[2023-07-06 12:11:12,125][98493] Updated weights for policy 0, policy_version 289086 (0.0008)
+[2023-07-06 12:11:14,495][98493] Updated weights for policy 0, policy_version 289140 (0.0008)
+[2023-07-06 12:11:14,764][98243] Fps is (10 sec: 121242.7, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 592216064. Throughput: 0: 28069.0. Samples: 148110848. Policy #0 lag: (min: 63.0, avg: 188.6, max: 319.0)
+[2023-07-06 12:11:14,764][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:11:15,064][98493] Updated weights for policy 0, policy_version 289210 (0.0007)
+[2023-07-06 12:11:15,939][98493] Updated weights for policy 0, policy_version 289252 (0.0008)
+[2023-07-06 12:11:16,567][98493] Updated weights for policy 0, policy_version 289316 (0.0007)
+[2023-07-06 12:11:19,019][98449] Signal inference workers to stop experience collection... (15000 times)
+[2023-07-06 12:11:19,052][98493] InferenceWorker_p0-w0: stopping experience collection (15000 times)
+[2023-07-06 12:11:19,054][98493] Updated weights for policy 0, policy_version 289383 (0.0006)
+[2023-07-06 12:11:19,096][98449] Signal inference workers to resume experience collection... (15000 times)
+[2023-07-06 12:11:19,096][98493] InferenceWorker_p0-w0: resuming experience collection (15000 times)
+[2023-07-06 12:11:19,587][98493] Updated weights for policy 0, policy_version 289448 (0.0007)
+[2023-07-06 12:11:19,764][98243] Fps is (10 sec: 121245.0, 60 sec: 111957.3, 300 sec: 111522.3). Total num frames: 592838656. Throughput: 0: 27955.2. Samples: 148270080. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:19,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:11:20,542][98493] Updated weights for policy 0, policy_version 289504 (0.0007)
+[2023-07-06 12:11:20,820][98493] Updated weights for policy 0, policy_version 289536 (0.0007)
+[2023-07-06 12:11:21,597][98493] Updated weights for policy 0, policy_version 289593 (0.0007)
+[2023-07-06 12:11:23,677][98493] Updated weights for policy 0, policy_version 289633 (0.0007)
+[2023-07-06 12:11:24,158][98493] Updated weights for policy 0, policy_version 289689 (0.0007)
+[2023-07-06 12:11:24,426][98493] Updated weights for policy 0, policy_version 289724 (0.0007)
+[2023-07-06 12:11:24,765][98243] Fps is (10 sec: 114683.9, 60 sec: 110318.2, 300 sec: 111522.2). Total num frames: 593362944. Throughput: 0: 27989.4. Samples: 148360192. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:24,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:11:25,083][98493] Updated weights for policy 0, policy_version 289748 (0.0007)
+[2023-07-06 12:11:25,699][98493] Updated weights for policy 0, policy_version 289793 (0.0007)
+[2023-07-06 12:11:26,142][98493] Updated weights for policy 0, policy_version 289853 (0.0007)
+[2023-07-06 12:11:28,322][98493] Updated weights for policy 0, policy_version 289913 (0.0007)
+[2023-07-06 12:11:28,849][98493] Updated weights for policy 0, policy_version 289979 (0.0008)
+[2023-07-06 12:11:29,764][98243] Fps is (10 sec: 108134.4, 60 sec: 109773.0, 300 sec: 111633.4). Total num frames: 593920000. Throughput: 0: 28034.9. Samples: 148526592. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:29,764][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:11:30,143][98493] Updated weights for policy 0, policy_version 290048 (0.0006)
+[2023-07-06 12:11:30,839][98493] Updated weights for policy 0, policy_version 290106 (0.0007)
+[2023-07-06 12:11:33,312][98493] Updated weights for policy 0, policy_version 290164 (0.0007)
+[2023-07-06 12:11:33,775][98493] Updated weights for policy 0, policy_version 290215 (0.0008)
+[2023-07-06 12:11:34,583][98493] Updated weights for policy 0, policy_version 290262 (0.0007)
+[2023-07-06 12:11:34,764][98243] Fps is (10 sec: 114691.9, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 594509824. Throughput: 0: 27909.7. Samples: 148692480. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:34,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:11:35,292][98493] Updated weights for policy 0, policy_version 290326 (0.0006)
+[2023-07-06 12:11:37,390][98449] Signal inference workers to stop experience collection... (15050 times)
+[2023-07-06 12:11:37,427][98493] InferenceWorker_p0-w0: stopping experience collection (15050 times)
+[2023-07-06 12:11:37,428][98493] Updated weights for policy 0, policy_version 290373 (0.0007)
+[2023-07-06 12:11:37,490][98449] Signal inference workers to resume experience collection... (15050 times)
+[2023-07-06 12:11:37,491][98493] InferenceWorker_p0-w0: resuming experience collection (15050 times)
+[2023-07-06 12:11:37,996][98493] Updated weights for policy 0, policy_version 290437 (0.0007)
+[2023-07-06 12:11:38,452][98493] Updated weights for policy 0, policy_version 290495 (0.0007)
+[2023-07-06 12:11:39,561][98493] Updated weights for policy 0, policy_version 290553 (0.0007)
+[2023-07-06 12:11:39,764][98243] Fps is (10 sec: 114687.2, 60 sec: 111411.9, 300 sec: 111966.6). Total num frames: 595066880. Throughput: 0: 28103.1. Samples: 148780544. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:39,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:11:40,383][98493] Updated weights for policy 0, policy_version 290615 (0.0008)
+[2023-07-06 12:11:42,180][98493] Updated weights for policy 0, policy_version 290656 (0.0006)
+[2023-07-06 12:11:42,585][98493] Updated weights for policy 0, policy_version 290691 (0.0007)
+[2023-07-06 12:11:43,915][98493] Updated weights for policy 0, policy_version 290754 (0.0006)
+[2023-07-06 12:11:44,580][98493] Updated weights for policy 0, policy_version 290818 (0.0007)
+[2023-07-06 12:11:44,764][98243] Fps is (10 sec: 111411.6, 60 sec: 111957.4, 300 sec: 111855.7). Total num frames: 595623936. Throughput: 0: 28035.0. Samples: 148945920. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:44,764][98243] Avg episode reward: [(0, '9.400')]
+[2023-07-06 12:11:46,471][98493] Updated weights for policy 0, policy_version 290882 (0.0007)
+[2023-07-06 12:11:47,334][98493] Updated weights for policy 0, policy_version 290945 (0.0007)
+[2023-07-06 12:11:47,794][98493] Updated weights for policy 0, policy_version 291003 (0.0007)
+[2023-07-06 12:11:48,725][98493] Updated weights for policy 0, policy_version 291047 (0.0006)
+[2023-07-06 12:11:49,263][98493] Updated weights for policy 0, policy_version 291097 (0.0006)
+[2023-07-06 12:11:49,764][98243] Fps is (10 sec: 117965.1, 60 sec: 113595.7, 300 sec: 112188.7). Total num frames: 596246528. Throughput: 0: 27830.1. Samples: 149110784. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:49,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 12:11:51,374][98493] Updated weights for policy 0, policy_version 291163 (0.0008)
+[2023-07-06 12:11:52,103][98493] Updated weights for policy 0, policy_version 291204 (0.0006)
+[2023-07-06 12:11:52,584][98493] Updated weights for policy 0, policy_version 291264 (0.0007)
+[2023-07-06 12:11:53,442][98493] Updated weights for policy 0, policy_version 291304 (0.0007)
+[2023-07-06 12:11:54,123][98493] Updated weights for policy 0, policy_version 291360 (0.0006)
+[2023-07-06 12:11:54,764][98243] Fps is (10 sec: 114685.9, 60 sec: 113595.6, 300 sec: 111855.5). Total num frames: 596770816. Throughput: 0: 27989.4. Samples: 149196800. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:54,765][98243] Avg episode reward: [(0, '9.420')]
+[2023-07-06 12:11:55,925][98449] Signal inference workers to stop experience collection... (15100 times)
+[2023-07-06 12:11:55,953][98493] InferenceWorker_p0-w0: stopping experience collection (15100 times)
+[2023-07-06 12:11:55,959][98493] Updated weights for policy 0, policy_version 291396 (0.0007)
+[2023-07-06 12:11:56,017][98449] Signal inference workers to resume experience collection... (15100 times)
+[2023-07-06 12:11:56,017][98493] InferenceWorker_p0-w0: resuming experience collection (15100 times)
+[2023-07-06 12:11:56,430][98493] Updated weights for policy 0, policy_version 291456 (0.0007)
+[2023-07-06 12:11:57,035][98493] Updated weights for policy 0, policy_version 291511 (0.0008)
+[2023-07-06 12:11:57,975][98493] Updated weights for policy 0, policy_version 291557 (0.0007)
+[2023-07-06 12:11:58,693][98493] Updated weights for policy 0, policy_version 291616 (0.0007)
+[2023-07-06 12:11:59,764][98243] Fps is (10 sec: 104855.7, 60 sec: 113595.9, 300 sec: 111633.3). Total num frames: 597295104. Throughput: 0: 27864.0. Samples: 149364736. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:11:59,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:12:01,097][98493] Updated weights for policy 0, policy_version 291681 (0.0006)
+[2023-07-06 12:12:01,542][98493] Updated weights for policy 0, policy_version 291733 (0.0007)
+[2023-07-06 12:12:02,370][98493] Updated weights for policy 0, policy_version 291780 (0.0008)
+[2023-07-06 12:12:02,810][98493] Updated weights for policy 0, policy_version 291838 (0.0007)
+[2023-07-06 12:12:03,877][98493] Updated weights for policy 0, policy_version 291888 (0.0007)
+[2023-07-06 12:12:04,764][98243] Fps is (10 sec: 104859.0, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 597819392. Throughput: 0: 28057.6. Samples: 149532672. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:12:04,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 12:12:05,747][98493] Updated weights for policy 0, policy_version 291923 (0.0008)
+[2023-07-06 12:12:06,180][98493] Updated weights for policy 0, policy_version 291970 (0.0007)
+[2023-07-06 12:12:06,625][98493] Updated weights for policy 0, policy_version 292027 (0.0007)
+[2023-07-06 12:12:07,401][98493] Updated weights for policy 0, policy_version 292090 (0.0008)
+[2023-07-06 12:12:08,689][98493] Updated weights for policy 0, policy_version 292159 (0.0006)
+[2023-07-06 12:12:09,764][98243] Fps is (10 sec: 104859.5, 60 sec: 111957.8, 300 sec: 111522.3). Total num frames: 598343680. Throughput: 0: 27864.4. Samples: 149614080. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:12:09,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 12:12:10,764][98493] Updated weights for policy 0, policy_version 292213 (0.0007)
+[2023-07-06 12:12:11,309][98493] Updated weights for policy 0, policy_version 292281 (0.0007)
+[2023-07-06 12:12:12,078][98493] Updated weights for policy 0, policy_version 292337 (0.0006)
+[2023-07-06 12:12:13,168][98493] Updated weights for policy 0, policy_version 292374 (0.0007)
+[2023-07-06 12:12:13,296][98449] Signal inference workers to stop experience collection... (15150 times)
+[2023-07-06 12:12:13,323][98493] InferenceWorker_p0-w0: stopping experience collection (15150 times)
+[2023-07-06 12:12:13,380][98449] Signal inference workers to resume experience collection... (15150 times)
+[2023-07-06 12:12:13,381][98493] InferenceWorker_p0-w0: resuming experience collection (15150 times)
+[2023-07-06 12:12:14,764][98243] Fps is (10 sec: 104856.0, 60 sec: 110864.7, 300 sec: 111411.1). Total num frames: 598867968. Throughput: 0: 27864.1. Samples: 149780480. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:12:14,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:12:15,044][98493] Updated weights for policy 0, policy_version 292448 (0.0009)
+[2023-07-06 12:12:15,669][98493] Updated weights for policy 0, policy_version 292512 (0.0007)
+[2023-07-06 12:12:16,695][98493] Updated weights for policy 0, policy_version 292564 (0.0007)
+[2023-07-06 12:12:17,075][98493] Updated weights for policy 0, policy_version 292608 (0.0008)
+[2023-07-06 12:12:18,204][98493] Updated weights for policy 0, policy_version 292666 (0.0007)
+[2023-07-06 12:12:19,613][98493] Updated weights for policy 0, policy_version 292709 (0.0007)
+[2023-07-06 12:12:19,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110865.0, 300 sec: 111633.3). Total num frames: 599490560. Throughput: 0: 27966.6. Samples: 149950976. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:12:19,770][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:12:20,415][98493] Updated weights for policy 0, policy_version 292762 (0.0008)
+[2023-07-06 12:12:21,544][98493] Updated weights for policy 0, policy_version 292836 (0.0008)
+[2023-07-06 12:12:22,608][98493] Updated weights for policy 0, policy_version 292896 (0.0007)
+[2023-07-06 12:12:23,855][98493] Updated weights for policy 0, policy_version 292933 (0.0006)
+[2023-07-06 12:12:24,198][98493] Updated weights for policy 0, policy_version 292976 (0.0007)
+[2023-07-06 12:12:24,765][98243] Fps is (10 sec: 117963.2, 60 sec: 111411.3, 300 sec: 111411.1). Total num frames: 600047616. Throughput: 0: 27818.5. Samples: 150032384. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:12:24,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:12:24,923][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000293008_600080384.pth...
+[2023-07-06 12:12:24,993][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000279872_573177856.pth
+[2023-07-06 12:12:25,240][98493] Updated weights for policy 0, policy_version 293040 (0.0007)
+[2023-07-06 12:12:26,578][98493] Updated weights for policy 0, policy_version 293104 (0.0007)
+[2023-07-06 12:12:27,306][98493] Updated weights for policy 0, policy_version 293154 (0.0007)
+[2023-07-06 12:12:28,523][98493] Updated weights for policy 0, policy_version 293203 (0.0007)
+[2023-07-06 12:12:29,765][98243] Fps is (10 sec: 108131.3, 60 sec: 110864.5, 300 sec: 111188.9). Total num frames: 600571904. Throughput: 0: 27841.2. Samples: 150198784. Policy #0 lag: (min: 10.0, avg: 83.2, max: 266.0)
+[2023-07-06 12:12:29,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 12:12:30,003][98493] Updated weights for policy 0, policy_version 293272 (0.0008)
+[2023-07-06 12:12:31,104][98493] Updated weights for policy 0, policy_version 293328 (0.0007)
+[2023-07-06 12:12:31,835][98493] Updated weights for policy 0, policy_version 293380 (0.0006)
+[2023-07-06 12:12:32,301][98493] Updated weights for policy 0, policy_version 293440 (0.0007)
+[2023-07-06 12:12:33,148][98449] Signal inference workers to stop experience collection... (15200 times)
+[2023-07-06 12:12:33,194][98493] InferenceWorker_p0-w0: stopping experience collection (15200 times)
+[2023-07-06 12:12:33,239][98449] Signal inference workers to resume experience collection... (15200 times)
+[2023-07-06 12:12:33,239][98493] InferenceWorker_p0-w0: resuming experience collection (15200 times)
+[2023-07-06 12:12:33,467][98493] Updated weights for policy 0, policy_version 293498 (0.0007)
+[2023-07-06 12:12:34,764][98243] Fps is (10 sec: 111413.0, 60 sec: 110864.8, 300 sec: 111300.1). Total num frames: 601161728. Throughput: 0: 27943.7. Samples: 150368256. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:12:34,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:12:34,818][98493] Updated weights for policy 0, policy_version 293541 (0.0007)
+[2023-07-06 12:12:36,026][98493] Updated weights for policy 0, policy_version 293602 (0.0007)
+[2023-07-06 12:12:36,956][98493] Updated weights for policy 0, policy_version 293680 (0.0007)
+[2023-07-06 12:12:38,006][98493] Updated weights for policy 0, policy_version 293744 (0.0007)
+[2023-07-06 12:12:39,639][98493] Updated weights for policy 0, policy_version 293800 (0.0008)
+[2023-07-06 12:12:39,764][98243] Fps is (10 sec: 114690.7, 60 sec: 110865.0, 300 sec: 111411.2). Total num frames: 601718784. Throughput: 0: 27852.9. Samples: 150450176. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:12:39,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:12:40,751][98493] Updated weights for policy 0, policy_version 293844 (0.0006)
+[2023-07-06 12:12:41,548][98493] Updated weights for policy 0, policy_version 293920 (0.0007)
+[2023-07-06 12:12:42,540][98493] Updated weights for policy 0, policy_version 293984 (0.0007)
+[2023-07-06 12:12:44,240][98493] Updated weights for policy 0, policy_version 294039 (0.0008)
+[2023-07-06 12:12:44,764][98243] Fps is (10 sec: 111412.8, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 602275840. Throughput: 0: 27818.8. Samples: 150616576. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:12:44,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 12:12:45,478][98493] Updated weights for policy 0, policy_version 294112 (0.0007)
+[2023-07-06 12:12:46,145][98493] Updated weights for policy 0, policy_version 294160 (0.0006)
+[2023-07-06 12:12:47,034][98493] Updated weights for policy 0, policy_version 294209 (0.0007)
+[2023-07-06 12:12:47,486][98493] Updated weights for policy 0, policy_version 294268 (0.0008)
+[2023-07-06 12:12:49,193][98493] Updated weights for policy 0, policy_version 294328 (0.0007)
+[2023-07-06 12:12:49,764][98243] Fps is (10 sec: 108135.2, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 602800128. Throughput: 0: 27818.7. Samples: 150784512. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:12:49,764][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 12:12:50,447][98493] Updated weights for policy 0, policy_version 294391 (0.0006)
+[2023-07-06 12:12:50,854][98493] Updated weights for policy 0, policy_version 294432 (0.0007)
+[2023-07-06 12:12:51,889][98493] Updated weights for policy 0, policy_version 294469 (0.0006)
+[2023-07-06 12:12:52,153][98449] Signal inference workers to stop experience collection... (15250 times)
+[2023-07-06 12:12:52,194][98493] InferenceWorker_p0-w0: stopping experience collection (15250 times)
+[2023-07-06 12:12:52,241][98449] Signal inference workers to resume experience collection... (15250 times)
+[2023-07-06 12:12:52,241][98493] InferenceWorker_p0-w0: resuming experience collection (15250 times)
+[2023-07-06 12:12:52,340][98493] Updated weights for policy 0, policy_version 294525 (0.0007)
+[2023-07-06 12:12:53,885][98493] Updated weights for policy 0, policy_version 294588 (0.0008)
+[2023-07-06 12:12:54,764][98243] Fps is (10 sec: 108134.2, 60 sec: 109773.0, 300 sec: 111522.3). Total num frames: 603357184. Throughput: 0: 27875.6. Samples: 150868480. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:12:54,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:12:54,959][98493] Updated weights for policy 0, policy_version 294640 (0.0008)
+[2023-07-06 12:12:55,419][98493] Updated weights for policy 0, policy_version 294688 (0.0007)
+[2023-07-06 12:12:56,567][98493] Updated weights for policy 0, policy_version 294736 (0.0007)
+[2023-07-06 12:12:56,967][98493] Updated weights for policy 0, policy_version 294780 (0.0007)
+[2023-07-06 12:12:58,579][98493] Updated weights for policy 0, policy_version 294843 (0.0007)
+[2023-07-06 12:12:59,507][98493] Updated weights for policy 0, policy_version 294884 (0.0006)
+[2023-07-06 12:12:59,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111411.6, 300 sec: 111744.5). Total num frames: 603979776. Throughput: 0: 27955.3. Samples: 151038464. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:12:59,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:13:00,068][98493] Updated weights for policy 0, policy_version 294947 (0.0007)
+[2023-07-06 12:13:01,598][98493] Updated weights for policy 0, policy_version 295011 (0.0006)
+[2023-07-06 12:13:02,978][98493] Updated weights for policy 0, policy_version 295072 (0.0007)
+[2023-07-06 12:13:04,304][98493] Updated weights for policy 0, policy_version 295125 (0.0007)
+[2023-07-06 12:13:04,764][98243] Fps is (10 sec: 114688.5, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 604504064. Throughput: 0: 27818.7. Samples: 151202816. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:04,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:13:04,872][98493] Updated weights for policy 0, policy_version 295192 (0.0008)
+[2023-07-06 12:13:06,024][98493] Updated weights for policy 0, policy_version 295241 (0.0007)
+[2023-07-06 12:13:06,463][98493] Updated weights for policy 0, policy_version 295296 (0.0007)
+[2023-07-06 12:13:08,105][98493] Updated weights for policy 0, policy_version 295351 (0.0007)
+[2023-07-06 12:13:09,169][98493] Updated weights for policy 0, policy_version 295397 (0.0006)
+[2023-07-06 12:13:09,705][98493] Updated weights for policy 0, policy_version 295460 (0.0006)
+[2023-07-06 12:13:09,764][98243] Fps is (10 sec: 111409.5, 60 sec: 112503.2, 300 sec: 111744.4). Total num frames: 605093888. Throughput: 0: 27943.9. Samples: 151289856. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:09,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:13:10,567][98449] Signal inference workers to stop experience collection... (15300 times)
+[2023-07-06 12:13:10,595][98493] InferenceWorker_p0-w0: stopping experience collection (15300 times)
+[2023-07-06 12:13:10,656][98449] Signal inference workers to resume experience collection... (15300 times)
+[2023-07-06 12:13:10,657][98493] InferenceWorker_p0-w0: resuming experience collection (15300 times)
+[2023-07-06 12:13:10,734][98493] Updated weights for policy 0, policy_version 295508 (0.0007)
+[2023-07-06 12:13:12,522][98493] Updated weights for policy 0, policy_version 295577 (0.0006)
+[2023-07-06 12:13:13,703][98493] Updated weights for policy 0, policy_version 295632 (0.0008)
+[2023-07-06 12:13:14,269][98493] Updated weights for policy 0, policy_version 295696 (0.0008)
+[2023-07-06 12:13:14,648][98493] Updated weights for policy 0, policy_version 295742 (0.0007)
+[2023-07-06 12:13:14,764][98243] Fps is (10 sec: 117961.3, 60 sec: 113595.5, 300 sec: 111966.6). Total num frames: 605683712. Throughput: 0: 27978.0. Samples: 151457792. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:14,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:13:15,614][98493] Updated weights for policy 0, policy_version 295800 (0.0007)
+[2023-07-06 12:13:17,536][98493] Updated weights for policy 0, policy_version 295856 (0.0007)
+[2023-07-06 12:13:18,306][98493] Updated weights for policy 0, policy_version 295909 (0.0007)
+[2023-07-06 12:13:18,977][98493] Updated weights for policy 0, policy_version 295973 (0.0007)
+[2023-07-06 12:13:19,764][98243] Fps is (10 sec: 111412.8, 60 sec: 111957.3, 300 sec: 111966.6). Total num frames: 606208000. Throughput: 0: 27830.1. Samples: 151620608. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:19,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:13:19,838][98493] Updated weights for policy 0, policy_version 296016 (0.0010)
+[2023-07-06 12:13:22,002][98493] Updated weights for policy 0, policy_version 296090 (0.0007)
+[2023-07-06 12:13:22,978][98493] Updated weights for policy 0, policy_version 296144 (0.0007)
+[2023-07-06 12:13:23,538][98493] Updated weights for policy 0, policy_version 296200 (0.0006)
+[2023-07-06 12:13:24,007][98493] Updated weights for policy 0, policy_version 296256 (0.0007)
+[2023-07-06 12:13:24,764][98243] Fps is (10 sec: 108137.9, 60 sec: 111958.0, 300 sec: 112077.7). Total num frames: 606765056. Throughput: 0: 27943.9. Samples: 151707648. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:24,764][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 12:13:25,010][98493] Updated weights for policy 0, policy_version 296313 (0.0007)
+[2023-07-06 12:13:26,995][98493] Updated weights for policy 0, policy_version 296378 (0.0007)
+[2023-07-06 12:13:28,075][98493] Updated weights for policy 0, policy_version 296432 (0.0006)
+[2023-07-06 12:13:28,527][98449] Signal inference workers to stop experience collection... (15350 times)
+[2023-07-06 12:13:28,569][98493] InferenceWorker_p0-w0: stopping experience collection (15350 times)
+[2023-07-06 12:13:28,611][98449] Signal inference workers to resume experience collection... (15350 times)
+[2023-07-06 12:13:28,611][98493] InferenceWorker_p0-w0: resuming experience collection (15350 times)
+[2023-07-06 12:13:28,687][98493] Updated weights for policy 0, policy_version 296505 (0.0007)
+[2023-07-06 12:13:29,559][98493] Updated weights for policy 0, policy_version 296550 (0.0006)
+[2023-07-06 12:13:29,764][98243] Fps is (10 sec: 117963.8, 60 sec: 113596.1, 300 sec: 112077.7). Total num frames: 607387648. Throughput: 0: 27727.6. Samples: 151864320. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:29,765][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 12:13:31,441][98493] Updated weights for policy 0, policy_version 296599 (0.0007)
+[2023-07-06 12:13:32,617][98493] Updated weights for policy 0, policy_version 296656 (0.0006)
+[2023-07-06 12:13:33,166][98493] Updated weights for policy 0, policy_version 296720 (0.0006)
+[2023-07-06 12:13:34,264][98493] Updated weights for policy 0, policy_version 296769 (0.0006)
+[2023-07-06 12:13:34,764][98243] Fps is (10 sec: 114687.2, 60 sec: 112503.7, 300 sec: 111855.5). Total num frames: 607911936. Throughput: 0: 27704.9. Samples: 152031232. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:34,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 12:13:35,892][98493] Updated weights for policy 0, policy_version 296833 (0.0007)
+[2023-07-06 12:13:36,312][98493] Updated weights for policy 0, policy_version 296892 (0.0007)
+[2023-07-06 12:13:37,554][98493] Updated weights for policy 0, policy_version 296950 (0.0007)
+[2023-07-06 12:13:38,054][98493] Updated weights for policy 0, policy_version 297008 (0.0008)
+[2023-07-06 12:13:39,101][98493] Updated weights for policy 0, policy_version 297058 (0.0007)
+[2023-07-06 12:13:39,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111957.3, 300 sec: 111633.4). Total num frames: 608436224. Throughput: 0: 27818.6. Samples: 152120320. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:39,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:13:40,838][98493] Updated weights for policy 0, policy_version 297123 (0.0007)
+[2023-07-06 12:13:41,889][98493] Updated weights for policy 0, policy_version 297175 (0.0007)
+[2023-07-06 12:13:42,550][98493] Updated weights for policy 0, policy_version 297232 (0.0007)
+[2023-07-06 12:13:43,478][98493] Updated weights for policy 0, policy_version 297283 (0.0007)
+[2023-07-06 12:13:43,958][98493] Updated weights for policy 0, policy_version 297343 (0.0006)
+[2023-07-06 12:13:44,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.1, 300 sec: 111411.2). Total num frames: 608960512. Throughput: 0: 27739.0. Samples: 152286720. Policy #0 lag: (min: 15.0, avg: 139.3, max: 271.0)
+[2023-07-06 12:13:44,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:13:45,464][98493] Updated weights for policy 0, policy_version 297403 (0.0007)
+[2023-07-06 12:13:46,860][98493] Updated weights for policy 0, policy_version 297465 (0.0007)
+[2023-07-06 12:13:47,500][98449] Signal inference workers to stop experience collection... (15400 times)
+[2023-07-06 12:13:47,526][98493] InferenceWorker_p0-w0: stopping experience collection (15400 times)
+[2023-07-06 12:13:47,582][98449] Signal inference workers to resume experience collection... (15400 times)
+[2023-07-06 12:13:47,583][98493] InferenceWorker_p0-w0: resuming experience collection (15400 times)
+[2023-07-06 12:13:47,584][98493] Updated weights for policy 0, policy_version 297520 (0.0007)
+[2023-07-06 12:13:48,529][98493] Updated weights for policy 0, policy_version 297572 (0.0007)
+[2023-07-06 12:13:49,595][98493] Updated weights for policy 0, policy_version 297616 (0.0006)
+[2023-07-06 12:13:49,764][98243] Fps is (10 sec: 111412.2, 60 sec: 112503.5, 300 sec: 111522.5). Total num frames: 609550336. Throughput: 0: 27898.3. Samples: 152458240. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:13:49,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 12:13:51,090][98493] Updated weights for policy 0, policy_version 297666 (0.0007)
+[2023-07-06 12:13:51,575][98493] Updated weights for policy 0, policy_version 297727 (0.0007)
+[2023-07-06 12:13:52,313][98493] Updated weights for policy 0, policy_version 297784 (0.0007)
+[2023-07-06 12:13:53,320][98493] Updated weights for policy 0, policy_version 297831 (0.0006)
+[2023-07-06 12:13:54,436][98493] Updated weights for policy 0, policy_version 297893 (0.0007)
+[2023-07-06 12:13:54,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 610140160. Throughput: 0: 27818.7. Samples: 152541696. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:13:54,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:13:56,139][98493] Updated weights for policy 0, policy_version 297960 (0.0007)
+[2023-07-06 12:13:56,939][98493] Updated weights for policy 0, policy_version 298032 (0.0007)
+[2023-07-06 12:13:58,074][98493] Updated weights for policy 0, policy_version 298096 (0.0008)
+[2023-07-06 12:13:59,076][98493] Updated weights for policy 0, policy_version 298134 (0.0006)
+[2023-07-06 12:13:59,764][98243] Fps is (10 sec: 111410.8, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 610664448. Throughput: 0: 27761.9. Samples: 152707072. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:13:59,764][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:14:00,757][98493] Updated weights for policy 0, policy_version 298192 (0.0007)
+[2023-07-06 12:14:01,171][98493] Updated weights for policy 0, policy_version 298240 (0.0006)
+[2023-07-06 12:14:01,842][98493] Updated weights for policy 0, policy_version 298299 (0.0007)
+[2023-07-06 12:14:02,634][98493] Updated weights for policy 0, policy_version 298341 (0.0008)
+[2023-07-06 12:14:04,033][98493] Updated weights for policy 0, policy_version 298403 (0.0007)
+[2023-07-06 12:14:04,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 611188736. Throughput: 0: 27830.0. Samples: 152872960. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:04,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:14:05,344][98493] Updated weights for policy 0, policy_version 298436 (0.0007)
+[2023-07-06 12:14:05,817][98493] Updated weights for policy 0, policy_version 298496 (0.0007)
+[2023-07-06 12:14:06,776][98493] Updated weights for policy 0, policy_version 298560 (0.0007)
+[2023-07-06 12:14:07,073][98449] Signal inference workers to stop experience collection... (15450 times)
+[2023-07-06 12:14:07,113][98493] InferenceWorker_p0-w0: stopping experience collection (15450 times)
+[2023-07-06 12:14:07,167][98449] Signal inference workers to resume experience collection... (15450 times)
+[2023-07-06 12:14:07,167][98493] InferenceWorker_p0-w0: resuming experience collection (15450 times)
+[2023-07-06 12:14:07,396][98493] Updated weights for policy 0, policy_version 298617 (0.0006)
+[2023-07-06 12:14:08,827][98493] Updated weights for policy 0, policy_version 298680 (0.0006)
+[2023-07-06 12:14:09,764][98243] Fps is (10 sec: 104857.3, 60 sec: 110319.1, 300 sec: 111411.2). Total num frames: 611713024. Throughput: 0: 27716.2. Samples: 152954880. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:09,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:14:10,278][98493] Updated weights for policy 0, policy_version 298736 (0.0007)
+[2023-07-06 12:14:11,457][98493] Updated weights for policy 0, policy_version 298788 (0.0006)
+[2023-07-06 12:14:11,880][98493] Updated weights for policy 0, policy_version 298836 (0.0007)
+[2023-07-06 12:14:13,269][98493] Updated weights for policy 0, policy_version 298881 (0.0006)
+[2023-07-06 12:14:13,753][98493] Updated weights for policy 0, policy_version 298944 (0.0007)
+[2023-07-06 12:14:14,764][98243] Fps is (10 sec: 108134.6, 60 sec: 109773.3, 300 sec: 111300.1). Total num frames: 612270080. Throughput: 0: 27955.3. Samples: 153122304. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:14,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:14:15,027][98493] Updated weights for policy 0, policy_version 299002 (0.0007)
+[2023-07-06 12:14:16,138][98493] Updated weights for policy 0, policy_version 299064 (0.0009)
+[2023-07-06 12:14:16,625][98493] Updated weights for policy 0, policy_version 299121 (0.0008)
+[2023-07-06 12:14:18,174][98493] Updated weights for policy 0, policy_version 299168 (0.0009)
+[2023-07-06 12:14:19,390][98493] Updated weights for policy 0, policy_version 299205 (0.0015)
+[2023-07-06 12:14:19,764][98243] Fps is (10 sec: 114688.6, 60 sec: 110865.1, 300 sec: 111411.3). Total num frames: 612859904. Throughput: 0: 28057.6. Samples: 153293824. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:19,765][98243] Avg episode reward: [(0, '9.450')]
+[2023-07-06 12:14:19,864][98493] Updated weights for policy 0, policy_version 299264 (0.0008)
+[2023-07-06 12:14:20,861][98493] Updated weights for policy 0, policy_version 299327 (0.0008)
+[2023-07-06 12:14:21,374][98493] Updated weights for policy 0, policy_version 299386 (0.0008)
+[2023-07-06 12:14:23,148][98493] Updated weights for policy 0, policy_version 299450 (0.0006)
+[2023-07-06 12:14:24,277][98493] Updated weights for policy 0, policy_version 299491 (0.0008)
+[2023-07-06 12:14:24,764][98243] Fps is (10 sec: 114687.3, 60 sec: 110864.9, 300 sec: 111522.3). Total num frames: 613416960. Throughput: 0: 27932.5. Samples: 153377280. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:24,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:14:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000299520_613416960.pth...
+[2023-07-06 12:14:24,798][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000286512_586776576.pth
+[2023-07-06 12:14:25,392][98493] Updated weights for policy 0, policy_version 299546 (0.0008)
+[2023-07-06 12:14:25,636][98449] Signal inference workers to stop experience collection... (15500 times)
+[2023-07-06 12:14:25,681][98493] InferenceWorker_p0-w0: stopping experience collection (15500 times)
+[2023-07-06 12:14:25,730][98449] Signal inference workers to resume experience collection... (15500 times)
+[2023-07-06 12:14:25,731][98493] InferenceWorker_p0-w0: resuming experience collection (15500 times)
+[2023-07-06 12:14:26,133][98493] Updated weights for policy 0, policy_version 299632 (0.0008)
+[2023-07-06 12:14:27,705][98493] Updated weights for policy 0, policy_version 299682 (0.0007)
+[2023-07-06 12:14:29,106][98493] Updated weights for policy 0, policy_version 299749 (0.0007)
+[2023-07-06 12:14:29,764][98243] Fps is (10 sec: 108134.4, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 613941248. Throughput: 0: 27955.2. Samples: 153544704. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:29,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:14:30,179][98493] Updated weights for policy 0, policy_version 299808 (0.0006)
+[2023-07-06 12:14:30,686][98493] Updated weights for policy 0, policy_version 299860 (0.0007)
+[2023-07-06 12:14:32,311][98493] Updated weights for policy 0, policy_version 299920 (0.0008)
+[2023-07-06 12:14:33,637][98493] Updated weights for policy 0, policy_version 299970 (0.0006)
+[2023-07-06 12:14:34,123][98493] Updated weights for policy 0, policy_version 300032 (0.0007)
+[2023-07-06 12:14:34,764][98243] Fps is (10 sec: 108133.6, 60 sec: 109772.6, 300 sec: 111633.4). Total num frames: 614498304. Throughput: 0: 27773.1. Samples: 153708032. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:34,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 12:14:35,144][98493] Updated weights for policy 0, policy_version 300099 (0.0007)
+[2023-07-06 12:14:35,568][98493] Updated weights for policy 0, policy_version 300156 (0.0008)
+[2023-07-06 12:14:37,187][98493] Updated weights for policy 0, policy_version 300208 (0.0007)
+[2023-07-06 12:14:38,808][98493] Updated weights for policy 0, policy_version 300261 (0.0006)
+[2023-07-06 12:14:39,618][98493] Updated weights for policy 0, policy_version 300326 (0.0007)
+[2023-07-06 12:14:39,764][98243] Fps is (10 sec: 114688.0, 60 sec: 110865.2, 300 sec: 111855.5). Total num frames: 615088128. Throughput: 0: 27727.7. Samples: 153789440. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:39,765][98243] Avg episode reward: [(0, '9.500')]
+[2023-07-06 12:14:40,208][98493] Updated weights for policy 0, policy_version 300388 (0.0008)
+[2023-07-06 12:14:41,777][98493] Updated weights for policy 0, policy_version 300437 (0.0007)
+[2023-07-06 12:14:43,291][98493] Updated weights for policy 0, policy_version 300503 (0.0007)
+[2023-07-06 12:14:44,147][98449] Signal inference workers to stop experience collection... (15550 times)
+[2023-07-06 12:14:44,178][98493] InferenceWorker_p0-w0: stopping experience collection (15550 times)
+[2023-07-06 12:14:44,220][98449] Signal inference workers to resume experience collection... (15550 times)
+[2023-07-06 12:14:44,220][98493] InferenceWorker_p0-w0: resuming experience collection (15550 times)
+[2023-07-06 12:14:44,222][98493] Updated weights for policy 0, policy_version 300576 (0.0007)
+[2023-07-06 12:14:44,737][98493] Updated weights for policy 0, policy_version 300626 (0.0007)
+[2023-07-06 12:14:44,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111957.0, 300 sec: 111855.5). Total num frames: 615677952. Throughput: 0: 27773.0. Samples: 153956864. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:44,765][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 12:14:46,543][98493] Updated weights for policy 0, policy_version 300674 (0.0008)
+[2023-07-06 12:14:47,817][98493] Updated weights for policy 0, policy_version 300737 (0.0007)
+[2023-07-06 12:14:48,214][98493] Updated weights for policy 0, policy_version 300785 (0.0007)
+[2023-07-06 12:14:48,846][98493] Updated weights for policy 0, policy_version 300832 (0.0008)
+[2023-07-06 12:14:49,287][98493] Updated weights for policy 0, policy_version 300880 (0.0006)
+[2023-07-06 12:14:49,764][98243] Fps is (10 sec: 121241.4, 60 sec: 112503.4, 300 sec: 112077.6). Total num frames: 616300544. Throughput: 0: 27773.2. Samples: 154122752. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:49,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:14:51,139][98493] Updated weights for policy 0, policy_version 300930 (0.0006)
+[2023-07-06 12:14:52,504][98493] Updated weights for policy 0, policy_version 300997 (0.0008)
+[2023-07-06 12:14:52,979][98493] Updated weights for policy 0, policy_version 301056 (0.0007)
+[2023-07-06 12:14:53,910][98493] Updated weights for policy 0, policy_version 301122 (0.0008)
+[2023-07-06 12:14:54,344][98493] Updated weights for policy 0, policy_version 301178 (0.0007)
+[2023-07-06 12:14:54,764][98243] Fps is (10 sec: 114689.9, 60 sec: 111411.2, 300 sec: 111855.6). Total num frames: 616824832. Throughput: 0: 27898.3. Samples: 154210304. Policy #0 lag: (min: 20.0, avg: 125.8, max: 276.0)
+[2023-07-06 12:14:54,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 12:14:56,172][98493] Updated weights for policy 0, policy_version 301224 (0.0030)
+[2023-07-06 12:14:57,556][98493] Updated weights for policy 0, policy_version 301296 (0.0007)
+[2023-07-06 12:14:58,398][98493] Updated weights for policy 0, policy_version 301347 (0.0006)
+[2023-07-06 12:14:59,008][98493] Updated weights for policy 0, policy_version 301412 (0.0008)
+[2023-07-06 12:14:59,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 617349120. Throughput: 0: 27807.3. Samples: 154373632. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:14:59,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:15:00,613][98493] Updated weights for policy 0, policy_version 301459 (0.0007)
+[2023-07-06 12:15:02,247][98493] Updated weights for policy 0, policy_version 301528 (0.0007)
+[2023-07-06 12:15:02,361][98449] Signal inference workers to stop experience collection... (15600 times)
+[2023-07-06 12:15:02,399][98493] InferenceWorker_p0-w0: stopping experience collection (15600 times)
+[2023-07-06 12:15:02,454][98449] Signal inference workers to resume experience collection... (15600 times)
+[2023-07-06 12:15:02,454][98493] InferenceWorker_p0-w0: resuming experience collection (15600 times)
+[2023-07-06 12:15:02,606][98493] Updated weights for policy 0, policy_version 301568 (0.0008)
+[2023-07-06 12:15:03,370][98493] Updated weights for policy 0, policy_version 301632 (0.0007)
+[2023-07-06 12:15:03,860][98493] Updated weights for policy 0, policy_version 301687 (0.0008)
+[2023-07-06 12:15:04,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 617873408. Throughput: 0: 27739.0. Samples: 154542080. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:04,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 12:15:05,425][98493] Updated weights for policy 0, policy_version 301730 (0.0006)
+[2023-07-06 12:15:06,878][98493] Updated weights for policy 0, policy_version 301776 (0.0007)
+[2023-07-06 12:15:07,249][98493] Updated weights for policy 0, policy_version 301819 (0.0008)
+[2023-07-06 12:15:07,821][98493] Updated weights for policy 0, policy_version 301872 (0.0007)
+[2023-07-06 12:15:08,345][98493] Updated weights for policy 0, policy_version 301925 (0.0007)
+[2023-07-06 12:15:09,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.3, 300 sec: 111411.2). Total num frames: 618397696. Throughput: 0: 27784.6. Samples: 154627584. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:09,764][98243] Avg episode reward: [(0, '9.350')]
+[2023-07-06 12:15:09,884][98493] Updated weights for policy 0, policy_version 301975 (0.0007)
+[2023-07-06 12:15:11,385][98493] Updated weights for policy 0, policy_version 302019 (0.0007)
+[2023-07-06 12:15:11,847][98493] Updated weights for policy 0, policy_version 302077 (0.0007)
+[2023-07-06 12:15:12,585][98493] Updated weights for policy 0, policy_version 302121 (0.0007)
+[2023-07-06 12:15:13,070][98493] Updated weights for policy 0, policy_version 302176 (0.0007)
+[2023-07-06 12:15:13,350][98493] Updated weights for policy 0, policy_version 302206 (0.0006)
+[2023-07-06 12:15:14,663][98493] Updated weights for policy 0, policy_version 302246 (0.0006)
+[2023-07-06 12:15:14,764][98243] Fps is (10 sec: 114689.0, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 619020288. Throughput: 0: 27761.8. Samples: 154793984. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:14,764][98243] Avg episode reward: [(0, '9.350')]
+[2023-07-06 12:15:16,100][98493] Updated weights for policy 0, policy_version 302306 (0.0008)
+[2023-07-06 12:15:16,860][98493] Updated weights for policy 0, policy_version 302352 (0.0007)
+[2023-07-06 12:15:17,430][98493] Updated weights for policy 0, policy_version 302416 (0.0007)
+[2023-07-06 12:15:17,828][98493] Updated weights for policy 0, policy_version 302462 (0.0006)
+[2023-07-06 12:15:19,450][98493] Updated weights for policy 0, policy_version 302512 (0.0007)
+[2023-07-06 12:15:19,764][98243] Fps is (10 sec: 117964.3, 60 sec: 111957.2, 300 sec: 111300.1). Total num frames: 619577344. Throughput: 0: 28000.8. Samples: 154968064. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:19,765][98243] Avg episode reward: [(0, '9.320')]
+[2023-07-06 12:15:20,211][98449] Signal inference workers to stop experience collection... (15650 times)
+[2023-07-06 12:15:20,235][98493] InferenceWorker_p0-w0: stopping experience collection (15650 times)
+[2023-07-06 12:15:20,305][98449] Signal inference workers to resume experience collection... (15650 times)
+[2023-07-06 12:15:20,305][98493] InferenceWorker_p0-w0: resuming experience collection (15650 times)
+[2023-07-06 12:15:20,436][98493] Updated weights for policy 0, policy_version 302560 (0.0015)
+[2023-07-06 12:15:21,543][98493] Updated weights for policy 0, policy_version 302617 (0.0007)
+[2023-07-06 12:15:22,092][98493] Updated weights for policy 0, policy_version 302680 (0.0007)
+[2023-07-06 12:15:24,007][98493] Updated weights for policy 0, policy_version 302741 (0.0007)
+[2023-07-06 12:15:24,764][98243] Fps is (10 sec: 108132.1, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 620101632. Throughput: 0: 28012.0. Samples: 155049984. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:24,765][98243] Avg episode reward: [(0, '9.370')]
+[2023-07-06 12:15:24,832][98493] Updated weights for policy 0, policy_version 302789 (0.0007)
+[2023-07-06 12:15:26,048][98493] Updated weights for policy 0, policy_version 302854 (0.0007)
+[2023-07-06 12:15:26,619][98493] Updated weights for policy 0, policy_version 302917 (0.0008)
+[2023-07-06 12:15:27,094][98493] Updated weights for policy 0, policy_version 302976 (0.0006)
+[2023-07-06 12:15:29,410][98493] Updated weights for policy 0, policy_version 303040 (0.0008)
+[2023-07-06 12:15:29,765][98243] Fps is (10 sec: 111407.9, 60 sec: 112502.8, 300 sec: 111300.0). Total num frames: 620691456. Throughput: 0: 28114.4. Samples: 155222016. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:29,765][98243] Avg episode reward: [(0, '9.450')]
+[2023-07-06 12:15:29,916][98493] Updated weights for policy 0, policy_version 303099 (0.0007)
+[2023-07-06 12:15:31,031][98493] Updated weights for policy 0, policy_version 303140 (0.0007)
+[2023-07-06 12:15:31,620][98493] Updated weights for policy 0, policy_version 303208 (0.0007)
+[2023-07-06 12:15:33,615][98493] Updated weights for policy 0, policy_version 303258 (0.0007)
+[2023-07-06 12:15:34,097][98493] Updated weights for policy 0, policy_version 303301 (0.0007)
+[2023-07-06 12:15:34,575][98493] Updated weights for policy 0, policy_version 303360 (0.0007)
+[2023-07-06 12:15:34,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113049.8, 300 sec: 111522.4). Total num frames: 621281280. Throughput: 0: 28057.6. Samples: 155385344. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:34,770][98243] Avg episode reward: [(0, '9.450')]
+[2023-07-06 12:15:36,018][98493] Updated weights for policy 0, policy_version 303408 (0.0007)
+[2023-07-06 12:15:36,557][98493] Updated weights for policy 0, policy_version 303463 (0.0007)
+[2023-07-06 12:15:38,237][98449] Signal inference workers to stop experience collection... (15700 times)
+[2023-07-06 12:15:38,267][98493] InferenceWorker_p0-w0: stopping experience collection (15700 times)
+[2023-07-06 12:15:38,357][98449] Signal inference workers to resume experience collection... (15700 times)
+[2023-07-06 12:15:38,357][98493] InferenceWorker_p0-w0: resuming experience collection (15700 times)
+[2023-07-06 12:15:38,648][98493] Updated weights for policy 0, policy_version 303536 (0.0008)
+[2023-07-06 12:15:39,163][98493] Updated weights for policy 0, policy_version 303586 (0.0008)
+[2023-07-06 12:15:39,764][98243] Fps is (10 sec: 111414.6, 60 sec: 111957.3, 300 sec: 111522.3). Total num frames: 621805568. Throughput: 0: 28034.8. Samples: 155471872. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:39,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 12:15:40,459][98493] Updated weights for policy 0, policy_version 303654 (0.0007)
+[2023-07-06 12:15:41,122][98493] Updated weights for policy 0, policy_version 303728 (0.0008)
+[2023-07-06 12:15:43,288][98493] Updated weights for policy 0, policy_version 303780 (0.0007)
+[2023-07-06 12:15:43,820][98493] Updated weights for policy 0, policy_version 303843 (0.0008)
+[2023-07-06 12:15:44,765][98243] Fps is (10 sec: 104853.3, 60 sec: 110864.7, 300 sec: 111522.1). Total num frames: 622329856. Throughput: 0: 28057.4. Samples: 155636224. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:44,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:15:45,235][98493] Updated weights for policy 0, policy_version 303890 (0.0006)
+[2023-07-06 12:15:45,666][98493] Updated weights for policy 0, policy_version 303941 (0.0006)
+[2023-07-06 12:15:46,163][98493] Updated weights for policy 0, policy_version 304000 (0.0008)
+[2023-07-06 12:15:47,894][98493] Updated weights for policy 0, policy_version 304064 (0.0007)
+[2023-07-06 12:15:48,479][98493] Updated weights for policy 0, policy_version 304101 (0.0007)
+[2023-07-06 12:15:49,764][98243] Fps is (10 sec: 104858.4, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 622854144. Throughput: 0: 28125.9. Samples: 155807744. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:49,764][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:15:49,902][98493] Updated weights for policy 0, policy_version 304160 (0.0006)
+[2023-07-06 12:15:50,449][98493] Updated weights for policy 0, policy_version 304224 (0.0008)
+[2023-07-06 12:15:52,441][98493] Updated weights for policy 0, policy_version 304275 (0.0007)
+[2023-07-06 12:15:52,897][98493] Updated weights for policy 0, policy_version 304327 (0.0007)
+[2023-07-06 12:15:53,318][98493] Updated weights for policy 0, policy_version 304378 (0.0007)
+[2023-07-06 12:15:54,698][98449] Signal inference workers to stop experience collection... (15750 times)
+[2023-07-06 12:15:54,729][98493] InferenceWorker_p0-w0: stopping experience collection (15750 times)
+[2023-07-06 12:15:54,730][98493] Updated weights for policy 0, policy_version 304437 (0.0007)
+[2023-07-06 12:15:54,764][98243] Fps is (10 sec: 114693.2, 60 sec: 110865.2, 300 sec: 111855.6). Total num frames: 623476736. Throughput: 0: 28034.9. Samples: 155889152. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:54,764][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:15:54,787][98449] Signal inference workers to resume experience collection... (15750 times)
+[2023-07-06 12:15:54,787][98493] InferenceWorker_p0-w0: resuming experience collection (15750 times)
+[2023-07-06 12:15:57,050][98493] Updated weights for policy 0, policy_version 304515 (0.0007)
+[2023-07-06 12:15:57,602][98493] Updated weights for policy 0, policy_version 304577 (0.0007)
+[2023-07-06 12:15:58,051][98493] Updated weights for policy 0, policy_version 304635 (0.0008)
+[2023-07-06 12:15:59,301][98493] Updated weights for policy 0, policy_version 304688 (0.0007)
+[2023-07-06 12:15:59,722][98493] Updated weights for policy 0, policy_version 304726 (0.0010)
+[2023-07-06 12:15:59,764][98243] Fps is (10 sec: 121241.0, 60 sec: 111957.4, 300 sec: 112077.7). Total num frames: 624066560. Throughput: 0: 28034.8. Samples: 156055552. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:15:59,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 12:16:01,854][98493] Updated weights for policy 0, policy_version 304790 (0.0007)
+[2023-07-06 12:16:02,564][98493] Updated weights for policy 0, policy_version 304864 (0.0008)
+[2023-07-06 12:16:03,647][98493] Updated weights for policy 0, policy_version 304912 (0.0007)
+[2023-07-06 12:16:04,247][98493] Updated weights for policy 0, policy_version 304966 (0.0008)
+[2023-07-06 12:16:04,764][98243] Fps is (10 sec: 121240.9, 60 sec: 113595.8, 300 sec: 112077.8). Total num frames: 624689152. Throughput: 0: 27750.4. Samples: 156216832. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:16:04,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:16:06,351][98493] Updated weights for policy 0, policy_version 305028 (0.0006)
+[2023-07-06 12:16:06,817][98493] Updated weights for policy 0, policy_version 305088 (0.0007)
+[2023-07-06 12:16:07,627][98493] Updated weights for policy 0, policy_version 305136 (0.0007)
+[2023-07-06 12:16:08,622][98493] Updated weights for policy 0, policy_version 305186 (0.0007)
+[2023-07-06 12:16:09,199][98493] Updated weights for policy 0, policy_version 305253 (0.0011)
+[2023-07-06 12:16:09,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.6, 300 sec: 111855.5). Total num frames: 625213440. Throughput: 0: 27887.0. Samples: 156304896. Policy #0 lag: (min: 77.0, avg: 185.5, max: 333.0)
+[2023-07-06 12:16:09,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:16:11,293][98493] Updated weights for policy 0, policy_version 305312 (0.0007)
+[2023-07-06 12:16:11,841][98493] Updated weights for policy 0, policy_version 305345 (0.0007)
+[2023-07-06 12:16:12,335][98493] Updated weights for policy 0, policy_version 305404 (0.0007)
+[2023-07-06 12:16:13,210][98449] Signal inference workers to stop experience collection... (15800 times)
+[2023-07-06 12:16:13,247][98493] InferenceWorker_p0-w0: stopping experience collection (15800 times)
+[2023-07-06 12:16:13,291][98449] Signal inference workers to resume experience collection... (15800 times)
+[2023-07-06 12:16:13,291][98493] InferenceWorker_p0-w0: resuming experience collection (15800 times)
+[2023-07-06 12:16:13,617][98493] Updated weights for policy 0, policy_version 305476 (0.0026)
+[2023-07-06 12:16:14,115][98493] Updated weights for policy 0, policy_version 305536 (0.0007)
+[2023-07-06 12:16:14,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111957.3, 300 sec: 111522.3). Total num frames: 625737728. Throughput: 0: 27762.0. Samples: 156471296. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:14,764][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:16:16,494][98493] Updated weights for policy 0, policy_version 305600 (0.0006)
+[2023-07-06 12:16:17,145][98493] Updated weights for policy 0, policy_version 305664 (0.0007)
+[2023-07-06 12:16:17,974][98493] Updated weights for policy 0, policy_version 305723 (0.0008)
+[2023-07-06 12:16:18,505][98493] Updated weights for policy 0, policy_version 305766 (0.0007)
+[2023-07-06 12:16:19,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.2, 300 sec: 111522.4). Total num frames: 626262016. Throughput: 0: 27864.1. Samples: 156639232. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:19,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 12:16:20,935][98493] Updated weights for policy 0, policy_version 305816 (0.0007)
+[2023-07-06 12:16:21,286][98493] Updated weights for policy 0, policy_version 305854 (0.0007)
+[2023-07-06 12:16:21,822][98493] Updated weights for policy 0, policy_version 305913 (0.0007)
+[2023-07-06 12:16:22,470][98493] Updated weights for policy 0, policy_version 305952 (0.0007)
+[2023-07-06 12:16:22,990][98493] Updated weights for policy 0, policy_version 306004 (0.0007)
+[2023-07-06 12:16:24,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.6, 300 sec: 111411.2). Total num frames: 626786304. Throughput: 0: 27750.4. Samples: 156720640. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:24,764][98243] Avg episode reward: [(0, '9.370')]
+[2023-07-06 12:16:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000306048_626786304.pth...
+[2023-07-06 12:16:24,825][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000293008_600080384.pth
+[2023-07-06 12:16:25,749][98493] Updated weights for policy 0, policy_version 306064 (0.0007)
+[2023-07-06 12:16:26,437][98493] Updated weights for policy 0, policy_version 306136 (0.0007)
+[2023-07-06 12:16:27,121][98493] Updated weights for policy 0, policy_version 306201 (0.0008)
+[2023-07-06 12:16:27,922][98493] Updated weights for policy 0, policy_version 306265 (0.0007)
+[2023-07-06 12:16:28,259][98493] Updated weights for policy 0, policy_version 306304 (0.0006)
+[2023-07-06 12:16:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 110319.5, 300 sec: 111189.0). Total num frames: 627310592. Throughput: 0: 27716.5. Samples: 156883456. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:29,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:16:31,007][98493] Updated weights for policy 0, policy_version 306367 (0.0007)
+[2023-07-06 12:16:31,433][98449] Signal inference workers to stop experience collection... (15850 times)
+[2023-07-06 12:16:31,466][98493] InferenceWorker_p0-w0: stopping experience collection (15850 times)
+[2023-07-06 12:16:31,537][98449] Signal inference workers to resume experience collection... (15850 times)
+[2023-07-06 12:16:31,537][98493] InferenceWorker_p0-w0: resuming experience collection (15850 times)
+[2023-07-06 12:16:31,615][98493] Updated weights for policy 0, policy_version 306419 (0.0008)
+[2023-07-06 12:16:32,191][98493] Updated weights for policy 0, policy_version 306490 (0.0008)
+[2023-07-06 12:16:32,705][98493] Updated weights for policy 0, policy_version 306544 (0.0008)
+[2023-07-06 12:16:34,764][98243] Fps is (10 sec: 104857.4, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 627834880. Throughput: 0: 27693.5. Samples: 157053952. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:34,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:16:35,593][98493] Updated weights for policy 0, policy_version 306592 (0.0006)
+[2023-07-06 12:16:36,060][98493] Updated weights for policy 0, policy_version 306640 (0.0037)
+[2023-07-06 12:16:36,549][98493] Updated weights for policy 0, policy_version 306693 (0.0008)
+[2023-07-06 12:16:36,980][98493] Updated weights for policy 0, policy_version 306750 (0.0007)
+[2023-07-06 12:16:37,660][98493] Updated weights for policy 0, policy_version 306810 (0.0006)
+[2023-07-06 12:16:39,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109226.7, 300 sec: 110966.9). Total num frames: 628359168. Throughput: 0: 27613.8. Samples: 157131776. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:39,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 12:16:40,493][98493] Updated weights for policy 0, policy_version 306869 (0.0007)
+[2023-07-06 12:16:40,915][98493] Updated weights for policy 0, policy_version 306916 (0.0007)
+[2023-07-06 12:16:41,349][98493] Updated weights for policy 0, policy_version 306963 (0.0008)
+[2023-07-06 12:16:41,703][98493] Updated weights for policy 0, policy_version 307002 (0.0007)
+[2023-07-06 12:16:42,160][98493] Updated weights for policy 0, policy_version 307056 (0.0008)
+[2023-07-06 12:16:44,764][98243] Fps is (10 sec: 108132.6, 60 sec: 109773.2, 300 sec: 110744.7). Total num frames: 628916224. Throughput: 0: 27807.2. Samples: 157306880. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:44,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:16:44,962][98493] Updated weights for policy 0, policy_version 307108 (0.0007)
+[2023-07-06 12:16:45,384][98493] Updated weights for policy 0, policy_version 307160 (0.0008)
+[2023-07-06 12:16:45,922][98493] Updated weights for policy 0, policy_version 307221 (0.0006)
+[2023-07-06 12:16:46,646][98449] Signal inference workers to stop experience collection... (15900 times)
+[2023-07-06 12:16:46,689][98493] InferenceWorker_p0-w0: stopping experience collection (15900 times)
+[2023-07-06 12:16:46,697][98493] Updated weights for policy 0, policy_version 307289 (0.0007)
+[2023-07-06 12:16:46,732][98449] Signal inference workers to resume experience collection... (15900 times)
+[2023-07-06 12:16:46,732][98493] InferenceWorker_p0-w0: resuming experience collection (15900 times)
+[2023-07-06 12:16:49,557][98493] Updated weights for policy 0, policy_version 307344 (0.0013)
+[2023-07-06 12:16:49,764][98243] Fps is (10 sec: 111408.6, 60 sec: 110318.4, 300 sec: 110855.8). Total num frames: 629473280. Throughput: 0: 27920.9. Samples: 157473280. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:49,766][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:16:50,040][98493] Updated weights for policy 0, policy_version 307394 (0.0007)
+[2023-07-06 12:16:50,604][98493] Updated weights for policy 0, policy_version 307460 (0.0008)
+[2023-07-06 12:16:51,036][98493] Updated weights for policy 0, policy_version 307511 (0.0008)
+[2023-07-06 12:16:51,460][98493] Updated weights for policy 0, policy_version 307552 (0.0007)
+[2023-07-06 12:16:54,085][98493] Updated weights for policy 0, policy_version 307585 (0.0008)
+[2023-07-06 12:16:54,653][98493] Updated weights for policy 0, policy_version 307649 (0.0007)
+[2023-07-06 12:16:54,764][98243] Fps is (10 sec: 117967.5, 60 sec: 110318.9, 300 sec: 111189.1). Total num frames: 630095872. Throughput: 0: 27727.7. Samples: 157552640. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:54,764][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:16:55,090][98493] Updated weights for policy 0, policy_version 307711 (0.0006)
+[2023-07-06 12:16:55,766][98493] Updated weights for policy 0, policy_version 307772 (0.0035)
+[2023-07-06 12:16:56,190][98493] Updated weights for policy 0, policy_version 307812 (0.0007)
+[2023-07-06 12:16:58,967][98493] Updated weights for policy 0, policy_version 307861 (0.0006)
+[2023-07-06 12:16:59,539][98493] Updated weights for policy 0, policy_version 307922 (0.0008)
+[2023-07-06 12:16:59,764][98243] Fps is (10 sec: 117966.8, 60 sec: 109772.7, 300 sec: 111300.1). Total num frames: 630652928. Throughput: 0: 27852.7. Samples: 157724672. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:16:59,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:16:59,922][98493] Updated weights for policy 0, policy_version 307966 (0.0006)
+[2023-07-06 12:17:00,585][98493] Updated weights for policy 0, policy_version 308016 (0.0007)
+[2023-07-06 12:17:01,122][98493] Updated weights for policy 0, policy_version 308080 (0.0008)
+[2023-07-06 12:17:03,720][98493] Updated weights for policy 0, policy_version 308128 (0.0006)
+[2023-07-06 12:17:04,277][98493] Updated weights for policy 0, policy_version 308192 (0.0007)
+[2023-07-06 12:17:04,323][98449] Signal inference workers to stop experience collection... (15950 times)
+[2023-07-06 12:17:04,361][98493] InferenceWorker_p0-w0: stopping experience collection (15950 times)
+[2023-07-06 12:17:04,410][98449] Signal inference workers to resume experience collection... (15950 times)
+[2023-07-06 12:17:04,410][98493] InferenceWorker_p0-w0: resuming experience collection (15950 times)
+[2023-07-06 12:17:04,764][98243] Fps is (10 sec: 114687.4, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 631242752. Throughput: 0: 27682.2. Samples: 157884928. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:17:04,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:17:05,100][98493] Updated weights for policy 0, policy_version 308250 (0.0008)
+[2023-07-06 12:17:05,528][98493] Updated weights for policy 0, policy_version 308294 (0.0008)
+[2023-07-06 12:17:07,748][98493] Updated weights for policy 0, policy_version 308356 (0.0006)
+[2023-07-06 12:17:08,180][98493] Updated weights for policy 0, policy_version 308412 (0.0007)
+[2023-07-06 12:17:09,072][98493] Updated weights for policy 0, policy_version 308464 (0.0007)
+[2023-07-06 12:17:09,764][98243] Fps is (10 sec: 111411.7, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 631767040. Throughput: 0: 27841.4. Samples: 157973504. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:17:09,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:17:10,021][98493] Updated weights for policy 0, policy_version 308515 (0.0007)
+[2023-07-06 12:17:10,593][98493] Updated weights for policy 0, policy_version 308583 (0.0008)
+[2023-07-06 12:17:12,889][98493] Updated weights for policy 0, policy_version 308643 (0.0007)
+[2023-07-06 12:17:13,643][98493] Updated weights for policy 0, policy_version 308690 (0.0007)
+[2023-07-06 12:17:14,444][98493] Updated weights for policy 0, policy_version 308738 (0.0006)
+[2023-07-06 12:17:14,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110318.9, 300 sec: 111411.2). Total num frames: 632356864. Throughput: 0: 27909.7. Samples: 158139392. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:17:14,764][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 12:17:15,027][98493] Updated weights for policy 0, policy_version 308804 (0.0008)
+[2023-07-06 12:17:15,477][98493] Updated weights for policy 0, policy_version 308864 (0.0008)
+[2023-07-06 12:17:17,872][98493] Updated weights for policy 0, policy_version 308920 (0.0007)
+[2023-07-06 12:17:18,409][98493] Updated weights for policy 0, policy_version 308962 (0.0007)
+[2023-07-06 12:17:19,206][98493] Updated weights for policy 0, policy_version 309024 (0.0007)
+[2023-07-06 12:17:19,729][98493] Updated weights for policy 0, policy_version 309081 (0.0007)
+[2023-07-06 12:17:19,764][98243] Fps is (10 sec: 124517.9, 60 sec: 112503.4, 300 sec: 111744.5). Total num frames: 633012224. Throughput: 0: 27739.0. Samples: 158302208. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:17:19,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 12:17:22,213][98493] Updated weights for policy 0, policy_version 309141 (0.0007)
+[2023-07-06 12:17:22,578][98493] Updated weights for policy 0, policy_version 309180 (0.0007)
+[2023-07-06 12:17:22,749][98449] Signal inference workers to stop experience collection... (16000 times)
+[2023-07-06 12:17:22,761][98493] InferenceWorker_p0-w0: stopping experience collection (16000 times)
+[2023-07-06 12:17:22,840][98449] Signal inference workers to resume experience collection... (16000 times)
+[2023-07-06 12:17:22,841][98493] InferenceWorker_p0-w0: resuming experience collection (16000 times)
+[2023-07-06 12:17:23,171][98493] Updated weights for policy 0, policy_version 309235 (0.0007)
+[2023-07-06 12:17:23,962][98493] Updated weights for policy 0, policy_version 309280 (0.0007)
+[2023-07-06 12:17:24,479][98493] Updated weights for policy 0, policy_version 309329 (0.0008)
+[2023-07-06 12:17:24,765][98243] Fps is (10 sec: 121237.2, 60 sec: 113048.9, 300 sec: 111855.5). Total num frames: 633569280. Throughput: 0: 28011.9. Samples: 158392320. Policy #0 lag: (min: 11.0, avg: 116.2, max: 267.0)
+[2023-07-06 12:17:24,766][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:17:26,652][98493] Updated weights for policy 0, policy_version 309378 (0.0008)
+[2023-07-06 12:17:27,143][98493] Updated weights for policy 0, policy_version 309440 (0.0007)
+[2023-07-06 12:17:27,933][98493] Updated weights for policy 0, policy_version 309497 (0.0008)
+[2023-07-06 12:17:28,724][98493] Updated weights for policy 0, policy_version 309545 (0.0007)
+[2023-07-06 12:17:29,266][98493] Updated weights for policy 0, policy_version 309607 (0.0007)
+[2023-07-06 12:17:29,764][98243] Fps is (10 sec: 111411.7, 60 sec: 113595.7, 300 sec: 111744.5). Total num frames: 634126336. Throughput: 0: 27796.0. Samples: 158557696. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:29,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:17:31,493][98493] Updated weights for policy 0, policy_version 309670 (0.0007)
+[2023-07-06 12:17:31,669][98493] Updated weights for policy 0, policy_version 309693 (0.0006)
+[2023-07-06 12:17:32,616][98493] Updated weights for policy 0, policy_version 309757 (0.0008)
+[2023-07-06 12:17:33,494][98493] Updated weights for policy 0, policy_version 309816 (0.0007)
+[2023-07-06 12:17:33,975][98493] Updated weights for policy 0, policy_version 309872 (0.0006)
+[2023-07-06 12:17:34,764][98243] Fps is (10 sec: 108137.1, 60 sec: 113595.6, 300 sec: 111633.3). Total num frames: 634650624. Throughput: 0: 27796.0. Samples: 158724096. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:34,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:17:36,099][98493] Updated weights for policy 0, policy_version 309924 (0.0006)
+[2023-07-06 12:17:36,998][98493] Updated weights for policy 0, policy_version 309968 (0.0006)
+[2023-07-06 12:17:37,439][98493] Updated weights for policy 0, policy_version 310016 (0.0006)
+[2023-07-06 12:17:38,058][98493] Updated weights for policy 0, policy_version 310080 (0.0007)
+[2023-07-06 12:17:38,873][98493] Updated weights for policy 0, policy_version 310141 (0.0007)
+[2023-07-06 12:17:39,764][98243] Fps is (10 sec: 104856.4, 60 sec: 113595.5, 300 sec: 111522.2). Total num frames: 635174912. Throughput: 0: 27977.8. Samples: 158811648. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:39,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:17:40,633][98449] Signal inference workers to stop experience collection... (16050 times)
+[2023-07-06 12:17:40,673][98493] InferenceWorker_p0-w0: stopping experience collection (16050 times)
+[2023-07-06 12:17:40,741][98449] Signal inference workers to resume experience collection... (16050 times)
+[2023-07-06 12:17:40,742][98493] InferenceWorker_p0-w0: resuming experience collection (16050 times)
+[2023-07-06 12:17:40,818][98493] Updated weights for policy 0, policy_version 310200 (0.0007)
+[2023-07-06 12:17:41,920][98493] Updated weights for policy 0, policy_version 310245 (0.0006)
+[2023-07-06 12:17:42,336][98493] Updated weights for policy 0, policy_version 310292 (0.0007)
+[2023-07-06 12:17:43,153][98493] Updated weights for policy 0, policy_version 310353 (0.0007)
+[2023-07-06 12:17:44,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113049.7, 300 sec: 111522.2). Total num frames: 635699200. Throughput: 0: 27830.0. Samples: 158977024. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:44,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:17:45,251][98493] Updated weights for policy 0, policy_version 310403 (0.0008)
+[2023-07-06 12:17:45,690][98493] Updated weights for policy 0, policy_version 310456 (0.0006)
+[2023-07-06 12:17:46,875][98493] Updated weights for policy 0, policy_version 310520 (0.0007)
+[2023-07-06 12:17:47,353][98493] Updated weights for policy 0, policy_version 310576 (0.0007)
+[2023-07-06 12:17:47,936][98493] Updated weights for policy 0, policy_version 310624 (0.0006)
+[2023-07-06 12:17:49,764][98243] Fps is (10 sec: 104858.9, 60 sec: 112503.9, 300 sec: 111411.2). Total num frames: 636223488. Throughput: 0: 28046.2. Samples: 159147008. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:17:50,405][98493] Updated weights for policy 0, policy_version 310681 (0.0007)
+[2023-07-06 12:17:51,093][98493] Updated weights for policy 0, policy_version 310721 (0.0006)
+[2023-07-06 12:17:51,633][98493] Updated weights for policy 0, policy_version 310785 (0.0007)
+[2023-07-06 12:17:52,064][98493] Updated weights for policy 0, policy_version 310840 (0.0007)
+[2023-07-06 12:17:52,878][98493] Updated weights for policy 0, policy_version 310881 (0.0007)
+[2023-07-06 12:17:54,765][98243] Fps is (10 sec: 108131.1, 60 sec: 111410.4, 300 sec: 111188.9). Total num frames: 636780544. Throughput: 0: 27875.3. Samples: 159227904. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:54,766][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:17:54,768][98493] Updated weights for policy 0, policy_version 310937 (0.0007)
+[2023-07-06 12:17:55,608][98493] Updated weights for policy 0, policy_version 310978 (0.0006)
+[2023-07-06 12:17:56,119][98493] Updated weights for policy 0, policy_version 311040 (0.0006)
+[2023-07-06 12:17:56,549][98493] Updated weights for policy 0, policy_version 311088 (0.0007)
+[2023-07-06 12:17:57,472][98493] Updated weights for policy 0, policy_version 311136 (0.0007)
+[2023-07-06 12:17:59,120][98449] Signal inference workers to stop experience collection... (16100 times)
+[2023-07-06 12:17:59,147][98493] InferenceWorker_p0-w0: stopping experience collection (16100 times)
+[2023-07-06 12:17:59,213][98449] Signal inference workers to resume experience collection... (16100 times)
+[2023-07-06 12:17:59,213][98493] InferenceWorker_p0-w0: resuming experience collection (16100 times)
+[2023-07-06 12:17:59,311][98493] Updated weights for policy 0, policy_version 311192 (0.0008)
+[2023-07-06 12:17:59,764][98243] Fps is (10 sec: 117964.4, 60 sec: 112503.5, 300 sec: 111522.2). Total num frames: 637403136. Throughput: 0: 28034.8. Samples: 159400960. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:17:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:18:00,524][98493] Updated weights for policy 0, policy_version 311255 (0.0007)
+[2023-07-06 12:18:00,940][98493] Updated weights for policy 0, policy_version 311300 (0.0008)
+[2023-07-06 12:18:01,434][98493] Updated weights for policy 0, policy_version 311360 (0.0006)
+[2023-07-06 12:18:02,368][98493] Updated weights for policy 0, policy_version 311423 (0.0010)
+[2023-07-06 12:18:04,261][98493] Updated weights for policy 0, policy_version 311477 (0.0007)
+[2023-07-06 12:18:04,765][98243] Fps is (10 sec: 114687.6, 60 sec: 111410.4, 300 sec: 111300.0). Total num frames: 637927424. Throughput: 0: 28114.3. Samples: 159567360. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:04,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:18:05,382][98493] Updated weights for policy 0, policy_version 311528 (0.0007)
+[2023-07-06 12:18:05,686][98493] Updated weights for policy 0, policy_version 311553 (0.0006)
+[2023-07-06 12:18:06,110][98493] Updated weights for policy 0, policy_version 311610 (0.0006)
+[2023-07-06 12:18:06,771][98493] Updated weights for policy 0, policy_version 311676 (0.0007)
+[2023-07-06 12:18:08,804][98493] Updated weights for policy 0, policy_version 311728 (0.0006)
+[2023-07-06 12:18:09,764][98243] Fps is (10 sec: 108132.4, 60 sec: 111956.9, 300 sec: 111189.1). Total num frames: 638484480. Throughput: 0: 27932.5. Samples: 159649280. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:18:09,899][98493] Updated weights for policy 0, policy_version 311776 (0.0006)
+[2023-07-06 12:18:10,566][98493] Updated weights for policy 0, policy_version 311824 (0.0006)
+[2023-07-06 12:18:11,127][98493] Updated weights for policy 0, policy_version 311888 (0.0007)
+[2023-07-06 12:18:13,091][98493] Updated weights for policy 0, policy_version 311944 (0.0006)
+[2023-07-06 12:18:14,270][98493] Updated weights for policy 0, policy_version 312002 (0.0007)
+[2023-07-06 12:18:14,747][98493] Updated weights for policy 0, policy_version 312064 (0.0006)
+[2023-07-06 12:18:14,764][98243] Fps is (10 sec: 117970.4, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 639107072. Throughput: 0: 28034.9. Samples: 159819264. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:14,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:18:15,781][98493] Updated weights for policy 0, policy_version 312123 (0.0006)
+[2023-07-06 12:18:16,319][98493] Updated weights for policy 0, policy_version 312168 (0.0006)
+[2023-07-06 12:18:17,465][98449] Signal inference workers to stop experience collection... (16150 times)
+[2023-07-06 12:18:17,501][98493] InferenceWorker_p0-w0: stopping experience collection (16150 times)
+[2023-07-06 12:18:17,560][98449] Signal inference workers to resume experience collection... (16150 times)
+[2023-07-06 12:18:17,561][98493] InferenceWorker_p0-w0: resuming experience collection (16150 times)
+[2023-07-06 12:18:17,709][98493] Updated weights for policy 0, policy_version 312224 (0.0007)
+[2023-07-06 12:18:19,275][98493] Updated weights for policy 0, policy_version 312295 (0.0007)
+[2023-07-06 12:18:19,764][98243] Fps is (10 sec: 114690.6, 60 sec: 110319.0, 300 sec: 111411.2). Total num frames: 639631360. Throughput: 0: 28080.4. Samples: 159987712. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:19,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:18:20,320][98493] Updated weights for policy 0, policy_version 312352 (0.0008)
+[2023-07-06 12:18:20,971][98493] Updated weights for policy 0, policy_version 312403 (0.0007)
+[2023-07-06 12:18:21,294][98493] Updated weights for policy 0, policy_version 312447 (0.0006)
+[2023-07-06 12:18:22,264][98493] Updated weights for policy 0, policy_version 312505 (0.0007)
+[2023-07-06 12:18:23,887][98493] Updated weights for policy 0, policy_version 312546 (0.0007)
+[2023-07-06 12:18:24,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109773.4, 300 sec: 111078.0). Total num frames: 640155648. Throughput: 0: 27943.9. Samples: 160069120. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:24,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:18:24,785][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000312576_640155648.pth...
+[2023-07-06 12:18:24,827][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000299520_613416960.pth
+[2023-07-06 12:18:25,220][98493] Updated weights for policy 0, policy_version 312601 (0.0008)
+[2023-07-06 12:18:25,732][98493] Updated weights for policy 0, policy_version 312656 (0.0008)
+[2023-07-06 12:18:26,414][98493] Updated weights for policy 0, policy_version 312706 (0.0007)
+[2023-07-06 12:18:26,876][98493] Updated weights for policy 0, policy_version 312768 (0.0007)
+[2023-07-06 12:18:28,666][98493] Updated weights for policy 0, policy_version 312822 (0.0007)
+[2023-07-06 12:18:29,764][98243] Fps is (10 sec: 104856.2, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 640679936. Throughput: 0: 28046.2. Samples: 160239104. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:29,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:18:30,096][98493] Updated weights for policy 0, policy_version 312872 (0.0007)
+[2023-07-06 12:18:30,541][98493] Updated weights for policy 0, policy_version 312915 (0.0007)
+[2023-07-06 12:18:31,237][98493] Updated weights for policy 0, policy_version 312976 (0.0007)
+[2023-07-06 12:18:31,637][98493] Updated weights for policy 0, policy_version 313024 (0.0007)
+[2023-07-06 12:18:33,099][98493] Updated weights for policy 0, policy_version 313076 (0.0007)
+[2023-07-06 12:18:34,764][98243] Fps is (10 sec: 108135.0, 60 sec: 109773.1, 300 sec: 111189.1). Total num frames: 641236992. Throughput: 0: 28057.6. Samples: 160409600. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:34,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:18:34,879][98493] Updated weights for policy 0, policy_version 313125 (0.0007)
+[2023-07-06 12:18:35,410][98449] Signal inference workers to stop experience collection... (16200 times)
+[2023-07-06 12:18:35,442][98493] InferenceWorker_p0-w0: stopping experience collection (16200 times)
+[2023-07-06 12:18:35,495][98449] Signal inference workers to resume experience collection... (16200 times)
+[2023-07-06 12:18:35,495][98493] InferenceWorker_p0-w0: resuming experience collection (16200 times)
+[2023-07-06 12:18:35,496][98493] Updated weights for policy 0, policy_version 313200 (0.0007)
+[2023-07-06 12:18:36,120][98493] Updated weights for policy 0, policy_version 313248 (0.0007)
+[2023-07-06 12:18:37,499][98493] Updated weights for policy 0, policy_version 313296 (0.0007)
+[2023-07-06 12:18:37,855][98493] Updated weights for policy 0, policy_version 313336 (0.0007)
+[2023-07-06 12:18:39,420][98493] Updated weights for policy 0, policy_version 313376 (0.0006)
+[2023-07-06 12:18:39,764][98243] Fps is (10 sec: 117966.7, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 641859584. Throughput: 0: 28012.4. Samples: 160488448. Policy #0 lag: (min: 15.0, avg: 119.7, max: 271.0)
+[2023-07-06 12:18:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:18:39,974][98493] Updated weights for policy 0, policy_version 313440 (0.0007)
+[2023-07-06 12:18:40,269][98493] Updated weights for policy 0, policy_version 313472 (0.0006)
+[2023-07-06 12:18:41,123][98493] Updated weights for policy 0, policy_version 313526 (0.0007)
+[2023-07-06 12:18:42,284][98493] Updated weights for policy 0, policy_version 313576 (0.0007)
+[2023-07-06 12:18:43,901][98493] Updated weights for policy 0, policy_version 313622 (0.0007)
+[2023-07-06 12:18:44,392][98493] Updated weights for policy 0, policy_version 313666 (0.0006)
+[2023-07-06 12:18:44,764][98243] Fps is (10 sec: 124517.6, 60 sec: 113049.8, 300 sec: 111633.3). Total num frames: 642482176. Throughput: 0: 27978.0. Samples: 160659968. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:18:44,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:18:44,871][98493] Updated weights for policy 0, policy_version 313728 (0.0006)
+[2023-07-06 12:18:45,917][98493] Updated weights for policy 0, policy_version 313792 (0.0008)
+[2023-07-06 12:18:47,423][98493] Updated weights for policy 0, policy_version 313853 (0.0008)
+[2023-07-06 12:18:48,951][98493] Updated weights for policy 0, policy_version 313919 (0.0007)
+[2023-07-06 12:18:49,492][98493] Updated weights for policy 0, policy_version 313979 (0.0007)
+[2023-07-06 12:18:49,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 643039232. Throughput: 0: 27853.1. Samples: 160820736. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:18:49,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:18:50,588][98493] Updated weights for policy 0, policy_version 314033 (0.0007)
+[2023-07-06 12:18:51,923][98493] Updated weights for policy 0, policy_version 314080 (0.0007)
+[2023-07-06 12:18:53,263][98493] Updated weights for policy 0, policy_version 314114 (0.0007)
+[2023-07-06 12:18:53,762][98493] Updated weights for policy 0, policy_version 314176 (0.0013)
+[2023-07-06 12:18:53,959][98449] Signal inference workers to stop experience collection... (16250 times)
+[2023-07-06 12:18:54,006][98493] InferenceWorker_p0-w0: stopping experience collection (16250 times)
+[2023-07-06 12:18:54,046][98449] Signal inference workers to resume experience collection... (16250 times)
+[2023-07-06 12:18:54,047][98493] InferenceWorker_p0-w0: resuming experience collection (16250 times)
+[2023-07-06 12:18:54,258][98493] Updated weights for policy 0, policy_version 314230 (0.0007)
+[2023-07-06 12:18:54,765][98243] Fps is (10 sec: 108130.9, 60 sec: 113049.7, 300 sec: 111522.2). Total num frames: 643563520. Throughput: 0: 27966.5. Samples: 160907776. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:18:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:18:55,136][98493] Updated weights for policy 0, policy_version 314272 (0.0006)
+[2023-07-06 12:18:56,387][98493] Updated weights for policy 0, policy_version 314307 (0.0006)
+[2023-07-06 12:18:56,823][98493] Updated weights for policy 0, policy_version 314360 (0.0006)
+[2023-07-06 12:18:58,368][98493] Updated weights for policy 0, policy_version 314421 (0.0007)
+[2023-07-06 12:18:58,852][98493] Updated weights for policy 0, policy_version 314480 (0.0007)
+[2023-07-06 12:18:59,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 644087808. Throughput: 0: 27864.2. Samples: 161073152. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:18:59,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:19:00,037][98493] Updated weights for policy 0, policy_version 314533 (0.0007)
+[2023-07-06 12:19:01,423][98493] Updated weights for policy 0, policy_version 314597 (0.0007)
+[2023-07-06 12:19:03,033][98493] Updated weights for policy 0, policy_version 314657 (0.0007)
+[2023-07-06 12:19:03,422][98493] Updated weights for policy 0, policy_version 314704 (0.0007)
+[2023-07-06 12:19:03,832][98493] Updated weights for policy 0, policy_version 314752 (0.0007)
+[2023-07-06 12:19:04,764][98243] Fps is (10 sec: 108137.2, 60 sec: 111958.0, 300 sec: 111633.3). Total num frames: 644644864. Throughput: 0: 27818.6. Samples: 161239552. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:04,769][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:19:04,985][98493] Updated weights for policy 0, policy_version 314788 (0.0007)
+[2023-07-06 12:19:05,915][98493] Updated weights for policy 0, policy_version 314853 (0.0007)
+[2023-07-06 12:19:07,738][98493] Updated weights for policy 0, policy_version 314928 (0.0007)
+[2023-07-06 12:19:08,362][98493] Updated weights for policy 0, policy_version 314999 (0.0009)
+[2023-07-06 12:19:09,605][98493] Updated weights for policy 0, policy_version 315047 (0.0006)
+[2023-07-06 12:19:09,764][98243] Fps is (10 sec: 114686.9, 60 sec: 112503.8, 300 sec: 111744.4). Total num frames: 645234688. Throughput: 0: 27886.9. Samples: 161324032. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:09,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:19:10,611][98493] Updated weights for policy 0, policy_version 315104 (0.0006)
+[2023-07-06 12:19:12,071][98493] Updated weights for policy 0, policy_version 315152 (0.0007)
+[2023-07-06 12:19:12,485][98449] Signal inference workers to stop experience collection... (16300 times)
+[2023-07-06 12:19:12,515][98449] Signal inference workers to resume experience collection... (16300 times)
+[2023-07-06 12:19:12,527][98493] InferenceWorker_p0-w0: stopping experience collection (16300 times)
+[2023-07-06 12:19:12,545][98493] InferenceWorker_p0-w0: resuming experience collection (16300 times)
+[2023-07-06 12:19:12,766][98493] Updated weights for policy 0, policy_version 315226 (0.0009)
+[2023-07-06 12:19:14,082][98493] Updated weights for policy 0, policy_version 315282 (0.0007)
+[2023-07-06 12:19:14,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111411.1, 300 sec: 111633.3). Total num frames: 645791744. Throughput: 0: 27773.2. Samples: 161488896. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:14,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:19:15,067][98493] Updated weights for policy 0, policy_version 315329 (0.0007)
+[2023-07-06 12:19:15,522][98493] Updated weights for policy 0, policy_version 315385 (0.0007)
+[2023-07-06 12:19:17,284][98493] Updated weights for policy 0, policy_version 315440 (0.0007)
+[2023-07-06 12:19:17,709][98493] Updated weights for policy 0, policy_version 315488 (0.0007)
+[2023-07-06 12:19:18,537][98493] Updated weights for policy 0, policy_version 315544 (0.0007)
+[2023-07-06 12:19:18,860][98493] Updated weights for policy 0, policy_version 315584 (0.0006)
+[2023-07-06 12:19:19,764][98243] Fps is (10 sec: 108134.7, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 646316032. Throughput: 0: 27716.2. Samples: 161656832. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:19,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:19:20,266][98493] Updated weights for policy 0, policy_version 315646 (0.0008)
+[2023-07-06 12:19:21,947][98493] Updated weights for policy 0, policy_version 315696 (0.0008)
+[2023-07-06 12:19:22,587][98493] Updated weights for policy 0, policy_version 315746 (0.0006)
+[2023-07-06 12:19:23,069][98493] Updated weights for policy 0, policy_version 315796 (0.0007)
+[2023-07-06 12:19:24,489][98493] Updated weights for policy 0, policy_version 315863 (0.0007)
+[2023-07-06 12:19:24,764][98243] Fps is (10 sec: 114688.1, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 646938624. Throughput: 0: 27795.9. Samples: 161739264. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:24,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:19:26,317][98493] Updated weights for policy 0, policy_version 315920 (0.0007)
+[2023-07-06 12:19:27,179][98493] Updated weights for policy 0, policy_version 315969 (0.0007)
+[2023-07-06 12:19:27,755][98493] Updated weights for policy 0, policy_version 316037 (0.0008)
+[2023-07-06 12:19:29,179][98493] Updated weights for policy 0, policy_version 316100 (0.0007)
+[2023-07-06 12:19:29,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113596.0, 300 sec: 111855.6). Total num frames: 647495680. Throughput: 0: 27636.6. Samples: 161903616. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:19:31,002][98493] Updated weights for policy 0, policy_version 316161 (0.0007)
+[2023-07-06 12:19:31,295][98449] Signal inference workers to stop experience collection... (16350 times)
+[2023-07-06 12:19:31,326][98493] InferenceWorker_p0-w0: stopping experience collection (16350 times)
+[2023-07-06 12:19:31,415][98449] Signal inference workers to resume experience collection... (16350 times)
+[2023-07-06 12:19:31,416][98493] InferenceWorker_p0-w0: resuming experience collection (16350 times)
+[2023-07-06 12:19:32,002][98493] Updated weights for policy 0, policy_version 316225 (0.0006)
+[2023-07-06 12:19:32,679][98493] Updated weights for policy 0, policy_version 316290 (0.0007)
+[2023-07-06 12:19:33,099][98493] Updated weights for policy 0, policy_version 316347 (0.0007)
+[2023-07-06 12:19:34,060][98493] Updated weights for policy 0, policy_version 316373 (0.0008)
+[2023-07-06 12:19:34,764][98243] Fps is (10 sec: 108134.4, 60 sec: 113049.5, 300 sec: 111633.3). Total num frames: 648019968. Throughput: 0: 27795.9. Samples: 162071552. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:19:35,800][98493] Updated weights for policy 0, policy_version 316432 (0.0007)
+[2023-07-06 12:19:36,692][98493] Updated weights for policy 0, policy_version 316482 (0.0007)
+[2023-07-06 12:19:37,126][98493] Updated weights for policy 0, policy_version 316534 (0.0009)
+[2023-07-06 12:19:37,589][98493] Updated weights for policy 0, policy_version 316580 (0.0007)
+[2023-07-06 12:19:38,823][98493] Updated weights for policy 0, policy_version 316640 (0.0007)
+[2023-07-06 12:19:39,106][98493] Updated weights for policy 0, policy_version 316672 (0.0007)
+[2023-07-06 12:19:39,764][98243] Fps is (10 sec: 104856.5, 60 sec: 111411.0, 300 sec: 111411.2). Total num frames: 648544256. Throughput: 0: 27659.5. Samples: 162152448. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:19:40,666][98493] Updated weights for policy 0, policy_version 316720 (0.0007)
+[2023-07-06 12:19:41,646][98493] Updated weights for policy 0, policy_version 316772 (0.0006)
+[2023-07-06 12:19:42,281][98493] Updated weights for policy 0, policy_version 316848 (0.0008)
+[2023-07-06 12:19:43,449][98493] Updated weights for policy 0, policy_version 316903 (0.0008)
+[2023-07-06 12:19:44,764][98243] Fps is (10 sec: 104857.8, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 649068544. Throughput: 0: 27739.0. Samples: 162321408. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:19:45,262][98493] Updated weights for policy 0, policy_version 316949 (0.0006)
+[2023-07-06 12:19:46,143][98493] Updated weights for policy 0, policy_version 316999 (0.0006)
+[2023-07-06 12:19:46,734][98493] Updated weights for policy 0, policy_version 317063 (0.0009)
+[2023-07-06 12:19:47,175][98493] Updated weights for policy 0, policy_version 317120 (0.0007)
+[2023-07-06 12:19:48,142][98493] Updated weights for policy 0, policy_version 317179 (0.0007)
+[2023-07-06 12:19:49,765][98243] Fps is (10 sec: 104855.6, 60 sec: 109226.1, 300 sec: 111077.9). Total num frames: 649592832. Throughput: 0: 27920.9. Samples: 162496000. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:49,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:19:49,958][98449] Signal inference workers to stop experience collection... (16400 times)
+[2023-07-06 12:19:49,987][98493] InferenceWorker_p0-w0: stopping experience collection (16400 times)
+[2023-07-06 12:19:50,050][98449] Signal inference workers to resume experience collection... (16400 times)
+[2023-07-06 12:19:50,050][98493] InferenceWorker_p0-w0: resuming experience collection (16400 times)
+[2023-07-06 12:19:50,143][98493] Updated weights for policy 0, policy_version 317225 (0.0007)
+[2023-07-06 12:19:50,944][98493] Updated weights for policy 0, policy_version 317296 (0.0008)
+[2023-07-06 12:19:51,700][98493] Updated weights for policy 0, policy_version 317350 (0.0007)
+[2023-07-06 12:19:52,574][98493] Updated weights for policy 0, policy_version 317408 (0.0008)
+[2023-07-06 12:19:54,666][98493] Updated weights for policy 0, policy_version 317444 (0.0006)
+[2023-07-06 12:19:54,764][98243] Fps is (10 sec: 108134.3, 60 sec: 109773.4, 300 sec: 111189.1). Total num frames: 650149888. Throughput: 0: 27773.2. Samples: 162573824. Policy #0 lag: (min: 0.0, avg: 123.1, max: 256.0)
+[2023-07-06 12:19:54,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:19:55,233][98493] Updated weights for policy 0, policy_version 317507 (0.0007)
+[2023-07-06 12:19:55,710][98493] Updated weights for policy 0, policy_version 317568 (0.0008)
+[2023-07-06 12:19:56,460][98493] Updated weights for policy 0, policy_version 317632 (0.0007)
+[2023-07-06 12:19:57,494][98493] Updated weights for policy 0, policy_version 317691 (0.0007)
+[2023-07-06 12:19:59,764][98243] Fps is (10 sec: 108137.9, 60 sec: 109772.7, 300 sec: 111189.1). Total num frames: 650674176. Throughput: 0: 27932.5. Samples: 162745856. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:19:59,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:19:59,872][98493] Updated weights for policy 0, policy_version 317733 (0.0006)
+[2023-07-06 12:20:00,458][98493] Updated weights for policy 0, policy_version 317808 (0.0008)
+[2023-07-06 12:20:00,974][98493] Updated weights for policy 0, policy_version 317863 (0.0006)
+[2023-07-06 12:20:02,000][98493] Updated weights for policy 0, policy_version 317912 (0.0006)
+[2023-07-06 12:20:04,251][98493] Updated weights for policy 0, policy_version 317955 (0.0011)
+[2023-07-06 12:20:04,739][98493] Updated weights for policy 0, policy_version 318013 (0.0045)
+[2023-07-06 12:20:04,764][98243] Fps is (10 sec: 114685.9, 60 sec: 110864.9, 300 sec: 111522.2). Total num frames: 651296768. Throughput: 0: 27921.0. Samples: 162913280. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:04,766][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:20:05,224][98493] Updated weights for policy 0, policy_version 318064 (0.0007)
+[2023-07-06 12:20:05,718][98493] Updated weights for policy 0, policy_version 318116 (0.0008)
+[2023-07-06 12:20:06,467][98449] Signal inference workers to stop experience collection... (16450 times)
+[2023-07-06 12:20:06,510][98493] InferenceWorker_p0-w0: stopping experience collection (16450 times)
+[2023-07-06 12:20:06,544][98449] Signal inference workers to resume experience collection... (16450 times)
+[2023-07-06 12:20:06,544][98493] InferenceWorker_p0-w0: resuming experience collection (16450 times)
+[2023-07-06 12:20:06,566][98493] Updated weights for policy 0, policy_version 318176 (0.0028)
+[2023-07-06 12:20:09,248][98493] Updated weights for policy 0, policy_version 318233 (0.0007)
+[2023-07-06 12:20:09,700][98493] Updated weights for policy 0, policy_version 318279 (0.0008)
+[2023-07-06 12:20:09,764][98243] Fps is (10 sec: 117964.5, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 651853824. Throughput: 0: 27898.3. Samples: 162994688. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:20:10,146][98493] Updated weights for policy 0, policy_version 318321 (0.0008)
+[2023-07-06 12:20:10,697][98493] Updated weights for policy 0, policy_version 318394 (0.0007)
+[2023-07-06 12:20:11,528][98493] Updated weights for policy 0, policy_version 318456 (0.0007)
+[2023-07-06 12:20:13,961][98493] Updated weights for policy 0, policy_version 318505 (0.0006)
+[2023-07-06 12:20:14,435][98493] Updated weights for policy 0, policy_version 318553 (0.0008)
+[2023-07-06 12:20:14,764][98243] Fps is (10 sec: 114690.9, 60 sec: 110865.2, 300 sec: 111411.2). Total num frames: 652443648. Throughput: 0: 28080.4. Samples: 163167232. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:14,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:20:14,911][98493] Updated weights for policy 0, policy_version 318608 (0.0007)
+[2023-07-06 12:20:15,775][98493] Updated weights for policy 0, policy_version 318657 (0.0008)
+[2023-07-06 12:20:16,228][98493] Updated weights for policy 0, policy_version 318715 (0.0007)
+[2023-07-06 12:20:18,688][98493] Updated weights for policy 0, policy_version 318768 (0.0008)
+[2023-07-06 12:20:19,164][98493] Updated weights for policy 0, policy_version 318816 (0.0007)
+[2023-07-06 12:20:19,764][98243] Fps is (10 sec: 121241.6, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 653066240. Throughput: 0: 27932.4. Samples: 163328512. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:20:19,774][98493] Updated weights for policy 0, policy_version 318884 (0.0008)
+[2023-07-06 12:20:20,524][98493] Updated weights for policy 0, policy_version 318944 (0.0007)
+[2023-07-06 12:20:23,221][98493] Updated weights for policy 0, policy_version 318978 (0.0007)
+[2023-07-06 12:20:23,684][98493] Updated weights for policy 0, policy_version 319032 (0.0007)
+[2023-07-06 12:20:24,162][98493] Updated weights for policy 0, policy_version 319088 (0.0009)
+[2023-07-06 12:20:24,224][98449] Signal inference workers to stop experience collection... (16500 times)
+[2023-07-06 12:20:24,242][98493] InferenceWorker_p0-w0: stopping experience collection (16500 times)
+[2023-07-06 12:20:24,305][98449] Signal inference workers to resume experience collection... (16500 times)
+[2023-07-06 12:20:24,305][98493] InferenceWorker_p0-w0: resuming experience collection (16500 times)
+[2023-07-06 12:20:24,712][98493] Updated weights for policy 0, policy_version 319146 (0.0009)
+[2023-07-06 12:20:24,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111411.3, 300 sec: 111633.5). Total num frames: 653623296. Throughput: 0: 28126.0. Samples: 163418112. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:24,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 12:20:24,860][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000319168_653656064.pth...
+[2023-07-06 12:20:24,893][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000306048_626786304.pth
+[2023-07-06 12:20:25,389][98493] Updated weights for policy 0, policy_version 319203 (0.0007)
+[2023-07-06 12:20:28,241][98493] Updated weights for policy 0, policy_version 319256 (0.0006)
+[2023-07-06 12:20:28,897][98493] Updated weights for policy 0, policy_version 319335 (0.0008)
+[2023-07-06 12:20:29,309][98493] Updated weights for policy 0, policy_version 319380 (0.0009)
+[2023-07-06 12:20:29,764][98243] Fps is (10 sec: 111410.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 654180352. Throughput: 0: 28023.4. Samples: 163582464. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:29,770][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:20:29,782][98493] Updated weights for policy 0, policy_version 319427 (0.0026)
+[2023-07-06 12:20:32,925][98493] Updated weights for policy 0, policy_version 319493 (0.0007)
+[2023-07-06 12:20:33,427][98493] Updated weights for policy 0, policy_version 319552 (0.0007)
+[2023-07-06 12:20:33,985][98493] Updated weights for policy 0, policy_version 319616 (0.0007)
+[2023-07-06 12:20:34,550][98493] Updated weights for policy 0, policy_version 319680 (0.0007)
+[2023-07-06 12:20:34,764][98243] Fps is (10 sec: 111409.1, 60 sec: 111957.1, 300 sec: 111633.3). Total num frames: 654737408. Throughput: 0: 27716.4. Samples: 163743232. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:34,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:20:35,062][98493] Updated weights for policy 0, policy_version 319736 (0.0007)
+[2023-07-06 12:20:37,720][98493] Updated weights for policy 0, policy_version 319792 (0.0007)
+[2023-07-06 12:20:38,166][98493] Updated weights for policy 0, policy_version 319840 (0.0006)
+[2023-07-06 12:20:38,737][98493] Updated weights for policy 0, policy_version 319904 (0.0007)
+[2023-07-06 12:20:39,690][98449] Signal inference workers to stop experience collection... (16550 times)
+[2023-07-06 12:20:39,718][98493] Updated weights for policy 0, policy_version 319971 (0.0008)
+[2023-07-06 12:20:39,727][98493] InferenceWorker_p0-w0: stopping experience collection (16550 times)
+[2023-07-06 12:20:39,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112503.7, 300 sec: 111744.6). Total num frames: 655294464. Throughput: 0: 27978.0. Samples: 163832832. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:39,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:20:39,798][98449] Signal inference workers to resume experience collection... (16550 times)
+[2023-07-06 12:20:39,799][98493] InferenceWorker_p0-w0: resuming experience collection (16550 times)
+[2023-07-06 12:20:41,906][98493] Updated weights for policy 0, policy_version 320008 (0.0007)
+[2023-07-06 12:20:42,340][98493] Updated weights for policy 0, policy_version 320049 (0.0007)
+[2023-07-06 12:20:42,796][98493] Updated weights for policy 0, policy_version 320102 (0.0008)
+[2023-07-06 12:20:43,260][98493] Updated weights for policy 0, policy_version 320160 (0.0007)
+[2023-07-06 12:20:44,322][98493] Updated weights for policy 0, policy_version 320217 (0.0007)
+[2023-07-06 12:20:44,764][98243] Fps is (10 sec: 114689.3, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 655884288. Throughput: 0: 27795.9. Samples: 163996672. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:20:46,386][98493] Updated weights for policy 0, policy_version 320272 (0.0007)
+[2023-07-06 12:20:47,241][98493] Updated weights for policy 0, policy_version 320345 (0.0008)
+[2023-07-06 12:20:47,673][98493] Updated weights for policy 0, policy_version 320387 (0.0007)
+[2023-07-06 12:20:49,073][98493] Updated weights for policy 0, policy_version 320451 (0.0007)
+[2023-07-06 12:20:49,503][98493] Updated weights for policy 0, policy_version 320505 (0.0007)
+[2023-07-06 12:20:49,764][98243] Fps is (10 sec: 111409.2, 60 sec: 113596.0, 300 sec: 111633.3). Total num frames: 656408576. Throughput: 0: 27818.7. Samples: 164165120. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:20:51,230][98493] Updated weights for policy 0, policy_version 320549 (0.0007)
+[2023-07-06 12:20:51,871][98493] Updated weights for policy 0, policy_version 320595 (0.0007)
+[2023-07-06 12:20:52,371][98493] Updated weights for policy 0, policy_version 320656 (0.0007)
+[2023-07-06 12:20:53,658][98493] Updated weights for policy 0, policy_version 320706 (0.0007)
+[2023-07-06 12:20:54,102][98493] Updated weights for policy 0, policy_version 320762 (0.0007)
+[2023-07-06 12:20:54,765][98243] Fps is (10 sec: 104854.0, 60 sec: 113048.9, 300 sec: 111411.1). Total num frames: 656932864. Throughput: 0: 27852.6. Samples: 164248064. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:20:55,963][98493] Updated weights for policy 0, policy_version 320805 (0.0034)
+[2023-07-06 12:20:56,691][98493] Updated weights for policy 0, policy_version 320866 (0.0006)
+[2023-07-06 12:20:57,220][98449] Signal inference workers to stop experience collection... (16600 times)
+[2023-07-06 12:20:57,264][98493] InferenceWorker_p0-w0: stopping experience collection (16600 times)
+[2023-07-06 12:20:57,307][98449] Signal inference workers to resume experience collection... (16600 times)
+[2023-07-06 12:20:57,307][98493] InferenceWorker_p0-w0: resuming experience collection (16600 times)
+[2023-07-06 12:20:57,309][98493] Updated weights for policy 0, policy_version 320944 (0.0007)
+[2023-07-06 12:20:58,496][98493] Updated weights for policy 0, policy_version 320998 (0.0008)
+[2023-07-06 12:20:59,764][98243] Fps is (10 sec: 104859.1, 60 sec: 113049.5, 300 sec: 111078.0). Total num frames: 657457152. Throughput: 0: 27761.7. Samples: 164416512. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:20:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:21:00,478][98493] Updated weights for policy 0, policy_version 321061 (0.0008)
+[2023-07-06 12:21:01,236][98493] Updated weights for policy 0, policy_version 321112 (0.0007)
+[2023-07-06 12:21:01,878][98493] Updated weights for policy 0, policy_version 321177 (0.0007)
+[2023-07-06 12:21:02,810][98493] Updated weights for policy 0, policy_version 321219 (0.0007)
+[2023-07-06 12:21:03,250][98493] Updated weights for policy 0, policy_version 321276 (0.0008)
+[2023-07-06 12:21:04,764][98243] Fps is (10 sec: 108138.9, 60 sec: 111957.8, 300 sec: 111189.1). Total num frames: 658014208. Throughput: 0: 28091.8. Samples: 164592640. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:21:04,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:21:05,033][98493] Updated weights for policy 0, policy_version 321329 (0.0007)
+[2023-07-06 12:21:05,802][98493] Updated weights for policy 0, policy_version 321376 (0.0007)
+[2023-07-06 12:21:06,685][98493] Updated weights for policy 0, policy_version 321424 (0.0009)
+[2023-07-06 12:21:07,471][98493] Updated weights for policy 0, policy_version 321488 (0.0007)
+[2023-07-06 12:21:09,412][98493] Updated weights for policy 0, policy_version 321539 (0.0007)
+[2023-07-06 12:21:09,764][98243] Fps is (10 sec: 114689.7, 60 sec: 112503.7, 300 sec: 111411.2). Total num frames: 658604032. Throughput: 0: 27818.7. Samples: 164669952. Policy #0 lag: (min: 11.0, avg: 148.9, max: 267.0)
+[2023-07-06 12:21:09,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:21:10,425][98493] Updated weights for policy 0, policy_version 321603 (0.0007)
+[2023-07-06 12:21:10,901][98493] Updated weights for policy 0, policy_version 321664 (0.0007)
+[2023-07-06 12:21:11,849][98493] Updated weights for policy 0, policy_version 321728 (0.0007)
+[2023-07-06 12:21:12,494][98493] Updated weights for policy 0, policy_version 321777 (0.0007)
+[2023-07-06 12:21:14,225][98493] Updated weights for policy 0, policy_version 321798 (0.0007)
+[2023-07-06 12:21:14,764][98243] Fps is (10 sec: 114687.7, 60 sec: 111957.2, 300 sec: 111522.3). Total num frames: 659161088. Throughput: 0: 27943.9. Samples: 164839936. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:14,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:21:14,980][98493] Updated weights for policy 0, policy_version 321865 (0.0007)
+[2023-07-06 12:21:15,380][98493] Updated weights for policy 0, policy_version 321913 (0.0006)
+[2023-07-06 12:21:16,584][98493] Updated weights for policy 0, policy_version 321976 (0.0007)
+[2023-07-06 12:21:16,965][98449] Signal inference workers to stop experience collection... (16650 times)
+[2023-07-06 12:21:16,986][98493] InferenceWorker_p0-w0: stopping experience collection (16650 times)
+[2023-07-06 12:21:17,060][98449] Signal inference workers to resume experience collection... (16650 times)
+[2023-07-06 12:21:17,061][98493] InferenceWorker_p0-w0: resuming experience collection (16650 times)
+[2023-07-06 12:21:17,158][98493] Updated weights for policy 0, policy_version 322024 (0.0007)
+[2023-07-06 12:21:18,875][98493] Updated weights for policy 0, policy_version 322050 (0.0006)
+[2023-07-06 12:21:19,319][98493] Updated weights for policy 0, policy_version 322106 (0.0007)
+[2023-07-06 12:21:19,764][98243] Fps is (10 sec: 114686.7, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 659750912. Throughput: 0: 28125.9. Samples: 165008896. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:19,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:21:19,797][98493] Updated weights for policy 0, policy_version 322151 (0.0008)
+[2023-07-06 12:21:21,221][98493] Updated weights for policy 0, policy_version 322208 (0.0007)
+[2023-07-06 12:21:21,716][98493] Updated weights for policy 0, policy_version 322262 (0.0006)
+[2023-07-06 12:21:23,514][98493] Updated weights for policy 0, policy_version 322320 (0.0006)
+[2023-07-06 12:21:24,547][98493] Updated weights for policy 0, policy_version 322384 (0.0008)
+[2023-07-06 12:21:24,764][98243] Fps is (10 sec: 111408.9, 60 sec: 110864.6, 300 sec: 111744.4). Total num frames: 660275200. Throughput: 0: 28000.6. Samples: 165092864. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:21:25,599][98493] Updated weights for policy 0, policy_version 322433 (0.0006)
+[2023-07-06 12:21:26,102][98493] Updated weights for policy 0, policy_version 322496 (0.0007)
+[2023-07-06 12:21:26,650][98493] Updated weights for policy 0, policy_version 322552 (0.0007)
+[2023-07-06 12:21:28,514][98493] Updated weights for policy 0, policy_version 322608 (0.0006)
+[2023-07-06 12:21:29,314][98493] Updated weights for policy 0, policy_version 322649 (0.0007)
+[2023-07-06 12:21:29,764][98243] Fps is (10 sec: 111409.9, 60 sec: 111411.0, 300 sec: 111966.5). Total num frames: 660865024. Throughput: 0: 28068.9. Samples: 165259776. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:21:30,215][98493] Updated weights for policy 0, policy_version 322690 (0.0007)
+[2023-07-06 12:21:30,787][98493] Updated weights for policy 0, policy_version 322759 (0.0007)
+[2023-07-06 12:21:31,219][98493] Updated weights for policy 0, policy_version 322812 (0.0007)
+[2023-07-06 12:21:33,157][98493] Updated weights for policy 0, policy_version 322865 (0.0007)
+[2023-07-06 12:21:33,883][98493] Updated weights for policy 0, policy_version 322903 (0.0007)
+[2023-07-06 12:21:34,195][98493] Updated weights for policy 0, policy_version 322944 (0.0006)
+[2023-07-06 12:21:34,765][98243] Fps is (10 sec: 111410.1, 60 sec: 110864.8, 300 sec: 111966.5). Total num frames: 661389312. Throughput: 0: 28137.2. Samples: 165431296. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:34,766][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:21:35,144][98449] Signal inference workers to stop experience collection... (16700 times)
+[2023-07-06 12:21:35,178][98493] InferenceWorker_p0-w0: stopping experience collection (16700 times)
+[2023-07-06 12:21:35,223][98449] Signal inference workers to resume experience collection... (16700 times)
+[2023-07-06 12:21:35,223][98493] InferenceWorker_p0-w0: resuming experience collection (16700 times)
+[2023-07-06 12:21:35,301][98493] Updated weights for policy 0, policy_version 322997 (0.0007)
+[2023-07-06 12:21:35,740][98493] Updated weights for policy 0, policy_version 323044 (0.0006)
+[2023-07-06 12:21:37,819][98493] Updated weights for policy 0, policy_version 323109 (0.0007)
+[2023-07-06 12:21:38,592][98493] Updated weights for policy 0, policy_version 323161 (0.0007)
+[2023-07-06 12:21:39,577][98493] Updated weights for policy 0, policy_version 323216 (0.0006)
+[2023-07-06 12:21:39,764][98243] Fps is (10 sec: 111412.8, 60 sec: 111411.2, 300 sec: 112077.7). Total num frames: 661979136. Throughput: 0: 28171.6. Samples: 165515776. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:39,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:21:40,080][98493] Updated weights for policy 0, policy_version 323267 (0.0008)
+[2023-07-06 12:21:40,525][98493] Updated weights for policy 0, policy_version 323323 (0.0007)
+[2023-07-06 12:21:42,654][98493] Updated weights for policy 0, policy_version 323388 (0.0007)
+[2023-07-06 12:21:43,337][98493] Updated weights for policy 0, policy_version 323431 (0.0007)
+[2023-07-06 12:21:44,396][98493] Updated weights for policy 0, policy_version 323472 (0.0006)
+[2023-07-06 12:21:44,764][98243] Fps is (10 sec: 114691.2, 60 sec: 110865.1, 300 sec: 112077.8). Total num frames: 662536192. Throughput: 0: 28103.1. Samples: 165681152. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:44,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:21:44,998][98493] Updated weights for policy 0, policy_version 323536 (0.0006)
+[2023-07-06 12:21:46,917][98493] Updated weights for policy 0, policy_version 323600 (0.0007)
+[2023-07-06 12:21:47,338][98493] Updated weights for policy 0, policy_version 323648 (0.0007)
+[2023-07-06 12:21:48,199][98493] Updated weights for policy 0, policy_version 323704 (0.0007)
+[2023-07-06 12:21:49,164][98493] Updated weights for policy 0, policy_version 323734 (0.0006)
+[2023-07-06 12:21:49,634][98493] Updated weights for policy 0, policy_version 323792 (0.0007)
+[2023-07-06 12:21:49,764][98243] Fps is (10 sec: 114688.6, 60 sec: 111957.8, 300 sec: 111966.6). Total num frames: 663126016. Throughput: 0: 27886.9. Samples: 165847552. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:49,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:21:51,450][98493] Updated weights for policy 0, policy_version 323841 (0.0006)
+[2023-07-06 12:21:51,976][98493] Updated weights for policy 0, policy_version 323904 (0.0007)
+[2023-07-06 12:21:52,907][98493] Updated weights for policy 0, policy_version 323959 (0.0007)
+[2023-07-06 12:21:53,699][98449] Signal inference workers to stop experience collection... (16750 times)
+[2023-07-06 12:21:53,734][98493] InferenceWorker_p0-w0: stopping experience collection (16750 times)
+[2023-07-06 12:21:53,790][98449] Signal inference workers to resume experience collection... (16750 times)
+[2023-07-06 12:21:53,791][98493] InferenceWorker_p0-w0: resuming experience collection (16750 times)
+[2023-07-06 12:21:53,995][98493] Updated weights for policy 0, policy_version 324003 (0.0006)
+[2023-07-06 12:21:54,430][98493] Updated weights for policy 0, policy_version 324049 (0.0011)
+[2023-07-06 12:21:54,764][98243] Fps is (10 sec: 121241.4, 60 sec: 113596.4, 300 sec: 112188.8). Total num frames: 663748608. Throughput: 0: 28057.5. Samples: 165932544. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:54,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:21:56,183][98493] Updated weights for policy 0, policy_version 324112 (0.0006)
+[2023-07-06 12:21:56,566][98493] Updated weights for policy 0, policy_version 324155 (0.0007)
+[2023-07-06 12:21:57,864][98493] Updated weights for policy 0, policy_version 324218 (0.0008)
+[2023-07-06 12:21:58,524][98493] Updated weights for policy 0, policy_version 324274 (0.0007)
+[2023-07-06 12:21:58,981][98493] Updated weights for policy 0, policy_version 324320 (0.0007)
+[2023-07-06 12:21:59,764][98243] Fps is (10 sec: 114687.3, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 664272896. Throughput: 0: 27977.9. Samples: 166098944. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:21:59,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:22:00,826][98493] Updated weights for policy 0, policy_version 324353 (0.0016)
+[2023-07-06 12:22:01,320][98493] Updated weights for policy 0, policy_version 324416 (0.0006)
+[2023-07-06 12:22:02,668][98493] Updated weights for policy 0, policy_version 324476 (0.0007)
+[2023-07-06 12:22:03,241][98493] Updated weights for policy 0, policy_version 324539 (0.0007)
+[2023-07-06 12:22:04,180][98493] Updated weights for policy 0, policy_version 324592 (0.0006)
+[2023-07-06 12:22:04,764][98243] Fps is (10 sec: 104858.2, 60 sec: 113049.6, 300 sec: 111966.6). Total num frames: 664797184. Throughput: 0: 27875.6. Samples: 166263296. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:22:04,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:22:05,802][98493] Updated weights for policy 0, policy_version 324656 (0.0007)
+[2023-07-06 12:22:07,131][98493] Updated weights for policy 0, policy_version 324730 (0.0007)
+[2023-07-06 12:22:07,919][98493] Updated weights for policy 0, policy_version 324784 (0.0006)
+[2023-07-06 12:22:08,836][98493] Updated weights for policy 0, policy_version 324819 (0.0006)
+[2023-07-06 12:22:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111957.2, 300 sec: 111744.4). Total num frames: 665321472. Throughput: 0: 27875.7. Samples: 166347264. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:22:09,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:22:10,010][98493] Updated weights for policy 0, policy_version 324870 (0.0007)
+[2023-07-06 12:22:10,496][98493] Updated weights for policy 0, policy_version 324927 (0.0007)
+[2023-07-06 12:22:11,960][98493] Updated weights for policy 0, policy_version 324987 (0.0007)
+[2023-07-06 12:22:12,205][98449] Signal inference workers to stop experience collection... (16800 times)
+[2023-07-06 12:22:12,231][98493] InferenceWorker_p0-w0: stopping experience collection (16800 times)
+[2023-07-06 12:22:12,293][98449] Signal inference workers to resume experience collection... (16800 times)
+[2023-07-06 12:22:12,293][98493] InferenceWorker_p0-w0: resuming experience collection (16800 times)
+[2023-07-06 12:22:12,506][98493] Updated weights for policy 0, policy_version 325025 (0.0012)
+[2023-07-06 12:22:13,394][98493] Updated weights for policy 0, policy_version 325072 (0.0007)
+[2023-07-06 12:22:14,706][98493] Updated weights for policy 0, policy_version 325143 (0.0007)
+[2023-07-06 12:22:14,764][98243] Fps is (10 sec: 111410.8, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 665911296. Throughput: 0: 27887.0. Samples: 166514688. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:22:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:22:16,272][98493] Updated weights for policy 0, policy_version 325186 (0.0009)
+[2023-07-06 12:22:16,714][98493] Updated weights for policy 0, policy_version 325242 (0.0006)
+[2023-07-06 12:22:17,331][98493] Updated weights for policy 0, policy_version 325296 (0.0019)
+[2023-07-06 12:22:18,341][98493] Updated weights for policy 0, policy_version 325351 (0.0006)
+[2023-07-06 12:22:19,519][98493] Updated weights for policy 0, policy_version 325397 (0.0007)
+[2023-07-06 12:22:19,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111957.4, 300 sec: 111522.4). Total num frames: 666468352. Throughput: 0: 27818.9. Samples: 166683136. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:22:19,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:22:21,106][98493] Updated weights for policy 0, policy_version 325456 (0.0008)
+[2023-07-06 12:22:21,812][98493] Updated weights for policy 0, policy_version 325505 (0.0007)
+[2023-07-06 12:22:22,258][98493] Updated weights for policy 0, policy_version 325564 (0.0008)
+[2023-07-06 12:22:23,046][98493] Updated weights for policy 0, policy_version 325616 (0.0006)
+[2023-07-06 12:22:24,238][98493] Updated weights for policy 0, policy_version 325668 (0.0007)
+[2023-07-06 12:22:24,764][98243] Fps is (10 sec: 111411.2, 60 sec: 112503.8, 300 sec: 111522.3). Total num frames: 667025408. Throughput: 0: 27830.0. Samples: 166768128. Policy #0 lag: (min: 12.0, avg: 156.3, max: 268.0)
+[2023-07-06 12:22:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:22:24,770][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000325696_667025408.pth...
+[2023-07-06 12:22:24,804][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000312576_640155648.pth
+[2023-07-06 12:22:24,808][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000325696_667025408.pth
+[2023-07-06 12:22:25,868][98493] Updated weights for policy 0, policy_version 325728 (0.0007)
+[2023-07-06 12:22:26,478][98493] Updated weights for policy 0, policy_version 325781 (0.0006)
+[2023-07-06 12:22:27,548][98493] Updated weights for policy 0, policy_version 325830 (0.0008)
+[2023-07-06 12:22:28,012][98493] Updated weights for policy 0, policy_version 325886 (0.0007)
+[2023-07-06 12:22:29,094][98493] Updated weights for policy 0, policy_version 325947 (0.0006)
+[2023-07-06 12:22:29,764][98243] Fps is (10 sec: 108133.7, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 667549696. Throughput: 0: 27852.8. Samples: 166934528. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:22:30,841][98493] Updated weights for policy 0, policy_version 326000 (0.0007)
+[2023-07-06 12:22:31,203][98449] Signal inference workers to stop experience collection... (16850 times)
+[2023-07-06 12:22:31,211][98493] InferenceWorker_p0-w0: stopping experience collection (16850 times)
+[2023-07-06 12:22:31,295][98449] Signal inference workers to resume experience collection... (16850 times)
+[2023-07-06 12:22:31,295][98493] InferenceWorker_p0-w0: resuming experience collection (16850 times)
+[2023-07-06 12:22:31,522][98493] Updated weights for policy 0, policy_version 326074 (0.0007)
+[2023-07-06 12:22:32,709][98493] Updated weights for policy 0, policy_version 326136 (0.0007)
+[2023-07-06 12:22:33,955][98493] Updated weights for policy 0, policy_version 326182 (0.0006)
+[2023-07-06 12:22:34,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 668073984. Throughput: 0: 27886.8. Samples: 167102464. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:22:35,371][98493] Updated weights for policy 0, policy_version 326233 (0.0006)
+[2023-07-06 12:22:35,850][98493] Updated weights for policy 0, policy_version 326288 (0.0008)
+[2023-07-06 12:22:37,067][98493] Updated weights for policy 0, policy_version 326352 (0.0008)
+[2023-07-06 12:22:38,409][98493] Updated weights for policy 0, policy_version 326401 (0.0008)
+[2023-07-06 12:22:38,803][98493] Updated weights for policy 0, policy_version 326449 (0.0006)
+[2023-07-06 12:22:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110318.9, 300 sec: 111522.3). Total num frames: 668598272. Throughput: 0: 27830.0. Samples: 167184896. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:39,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:22:39,965][98493] Updated weights for policy 0, policy_version 326483 (0.0007)
+[2023-07-06 12:22:40,453][98493] Updated weights for policy 0, policy_version 326544 (0.0006)
+[2023-07-06 12:22:40,852][98493] Updated weights for policy 0, policy_version 326592 (0.0009)
+[2023-07-06 12:22:41,987][98493] Updated weights for policy 0, policy_version 326652 (0.0007)
+[2023-07-06 12:22:43,281][98493] Updated weights for policy 0, policy_version 326704 (0.0008)
+[2023-07-06 12:22:44,597][98493] Updated weights for policy 0, policy_version 326740 (0.0006)
+[2023-07-06 12:22:44,764][98243] Fps is (10 sec: 111412.5, 60 sec: 110865.0, 300 sec: 111744.4). Total num frames: 669188096. Throughput: 0: 27898.3. Samples: 167354368. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:22:45,076][98493] Updated weights for policy 0, policy_version 326800 (0.0007)
+[2023-07-06 12:22:46,679][98493] Updated weights for policy 0, policy_version 326872 (0.0007)
+[2023-07-06 12:22:47,004][98493] Updated weights for policy 0, policy_version 326912 (0.0007)
+[2023-07-06 12:22:47,971][98493] Updated weights for policy 0, policy_version 326960 (0.0006)
+[2023-07-06 12:22:49,341][98493] Updated weights for policy 0, policy_version 327024 (0.0007)
+[2023-07-06 12:22:49,395][98449] Signal inference workers to stop experience collection... (16900 times)
+[2023-07-06 12:22:49,436][98493] InferenceWorker_p0-w0: stopping experience collection (16900 times)
+[2023-07-06 12:22:49,488][98449] Signal inference workers to resume experience collection... (16900 times)
+[2023-07-06 12:22:49,488][98493] InferenceWorker_p0-w0: resuming experience collection (16900 times)
+[2023-07-06 12:22:49,764][98243] Fps is (10 sec: 121241.9, 60 sec: 111411.1, 300 sec: 111966.8). Total num frames: 669810688. Throughput: 0: 27921.0. Samples: 167519744. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:49,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:22:49,847][98493] Updated weights for policy 0, policy_version 327075 (0.0007)
+[2023-07-06 12:22:51,609][98493] Updated weights for policy 0, policy_version 327137 (0.0007)
+[2023-07-06 12:22:52,463][98493] Updated weights for policy 0, policy_version 327185 (0.0007)
+[2023-07-06 12:22:52,763][98493] Updated weights for policy 0, policy_version 327225 (0.0006)
+[2023-07-06 12:22:53,958][98493] Updated weights for policy 0, policy_version 327292 (0.0007)
+[2023-07-06 12:22:54,632][98493] Updated weights for policy 0, policy_version 327331 (0.0017)
+[2023-07-06 12:22:54,764][98243] Fps is (10 sec: 121241.6, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 670400512. Throughput: 0: 27921.0. Samples: 167603712. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:54,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:22:56,130][98493] Updated weights for policy 0, policy_version 327376 (0.0006)
+[2023-07-06 12:22:57,037][98493] Updated weights for policy 0, policy_version 327446 (0.0008)
+[2023-07-06 12:22:57,384][98493] Updated weights for policy 0, policy_version 327488 (0.0007)
+[2023-07-06 12:22:58,528][98493] Updated weights for policy 0, policy_version 327544 (0.0008)
+[2023-07-06 12:22:59,509][98493] Updated weights for policy 0, policy_version 327609 (0.0010)
+[2023-07-06 12:22:59,764][98243] Fps is (10 sec: 114686.8, 60 sec: 111411.0, 300 sec: 111966.7). Total num frames: 670957568. Throughput: 0: 27977.9. Samples: 167773696. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:22:59,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:23:00,895][98493] Updated weights for policy 0, policy_version 327655 (0.0007)
+[2023-07-06 12:23:01,829][98493] Updated weights for policy 0, policy_version 327705 (0.0007)
+[2023-07-06 12:23:02,141][98493] Updated weights for policy 0, policy_version 327743 (0.0008)
+[2023-07-06 12:23:03,204][98493] Updated weights for policy 0, policy_version 327806 (0.0007)
+[2023-07-06 12:23:04,179][98493] Updated weights for policy 0, policy_version 327867 (0.0007)
+[2023-07-06 12:23:04,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111411.1, 300 sec: 111855.6). Total num frames: 671481856. Throughput: 0: 27966.5. Samples: 167941632. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:23:05,605][98493] Updated weights for policy 0, policy_version 327930 (0.0007)
+[2023-07-06 12:23:06,548][98493] Updated weights for policy 0, policy_version 327968 (0.0007)
+[2023-07-06 12:23:08,014][98493] Updated weights for policy 0, policy_version 328024 (0.0007)
+[2023-07-06 12:23:08,392][98449] Signal inference workers to stop experience collection... (16950 times)
+[2023-07-06 12:23:08,419][98493] InferenceWorker_p0-w0: stopping experience collection (16950 times)
+[2023-07-06 12:23:08,471][98449] Signal inference workers to resume experience collection... (16950 times)
+[2023-07-06 12:23:08,472][98493] InferenceWorker_p0-w0: resuming experience collection (16950 times)
+[2023-07-06 12:23:08,566][98493] Updated weights for policy 0, policy_version 328090 (0.0007)
+[2023-07-06 12:23:08,833][98493] Updated weights for policy 0, policy_version 328125 (0.0007)
+[2023-07-06 12:23:09,765][98243] Fps is (10 sec: 104851.7, 60 sec: 111409.9, 300 sec: 111522.0). Total num frames: 672006144. Throughput: 0: 28011.7. Samples: 168028672. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:09,766][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:23:10,270][98493] Updated weights for policy 0, policy_version 328184 (0.0007)
+[2023-07-06 12:23:11,218][98493] Updated weights for policy 0, policy_version 328228 (0.0006)
+[2023-07-06 12:23:12,560][98493] Updated weights for policy 0, policy_version 328288 (0.0007)
+[2023-07-06 12:23:13,161][98493] Updated weights for policy 0, policy_version 328338 (0.0006)
+[2023-07-06 12:23:14,764][98243] Fps is (10 sec: 108135.6, 60 sec: 110865.2, 300 sec: 111633.4). Total num frames: 672563200. Throughput: 0: 27989.4. Samples: 168194048. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:14,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:23:14,880][98493] Updated weights for policy 0, policy_version 328416 (0.0008)
+[2023-07-06 12:23:15,596][98493] Updated weights for policy 0, policy_version 328473 (0.0007)
+[2023-07-06 12:23:17,010][98493] Updated weights for policy 0, policy_version 328515 (0.0007)
+[2023-07-06 12:23:17,464][98493] Updated weights for policy 0, policy_version 328572 (0.0007)
+[2023-07-06 12:23:18,266][98493] Updated weights for policy 0, policy_version 328635 (0.0007)
+[2023-07-06 12:23:19,723][98493] Updated weights for policy 0, policy_version 328674 (0.0008)
+[2023-07-06 12:23:19,764][98243] Fps is (10 sec: 111418.4, 60 sec: 110865.0, 300 sec: 111744.4). Total num frames: 673120256. Throughput: 0: 28069.0. Samples: 168365568. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:23:20,175][98493] Updated weights for policy 0, policy_version 328725 (0.0007)
+[2023-07-06 12:23:21,550][98493] Updated weights for policy 0, policy_version 328775 (0.0006)
+[2023-07-06 12:23:21,973][98493] Updated weights for policy 0, policy_version 328827 (0.0007)
+[2023-07-06 12:23:22,845][98493] Updated weights for policy 0, policy_version 328880 (0.0006)
+[2023-07-06 12:23:24,246][98493] Updated weights for policy 0, policy_version 328944 (0.0007)
+[2023-07-06 12:23:24,764][98243] Fps is (10 sec: 114683.8, 60 sec: 111410.7, 300 sec: 111966.5). Total num frames: 673710080. Throughput: 0: 28091.6. Samples: 168449024. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:24,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:23:25,190][98493] Updated weights for policy 0, policy_version 328994 (0.0007)
+[2023-07-06 12:23:26,218][98493] Updated weights for policy 0, policy_version 329056 (0.0007)
+[2023-07-06 12:23:27,240][98493] Updated weights for policy 0, policy_version 329104 (0.0006)
+[2023-07-06 12:23:27,294][98449] Signal inference workers to stop experience collection... (17000 times)
+[2023-07-06 12:23:27,329][98493] InferenceWorker_p0-w0: stopping experience collection (17000 times)
+[2023-07-06 12:23:27,367][98449] Signal inference workers to resume experience collection... (17000 times)
+[2023-07-06 12:23:27,368][98493] InferenceWorker_p0-w0: resuming experience collection (17000 times)
+[2023-07-06 12:23:28,698][98493] Updated weights for policy 0, policy_version 329157 (0.0007)
+[2023-07-06 12:23:29,104][98493] Updated weights for policy 0, policy_version 329211 (0.0006)
+[2023-07-06 12:23:29,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 674234368. Throughput: 0: 28069.0. Samples: 168617472. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:23:30,288][98493] Updated weights for policy 0, policy_version 329279 (0.0007)
+[2023-07-06 12:23:31,157][98493] Updated weights for policy 0, policy_version 329329 (0.0007)
+[2023-07-06 12:23:31,909][98493] Updated weights for policy 0, policy_version 329365 (0.0007)
+[2023-07-06 12:23:33,210][98493] Updated weights for policy 0, policy_version 329409 (0.0007)
+[2023-07-06 12:23:33,676][98493] Updated weights for policy 0, policy_version 329470 (0.0007)
+[2023-07-06 12:23:34,764][98243] Fps is (10 sec: 114689.8, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 674856960. Throughput: 0: 28034.8. Samples: 168781312. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:23:34,802][98493] Updated weights for policy 0, policy_version 329534 (0.0008)
+[2023-07-06 12:23:35,841][98493] Updated weights for policy 0, policy_version 329574 (0.0007)
+[2023-07-06 12:23:36,703][98493] Updated weights for policy 0, policy_version 329624 (0.0007)
+[2023-07-06 12:23:37,040][98493] Updated weights for policy 0, policy_version 329664 (0.0006)
+[2023-07-06 12:23:38,568][98493] Updated weights for policy 0, policy_version 329725 (0.0007)
+[2023-07-06 12:23:39,203][98493] Updated weights for policy 0, policy_version 329788 (0.0008)
+[2023-07-06 12:23:39,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113595.7, 300 sec: 111633.3). Total num frames: 675414016. Throughput: 0: 28103.1. Samples: 168868352. Policy #0 lag: (min: 15.0, avg: 135.3, max: 271.0)
+[2023-07-06 12:23:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:23:40,630][98493] Updated weights for policy 0, policy_version 329828 (0.0007)
+[2023-07-06 12:23:41,565][98493] Updated weights for policy 0, policy_version 329904 (0.0007)
+[2023-07-06 12:23:42,880][98493] Updated weights for policy 0, policy_version 329936 (0.0006)
+[2023-07-06 12:23:43,313][98493] Updated weights for policy 0, policy_version 329984 (0.0007)
+[2023-07-06 12:23:43,921][98493] Updated weights for policy 0, policy_version 330038 (0.0007)
+[2023-07-06 12:23:44,764][98243] Fps is (10 sec: 108134.5, 60 sec: 112503.3, 300 sec: 111522.2). Total num frames: 675938304. Throughput: 0: 28012.1. Samples: 169034240. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:23:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:23:45,105][98493] Updated weights for policy 0, policy_version 330084 (0.0007)
+[2023-07-06 12:23:46,203][98493] Updated weights for policy 0, policy_version 330144 (0.0007)
+[2023-07-06 12:23:47,705][98449] Signal inference workers to stop experience collection... (17050 times)
+[2023-07-06 12:23:47,725][98493] InferenceWorker_p0-w0: stopping experience collection (17050 times)
+[2023-07-06 12:23:47,802][98449] Signal inference workers to resume experience collection... (17050 times)
+[2023-07-06 12:23:47,803][98493] InferenceWorker_p0-w0: resuming experience collection (17050 times)
+[2023-07-06 12:23:47,908][98493] Updated weights for policy 0, policy_version 330198 (0.0007)
+[2023-07-06 12:23:48,444][98493] Updated weights for policy 0, policy_version 330259 (0.0008)
+[2023-07-06 12:23:49,730][98493] Updated weights for policy 0, policy_version 330320 (0.0006)
+[2023-07-06 12:23:49,764][98243] Fps is (10 sec: 108136.0, 60 sec: 111411.4, 300 sec: 111633.5). Total num frames: 676495360. Throughput: 0: 27989.4. Samples: 169201152. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:23:49,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:23:50,160][98493] Updated weights for policy 0, policy_version 330368 (0.0007)
+[2023-07-06 12:23:50,973][98493] Updated weights for policy 0, policy_version 330416 (0.0007)
+[2023-07-06 12:23:53,038][98493] Updated weights for policy 0, policy_version 330480 (0.0007)
+[2023-07-06 12:23:53,579][98493] Updated weights for policy 0, policy_version 330534 (0.0007)
+[2023-07-06 12:23:54,688][98493] Updated weights for policy 0, policy_version 330598 (0.0007)
+[2023-07-06 12:23:54,764][98243] Fps is (10 sec: 114689.5, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 677085184. Throughput: 0: 27989.8. Samples: 169288192. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:23:54,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:23:55,223][98493] Updated weights for policy 0, policy_version 330626 (0.0007)
+[2023-07-06 12:23:55,651][98493] Updated weights for policy 0, policy_version 330679 (0.0007)
+[2023-07-06 12:23:57,357][98493] Updated weights for policy 0, policy_version 330720 (0.0006)
+[2023-07-06 12:23:57,741][98493] Updated weights for policy 0, policy_version 330759 (0.0006)
+[2023-07-06 12:23:59,114][98493] Updated weights for policy 0, policy_version 330818 (0.0018)
+[2023-07-06 12:23:59,567][98493] Updated weights for policy 0, policy_version 330872 (0.0007)
+[2023-07-06 12:23:59,764][98243] Fps is (10 sec: 114686.3, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 677642240. Throughput: 0: 27989.2. Samples: 169453568. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:23:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:24:00,144][98493] Updated weights for policy 0, policy_version 330916 (0.0007)
+[2023-07-06 12:24:01,995][98493] Updated weights for policy 0, policy_version 330965 (0.0006)
+[2023-07-06 12:24:02,511][98493] Updated weights for policy 0, policy_version 331024 (0.0008)
+[2023-07-06 12:24:03,710][98493] Updated weights for policy 0, policy_version 331074 (0.0007)
+[2023-07-06 12:24:04,602][98493] Updated weights for policy 0, policy_version 331137 (0.0007)
+[2023-07-06 12:24:04,734][98449] Signal inference workers to stop experience collection... (17100 times)
+[2023-07-06 12:24:04,765][98243] Fps is (10 sec: 111400.8, 60 sec: 111955.6, 300 sec: 111744.1). Total num frames: 678199296. Throughput: 0: 27886.4. Samples: 169620480. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:04,766][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:24:04,773][98493] InferenceWorker_p0-w0: stopping experience collection (17100 times)
+[2023-07-06 12:24:04,828][98449] Signal inference workers to resume experience collection... (17100 times)
+[2023-07-06 12:24:04,829][98493] InferenceWorker_p0-w0: resuming experience collection (17100 times)
+[2023-07-06 12:24:05,079][98493] Updated weights for policy 0, policy_version 331197 (0.0007)
+[2023-07-06 12:24:06,710][98493] Updated weights for policy 0, policy_version 331249 (0.0007)
+[2023-07-06 12:24:07,381][98493] Updated weights for policy 0, policy_version 331322 (0.0008)
+[2023-07-06 12:24:08,664][98493] Updated weights for policy 0, policy_version 331376 (0.0006)
+[2023-07-06 12:24:09,764][98243] Fps is (10 sec: 108135.2, 60 sec: 111958.6, 300 sec: 111633.4). Total num frames: 678723584. Throughput: 0: 27864.4. Samples: 169702912. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:09,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:24:09,860][98493] Updated weights for policy 0, policy_version 331431 (0.0007)
+[2023-07-06 12:24:11,088][98493] Updated weights for policy 0, policy_version 331477 (0.0006)
+[2023-07-06 12:24:11,403][98493] Updated weights for policy 0, policy_version 331517 (0.0007)
+[2023-07-06 12:24:12,225][98493] Updated weights for policy 0, policy_version 331579 (0.0007)
+[2023-07-06 12:24:13,231][98493] Updated weights for policy 0, policy_version 331642 (0.0007)
+[2023-07-06 12:24:14,579][98493] Updated weights for policy 0, policy_version 331696 (0.0007)
+[2023-07-06 12:24:14,764][98243] Fps is (10 sec: 114697.5, 60 sec: 113049.3, 300 sec: 111966.6). Total num frames: 679346176. Throughput: 0: 27886.9. Samples: 169872384. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:24:15,477][98493] Updated weights for policy 0, policy_version 331721 (0.0006)
+[2023-07-06 12:24:15,902][98493] Updated weights for policy 0, policy_version 331773 (0.0007)
+[2023-07-06 12:24:16,850][98493] Updated weights for policy 0, policy_version 331824 (0.0007)
+[2023-07-06 12:24:17,659][98493] Updated weights for policy 0, policy_version 331861 (0.0006)
+[2023-07-06 12:24:18,804][98493] Updated weights for policy 0, policy_version 331907 (0.0006)
+[2023-07-06 12:24:19,312][98493] Updated weights for policy 0, policy_version 331965 (0.0008)
+[2023-07-06 12:24:19,764][98243] Fps is (10 sec: 114687.2, 60 sec: 112503.4, 300 sec: 111633.3). Total num frames: 679870464. Throughput: 0: 28057.6. Samples: 170043904. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:24:20,473][98493] Updated weights for policy 0, policy_version 332024 (0.0007)
+[2023-07-06 12:24:21,483][98493] Updated weights for policy 0, policy_version 332066 (0.0007)
+[2023-07-06 12:24:22,174][98493] Updated weights for policy 0, policy_version 332120 (0.0006)
+[2023-07-06 12:24:23,519][98493] Updated weights for policy 0, policy_version 332176 (0.0007)
+[2023-07-06 12:24:23,729][98449] Signal inference workers to stop experience collection... (17150 times)
+[2023-07-06 12:24:23,768][98493] InferenceWorker_p0-w0: stopping experience collection (17150 times)
+[2023-07-06 12:24:23,840][98449] Signal inference workers to resume experience collection... (17150 times)
+[2023-07-06 12:24:23,840][98493] InferenceWorker_p0-w0: resuming experience collection (17150 times)
+[2023-07-06 12:24:23,932][98493] Updated weights for policy 0, policy_version 332218 (0.0006)
+[2023-07-06 12:24:24,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.4, 300 sec: 111522.2). Total num frames: 680394752. Throughput: 0: 27955.1. Samples: 170126336. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:24:24,925][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000332256_680460288.pth...
+[2023-07-06 12:24:24,998][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000319168_653656064.pth
+[2023-07-06 12:24:25,234][98493] Updated weights for policy 0, policy_version 332288 (0.0007)
+[2023-07-06 12:24:26,349][98493] Updated weights for policy 0, policy_version 332352 (0.0020)
+[2023-07-06 12:24:27,102][98493] Updated weights for policy 0, policy_version 332416 (0.0007)
+[2023-07-06 12:24:29,622][98493] Updated weights for policy 0, policy_version 332481 (0.0007)
+[2023-07-06 12:24:29,764][98243] Fps is (10 sec: 108135.3, 60 sec: 111957.5, 300 sec: 111633.4). Total num frames: 680951808. Throughput: 0: 27989.4. Samples: 170293760. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:29,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:24:30,486][98493] Updated weights for policy 0, policy_version 332545 (0.0008)
+[2023-07-06 12:24:30,924][98493] Updated weights for policy 0, policy_version 332601 (0.0006)
+[2023-07-06 12:24:31,753][98493] Updated weights for policy 0, policy_version 332656 (0.0008)
+[2023-07-06 12:24:33,059][98493] Updated weights for policy 0, policy_version 332704 (0.0007)
+[2023-07-06 12:24:34,206][98493] Updated weights for policy 0, policy_version 332740 (0.0007)
+[2023-07-06 12:24:34,636][98493] Updated weights for policy 0, policy_version 332796 (0.0007)
+[2023-07-06 12:24:34,764][98243] Fps is (10 sec: 117965.8, 60 sec: 111957.4, 300 sec: 111966.6). Total num frames: 681574400. Throughput: 0: 28068.9. Samples: 170464256. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:24:35,592][98493] Updated weights for policy 0, policy_version 332838 (0.0008)
+[2023-07-06 12:24:36,136][98493] Updated weights for policy 0, policy_version 332884 (0.0006)
+[2023-07-06 12:24:37,505][98493] Updated weights for policy 0, policy_version 332944 (0.0018)
+[2023-07-06 12:24:38,994][98493] Updated weights for policy 0, policy_version 333008 (0.0006)
+[2023-07-06 12:24:39,764][98243] Fps is (10 sec: 114685.7, 60 sec: 111411.0, 300 sec: 111966.5). Total num frames: 682098688. Throughput: 0: 28012.0. Samples: 170548736. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:24:39,884][98493] Updated weights for policy 0, policy_version 333057 (0.0006)
+[2023-07-06 12:24:40,314][98493] Updated weights for policy 0, policy_version 333113 (0.0006)
+[2023-07-06 12:24:41,045][98493] Updated weights for policy 0, policy_version 333152 (0.0007)
+[2023-07-06 12:24:41,932][98493] Updated weights for policy 0, policy_version 333190 (0.0006)
+[2023-07-06 12:24:42,364][98493] Updated weights for policy 0, policy_version 333246 (0.0007)
+[2023-07-06 12:24:43,844][98449] Signal inference workers to stop experience collection... (17200 times)
+[2023-07-06 12:24:43,886][98493] InferenceWorker_p0-w0: stopping experience collection (17200 times)
+[2023-07-06 12:24:43,928][98449] Signal inference workers to resume experience collection... (17200 times)
+[2023-07-06 12:24:43,929][98493] InferenceWorker_p0-w0: resuming experience collection (17200 times)
+[2023-07-06 12:24:44,142][98493] Updated weights for policy 0, policy_version 333304 (0.0008)
+[2023-07-06 12:24:44,764][98243] Fps is (10 sec: 111412.1, 60 sec: 112503.7, 300 sec: 112188.9). Total num frames: 682688512. Throughput: 0: 28194.2. Samples: 170722304. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:24:44,797][98493] Updated weights for policy 0, policy_version 333347 (0.0006)
+[2023-07-06 12:24:45,724][98493] Updated weights for policy 0, policy_version 333408 (0.0007)
+[2023-07-06 12:24:46,454][98493] Updated weights for policy 0, policy_version 333442 (0.0006)
+[2023-07-06 12:24:46,882][98493] Updated weights for policy 0, policy_version 333498 (0.0007)
+[2023-07-06 12:24:48,347][98493] Updated weights for policy 0, policy_version 333537 (0.0007)
+[2023-07-06 12:24:49,568][98493] Updated weights for policy 0, policy_version 333607 (0.0007)
+[2023-07-06 12:24:49,764][98243] Fps is (10 sec: 117967.0, 60 sec: 113049.5, 300 sec: 112299.8). Total num frames: 683278336. Throughput: 0: 28172.0. Samples: 170888192. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:49,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:24:50,021][98493] Updated weights for policy 0, policy_version 333648 (0.0008)
+[2023-07-06 12:24:50,450][98493] Updated weights for policy 0, policy_version 333696 (0.0007)
+[2023-07-06 12:24:51,704][98493] Updated weights for policy 0, policy_version 333752 (0.0007)
+[2023-07-06 12:24:53,077][98493] Updated weights for policy 0, policy_version 333808 (0.0007)
+[2023-07-06 12:24:54,301][98493] Updated weights for policy 0, policy_version 333859 (0.0007)
+[2023-07-06 12:24:54,739][98493] Updated weights for policy 0, policy_version 333907 (0.0007)
+[2023-07-06 12:24:54,764][98243] Fps is (10 sec: 114688.2, 60 sec: 112503.4, 300 sec: 112410.9). Total num frames: 683835392. Throughput: 0: 28296.5. Samples: 170976256. Policy #0 lag: (min: 25.0, avg: 121.1, max: 281.0)
+[2023-07-06 12:24:54,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:24:55,073][98493] Updated weights for policy 0, policy_version 333952 (0.0007)
+[2023-07-06 12:24:56,382][98493] Updated weights for policy 0, policy_version 334011 (0.0007)
+[2023-07-06 12:24:57,589][98493] Updated weights for policy 0, policy_version 334064 (0.0007)
+[2023-07-06 12:24:58,751][98493] Updated weights for policy 0, policy_version 334096 (0.0006)
+[2023-07-06 12:24:59,316][98493] Updated weights for policy 0, policy_version 334160 (0.0008)
+[2023-07-06 12:24:59,711][98493] Updated weights for policy 0, policy_version 334207 (0.0007)
+[2023-07-06 12:24:59,764][98243] Fps is (10 sec: 117964.1, 60 sec: 113595.8, 300 sec: 112411.0). Total num frames: 684457984. Throughput: 0: 28308.0. Samples: 171146240. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:24:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:25:01,218][98493] Updated weights for policy 0, policy_version 334264 (0.0010)
+[2023-07-06 12:25:02,150][98449] Signal inference workers to stop experience collection... (17250 times)
+[2023-07-06 12:25:02,193][98493] InferenceWorker_p0-w0: stopping experience collection (17250 times)
+[2023-07-06 12:25:02,239][98449] Signal inference workers to resume experience collection... (17250 times)
+[2023-07-06 12:25:02,240][98493] InferenceWorker_p0-w0: resuming experience collection (17250 times)
+[2023-07-06 12:25:02,337][98493] Updated weights for policy 0, policy_version 334306 (0.0007)
+[2023-07-06 12:25:03,399][98493] Updated weights for policy 0, policy_version 334356 (0.0007)
+[2023-07-06 12:25:03,857][98493] Updated weights for policy 0, policy_version 334404 (0.0008)
+[2023-07-06 12:25:04,299][98493] Updated weights for policy 0, policy_version 334461 (0.0007)
+[2023-07-06 12:25:04,764][98243] Fps is (10 sec: 114685.7, 60 sec: 113051.0, 300 sec: 112299.8). Total num frames: 684982272. Throughput: 0: 28114.4. Samples: 171309056. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:25:05,952][98493] Updated weights for policy 0, policy_version 334525 (0.0008)
+[2023-07-06 12:25:06,769][98493] Updated weights for policy 0, policy_version 334576 (0.0008)
+[2023-07-06 12:25:08,105][98493] Updated weights for policy 0, policy_version 334627 (0.0010)
+[2023-07-06 12:25:08,829][98493] Updated weights for policy 0, policy_version 334696 (0.0008)
+[2023-07-06 12:25:09,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113049.5, 300 sec: 112077.6). Total num frames: 685506560. Throughput: 0: 28239.7. Samples: 171397120. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:25:10,457][98493] Updated weights for policy 0, policy_version 334737 (0.0006)
+[2023-07-06 12:25:11,329][98493] Updated weights for policy 0, policy_version 334789 (0.0008)
+[2023-07-06 12:25:11,818][98493] Updated weights for policy 0, policy_version 334848 (0.0007)
+[2023-07-06 12:25:12,873][98493] Updated weights for policy 0, policy_version 334905 (0.0006)
+[2023-07-06 12:25:13,657][98493] Updated weights for policy 0, policy_version 334960 (0.0007)
+[2023-07-06 12:25:14,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 686030848. Throughput: 0: 28171.3. Samples: 171561472. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:25:15,044][98493] Updated weights for policy 0, policy_version 334997 (0.0006)
+[2023-07-06 12:25:15,392][98493] Updated weights for policy 0, policy_version 335040 (0.0006)
+[2023-07-06 12:25:16,258][98493] Updated weights for policy 0, policy_version 335101 (0.0007)
+[2023-07-06 12:25:17,440][98493] Updated weights for policy 0, policy_version 335161 (0.0007)
+[2023-07-06 12:25:18,117][98493] Updated weights for policy 0, policy_version 335189 (0.0007)
+[2023-07-06 12:25:19,531][98493] Updated weights for policy 0, policy_version 335248 (0.0007)
+[2023-07-06 12:25:19,764][98243] Fps is (10 sec: 111411.8, 60 sec: 112503.6, 300 sec: 111855.5). Total num frames: 686620672. Throughput: 0: 28217.0. Samples: 171734016. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:19,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:25:20,678][98493] Updated weights for policy 0, policy_version 335312 (0.0007)
+[2023-07-06 12:25:20,865][98449] Signal inference workers to stop experience collection... (17300 times)
+[2023-07-06 12:25:20,891][98493] InferenceWorker_p0-w0: stopping experience collection (17300 times)
+[2023-07-06 12:25:20,944][98449] Signal inference workers to resume experience collection... (17300 times)
+[2023-07-06 12:25:20,945][98493] InferenceWorker_p0-w0: resuming experience collection (17300 times)
+[2023-07-06 12:25:21,737][98493] Updated weights for policy 0, policy_version 335376 (0.0006)
+[2023-07-06 12:25:22,656][98493] Updated weights for policy 0, policy_version 335427 (0.0007)
+[2023-07-06 12:25:23,167][98493] Updated weights for policy 0, policy_version 335488 (0.0007)
+[2023-07-06 12:25:24,746][98493] Updated weights for policy 0, policy_version 335552 (0.0007)
+[2023-07-06 12:25:24,764][98243] Fps is (10 sec: 117965.1, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 687210496. Throughput: 0: 28171.4. Samples: 171816448. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:25:25,818][98493] Updated weights for policy 0, policy_version 335610 (0.0007)
+[2023-07-06 12:25:26,783][98493] Updated weights for policy 0, policy_version 335672 (0.0007)
+[2023-07-06 12:25:27,819][98493] Updated weights for policy 0, policy_version 335739 (0.0006)
+[2023-07-06 12:25:29,211][98493] Updated weights for policy 0, policy_version 335792 (0.0007)
+[2023-07-06 12:25:29,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113049.5, 300 sec: 111855.6). Total num frames: 687734784. Throughput: 0: 28023.5. Samples: 171983360. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:25:30,339][98493] Updated weights for policy 0, policy_version 335840 (0.0007)
+[2023-07-06 12:25:31,270][98493] Updated weights for policy 0, policy_version 335904 (0.0006)
+[2023-07-06 12:25:32,037][98493] Updated weights for policy 0, policy_version 335938 (0.0007)
+[2023-07-06 12:25:32,556][98493] Updated weights for policy 0, policy_version 336000 (0.0007)
+[2023-07-06 12:25:33,992][98493] Updated weights for policy 0, policy_version 336064 (0.0007)
+[2023-07-06 12:25:34,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.3, 300 sec: 111744.4). Total num frames: 688259072. Throughput: 0: 28057.6. Samples: 172150784. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:25:35,414][98493] Updated weights for policy 0, policy_version 336121 (0.0007)
+[2023-07-06 12:25:36,131][98493] Updated weights for policy 0, policy_version 336176 (0.0007)
+[2023-07-06 12:25:36,911][98493] Updated weights for policy 0, policy_version 336224 (0.0006)
+[2023-07-06 12:25:38,328][98493] Updated weights for policy 0, policy_version 336272 (0.0006)
+[2023-07-06 12:25:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 688783360. Throughput: 0: 27898.3. Samples: 172231680. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:25:39,943][98493] Updated weights for policy 0, policy_version 336323 (0.0007)
+[2023-07-06 12:25:40,512][98449] Signal inference workers to stop experience collection... (17350 times)
+[2023-07-06 12:25:40,549][98493] InferenceWorker_p0-w0: stopping experience collection (17350 times)
+[2023-07-06 12:25:40,551][98493] Updated weights for policy 0, policy_version 336392 (0.0006)
+[2023-07-06 12:25:40,589][98449] Signal inference workers to resume experience collection... (17350 times)
+[2023-07-06 12:25:40,589][98493] InferenceWorker_p0-w0: resuming experience collection (17350 times)
+[2023-07-06 12:25:40,955][98493] Updated weights for policy 0, policy_version 336444 (0.0025)
+[2023-07-06 12:25:41,879][98493] Updated weights for policy 0, policy_version 336504 (0.0006)
+[2023-07-06 12:25:43,353][98493] Updated weights for policy 0, policy_version 336560 (0.0007)
+[2023-07-06 12:25:44,764][98243] Fps is (10 sec: 108134.5, 60 sec: 110865.0, 300 sec: 111633.4). Total num frames: 689340416. Throughput: 0: 27773.2. Samples: 172396032. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:25:44,824][98493] Updated weights for policy 0, policy_version 336608 (0.0007)
+[2023-07-06 12:25:45,356][98493] Updated weights for policy 0, policy_version 336664 (0.0007)
+[2023-07-06 12:25:46,441][98493] Updated weights for policy 0, policy_version 336736 (0.0007)
+[2023-07-06 12:25:48,139][98493] Updated weights for policy 0, policy_version 336808 (0.0008)
+[2023-07-06 12:25:49,238][98493] Updated weights for policy 0, policy_version 336854 (0.0007)
+[2023-07-06 12:25:49,764][98243] Fps is (10 sec: 117963.7, 60 sec: 111410.9, 300 sec: 111966.7). Total num frames: 689963008. Throughput: 0: 27887.0. Samples: 172563968. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:49,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:25:49,980][98493] Updated weights for policy 0, policy_version 336922 (0.0007)
+[2023-07-06 12:25:51,222][98493] Updated weights for policy 0, policy_version 336985 (0.0007)
+[2023-07-06 12:25:52,503][98493] Updated weights for policy 0, policy_version 337027 (0.0006)
+[2023-07-06 12:25:52,947][98493] Updated weights for policy 0, policy_version 337083 (0.0007)
+[2023-07-06 12:25:54,083][98493] Updated weights for policy 0, policy_version 337146 (0.0007)
+[2023-07-06 12:25:54,764][98243] Fps is (10 sec: 114685.0, 60 sec: 110864.5, 300 sec: 111966.5). Total num frames: 690487296. Throughput: 0: 27864.0. Samples: 172651008. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:25:55,047][98493] Updated weights for policy 0, policy_version 337187 (0.0007)
+[2023-07-06 12:25:55,565][98493] Updated weights for policy 0, policy_version 337220 (0.0006)
+[2023-07-06 12:25:56,010][98493] Updated weights for policy 0, policy_version 337280 (0.0006)
+[2023-07-06 12:25:57,426][98493] Updated weights for policy 0, policy_version 337329 (0.0006)
+[2023-07-06 12:25:58,540][98493] Updated weights for policy 0, policy_version 337364 (0.0007)
+[2023-07-06 12:25:59,581][98493] Updated weights for policy 0, policy_version 337424 (0.0007)
+[2023-07-06 12:25:59,638][98449] Signal inference workers to stop experience collection... (17400 times)
+[2023-07-06 12:25:59,679][98493] InferenceWorker_p0-w0: stopping experience collection (17400 times)
+[2023-07-06 12:25:59,726][98449] Signal inference workers to resume experience collection... (17400 times)
+[2023-07-06 12:25:59,726][98493] InferenceWorker_p0-w0: resuming experience collection (17400 times)
+[2023-07-06 12:25:59,764][98243] Fps is (10 sec: 111412.8, 60 sec: 110319.0, 300 sec: 112077.6). Total num frames: 691077120. Throughput: 0: 27966.6. Samples: 172819968. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:25:59,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:26:00,008][98493] Updated weights for policy 0, policy_version 337472 (0.0007)
+[2023-07-06 12:26:00,646][98493] Updated weights for policy 0, policy_version 337533 (0.0007)
+[2023-07-06 12:26:02,088][98493] Updated weights for policy 0, policy_version 337592 (0.0008)
+[2023-07-06 12:26:03,577][98493] Updated weights for policy 0, policy_version 337648 (0.0007)
+[2023-07-06 12:26:04,487][98493] Updated weights for policy 0, policy_version 337712 (0.0007)
+[2023-07-06 12:26:04,765][98243] Fps is (10 sec: 117962.5, 60 sec: 111410.7, 300 sec: 112077.4). Total num frames: 691666944. Throughput: 0: 27784.2. Samples: 172984320. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:26:04,766][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:26:05,115][98493] Updated weights for policy 0, policy_version 337769 (0.0007)
+[2023-07-06 12:26:06,514][98493] Updated weights for policy 0, policy_version 337814 (0.0007)
+[2023-07-06 12:26:07,967][98493] Updated weights for policy 0, policy_version 337861 (0.0007)
+[2023-07-06 12:26:08,920][98493] Updated weights for policy 0, policy_version 337921 (0.0007)
+[2023-07-06 12:26:09,399][98493] Updated weights for policy 0, policy_version 337977 (0.0007)
+[2023-07-06 12:26:09,764][98243] Fps is (10 sec: 114688.4, 60 sec: 111957.4, 300 sec: 112077.7). Total num frames: 692224000. Throughput: 0: 27887.0. Samples: 173071360. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:26:09,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:26:09,870][98493] Updated weights for policy 0, policy_version 338022 (0.0007)
+[2023-07-06 12:26:11,161][98493] Updated weights for policy 0, policy_version 338064 (0.0016)
+[2023-07-06 12:26:12,545][98493] Updated weights for policy 0, policy_version 338116 (0.0007)
+[2023-07-06 12:26:13,557][98493] Updated weights for policy 0, policy_version 338178 (0.0007)
+[2023-07-06 12:26:13,953][98493] Updated weights for policy 0, policy_version 338225 (0.0008)
+[2023-07-06 12:26:14,253][98493] Updated weights for policy 0, policy_version 338256 (0.0007)
+[2023-07-06 12:26:14,764][98243] Fps is (10 sec: 117970.3, 60 sec: 113595.9, 300 sec: 112188.7). Total num frames: 692846592. Throughput: 0: 27875.6. Samples: 173237760. Policy #0 lag: (min: 10.0, avg: 97.4, max: 234.0)
+[2023-07-06 12:26:14,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 12:26:15,634][98493] Updated weights for policy 0, policy_version 338320 (0.0006)
+[2023-07-06 12:26:17,199][98493] Updated weights for policy 0, policy_version 338370 (0.0007)
+[2023-07-06 12:26:18,250][98493] Updated weights for policy 0, policy_version 338437 (0.0008)
+[2023-07-06 12:26:18,359][98449] Signal inference workers to stop experience collection... (17450 times)
+[2023-07-06 12:26:18,398][98493] InferenceWorker_p0-w0: stopping experience collection (17450 times)
+[2023-07-06 12:26:18,472][98449] Signal inference workers to resume experience collection... (17450 times)
+[2023-07-06 12:26:18,473][98493] InferenceWorker_p0-w0: resuming experience collection (17450 times)
+[2023-07-06 12:26:18,689][98493] Updated weights for policy 0, policy_version 338488 (0.0007)
+[2023-07-06 12:26:19,390][98493] Updated weights for policy 0, policy_version 338536 (0.0007)
+[2023-07-06 12:26:19,764][98243] Fps is (10 sec: 114687.4, 60 sec: 112503.4, 300 sec: 112188.8). Total num frames: 693370880. Throughput: 0: 27841.4. Samples: 173403648. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:19,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:26:20,439][98493] Updated weights for policy 0, policy_version 338594 (0.0006)
+[2023-07-06 12:26:22,234][98493] Updated weights for policy 0, policy_version 338661 (0.0006)
+[2023-07-06 12:26:23,335][98493] Updated weights for policy 0, policy_version 338720 (0.0007)
+[2023-07-06 12:26:23,654][98493] Updated weights for policy 0, policy_version 338747 (0.0006)
+[2023-07-06 12:26:24,185][98493] Updated weights for policy 0, policy_version 338809 (0.0008)
+[2023-07-06 12:26:24,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 693895168. Throughput: 0: 27955.2. Samples: 173489664. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:24,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:26:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000338816_693895168.pth...
+[2023-07-06 12:26:24,879][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000325696_667025408.pth
+[2023-07-06 12:26:25,263][98493] Updated weights for policy 0, policy_version 338864 (0.0007)
+[2023-07-06 12:26:26,680][98493] Updated weights for policy 0, policy_version 338901 (0.0007)
+[2023-07-06 12:26:27,003][98493] Updated weights for policy 0, policy_version 338943 (0.0007)
+[2023-07-06 12:26:28,009][98493] Updated weights for policy 0, policy_version 338982 (0.0007)
+[2023-07-06 12:26:28,715][98493] Updated weights for policy 0, policy_version 339049 (0.0007)
+[2023-07-06 12:26:29,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112503.5, 300 sec: 112188.9). Total num frames: 694484992. Throughput: 0: 27966.6. Samples: 173654528. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:26:29,808][98493] Updated weights for policy 0, policy_version 339107 (0.0007)
+[2023-07-06 12:26:31,412][98493] Updated weights for policy 0, policy_version 339143 (0.0007)
+[2023-07-06 12:26:31,855][98493] Updated weights for policy 0, policy_version 339195 (0.0006)
+[2023-07-06 12:26:32,618][98493] Updated weights for policy 0, policy_version 339248 (0.0010)
+[2023-07-06 12:26:33,179][98493] Updated weights for policy 0, policy_version 339282 (0.0007)
+[2023-07-06 12:26:34,273][98493] Updated weights for policy 0, policy_version 339333 (0.0006)
+[2023-07-06 12:26:34,764][98243] Fps is (10 sec: 117963.6, 60 sec: 113595.5, 300 sec: 112188.7). Total num frames: 695074816. Throughput: 0: 27989.3. Samples: 173823488. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:34,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:26:35,994][98493] Updated weights for policy 0, policy_version 339395 (0.0007)
+[2023-07-06 12:26:36,436][98493] Updated weights for policy 0, policy_version 339448 (0.0007)
+[2023-07-06 12:26:37,259][98449] Signal inference workers to stop experience collection... (17500 times)
+[2023-07-06 12:26:37,297][98493] InferenceWorker_p0-w0: stopping experience collection (17500 times)
+[2023-07-06 12:26:37,298][98493] Updated weights for policy 0, policy_version 339495 (0.0007)
+[2023-07-06 12:26:37,342][98449] Signal inference workers to resume experience collection... (17500 times)
+[2023-07-06 12:26:37,343][98493] InferenceWorker_p0-w0: resuming experience collection (17500 times)
+[2023-07-06 12:26:37,903][98493] Updated weights for policy 0, policy_version 339552 (0.0007)
+[2023-07-06 12:26:39,169][98493] Updated weights for policy 0, policy_version 339607 (0.0007)
+[2023-07-06 12:26:39,764][98243] Fps is (10 sec: 111409.6, 60 sec: 113595.5, 300 sec: 112077.6). Total num frames: 695599104. Throughput: 0: 27966.7. Samples: 173909504. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:39,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:26:40,580][98493] Updated weights for policy 0, policy_version 339652 (0.0007)
+[2023-07-06 12:26:41,016][98493] Updated weights for policy 0, policy_version 339708 (0.0006)
+[2023-07-06 12:26:42,189][98493] Updated weights for policy 0, policy_version 339762 (0.0007)
+[2023-07-06 12:26:42,753][98493] Updated weights for policy 0, policy_version 339797 (0.0008)
+[2023-07-06 12:26:43,533][98493] Updated weights for policy 0, policy_version 339843 (0.0008)
+[2023-07-06 12:26:44,000][98493] Updated weights for policy 0, policy_version 339904 (0.0006)
+[2023-07-06 12:26:44,764][98243] Fps is (10 sec: 104859.2, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 696123392. Throughput: 0: 27898.3. Samples: 174075392. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:44,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:26:45,394][98493] Updated weights for policy 0, policy_version 339941 (0.0007)
+[2023-07-06 12:26:46,800][98493] Updated weights for policy 0, policy_version 340000 (0.0008)
+[2023-07-06 12:26:47,432][98493] Updated weights for policy 0, policy_version 340057 (0.0013)
+[2023-07-06 12:26:48,131][98493] Updated weights for policy 0, policy_version 340098 (0.0008)
+[2023-07-06 12:26:48,591][98493] Updated weights for policy 0, policy_version 340151 (0.0008)
+[2023-07-06 12:26:49,764][98243] Fps is (10 sec: 111412.5, 60 sec: 112503.7, 300 sec: 111744.4). Total num frames: 696713216. Throughput: 0: 28046.5. Samples: 174246400. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:26:49,800][98493] Updated weights for policy 0, policy_version 340198 (0.0007)
+[2023-07-06 12:26:51,439][98493] Updated weights for policy 0, policy_version 340256 (0.0007)
+[2023-07-06 12:26:52,243][98493] Updated weights for policy 0, policy_version 340313 (0.0007)
+[2023-07-06 12:26:52,902][98493] Updated weights for policy 0, policy_version 340368 (0.0008)
+[2023-07-06 12:26:54,306][98493] Updated weights for policy 0, policy_version 340418 (0.0007)
+[2023-07-06 12:26:54,764][98243] Fps is (10 sec: 114687.7, 60 sec: 113050.1, 300 sec: 111855.5). Total num frames: 697270272. Throughput: 0: 27966.5. Samples: 174329856. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:26:55,841][98493] Updated weights for policy 0, policy_version 340481 (0.0007)
+[2023-07-06 12:26:56,341][98493] Updated weights for policy 0, policy_version 340544 (0.0007)
+[2023-07-06 12:26:56,879][98449] Signal inference workers to stop experience collection... (17550 times)
+[2023-07-06 12:26:56,914][98493] InferenceWorker_p0-w0: stopping experience collection (17550 times)
+[2023-07-06 12:26:56,963][98449] Signal inference workers to resume experience collection... (17550 times)
+[2023-07-06 12:26:56,963][98493] InferenceWorker_p0-w0: resuming experience collection (17550 times)
+[2023-07-06 12:26:57,190][98493] Updated weights for policy 0, policy_version 340605 (0.0007)
+[2023-07-06 12:26:57,858][98493] Updated weights for policy 0, policy_version 340640 (0.0008)
+[2023-07-06 12:26:59,226][98493] Updated weights for policy 0, policy_version 340704 (0.0007)
+[2023-07-06 12:26:59,764][98243] Fps is (10 sec: 111409.3, 60 sec: 112503.1, 300 sec: 111966.5). Total num frames: 697827328. Throughput: 0: 28012.0. Samples: 174498304. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:26:59,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:27:00,614][98493] Updated weights for policy 0, policy_version 340752 (0.0008)
+[2023-07-06 12:27:01,009][98493] Updated weights for policy 0, policy_version 340797 (0.0006)
+[2023-07-06 12:27:01,643][98493] Updated weights for policy 0, policy_version 340848 (0.0006)
+[2023-07-06 12:27:02,565][98493] Updated weights for policy 0, policy_version 340898 (0.0006)
+[2023-07-06 12:27:03,934][98493] Updated weights for policy 0, policy_version 340951 (0.0007)
+[2023-07-06 12:27:04,764][98243] Fps is (10 sec: 108133.3, 60 sec: 111411.8, 300 sec: 111966.5). Total num frames: 698351616. Throughput: 0: 28091.7. Samples: 174667776. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:27:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:27:05,168][98493] Updated weights for policy 0, policy_version 341008 (0.0007)
+[2023-07-06 12:27:05,572][98493] Updated weights for policy 0, policy_version 341056 (0.0007)
+[2023-07-06 12:27:06,378][98493] Updated weights for policy 0, policy_version 341114 (0.0007)
+[2023-07-06 12:27:07,254][98493] Updated weights for policy 0, policy_version 341168 (0.0008)
+[2023-07-06 12:27:08,631][98493] Updated weights for policy 0, policy_version 341216 (0.0007)
+[2023-07-06 12:27:09,752][98493] Updated weights for policy 0, policy_version 341249 (0.0008)
+[2023-07-06 12:27:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110864.6, 300 sec: 111744.3). Total num frames: 698875904. Throughput: 0: 28012.0. Samples: 174750208. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:27:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:27:10,479][98493] Updated weights for policy 0, policy_version 341318 (0.0007)
+[2023-07-06 12:27:10,957][98493] Updated weights for policy 0, policy_version 341376 (0.0007)
+[2023-07-06 12:27:12,052][98493] Updated weights for policy 0, policy_version 341435 (0.0007)
+[2023-07-06 12:27:13,349][98493] Updated weights for policy 0, policy_version 341500 (0.0007)
+[2023-07-06 12:27:14,764][98243] Fps is (10 sec: 108136.3, 60 sec: 109772.9, 300 sec: 111744.4). Total num frames: 699432960. Throughput: 0: 28091.8. Samples: 174918656. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:27:14,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:27:14,911][98493] Updated weights for policy 0, policy_version 341552 (0.0007)
+[2023-07-06 12:27:15,360][98493] Updated weights for policy 0, policy_version 341600 (0.0007)
+[2023-07-06 12:27:15,420][98449] Signal inference workers to stop experience collection... (17600 times)
+[2023-07-06 12:27:15,452][98493] InferenceWorker_p0-w0: stopping experience collection (17600 times)
+[2023-07-06 12:27:15,510][98449] Signal inference workers to resume experience collection... (17600 times)
+[2023-07-06 12:27:15,511][98493] InferenceWorker_p0-w0: resuming experience collection (17600 times)
+[2023-07-06 12:27:16,365][98493] Updated weights for policy 0, policy_version 341633 (0.0006)
+[2023-07-06 12:27:17,731][98493] Updated weights for policy 0, policy_version 341697 (0.0007)
+[2023-07-06 12:27:18,216][98493] Updated weights for policy 0, policy_version 341760 (0.0007)
+[2023-07-06 12:27:19,732][98493] Updated weights for policy 0, policy_version 341819 (0.0007)
+[2023-07-06 12:27:19,764][98243] Fps is (10 sec: 114690.3, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 700022784. Throughput: 0: 28114.6. Samples: 175088640. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:27:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:27:20,385][98493] Updated weights for policy 0, policy_version 341883 (0.0007)
+[2023-07-06 12:27:21,304][98493] Updated weights for policy 0, policy_version 341936 (0.0006)
+[2023-07-06 12:27:22,449][98493] Updated weights for policy 0, policy_version 341973 (0.0006)
+[2023-07-06 12:27:23,954][98493] Updated weights for policy 0, policy_version 342048 (0.0007)
+[2023-07-06 12:27:24,764][98243] Fps is (10 sec: 114686.0, 60 sec: 111411.1, 300 sec: 111966.5). Total num frames: 700579840. Throughput: 0: 28046.2. Samples: 175171584. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:27:24,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:27:24,945][98493] Updated weights for policy 0, policy_version 342101 (0.0007)
+[2023-07-06 12:27:25,607][98493] Updated weights for policy 0, policy_version 342176 (0.0007)
+[2023-07-06 12:27:27,004][98493] Updated weights for policy 0, policy_version 342224 (0.0006)
+[2023-07-06 12:27:28,719][98493] Updated weights for policy 0, policy_version 342275 (0.0007)
+[2023-07-06 12:27:29,184][98493] Updated weights for policy 0, policy_version 342336 (0.0007)
+[2023-07-06 12:27:29,764][98243] Fps is (10 sec: 111411.2, 60 sec: 110865.0, 300 sec: 112077.7). Total num frames: 701136896. Throughput: 0: 28171.4. Samples: 175343104. Policy #0 lag: (min: 15.0, avg: 136.2, max: 271.0)
+[2023-07-06 12:27:29,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:27:30,095][98493] Updated weights for policy 0, policy_version 342386 (0.0009)
+[2023-07-06 12:27:30,598][98493] Updated weights for policy 0, policy_version 342448 (0.0007)
+[2023-07-06 12:27:31,999][98493] Updated weights for policy 0, policy_version 342504 (0.0007)
+[2023-07-06 12:27:33,626][98493] Updated weights for policy 0, policy_version 342546 (0.0007)
+[2023-07-06 12:27:34,324][98493] Updated weights for policy 0, policy_version 342593 (0.0007)
+[2023-07-06 12:27:34,717][98449] Signal inference workers to stop experience collection... (17650 times)
+[2023-07-06 12:27:34,755][98493] InferenceWorker_p0-w0: stopping experience collection (17650 times)
+[2023-07-06 12:27:34,764][98243] Fps is (10 sec: 114689.9, 60 sec: 110865.4, 300 sec: 112299.8). Total num frames: 701726720. Throughput: 0: 28023.5. Samples: 175507456. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:27:34,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:27:34,802][98449] Signal inference workers to resume experience collection... (17650 times)
+[2023-07-06 12:27:34,803][98493] InferenceWorker_p0-w0: resuming experience collection (17650 times)
+[2023-07-06 12:27:34,804][98493] Updated weights for policy 0, policy_version 342656 (0.0008)
+[2023-07-06 12:27:35,365][98493] Updated weights for policy 0, policy_version 342720 (0.0007)
+[2023-07-06 12:27:36,929][98493] Updated weights for policy 0, policy_version 342776 (0.0007)
+[2023-07-06 12:27:38,478][98493] Updated weights for policy 0, policy_version 342832 (0.0007)
+[2023-07-06 12:27:39,365][98493] Updated weights for policy 0, policy_version 342896 (0.0007)
+[2023-07-06 12:27:39,765][98243] Fps is (10 sec: 117962.0, 60 sec: 111957.1, 300 sec: 112299.7). Total num frames: 702316544. Throughput: 0: 28080.2. Samples: 175593472. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:27:39,766][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:27:39,950][98493] Updated weights for policy 0, policy_version 342960 (0.0008)
+[2023-07-06 12:27:41,605][98493] Updated weights for policy 0, policy_version 343024 (0.0008)
+[2023-07-06 12:27:42,948][98493] Updated weights for policy 0, policy_version 343072 (0.0007)
+[2023-07-06 12:27:43,879][98493] Updated weights for policy 0, policy_version 343123 (0.0008)
+[2023-07-06 12:27:44,476][98493] Updated weights for policy 0, policy_version 343191 (0.0008)
+[2023-07-06 12:27:44,764][98243] Fps is (10 sec: 117964.2, 60 sec: 113049.6, 300 sec: 112188.7). Total num frames: 702906368. Throughput: 0: 28069.1. Samples: 175761408. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:27:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:27:45,881][98493] Updated weights for policy 0, policy_version 343235 (0.0007)
+[2023-07-06 12:27:46,258][98493] Updated weights for policy 0, policy_version 343282 (0.0008)
+[2023-07-06 12:27:47,504][98493] Updated weights for policy 0, policy_version 343332 (0.0007)
+[2023-07-06 12:27:48,448][98493] Updated weights for policy 0, policy_version 343365 (0.0006)
+[2023-07-06 12:27:49,164][98493] Updated weights for policy 0, policy_version 343447 (0.0008)
+[2023-07-06 12:27:49,764][98243] Fps is (10 sec: 114687.6, 60 sec: 112503.0, 300 sec: 112077.6). Total num frames: 703463424. Throughput: 0: 27898.2. Samples: 175923200. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:27:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:27:50,644][98493] Updated weights for policy 0, policy_version 343493 (0.0007)
+[2023-07-06 12:27:52,009][98493] Updated weights for policy 0, policy_version 343556 (0.0007)
+[2023-07-06 12:27:52,454][98493] Updated weights for policy 0, policy_version 343610 (0.0006)
+[2023-07-06 12:27:53,043][98449] Signal inference workers to stop experience collection... (17700 times)
+[2023-07-06 12:27:53,087][98493] InferenceWorker_p0-w0: stopping experience collection (17700 times)
+[2023-07-06 12:27:53,131][98449] Signal inference workers to resume experience collection... (17700 times)
+[2023-07-06 12:27:53,131][98493] InferenceWorker_p0-w0: resuming experience collection (17700 times)
+[2023-07-06 12:27:53,261][98493] Updated weights for policy 0, policy_version 343664 (0.0007)
+[2023-07-06 12:27:53,715][98493] Updated weights for policy 0, policy_version 343712 (0.0007)
+[2023-07-06 12:27:54,764][98243] Fps is (10 sec: 108133.2, 60 sec: 111957.2, 300 sec: 111966.6). Total num frames: 703987712. Throughput: 0: 28023.5. Samples: 176011264. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:27:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:27:55,528][98493] Updated weights for policy 0, policy_version 343750 (0.0006)
+[2023-07-06 12:27:56,498][98493] Updated weights for policy 0, policy_version 343810 (0.0007)
+[2023-07-06 12:27:56,922][98493] Updated weights for policy 0, policy_version 343868 (0.0007)
+[2023-07-06 12:27:58,103][98493] Updated weights for policy 0, policy_version 343929 (0.0007)
+[2023-07-06 12:27:58,638][98493] Updated weights for policy 0, policy_version 343993 (0.0006)
+[2023-07-06 12:27:59,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.2, 300 sec: 111966.5). Total num frames: 704512000. Throughput: 0: 27864.0. Samples: 176172544. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:27:59,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:28:00,491][98493] Updated weights for policy 0, policy_version 344038 (0.0007)
+[2023-07-06 12:28:01,230][98493] Updated weights for policy 0, policy_version 344080 (0.0008)
+[2023-07-06 12:28:01,657][98493] Updated weights for policy 0, policy_version 344128 (0.0007)
+[2023-07-06 12:28:02,928][98493] Updated weights for policy 0, policy_version 344181 (0.0008)
+[2023-07-06 12:28:03,403][98493] Updated weights for policy 0, policy_version 344240 (0.0007)
+[2023-07-06 12:28:04,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.3, 300 sec: 111966.8). Total num frames: 705036288. Throughput: 0: 27989.3. Samples: 176348160. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:28:05,166][98493] Updated weights for policy 0, policy_version 344288 (0.0007)
+[2023-07-06 12:28:05,683][98493] Updated weights for policy 0, policy_version 344321 (0.0006)
+[2023-07-06 12:28:06,181][98493] Updated weights for policy 0, policy_version 344384 (0.0007)
+[2023-07-06 12:28:07,680][98493] Updated weights for policy 0, policy_version 344448 (0.0007)
+[2023-07-06 12:28:08,185][98493] Updated weights for policy 0, policy_version 344506 (0.0008)
+[2023-07-06 12:28:09,754][98493] Updated weights for policy 0, policy_version 344548 (0.0006)
+[2023-07-06 12:28:09,764][98243] Fps is (10 sec: 111413.2, 60 sec: 112503.8, 300 sec: 112077.6). Total num frames: 705626112. Throughput: 0: 28000.8. Samples: 176431616. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:09,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:28:10,342][98449] Signal inference workers to stop experience collection... (17750 times)
+[2023-07-06 12:28:10,369][98493] InferenceWorker_p0-w0: stopping experience collection (17750 times)
+[2023-07-06 12:28:10,378][98493] Updated weights for policy 0, policy_version 344617 (0.0008)
+[2023-07-06 12:28:10,411][98449] Signal inference workers to resume experience collection... (17750 times)
+[2023-07-06 12:28:10,412][98493] InferenceWorker_p0-w0: resuming experience collection (17750 times)
+[2023-07-06 12:28:12,019][98493] Updated weights for policy 0, policy_version 344672 (0.0008)
+[2023-07-06 12:28:12,661][98493] Updated weights for policy 0, policy_version 344730 (0.0007)
+[2023-07-06 12:28:14,199][98493] Updated weights for policy 0, policy_version 344793 (0.0007)
+[2023-07-06 12:28:14,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113049.1, 300 sec: 112188.7). Total num frames: 706215936. Throughput: 0: 27943.7. Samples: 176600576. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:14,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:28:14,880][98493] Updated weights for policy 0, policy_version 344848 (0.0006)
+[2023-07-06 12:28:15,293][98493] Updated weights for policy 0, policy_version 344896 (0.0006)
+[2023-07-06 12:28:16,824][98493] Updated weights for policy 0, policy_version 344950 (0.0007)
+[2023-07-06 12:28:17,435][98493] Updated weights for policy 0, policy_version 344997 (0.0006)
+[2023-07-06 12:28:19,039][98493] Updated weights for policy 0, policy_version 345058 (0.0007)
+[2023-07-06 12:28:19,688][98493] Updated weights for policy 0, policy_version 345123 (0.0007)
+[2023-07-06 12:28:19,764][98243] Fps is (10 sec: 121241.7, 60 sec: 113595.7, 300 sec: 112299.9). Total num frames: 706838528. Throughput: 0: 28012.1. Samples: 176768000. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:19,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:28:21,289][98493] Updated weights for policy 0, policy_version 345177 (0.0007)
+[2023-07-06 12:28:21,849][98493] Updated weights for policy 0, policy_version 345232 (0.0006)
+[2023-07-06 12:28:22,272][98493] Updated weights for policy 0, policy_version 345280 (0.0007)
+[2023-07-06 12:28:23,888][98493] Updated weights for policy 0, policy_version 345339 (0.0007)
+[2023-07-06 12:28:24,532][98493] Updated weights for policy 0, policy_version 345402 (0.0007)
+[2023-07-06 12:28:24,764][98243] Fps is (10 sec: 117966.2, 60 sec: 113595.8, 300 sec: 112410.9). Total num frames: 707395584. Throughput: 0: 27978.1. Samples: 176852480. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:28:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000345408_707395584.pth...
+[2023-07-06 12:28:24,810][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000332256_680460288.pth
+[2023-07-06 12:28:26,248][98493] Updated weights for policy 0, policy_version 345447 (0.0007)
+[2023-07-06 12:28:26,842][98493] Updated weights for policy 0, policy_version 345504 (0.0007)
+[2023-07-06 12:28:28,101][98493] Updated weights for policy 0, policy_version 345552 (0.0006)
+[2023-07-06 12:28:28,756][98493] Updated weights for policy 0, policy_version 345616 (0.0007)
+[2023-07-06 12:28:29,764][98243] Fps is (10 sec: 108132.8, 60 sec: 113049.3, 300 sec: 112077.6). Total num frames: 707919872. Throughput: 0: 27955.1. Samples: 177019392. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:28:30,643][98449] Signal inference workers to stop experience collection... (17800 times)
+[2023-07-06 12:28:30,695][98493] InferenceWorker_p0-w0: stopping experience collection (17800 times)
+[2023-07-06 12:28:30,699][98493] Updated weights for policy 0, policy_version 345690 (0.0008)
+[2023-07-06 12:28:30,727][98449] Signal inference workers to resume experience collection... (17800 times)
+[2023-07-06 12:28:30,727][98493] InferenceWorker_p0-w0: resuming experience collection (17800 times)
+[2023-07-06 12:28:31,271][98493] Updated weights for policy 0, policy_version 345732 (0.0007)
+[2023-07-06 12:28:31,700][98493] Updated weights for policy 0, policy_version 345787 (0.0008)
+[2023-07-06 12:28:33,262][98493] Updated weights for policy 0, policy_version 345851 (0.0008)
+[2023-07-06 12:28:33,841][98493] Updated weights for policy 0, policy_version 345914 (0.0007)
+[2023-07-06 12:28:34,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111956.9, 300 sec: 111966.5). Total num frames: 708444160. Throughput: 0: 28091.8. Samples: 177187328. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:34,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:28:35,789][98493] Updated weights for policy 0, policy_version 345968 (0.0007)
+[2023-07-06 12:28:36,350][98493] Updated weights for policy 0, policy_version 346023 (0.0007)
+[2023-07-06 12:28:37,733][98493] Updated weights for policy 0, policy_version 346080 (0.0007)
+[2023-07-06 12:28:38,316][98493] Updated weights for policy 0, policy_version 346144 (0.0007)
+[2023-07-06 12:28:39,764][98243] Fps is (10 sec: 104858.1, 60 sec: 110865.3, 300 sec: 111966.6). Total num frames: 708968448. Throughput: 0: 28012.1. Samples: 177271808. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:39,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:28:40,459][98493] Updated weights for policy 0, policy_version 346208 (0.0007)
+[2023-07-06 12:28:41,080][98493] Updated weights for policy 0, policy_version 346277 (0.0007)
+[2023-07-06 12:28:42,472][98493] Updated weights for policy 0, policy_version 346336 (0.0006)
+[2023-07-06 12:28:43,195][98493] Updated weights for policy 0, policy_version 346400 (0.0006)
+[2023-07-06 12:28:44,764][98243] Fps is (10 sec: 104859.4, 60 sec: 109772.8, 300 sec: 111855.5). Total num frames: 709492736. Throughput: 0: 27955.3. Samples: 177430528. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:28:45,297][98493] Updated weights for policy 0, policy_version 346457 (0.0016)
+[2023-07-06 12:28:45,850][98493] Updated weights for policy 0, policy_version 346518 (0.0007)
+[2023-07-06 12:28:47,381][98493] Updated weights for policy 0, policy_version 346578 (0.0006)
+[2023-07-06 12:28:47,784][98449] Signal inference workers to stop experience collection... (17850 times)
+[2023-07-06 12:28:47,806][98493] Updated weights for policy 0, policy_version 346628 (0.0006)
+[2023-07-06 12:28:47,818][98493] InferenceWorker_p0-w0: stopping experience collection (17850 times)
+[2023-07-06 12:28:47,877][98449] Signal inference workers to resume experience collection... (17850 times)
+[2023-07-06 12:28:47,878][98493] InferenceWorker_p0-w0: resuming experience collection (17850 times)
+[2023-07-06 12:28:48,289][98493] Updated weights for policy 0, policy_version 346686 (0.0006)
+[2023-07-06 12:28:49,764][98243] Fps is (10 sec: 104858.7, 60 sec: 109227.2, 300 sec: 111633.3). Total num frames: 710017024. Throughput: 0: 27841.5. Samples: 177601024. Policy #0 lag: (min: 29.0, avg: 159.9, max: 285.0)
+[2023-07-06 12:28:49,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:28:50,332][98493] Updated weights for policy 0, policy_version 346737 (0.0007)
+[2023-07-06 12:28:50,712][98493] Updated weights for policy 0, policy_version 346784 (0.0007)
+[2023-07-06 12:28:51,734][98493] Updated weights for policy 0, policy_version 346819 (0.0006)
+[2023-07-06 12:28:52,218][98493] Updated weights for policy 0, policy_version 346880 (0.0007)
+[2023-07-06 12:28:52,668][98493] Updated weights for policy 0, policy_version 346928 (0.0006)
+[2023-07-06 12:28:54,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 710541312. Throughput: 0: 27761.8. Samples: 177680896. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:28:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:28:55,066][98493] Updated weights for policy 0, policy_version 346981 (0.0014)
+[2023-07-06 12:28:55,623][98493] Updated weights for policy 0, policy_version 347048 (0.0008)
+[2023-07-06 12:28:56,421][98493] Updated weights for policy 0, policy_version 347090 (0.0007)
+[2023-07-06 12:28:56,855][98493] Updated weights for policy 0, policy_version 347140 (0.0007)
+[2023-07-06 12:28:57,293][98493] Updated weights for policy 0, policy_version 347198 (0.0007)
+[2023-07-06 12:28:59,764][98243] Fps is (10 sec: 111411.5, 60 sec: 110319.3, 300 sec: 111633.7). Total num frames: 711131136. Throughput: 0: 27807.4. Samples: 177851904. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:28:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:28:59,948][98493] Updated weights for policy 0, policy_version 347258 (0.0008)
+[2023-07-06 12:29:00,476][98493] Updated weights for policy 0, policy_version 347325 (0.0006)
+[2023-07-06 12:29:01,528][98493] Updated weights for policy 0, policy_version 347392 (0.0007)
+[2023-07-06 12:29:02,034][98493] Updated weights for policy 0, policy_version 347452 (0.0010)
+[2023-07-06 12:29:04,764][98243] Fps is (10 sec: 108133.2, 60 sec: 109772.7, 300 sec: 111522.2). Total num frames: 711622656. Throughput: 0: 27727.6. Samples: 178015744. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:29:05,057][98493] Updated weights for policy 0, policy_version 347520 (0.0008)
+[2023-07-06 12:29:05,219][98449] Signal inference workers to stop experience collection... (17900 times)
+[2023-07-06 12:29:05,270][98493] InferenceWorker_p0-w0: stopping experience collection (17900 times)
+[2023-07-06 12:29:05,316][98449] Signal inference workers to resume experience collection... (17900 times)
+[2023-07-06 12:29:05,316][98493] InferenceWorker_p0-w0: resuming experience collection (17900 times)
+[2023-07-06 12:29:05,526][98493] Updated weights for policy 0, policy_version 347578 (0.0007)
+[2023-07-06 12:29:06,066][98493] Updated weights for policy 0, policy_version 347632 (0.0007)
+[2023-07-06 12:29:06,608][98493] Updated weights for policy 0, policy_version 347681 (0.0007)
+[2023-07-06 12:29:09,511][98493] Updated weights for policy 0, policy_version 347744 (0.0007)
+[2023-07-06 12:29:09,764][98243] Fps is (10 sec: 108134.6, 60 sec: 109772.9, 300 sec: 111411.2). Total num frames: 712212480. Throughput: 0: 27579.8. Samples: 178093568. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:09,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:29:10,003][98493] Updated weights for policy 0, policy_version 347798 (0.0007)
+[2023-07-06 12:29:10,524][98493] Updated weights for policy 0, policy_version 347845 (0.0006)
+[2023-07-06 12:29:11,096][98493] Updated weights for policy 0, policy_version 347911 (0.0007)
+[2023-07-06 12:29:11,553][98493] Updated weights for policy 0, policy_version 347961 (0.0007)
+[2023-07-06 12:29:14,162][98493] Updated weights for policy 0, policy_version 348006 (0.0019)
+[2023-07-06 12:29:14,748][98493] Updated weights for policy 0, policy_version 348068 (0.0007)
+[2023-07-06 12:29:14,764][98243] Fps is (10 sec: 121242.8, 60 sec: 110319.2, 300 sec: 111744.4). Total num frames: 712835072. Throughput: 0: 27750.5. Samples: 178268160. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:14,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:29:15,356][98493] Updated weights for policy 0, policy_version 348122 (0.0007)
+[2023-07-06 12:29:15,793][98493] Updated weights for policy 0, policy_version 348162 (0.0008)
+[2023-07-06 12:29:16,292][98493] Updated weights for policy 0, policy_version 348224 (0.0007)
+[2023-07-06 12:29:19,087][98493] Updated weights for policy 0, policy_version 348288 (0.0007)
+[2023-07-06 12:29:19,635][98493] Updated weights for policy 0, policy_version 348343 (0.0007)
+[2023-07-06 12:29:19,764][98243] Fps is (10 sec: 121239.1, 60 sec: 109772.5, 300 sec: 111966.6). Total num frames: 713424896. Throughput: 0: 27591.1. Samples: 178428928. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:19,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:29:20,128][98493] Updated weights for policy 0, policy_version 348393 (0.0007)
+[2023-07-06 12:29:20,669][98493] Updated weights for policy 0, policy_version 348441 (0.0007)
+[2023-07-06 12:29:23,623][98493] Updated weights for policy 0, policy_version 348512 (0.0007)
+[2023-07-06 12:29:23,668][98449] Signal inference workers to stop experience collection... (17950 times)
+[2023-07-06 12:29:23,697][98493] InferenceWorker_p0-w0: stopping experience collection (17950 times)
+[2023-07-06 12:29:23,766][98449] Signal inference workers to resume experience collection... (17950 times)
+[2023-07-06 12:29:23,766][98493] InferenceWorker_p0-w0: resuming experience collection (17950 times)
+[2023-07-06 12:29:24,183][98493] Updated weights for policy 0, policy_version 348576 (0.0007)
+[2023-07-06 12:29:24,718][98493] Updated weights for policy 0, policy_version 348629 (0.0007)
+[2023-07-06 12:29:24,764][98243] Fps is (10 sec: 114688.0, 60 sec: 109772.9, 300 sec: 111966.6). Total num frames: 713981952. Throughput: 0: 27613.9. Samples: 178514432. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:24,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:29:25,334][98493] Updated weights for policy 0, policy_version 348694 (0.0008)
+[2023-07-06 12:29:28,140][98493] Updated weights for policy 0, policy_version 348752 (0.0007)
+[2023-07-06 12:29:28,706][98493] Updated weights for policy 0, policy_version 348816 (0.0032)
+[2023-07-06 12:29:29,088][98493] Updated weights for policy 0, policy_version 348862 (0.0008)
+[2023-07-06 12:29:29,669][98493] Updated weights for policy 0, policy_version 348912 (0.0007)
+[2023-07-06 12:29:29,764][98243] Fps is (10 sec: 114687.1, 60 sec: 110864.9, 300 sec: 111855.4). Total num frames: 714571776. Throughput: 0: 27738.9. Samples: 178678784. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:29,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:29:30,270][98493] Updated weights for policy 0, policy_version 348976 (0.0008)
+[2023-07-06 12:29:33,317][98493] Updated weights for policy 0, policy_version 349028 (0.0008)
+[2023-07-06 12:29:33,772][98493] Updated weights for policy 0, policy_version 349079 (0.0007)
+[2023-07-06 12:29:34,319][98493] Updated weights for policy 0, policy_version 349140 (0.0008)
+[2023-07-06 12:29:34,764][98243] Fps is (10 sec: 114688.5, 60 sec: 111411.6, 300 sec: 111966.7). Total num frames: 715128832. Throughput: 0: 27545.6. Samples: 178840576. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:34,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:29:34,851][98493] Updated weights for policy 0, policy_version 349201 (0.0008)
+[2023-07-06 12:29:35,190][98493] Updated weights for policy 0, policy_version 349245 (0.0007)
+[2023-07-06 12:29:38,394][98493] Updated weights for policy 0, policy_version 349300 (0.0007)
+[2023-07-06 12:29:38,974][98493] Updated weights for policy 0, policy_version 349369 (0.0007)
+[2023-07-06 12:29:39,212][98449] Signal inference workers to stop experience collection... (18000 times)
+[2023-07-06 12:29:39,236][98493] InferenceWorker_p0-w0: stopping experience collection (18000 times)
+[2023-07-06 12:29:39,289][98449] Signal inference workers to resume experience collection... (18000 times)
+[2023-07-06 12:29:39,289][98493] InferenceWorker_p0-w0: resuming experience collection (18000 times)
+[2023-07-06 12:29:39,523][98493] Updated weights for policy 0, policy_version 349433 (0.0007)
+[2023-07-06 12:29:39,764][98243] Fps is (10 sec: 111413.3, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 715685888. Throughput: 0: 27818.6. Samples: 178932736. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:29:40,062][98493] Updated weights for policy 0, policy_version 349497 (0.0007)
+[2023-07-06 12:29:43,004][98493] Updated weights for policy 0, policy_version 349552 (0.0009)
+[2023-07-06 12:29:43,628][98493] Updated weights for policy 0, policy_version 349618 (0.0008)
+[2023-07-06 12:29:44,067][98493] Updated weights for policy 0, policy_version 349671 (0.0007)
+[2023-07-06 12:29:44,580][98493] Updated weights for policy 0, policy_version 349728 (0.0007)
+[2023-07-06 12:29:44,764][98243] Fps is (10 sec: 114688.0, 60 sec: 113049.7, 300 sec: 111855.5). Total num frames: 716275712. Throughput: 0: 27557.0. Samples: 179091968. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:44,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:29:47,619][98493] Updated weights for policy 0, policy_version 349776 (0.0007)
+[2023-07-06 12:29:48,098][98493] Updated weights for policy 0, policy_version 349829 (0.0008)
+[2023-07-06 12:29:48,569][98493] Updated weights for policy 0, policy_version 349888 (0.0008)
+[2023-07-06 12:29:49,119][98493] Updated weights for policy 0, policy_version 349952 (0.0008)
+[2023-07-06 12:29:49,605][98493] Updated weights for policy 0, policy_version 350012 (0.0006)
+[2023-07-06 12:29:49,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113595.7, 300 sec: 111855.5). Total num frames: 716832768. Throughput: 0: 27522.9. Samples: 179254272. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:49,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:29:52,590][98493] Updated weights for policy 0, policy_version 350069 (0.0007)
+[2023-07-06 12:29:53,167][98493] Updated weights for policy 0, policy_version 350131 (0.0007)
+[2023-07-06 12:29:53,764][98493] Updated weights for policy 0, policy_version 350208 (0.0008)
+[2023-07-06 12:29:54,107][98449] Signal inference workers to stop experience collection... (18050 times)
+[2023-07-06 12:29:54,150][98493] InferenceWorker_p0-w0: stopping experience collection (18050 times)
+[2023-07-06 12:29:54,212][98449] Signal inference workers to resume experience collection... (18050 times)
+[2023-07-06 12:29:54,212][98493] InferenceWorker_p0-w0: resuming experience collection (18050 times)
+[2023-07-06 12:29:54,302][98493] Updated weights for policy 0, policy_version 350267 (0.0007)
+[2023-07-06 12:29:54,764][98243] Fps is (10 sec: 108133.4, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 717357056. Throughput: 0: 27784.5. Samples: 179343872. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:54,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:29:57,276][98493] Updated weights for policy 0, policy_version 350320 (0.0007)
+[2023-07-06 12:29:57,744][98493] Updated weights for policy 0, policy_version 350368 (0.0007)
+[2023-07-06 12:29:58,246][98493] Updated weights for policy 0, policy_version 350418 (0.0007)
+[2023-07-06 12:29:58,846][98493] Updated weights for policy 0, policy_version 350489 (0.0007)
+[2023-07-06 12:29:59,764][98243] Fps is (10 sec: 104857.6, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 717881344. Throughput: 0: 27443.2. Samples: 179503104. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:29:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:30:01,765][98493] Updated weights for policy 0, policy_version 350544 (0.0007)
+[2023-07-06 12:30:02,316][98493] Updated weights for policy 0, policy_version 350608 (0.0007)
+[2023-07-06 12:30:02,858][98493] Updated weights for policy 0, policy_version 350660 (0.0008)
+[2023-07-06 12:30:03,545][98493] Updated weights for policy 0, policy_version 350739 (0.0007)
+[2023-07-06 12:30:04,764][98243] Fps is (10 sec: 104858.2, 60 sec: 113049.8, 300 sec: 111522.3). Total num frames: 718405632. Throughput: 0: 27477.4. Samples: 179665408. Policy #0 lag: (min: 8.0, avg: 84.7, max: 248.0)
+[2023-07-06 12:30:04,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:30:06,706][98493] Updated weights for policy 0, policy_version 350807 (0.0007)
+[2023-07-06 12:30:07,230][98493] Updated weights for policy 0, policy_version 350871 (0.0007)
+[2023-07-06 12:30:07,692][98493] Updated weights for policy 0, policy_version 350928 (0.0007)
+[2023-07-06 12:30:08,190][98493] Updated weights for policy 0, policy_version 350981 (0.0008)
+[2023-07-06 12:30:08,616][98493] Updated weights for policy 0, policy_version 351038 (0.0007)
+[2023-07-06 12:30:09,765][98243] Fps is (10 sec: 104854.7, 60 sec: 111956.7, 300 sec: 111522.2). Total num frames: 718929920. Throughput: 0: 27454.4. Samples: 179749888. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:30:11,582][98493] Updated weights for policy 0, policy_version 351088 (0.0008)
+[2023-07-06 12:30:11,795][98449] Signal inference workers to stop experience collection... (18100 times)
+[2023-07-06 12:30:11,813][98493] InferenceWorker_p0-w0: stopping experience collection (18100 times)
+[2023-07-06 12:30:11,886][98449] Signal inference workers to resume experience collection... (18100 times)
+[2023-07-06 12:30:11,886][98493] InferenceWorker_p0-w0: resuming experience collection (18100 times)
+[2023-07-06 12:30:12,100][98493] Updated weights for policy 0, policy_version 351138 (0.0006)
+[2023-07-06 12:30:12,505][98493] Updated weights for policy 0, policy_version 351184 (0.0007)
+[2023-07-06 12:30:13,067][98493] Updated weights for policy 0, policy_version 351248 (0.0008)
+[2023-07-06 12:30:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 719454208. Throughput: 0: 27420.6. Samples: 179912704. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:14,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:30:15,807][98493] Updated weights for policy 0, policy_version 351303 (0.0007)
+[2023-07-06 12:30:16,236][98493] Updated weights for policy 0, policy_version 351356 (0.0007)
+[2023-07-06 12:30:16,828][98493] Updated weights for policy 0, policy_version 351397 (0.0007)
+[2023-07-06 12:30:17,294][98493] Updated weights for policy 0, policy_version 351456 (0.0009)
+[2023-07-06 12:30:17,835][98493] Updated weights for policy 0, policy_version 351520 (0.0006)
+[2023-07-06 12:30:19,764][98243] Fps is (10 sec: 104860.5, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 719978496. Throughput: 0: 27716.2. Samples: 180087808. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:19,774][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:30:20,649][98493] Updated weights for policy 0, policy_version 351554 (0.0006)
+[2023-07-06 12:30:21,176][98493] Updated weights for policy 0, policy_version 351616 (0.0008)
+[2023-07-06 12:30:21,615][98493] Updated weights for policy 0, policy_version 351664 (0.0007)
+[2023-07-06 12:30:22,094][98493] Updated weights for policy 0, policy_version 351714 (0.0007)
+[2023-07-06 12:30:22,536][98493] Updated weights for policy 0, policy_version 351765 (0.0008)
+[2023-07-06 12:30:22,858][98493] Updated weights for policy 0, policy_version 351808 (0.0006)
+[2023-07-06 12:30:24,764][98243] Fps is (10 sec: 104857.6, 60 sec: 108680.6, 300 sec: 111078.0). Total num frames: 720502784. Throughput: 0: 27454.6. Samples: 180168192. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:24,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:30:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000351808_720502784.pth...
+[2023-07-06 12:30:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000338816_693895168.pth
+[2023-07-06 12:30:25,759][98493] Updated weights for policy 0, policy_version 351872 (0.0007)
+[2023-07-06 12:30:26,257][98493] Updated weights for policy 0, policy_version 351922 (0.0009)
+[2023-07-06 12:30:26,708][98449] Signal inference workers to stop experience collection... (18150 times)
+[2023-07-06 12:30:26,747][98493] InferenceWorker_p0-w0: stopping experience collection (18150 times)
+[2023-07-06 12:30:26,748][98493] Updated weights for policy 0, policy_version 351977 (0.0007)
+[2023-07-06 12:30:26,803][98449] Signal inference workers to resume experience collection... (18150 times)
+[2023-07-06 12:30:26,804][98493] InferenceWorker_p0-w0: resuming experience collection (18150 times)
+[2023-07-06 12:30:27,307][98493] Updated weights for policy 0, policy_version 352034 (0.0007)
+[2023-07-06 12:30:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 107588.7, 300 sec: 111078.0). Total num frames: 721027072. Throughput: 0: 27693.5. Samples: 180338176. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:30:30,511][98493] Updated weights for policy 0, policy_version 352100 (0.0007)
+[2023-07-06 12:30:30,936][98493] Updated weights for policy 0, policy_version 352149 (0.0006)
+[2023-07-06 12:30:31,356][98493] Updated weights for policy 0, policy_version 352195 (0.0007)
+[2023-07-06 12:30:31,909][98493] Updated weights for policy 0, policy_version 352264 (0.0007)
+[2023-07-06 12:30:34,764][98243] Fps is (10 sec: 104857.9, 60 sec: 107042.1, 300 sec: 111078.0). Total num frames: 721551360. Throughput: 0: 27932.5. Samples: 180511232. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:34,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:30:35,044][98493] Updated weights for policy 0, policy_version 352336 (0.0008)
+[2023-07-06 12:30:35,609][98493] Updated weights for policy 0, policy_version 352400 (0.0008)
+[2023-07-06 12:30:36,161][98493] Updated weights for policy 0, policy_version 352464 (0.0008)
+[2023-07-06 12:30:36,678][98493] Updated weights for policy 0, policy_version 352518 (0.0008)
+[2023-07-06 12:30:37,117][98493] Updated weights for policy 0, policy_version 352574 (0.0008)
+[2023-07-06 12:30:39,764][98243] Fps is (10 sec: 108134.2, 60 sec: 107042.2, 300 sec: 111078.0). Total num frames: 722108416. Throughput: 0: 27636.7. Samples: 180587520. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:39,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:30:40,076][98493] Updated weights for policy 0, policy_version 352626 (0.0007)
+[2023-07-06 12:30:40,593][98493] Updated weights for policy 0, policy_version 352688 (0.0008)
+[2023-07-06 12:30:41,145][98493] Updated weights for policy 0, policy_version 352752 (0.0007)
+[2023-07-06 12:30:41,668][98493] Updated weights for policy 0, policy_version 352805 (0.0007)
+[2023-07-06 12:30:44,226][98449] Signal inference workers to stop experience collection... (18200 times)
+[2023-07-06 12:30:44,261][98493] InferenceWorker_p0-w0: stopping experience collection (18200 times)
+[2023-07-06 12:30:44,323][98449] Signal inference workers to resume experience collection... (18200 times)
+[2023-07-06 12:30:44,324][98493] InferenceWorker_p0-w0: resuming experience collection (18200 times)
+[2023-07-06 12:30:44,411][98493] Updated weights for policy 0, policy_version 352854 (0.0007)
+[2023-07-06 12:30:44,765][98243] Fps is (10 sec: 114683.5, 60 sec: 107041.4, 300 sec: 110966.8). Total num frames: 722698240. Throughput: 0: 27920.8. Samples: 180759552. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:44,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:30:44,930][98493] Updated weights for policy 0, policy_version 352912 (0.0008)
+[2023-07-06 12:30:45,655][98493] Updated weights for policy 0, policy_version 352992 (0.0006)
+[2023-07-06 12:30:46,162][98493] Updated weights for policy 0, policy_version 353044 (0.0007)
+[2023-07-06 12:30:46,485][98493] Updated weights for policy 0, policy_version 353086 (0.0007)
+[2023-07-06 12:30:49,493][98493] Updated weights for policy 0, policy_version 353152 (0.0007)
+[2023-07-06 12:30:49,764][98243] Fps is (10 sec: 117963.8, 60 sec: 107588.1, 300 sec: 111189.1). Total num frames: 723288064. Throughput: 0: 27966.5. Samples: 180923904. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:49,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:30:49,928][98493] Updated weights for policy 0, policy_version 353200 (0.0007)
+[2023-07-06 12:30:50,443][98493] Updated weights for policy 0, policy_version 353255 (0.0007)
+[2023-07-06 12:30:50,911][98493] Updated weights for policy 0, policy_version 353312 (0.0007)
+[2023-07-06 12:30:53,780][98493] Updated weights for policy 0, policy_version 353369 (0.0007)
+[2023-07-06 12:30:54,303][98493] Updated weights for policy 0, policy_version 353426 (0.0008)
+[2023-07-06 12:30:54,764][98243] Fps is (10 sec: 121245.8, 60 sec: 109226.7, 300 sec: 111300.1). Total num frames: 723910656. Throughput: 0: 27887.1. Samples: 181004800. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:54,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:30:54,800][98493] Updated weights for policy 0, policy_version 353488 (0.0006)
+[2023-07-06 12:30:55,429][98493] Updated weights for policy 0, policy_version 353557 (0.0008)
+[2023-07-06 12:30:58,543][98493] Updated weights for policy 0, policy_version 353605 (0.0011)
+[2023-07-06 12:30:59,084][98493] Updated weights for policy 0, policy_version 353669 (0.0007)
+[2023-07-06 12:30:59,191][98449] Signal inference workers to stop experience collection... (18250 times)
+[2023-07-06 12:30:59,227][98493] InferenceWorker_p0-w0: stopping experience collection (18250 times)
+[2023-07-06 12:30:59,272][98449] Signal inference workers to resume experience collection... (18250 times)
+[2023-07-06 12:30:59,272][98493] InferenceWorker_p0-w0: resuming experience collection (18250 times)
+[2023-07-06 12:30:59,599][98493] Updated weights for policy 0, policy_version 353728 (0.0007)
+[2023-07-06 12:30:59,764][98243] Fps is (10 sec: 117965.5, 60 sec: 109772.8, 300 sec: 111189.2). Total num frames: 724467712. Throughput: 0: 28023.4. Samples: 181173760. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:30:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:31:00,243][98493] Updated weights for policy 0, policy_version 353796 (0.0008)
+[2023-07-06 12:31:03,410][98493] Updated weights for policy 0, policy_version 353859 (0.0007)
+[2023-07-06 12:31:03,994][98493] Updated weights for policy 0, policy_version 353925 (0.0008)
+[2023-07-06 12:31:04,540][98493] Updated weights for policy 0, policy_version 353990 (0.0009)
+[2023-07-06 12:31:04,765][98243] Fps is (10 sec: 111408.6, 60 sec: 110318.5, 300 sec: 111188.9). Total num frames: 725024768. Throughput: 0: 27602.3. Samples: 181329920. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:31:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:31:05,036][98493] Updated weights for policy 0, policy_version 354048 (0.0009)
+[2023-07-06 12:31:05,563][98493] Updated weights for policy 0, policy_version 354106 (0.0006)
+[2023-07-06 12:31:08,432][98493] Updated weights for policy 0, policy_version 354166 (0.0007)
+[2023-07-06 12:31:09,050][98493] Updated weights for policy 0, policy_version 354240 (0.0008)
+[2023-07-06 12:31:09,741][98493] Updated weights for policy 0, policy_version 354320 (0.0007)
+[2023-07-06 12:31:09,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111957.8, 300 sec: 111189.0). Total num frames: 725647360. Throughput: 0: 27761.8. Samples: 181417472. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:31:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:31:12,777][98493] Updated weights for policy 0, policy_version 354370 (0.0006)
+[2023-07-06 12:31:13,311][98493] Updated weights for policy 0, policy_version 354432 (0.0007)
+[2023-07-06 12:31:13,844][98493] Updated weights for policy 0, policy_version 354496 (0.0007)
+[2023-07-06 12:31:14,174][98449] Signal inference workers to stop experience collection... (18300 times)
+[2023-07-06 12:31:14,213][98493] InferenceWorker_p0-w0: stopping experience collection (18300 times)
+[2023-07-06 12:31:14,258][98449] Signal inference workers to resume experience collection... (18300 times)
+[2023-07-06 12:31:14,258][98493] InferenceWorker_p0-w0: resuming experience collection (18300 times)
+[2023-07-06 12:31:14,348][98493] Updated weights for policy 0, policy_version 354550 (0.0007)
+[2023-07-06 12:31:14,764][98243] Fps is (10 sec: 117966.4, 60 sec: 112503.3, 300 sec: 111300.1). Total num frames: 726204416. Throughput: 0: 27522.8. Samples: 181576704. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:31:14,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:31:14,890][98493] Updated weights for policy 0, policy_version 354618 (0.0007)
+[2023-07-06 12:31:17,912][98493] Updated weights for policy 0, policy_version 354683 (0.0007)
+[2023-07-06 12:31:18,600][98493] Updated weights for policy 0, policy_version 354743 (0.0007)
+[2023-07-06 12:31:19,150][98493] Updated weights for policy 0, policy_version 354805 (0.0008)
+[2023-07-06 12:31:19,681][98493] Updated weights for policy 0, policy_version 354873 (0.0007)
+[2023-07-06 12:31:19,764][98243] Fps is (10 sec: 114688.8, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 726794240. Throughput: 0: 27204.3. Samples: 181735424. Policy #0 lag: (min: 34.0, avg: 89.3, max: 290.0)
+[2023-07-06 12:31:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:31:22,682][98493] Updated weights for policy 0, policy_version 354928 (0.0012)
+[2023-07-06 12:31:23,173][98493] Updated weights for policy 0, policy_version 354979 (0.0008)
+[2023-07-06 12:31:23,606][98493] Updated weights for policy 0, policy_version 355029 (0.0008)
+[2023-07-06 12:31:24,047][98493] Updated weights for policy 0, policy_version 355077 (0.0006)
+[2023-07-06 12:31:24,480][98493] Updated weights for policy 0, policy_version 355133 (0.0007)
+[2023-07-06 12:31:24,765][98243] Fps is (10 sec: 111408.2, 60 sec: 113595.0, 300 sec: 111300.0). Total num frames: 727318528. Throughput: 0: 27545.4. Samples: 181827072. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:31:27,360][98493] Updated weights for policy 0, policy_version 355184 (0.0007)
+[2023-07-06 12:31:28,008][98493] Updated weights for policy 0, policy_version 355249 (0.0007)
+[2023-07-06 12:31:28,549][98493] Updated weights for policy 0, policy_version 355312 (0.0007)
+[2023-07-06 12:31:28,977][98493] Updated weights for policy 0, policy_version 355360 (0.0007)
+[2023-07-06 12:31:29,764][98243] Fps is (10 sec: 104855.9, 60 sec: 113595.5, 300 sec: 111078.0). Total num frames: 727842816. Throughput: 0: 27272.7. Samples: 181986816. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:31:31,694][98493] Updated weights for policy 0, policy_version 355408 (0.0007)
+[2023-07-06 12:31:31,739][98449] Signal inference workers to stop experience collection... (18350 times)
+[2023-07-06 12:31:31,781][98493] InferenceWorker_p0-w0: stopping experience collection (18350 times)
+[2023-07-06 12:31:31,823][98449] Signal inference workers to resume experience collection... (18350 times)
+[2023-07-06 12:31:31,823][98493] InferenceWorker_p0-w0: resuming experience collection (18350 times)
+[2023-07-06 12:31:32,116][98493] Updated weights for policy 0, policy_version 355453 (0.0040)
+[2023-07-06 12:31:32,521][98493] Updated weights for policy 0, policy_version 355490 (0.0007)
+[2023-07-06 12:31:32,949][98493] Updated weights for policy 0, policy_version 355540 (0.0007)
+[2023-07-06 12:31:33,434][98493] Updated weights for policy 0, policy_version 355600 (0.0007)
+[2023-07-06 12:31:33,873][98493] Updated weights for policy 0, policy_version 355648 (0.0006)
+[2023-07-06 12:31:34,764][98243] Fps is (10 sec: 104861.6, 60 sec: 113595.7, 300 sec: 111078.0). Total num frames: 728367104. Throughput: 0: 27443.3. Samples: 182158848. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:31:36,686][98493] Updated weights for policy 0, policy_version 355700 (0.0007)
+[2023-07-06 12:31:37,131][98493] Updated weights for policy 0, policy_version 355749 (0.0006)
+[2023-07-06 12:31:37,707][98493] Updated weights for policy 0, policy_version 355813 (0.0006)
+[2023-07-06 12:31:38,319][98493] Updated weights for policy 0, policy_version 355888 (0.0007)
+[2023-07-06 12:31:39,764][98243] Fps is (10 sec: 104858.8, 60 sec: 113049.6, 300 sec: 111078.0). Total num frames: 728891392. Throughput: 0: 27477.3. Samples: 182241280. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:31:41,042][98493] Updated weights for policy 0, policy_version 355929 (0.0007)
+[2023-07-06 12:31:41,554][98493] Updated weights for policy 0, policy_version 355984 (0.0007)
+[2023-07-06 12:31:42,014][98493] Updated weights for policy 0, policy_version 356032 (0.0012)
+[2023-07-06 12:31:42,543][98493] Updated weights for policy 0, policy_version 356091 (0.0007)
+[2023-07-06 12:31:43,052][98493] Updated weights for policy 0, policy_version 356145 (0.0008)
+[2023-07-06 12:31:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111958.0, 300 sec: 110855.8). Total num frames: 729415680. Throughput: 0: 27443.2. Samples: 182408704. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:44,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:31:45,767][98493] Updated weights for policy 0, policy_version 356197 (0.0006)
+[2023-07-06 12:31:46,590][98493] Updated weights for policy 0, policy_version 356260 (0.0007)
+[2023-07-06 12:31:46,710][98449] Signal inference workers to stop experience collection... (18400 times)
+[2023-07-06 12:31:46,754][98493] InferenceWorker_p0-w0: stopping experience collection (18400 times)
+[2023-07-06 12:31:46,805][98449] Signal inference workers to resume experience collection... (18400 times)
+[2023-07-06 12:31:46,805][98493] InferenceWorker_p0-w0: resuming experience collection (18400 times)
+[2023-07-06 12:31:47,113][98493] Updated weights for policy 0, policy_version 356320 (0.0007)
+[2023-07-06 12:31:47,618][98493] Updated weights for policy 0, policy_version 356373 (0.0007)
+[2023-07-06 12:31:47,944][98493] Updated weights for policy 0, policy_version 356412 (0.0007)
+[2023-07-06 12:31:49,764][98243] Fps is (10 sec: 104858.0, 60 sec: 110865.3, 300 sec: 110744.7). Total num frames: 729939968. Throughput: 0: 27818.8. Samples: 182581760. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:49,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:31:50,498][98493] Updated weights for policy 0, policy_version 356456 (0.0007)
+[2023-07-06 12:31:51,403][98493] Updated weights for policy 0, policy_version 356512 (0.0007)
+[2023-07-06 12:31:51,906][98493] Updated weights for policy 0, policy_version 356566 (0.0007)
+[2023-07-06 12:31:52,378][98493] Updated weights for policy 0, policy_version 356624 (0.0007)
+[2023-07-06 12:31:54,715][98493] Updated weights for policy 0, policy_version 356674 (0.0006)
+[2023-07-06 12:31:54,764][98243] Fps is (10 sec: 104858.2, 60 sec: 109226.8, 300 sec: 110633.7). Total num frames: 730464256. Throughput: 0: 27557.0. Samples: 182657536. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:54,764][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 12:31:55,923][98493] Updated weights for policy 0, policy_version 356738 (0.0008)
+[2023-07-06 12:31:56,489][98493] Updated weights for policy 0, policy_version 356803 (0.0007)
+[2023-07-06 12:31:57,032][98493] Updated weights for policy 0, policy_version 356866 (0.0007)
+[2023-07-06 12:31:57,464][98493] Updated weights for policy 0, policy_version 356923 (0.0007)
+[2023-07-06 12:31:59,424][98493] Updated weights for policy 0, policy_version 356960 (0.0007)
+[2023-07-06 12:31:59,764][98243] Fps is (10 sec: 117964.3, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 731119616. Throughput: 0: 27852.9. Samples: 182830080. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:31:59,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:32:00,662][98493] Updated weights for policy 0, policy_version 357012 (0.0007)
+[2023-07-06 12:32:01,150][98493] Updated weights for policy 0, policy_version 357072 (0.0007)
+[2023-07-06 12:32:01,594][98493] Updated weights for policy 0, policy_version 357120 (0.0007)
+[2023-07-06 12:32:02,128][98493] Updated weights for policy 0, policy_version 357182 (0.0007)
+[2023-07-06 12:32:03,910][98449] Signal inference workers to stop experience collection... (18450 times)
+[2023-07-06 12:32:03,919][98493] InferenceWorker_p0-w0: stopping experience collection (18450 times)
+[2023-07-06 12:32:04,009][98449] Signal inference workers to resume experience collection... (18450 times)
+[2023-07-06 12:32:04,009][98493] InferenceWorker_p0-w0: resuming experience collection (18450 times)
+[2023-07-06 12:32:04,394][98493] Updated weights for policy 0, policy_version 357245 (0.0008)
+[2023-07-06 12:32:04,764][98243] Fps is (10 sec: 117964.5, 60 sec: 110319.5, 300 sec: 111078.1). Total num frames: 731643904. Throughput: 0: 28046.2. Samples: 182997504. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:04,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:32:05,492][98493] Updated weights for policy 0, policy_version 357296 (0.0007)
+[2023-07-06 12:32:05,997][98493] Updated weights for policy 0, policy_version 357334 (0.0016)
+[2023-07-06 12:32:06,575][98493] Updated weights for policy 0, policy_version 357400 (0.0007)
+[2023-07-06 12:32:08,518][98493] Updated weights for policy 0, policy_version 357441 (0.0007)
+[2023-07-06 12:32:08,981][98493] Updated weights for policy 0, policy_version 357499 (0.0008)
+[2023-07-06 12:32:09,764][98243] Fps is (10 sec: 104856.9, 60 sec: 108680.5, 300 sec: 110966.8). Total num frames: 732168192. Throughput: 0: 27818.8. Samples: 183078912. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:09,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:32:10,183][98493] Updated weights for policy 0, policy_version 357540 (0.0008)
+[2023-07-06 12:32:10,670][98493] Updated weights for policy 0, policy_version 357600 (0.0007)
+[2023-07-06 12:32:11,190][98493] Updated weights for policy 0, policy_version 357651 (0.0008)
+[2023-07-06 12:32:13,018][98493] Updated weights for policy 0, policy_version 357712 (0.0006)
+[2023-07-06 12:32:14,632][98493] Updated weights for policy 0, policy_version 357776 (0.0008)
+[2023-07-06 12:32:14,764][98243] Fps is (10 sec: 111408.3, 60 sec: 109226.5, 300 sec: 110966.8). Total num frames: 732758016. Throughput: 0: 28080.3. Samples: 183250432. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:14,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:32:15,176][98493] Updated weights for policy 0, policy_version 357840 (0.0006)
+[2023-07-06 12:32:15,677][98493] Updated weights for policy 0, policy_version 357893 (0.0007)
+[2023-07-06 12:32:17,680][98493] Updated weights for policy 0, policy_version 357954 (0.0007)
+[2023-07-06 12:32:19,325][98493] Updated weights for policy 0, policy_version 358018 (0.0006)
+[2023-07-06 12:32:19,764][98243] Fps is (10 sec: 114689.4, 60 sec: 108680.5, 300 sec: 110966.9). Total num frames: 733315072. Throughput: 0: 28000.7. Samples: 183418880. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:32:19,812][98493] Updated weights for policy 0, policy_version 358080 (0.0007)
+[2023-07-06 12:32:20,142][98449] Signal inference workers to stop experience collection... (18500 times)
+[2023-07-06 12:32:20,188][98493] InferenceWorker_p0-w0: stopping experience collection (18500 times)
+[2023-07-06 12:32:20,231][98449] Signal inference workers to resume experience collection... (18500 times)
+[2023-07-06 12:32:20,231][98493] InferenceWorker_p0-w0: resuming experience collection (18500 times)
+[2023-07-06 12:32:20,400][98493] Updated weights for policy 0, policy_version 358144 (0.0007)
+[2023-07-06 12:32:20,885][98493] Updated weights for policy 0, policy_version 358201 (0.0007)
+[2023-07-06 12:32:22,635][98493] Updated weights for policy 0, policy_version 358240 (0.0007)
+[2023-07-06 12:32:24,346][98493] Updated weights for policy 0, policy_version 358304 (0.0007)
+[2023-07-06 12:32:24,764][98243] Fps is (10 sec: 111413.5, 60 sec: 109227.3, 300 sec: 110966.9). Total num frames: 733872128. Throughput: 0: 27955.2. Samples: 183499264. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:24,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:32:24,918][98493] Updated weights for policy 0, policy_version 358359 (0.0007)
+[2023-07-06 12:32:24,975][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000358368_733937664.pth...
+[2023-07-06 12:32:25,061][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000345408_707395584.pth
+[2023-07-06 12:32:25,453][98493] Updated weights for policy 0, policy_version 358416 (0.0008)
+[2023-07-06 12:32:27,125][98493] Updated weights for policy 0, policy_version 358465 (0.0007)
+[2023-07-06 12:32:27,560][98493] Updated weights for policy 0, policy_version 358522 (0.0007)
+[2023-07-06 12:32:29,137][98493] Updated weights for policy 0, policy_version 358566 (0.0008)
+[2023-07-06 12:32:29,566][98493] Updated weights for policy 0, policy_version 358612 (0.0007)
+[2023-07-06 12:32:29,764][98243] Fps is (10 sec: 117964.0, 60 sec: 110865.2, 300 sec: 111077.9). Total num frames: 734494720. Throughput: 0: 28046.2. Samples: 183670784. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:29,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:32:30,124][98493] Updated weights for policy 0, policy_version 358680 (0.0007)
+[2023-07-06 12:32:31,788][98493] Updated weights for policy 0, policy_version 358726 (0.0006)
+[2023-07-06 12:32:32,210][98493] Updated weights for policy 0, policy_version 358780 (0.0006)
+[2023-07-06 12:32:34,012][98493] Updated weights for policy 0, policy_version 358837 (0.0007)
+[2023-07-06 12:32:34,578][98493] Updated weights for policy 0, policy_version 358901 (0.0007)
+[2023-07-06 12:32:34,764][98243] Fps is (10 sec: 117964.2, 60 sec: 111411.1, 300 sec: 110966.9). Total num frames: 735051776. Throughput: 0: 27841.4. Samples: 183834624. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:34,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:32:34,954][98493] Updated weights for policy 0, policy_version 358944 (0.0008)
+[2023-07-06 12:32:36,338][98493] Updated weights for policy 0, policy_version 359000 (0.0007)
+[2023-07-06 12:32:36,615][98493] Updated weights for policy 0, policy_version 359039 (0.0015)
+[2023-07-06 12:32:38,299][98449] Signal inference workers to stop experience collection... (18550 times)
+[2023-07-06 12:32:38,351][98493] InferenceWorker_p0-w0: stopping experience collection (18550 times)
+[2023-07-06 12:32:38,405][98449] Signal inference workers to resume experience collection... (18550 times)
+[2023-07-06 12:32:38,405][98493] InferenceWorker_p0-w0: resuming experience collection (18550 times)
+[2023-07-06 12:32:38,676][98493] Updated weights for policy 0, policy_version 359088 (0.0007)
+[2023-07-06 12:32:39,189][98493] Updated weights for policy 0, policy_version 359144 (0.0007)
+[2023-07-06 12:32:39,658][98493] Updated weights for policy 0, policy_version 359200 (0.0006)
+[2023-07-06 12:32:39,764][98243] Fps is (10 sec: 114689.1, 60 sec: 112503.6, 300 sec: 110966.9). Total num frames: 735641600. Throughput: 0: 28103.1. Samples: 183922176. Policy #0 lag: (min: 63.0, avg: 192.2, max: 319.0)
+[2023-07-06 12:32:39,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:32:40,887][98493] Updated weights for policy 0, policy_version 359255 (0.0006)
+[2023-07-06 12:32:43,335][98493] Updated weights for policy 0, policy_version 359320 (0.0007)
+[2023-07-06 12:32:43,820][98493] Updated weights for policy 0, policy_version 359376 (0.0007)
+[2023-07-06 12:32:44,334][98493] Updated weights for policy 0, policy_version 359426 (0.0006)
+[2023-07-06 12:32:44,664][98493] Updated weights for policy 0, policy_version 359461 (0.0006)
+[2023-07-06 12:32:44,764][98243] Fps is (10 sec: 114689.1, 60 sec: 113049.6, 300 sec: 110967.0). Total num frames: 736198656. Throughput: 0: 27989.4. Samples: 184089600. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:32:44,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:32:45,706][98493] Updated weights for policy 0, policy_version 359521 (0.0008)
+[2023-07-06 12:32:48,087][98493] Updated weights for policy 0, policy_version 359589 (0.0007)
+[2023-07-06 12:32:48,583][98493] Updated weights for policy 0, policy_version 359648 (0.0008)
+[2023-07-06 12:32:49,156][98493] Updated weights for policy 0, policy_version 359712 (0.0007)
+[2023-07-06 12:32:49,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113595.7, 300 sec: 111078.0). Total num frames: 736755712. Throughput: 0: 27875.5. Samples: 184251904. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:32:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:32:50,232][98493] Updated weights for policy 0, policy_version 359760 (0.0007)
+[2023-07-06 12:32:50,627][98493] Updated weights for policy 0, policy_version 359806 (0.0007)
+[2023-07-06 12:32:52,919][98493] Updated weights for policy 0, policy_version 359856 (0.0008)
+[2023-07-06 12:32:53,431][98493] Updated weights for policy 0, policy_version 359909 (0.0007)
+[2023-07-06 12:32:53,676][98449] Signal inference workers to stop experience collection... (18600 times)
+[2023-07-06 12:32:53,720][98493] InferenceWorker_p0-w0: stopping experience collection (18600 times)
+[2023-07-06 12:32:53,754][98449] Signal inference workers to resume experience collection... (18600 times)
+[2023-07-06 12:32:53,755][98493] InferenceWorker_p0-w0: resuming experience collection (18600 times)
+[2023-07-06 12:32:54,027][98493] Updated weights for policy 0, policy_version 359984 (0.0008)
+[2023-07-06 12:32:54,764][98243] Fps is (10 sec: 111411.0, 60 sec: 114141.8, 300 sec: 111189.1). Total num frames: 737312768. Throughput: 0: 28103.2. Samples: 184343552. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:32:54,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:32:54,768][98493] Updated weights for policy 0, policy_version 360032 (0.0006)
+[2023-07-06 12:32:55,063][98493] Updated weights for policy 0, policy_version 360064 (0.0006)
+[2023-07-06 12:32:57,557][98493] Updated weights for policy 0, policy_version 360115 (0.0007)
+[2023-07-06 12:32:58,176][98493] Updated weights for policy 0, policy_version 360192 (0.0008)
+[2023-07-06 12:32:58,699][98493] Updated weights for policy 0, policy_version 360254 (0.0007)
+[2023-07-06 12:32:59,702][98493] Updated weights for policy 0, policy_version 360313 (0.0008)
+[2023-07-06 12:32:59,764][98243] Fps is (10 sec: 117965.0, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 737935360. Throughput: 0: 27841.6. Samples: 184503296. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:32:59,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:33:02,255][98493] Updated weights for policy 0, policy_version 360368 (0.0008)
+[2023-07-06 12:33:02,807][98493] Updated weights for policy 0, policy_version 360422 (0.0029)
+[2023-07-06 12:33:03,402][98493] Updated weights for policy 0, policy_version 360496 (0.0007)
+[2023-07-06 12:33:04,204][98493] Updated weights for policy 0, policy_version 360547 (0.0006)
+[2023-07-06 12:33:04,764][98243] Fps is (10 sec: 114687.9, 60 sec: 113595.7, 300 sec: 111300.1). Total num frames: 738459648. Throughput: 0: 27704.9. Samples: 184665600. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:04,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:33:06,629][98493] Updated weights for policy 0, policy_version 360597 (0.0010)
+[2023-07-06 12:33:07,184][98493] Updated weights for policy 0, policy_version 360656 (0.0006)
+[2023-07-06 12:33:07,581][98493] Updated weights for policy 0, policy_version 360701 (0.0034)
+[2023-07-06 12:33:08,138][98493] Updated weights for policy 0, policy_version 360764 (0.0007)
+[2023-07-06 12:33:09,092][98493] Updated weights for policy 0, policy_version 360804 (0.0007)
+[2023-07-06 12:33:09,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113595.9, 300 sec: 111078.0). Total num frames: 738983936. Throughput: 0: 27852.8. Samples: 184752640. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:33:11,434][98493] Updated weights for policy 0, policy_version 360866 (0.0007)
+[2023-07-06 12:33:11,626][98449] Signal inference workers to stop experience collection... (18650 times)
+[2023-07-06 12:33:11,657][98449] Signal inference workers to resume experience collection... (18650 times)
+[2023-07-06 12:33:11,665][98493] InferenceWorker_p0-w0: stopping experience collection (18650 times)
+[2023-07-06 12:33:11,684][98493] InferenceWorker_p0-w0: resuming experience collection (18650 times)
+[2023-07-06 12:33:12,034][98493] Updated weights for policy 0, policy_version 360930 (0.0007)
+[2023-07-06 12:33:12,813][98493] Updated weights for policy 0, policy_version 360996 (0.0006)
+[2023-07-06 12:33:13,582][98493] Updated weights for policy 0, policy_version 361042 (0.0007)
+[2023-07-06 12:33:14,764][98243] Fps is (10 sec: 104857.7, 60 sec: 112503.9, 300 sec: 110744.7). Total num frames: 739508224. Throughput: 0: 27693.5. Samples: 184916992. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:14,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:33:16,040][98493] Updated weights for policy 0, policy_version 361110 (0.0007)
+[2023-07-06 12:33:16,697][98493] Updated weights for policy 0, policy_version 361174 (0.0006)
+[2023-07-06 12:33:17,494][98493] Updated weights for policy 0, policy_version 361248 (0.0007)
+[2023-07-06 12:33:18,446][98493] Updated weights for policy 0, policy_version 361312 (0.0007)
+[2023-07-06 12:33:19,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111957.3, 300 sec: 110633.7). Total num frames: 740032512. Throughput: 0: 27761.8. Samples: 185083904. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:19,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:33:20,838][98493] Updated weights for policy 0, policy_version 361370 (0.0007)
+[2023-07-06 12:33:21,426][98493] Updated weights for policy 0, policy_version 361424 (0.0007)
+[2023-07-06 12:33:21,993][98493] Updated weights for policy 0, policy_version 361475 (0.0007)
+[2023-07-06 12:33:22,430][98493] Updated weights for policy 0, policy_version 361533 (0.0008)
+[2023-07-06 12:33:23,315][98493] Updated weights for policy 0, policy_version 361594 (0.0008)
+[2023-07-06 12:33:24,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.2, 300 sec: 110633.7). Total num frames: 740556800. Throughput: 0: 27613.8. Samples: 185164800. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:33:25,897][98493] Updated weights for policy 0, policy_version 361655 (0.0007)
+[2023-07-06 12:33:26,575][98493] Updated weights for policy 0, policy_version 361698 (0.0008)
+[2023-07-06 12:33:27,023][98493] Updated weights for policy 0, policy_version 361750 (0.0007)
+[2023-07-06 12:33:27,537][98493] Updated weights for policy 0, policy_version 361808 (0.0008)
+[2023-07-06 12:33:27,959][98493] Updated weights for policy 0, policy_version 361856 (0.0007)
+[2023-07-06 12:33:29,764][98243] Fps is (10 sec: 104855.3, 60 sec: 109772.5, 300 sec: 110633.6). Total num frames: 741081088. Throughput: 0: 27613.7. Samples: 185332224. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:29,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:33:30,663][98449] Signal inference workers to stop experience collection... (18700 times)
+[2023-07-06 12:33:30,696][98493] InferenceWorker_p0-w0: stopping experience collection (18700 times)
+[2023-07-06 12:33:30,752][98449] Signal inference workers to resume experience collection... (18700 times)
+[2023-07-06 12:33:30,753][98493] InferenceWorker_p0-w0: resuming experience collection (18700 times)
+[2023-07-06 12:33:30,843][98493] Updated weights for policy 0, policy_version 361906 (0.0007)
+[2023-07-06 12:33:31,456][98493] Updated weights for policy 0, policy_version 361984 (0.0008)
+[2023-07-06 12:33:31,967][98493] Updated weights for policy 0, policy_version 362041 (0.0007)
+[2023-07-06 12:33:32,657][98493] Updated weights for policy 0, policy_version 362096 (0.0007)
+[2023-07-06 12:33:34,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.8, 300 sec: 110633.7). Total num frames: 741605376. Throughput: 0: 27818.7. Samples: 185503744. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:33:35,159][98493] Updated weights for policy 0, policy_version 362129 (0.0006)
+[2023-07-06 12:33:35,652][98493] Updated weights for policy 0, policy_version 362177 (0.0006)
+[2023-07-06 12:33:36,122][98493] Updated weights for policy 0, policy_version 362232 (0.0008)
+[2023-07-06 12:33:36,646][98493] Updated weights for policy 0, policy_version 362296 (0.0008)
+[2023-07-06 12:33:37,262][98493] Updated weights for policy 0, policy_version 362342 (0.0007)
+[2023-07-06 12:33:39,764][98243] Fps is (10 sec: 108136.7, 60 sec: 108680.4, 300 sec: 110744.7). Total num frames: 742162432. Throughput: 0: 27511.5. Samples: 185581568. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:33:39,831][98493] Updated weights for policy 0, policy_version 362400 (0.0007)
+[2023-07-06 12:33:40,422][98493] Updated weights for policy 0, policy_version 362453 (0.0007)
+[2023-07-06 12:33:40,982][98493] Updated weights for policy 0, policy_version 362513 (0.0007)
+[2023-07-06 12:33:41,508][98493] Updated weights for policy 0, policy_version 362561 (0.0006)
+[2023-07-06 12:33:41,944][98493] Updated weights for policy 0, policy_version 362619 (0.0006)
+[2023-07-06 12:33:44,692][98493] Updated weights for policy 0, policy_version 362672 (0.0006)
+[2023-07-06 12:33:44,764][98243] Fps is (10 sec: 114686.4, 60 sec: 109226.4, 300 sec: 110966.8). Total num frames: 742752256. Throughput: 0: 27841.3. Samples: 185756160. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:33:45,146][98493] Updated weights for policy 0, policy_version 362720 (0.0007)
+[2023-07-06 12:33:45,657][98493] Updated weights for policy 0, policy_version 362771 (0.0007)
+[2023-07-06 12:33:46,177][98493] Updated weights for policy 0, policy_version 362819 (0.0007)
+[2023-07-06 12:33:46,287][98449] Signal inference workers to stop experience collection... (18750 times)
+[2023-07-06 12:33:46,327][98493] InferenceWorker_p0-w0: stopping experience collection (18750 times)
+[2023-07-06 12:33:46,373][98449] Signal inference workers to resume experience collection... (18750 times)
+[2023-07-06 12:33:46,374][98493] InferenceWorker_p0-w0: resuming experience collection (18750 times)
+[2023-07-06 12:33:46,647][98493] Updated weights for policy 0, policy_version 362880 (0.0006)
+[2023-07-06 12:33:49,206][98493] Updated weights for policy 0, policy_version 362929 (0.0007)
+[2023-07-06 12:33:49,764][98243] Fps is (10 sec: 114687.7, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 743309312. Throughput: 0: 28000.7. Samples: 185925632. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:33:49,942][98493] Updated weights for policy 0, policy_version 362976 (0.0007)
+[2023-07-06 12:33:50,588][98493] Updated weights for policy 0, policy_version 363044 (0.0007)
+[2023-07-06 12:33:50,982][98493] Updated weights for policy 0, policy_version 363088 (0.0007)
+[2023-07-06 12:33:53,545][98493] Updated weights for policy 0, policy_version 363161 (0.0007)
+[2023-07-06 12:33:54,564][98493] Updated weights for policy 0, policy_version 363206 (0.0007)
+[2023-07-06 12:33:54,764][98243] Fps is (10 sec: 114689.8, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 743899136. Throughput: 0: 27852.8. Samples: 186006016. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:54,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:33:54,958][98493] Updated weights for policy 0, policy_version 363249 (0.0007)
+[2023-07-06 12:33:55,554][98493] Updated weights for policy 0, policy_version 363319 (0.0008)
+[2023-07-06 12:33:56,079][98493] Updated weights for policy 0, policy_version 363389 (0.0008)
+[2023-07-06 12:33:58,720][98493] Updated weights for policy 0, policy_version 363450 (0.0007)
+[2023-07-06 12:33:59,669][98493] Updated weights for policy 0, policy_version 363514 (0.0007)
+[2023-07-06 12:33:59,764][98243] Fps is (10 sec: 117962.4, 60 sec: 109226.2, 300 sec: 111411.2). Total num frames: 744488960. Throughput: 0: 27898.2. Samples: 186172416. Policy #0 lag: (min: 15.0, avg: 79.6, max: 271.0)
+[2023-07-06 12:33:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:34:00,372][98493] Updated weights for policy 0, policy_version 363584 (0.0008)
+[2023-07-06 12:34:00,806][98493] Updated weights for policy 0, policy_version 363632 (0.0007)
+[2023-07-06 12:34:03,200][98493] Updated weights for policy 0, policy_version 363680 (0.0006)
+[2023-07-06 12:34:03,756][98493] Updated weights for policy 0, policy_version 363718 (0.0006)
+[2023-07-06 12:34:04,158][98493] Updated weights for policy 0, policy_version 363770 (0.0007)
+[2023-07-06 12:34:04,702][98449] Signal inference workers to stop experience collection... (18800 times)
+[2023-07-06 12:34:04,756][98493] InferenceWorker_p0-w0: stopping experience collection (18800 times)
+[2023-07-06 12:34:04,764][98243] Fps is (10 sec: 114687.7, 60 sec: 109772.8, 300 sec: 111300.1). Total num frames: 745046016. Throughput: 0: 27932.4. Samples: 186340864. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:04,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:34:04,818][98449] Signal inference workers to resume experience collection... (18800 times)
+[2023-07-06 12:34:04,819][98493] InferenceWorker_p0-w0: resuming experience collection (18800 times)
+[2023-07-06 12:34:04,820][98493] Updated weights for policy 0, policy_version 363808 (0.0008)
+[2023-07-06 12:34:05,453][98493] Updated weights for policy 0, policy_version 363876 (0.0007)
+[2023-07-06 12:34:07,821][98493] Updated weights for policy 0, policy_version 363941 (0.0007)
+[2023-07-06 12:34:08,523][98493] Updated weights for policy 0, policy_version 363984 (0.0007)
+[2023-07-06 12:34:08,916][98493] Updated weights for policy 0, policy_version 364032 (0.0006)
+[2023-07-06 12:34:09,717][98493] Updated weights for policy 0, policy_version 364080 (0.0007)
+[2023-07-06 12:34:09,764][98243] Fps is (10 sec: 114690.6, 60 sec: 110865.1, 300 sec: 111189.1). Total num frames: 745635840. Throughput: 0: 28046.2. Samples: 186426880. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:34:10,333][98493] Updated weights for policy 0, policy_version 364151 (0.0008)
+[2023-07-06 12:34:12,711][98493] Updated weights for policy 0, policy_version 364199 (0.0006)
+[2023-07-06 12:34:13,342][98493] Updated weights for policy 0, policy_version 364246 (0.0007)
+[2023-07-06 12:34:13,959][98493] Updated weights for policy 0, policy_version 364307 (0.0007)
+[2023-07-06 12:34:14,345][98493] Updated weights for policy 0, policy_version 364352 (0.0008)
+[2023-07-06 12:34:14,764][98243] Fps is (10 sec: 121242.9, 60 sec: 112503.6, 300 sec: 111300.2). Total num frames: 746258432. Throughput: 0: 27955.4. Samples: 186590208. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:14,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:34:14,864][98493] Updated weights for policy 0, policy_version 364412 (0.0006)
+[2023-07-06 12:34:17,453][98493] Updated weights for policy 0, policy_version 364473 (0.0008)
+[2023-07-06 12:34:18,169][98493] Updated weights for policy 0, policy_version 364528 (0.0008)
+[2023-07-06 12:34:18,506][98493] Updated weights for policy 0, policy_version 364560 (0.0007)
+[2023-07-06 12:34:19,048][98493] Updated weights for policy 0, policy_version 364613 (0.0009)
+[2023-07-06 12:34:19,764][98243] Fps is (10 sec: 121241.5, 60 sec: 113595.7, 300 sec: 111411.2). Total num frames: 746848256. Throughput: 0: 27807.3. Samples: 186755072. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:34:21,895][98493] Updated weights for policy 0, policy_version 364688 (0.0007)
+[2023-07-06 12:34:22,361][98449] Signal inference workers to stop experience collection... (18850 times)
+[2023-07-06 12:34:22,406][98493] InferenceWorker_p0-w0: stopping experience collection (18850 times)
+[2023-07-06 12:34:22,440][98449] Signal inference workers to resume experience collection... (18850 times)
+[2023-07-06 12:34:22,440][98493] InferenceWorker_p0-w0: resuming experience collection (18850 times)
+[2023-07-06 12:34:22,521][98493] Updated weights for policy 0, policy_version 364754 (0.0008)
+[2023-07-06 12:34:23,235][98493] Updated weights for policy 0, policy_version 364806 (0.0006)
+[2023-07-06 12:34:23,704][98493] Updated weights for policy 0, policy_version 364864 (0.0007)
+[2023-07-06 12:34:24,237][98493] Updated weights for policy 0, policy_version 364925 (0.0007)
+[2023-07-06 12:34:24,764][98243] Fps is (10 sec: 111409.6, 60 sec: 113595.7, 300 sec: 111189.1). Total num frames: 747372544. Throughput: 0: 28057.6. Samples: 186844160. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:24,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:34:24,780][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000364928_747372544.pth...
+[2023-07-06 12:34:24,813][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000351808_720502784.pth
+[2023-07-06 12:34:26,978][98493] Updated weights for policy 0, policy_version 364965 (0.0007)
+[2023-07-06 12:34:27,546][98493] Updated weights for policy 0, policy_version 365029 (0.0007)
+[2023-07-06 12:34:28,123][98493] Updated weights for policy 0, policy_version 365093 (0.0008)
+[2023-07-06 12:34:28,690][98493] Updated weights for policy 0, policy_version 365157 (0.0008)
+[2023-07-06 12:34:29,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113596.1, 300 sec: 111078.0). Total num frames: 747896832. Throughput: 0: 27784.6. Samples: 187006464. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:29,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:34:31,582][98493] Updated weights for policy 0, policy_version 365208 (0.0007)
+[2023-07-06 12:34:32,139][98493] Updated weights for policy 0, policy_version 365271 (0.0007)
+[2023-07-06 12:34:32,650][98493] Updated weights for policy 0, policy_version 365328 (0.0007)
+[2023-07-06 12:34:33,233][98493] Updated weights for policy 0, policy_version 365392 (0.0008)
+[2023-07-06 12:34:33,686][98493] Updated weights for policy 0, policy_version 365440 (0.0013)
+[2023-07-06 12:34:34,764][98243] Fps is (10 sec: 104856.6, 60 sec: 113595.5, 300 sec: 110966.9). Total num frames: 748421120. Throughput: 0: 27818.6. Samples: 187177472. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:34:36,489][98493] Updated weights for policy 0, policy_version 365490 (0.0008)
+[2023-07-06 12:34:37,056][98493] Updated weights for policy 0, policy_version 365555 (0.0007)
+[2023-07-06 12:34:37,471][98449] Signal inference workers to stop experience collection... (18900 times)
+[2023-07-06 12:34:37,494][98493] InferenceWorker_p0-w0: stopping experience collection (18900 times)
+[2023-07-06 12:34:37,562][98449] Signal inference workers to resume experience collection... (18900 times)
+[2023-07-06 12:34:37,562][98493] InferenceWorker_p0-w0: resuming experience collection (18900 times)
+[2023-07-06 12:34:37,563][98493] Updated weights for policy 0, policy_version 365616 (0.0007)
+[2023-07-06 12:34:38,140][98493] Updated weights for policy 0, policy_version 365680 (0.0008)
+[2023-07-06 12:34:39,764][98243] Fps is (10 sec: 104857.0, 60 sec: 113049.5, 300 sec: 110744.7). Total num frames: 748945408. Throughput: 0: 27830.0. Samples: 187258368. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:34:41,014][98493] Updated weights for policy 0, policy_version 365738 (0.0007)
+[2023-07-06 12:34:41,560][98493] Updated weights for policy 0, policy_version 365799 (0.0008)
+[2023-07-06 12:34:42,025][98493] Updated weights for policy 0, policy_version 365840 (0.0006)
+[2023-07-06 12:34:42,427][98493] Updated weights for policy 0, policy_version 365887 (0.0007)
+[2023-07-06 12:34:43,015][98493] Updated weights for policy 0, policy_version 365947 (0.0008)
+[2023-07-06 12:34:44,764][98243] Fps is (10 sec: 104859.3, 60 sec: 111957.6, 300 sec: 110633.7). Total num frames: 749469696. Throughput: 0: 27875.7. Samples: 187426816. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:44,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:34:45,466][98493] Updated weights for policy 0, policy_version 365984 (0.0006)
+[2023-07-06 12:34:46,281][98493] Updated weights for policy 0, policy_version 366056 (0.0008)
+[2023-07-06 12:34:46,987][98493] Updated weights for policy 0, policy_version 366112 (0.0008)
+[2023-07-06 12:34:47,418][98493] Updated weights for policy 0, policy_version 366160 (0.0006)
+[2023-07-06 12:34:47,820][98493] Updated weights for policy 0, policy_version 366207 (0.0007)
+[2023-07-06 12:34:49,765][98243] Fps is (10 sec: 104855.2, 60 sec: 111410.7, 300 sec: 110633.6). Total num frames: 749993984. Throughput: 0: 27989.2. Samples: 187600384. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:49,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:34:50,296][98493] Updated weights for policy 0, policy_version 366258 (0.0006)
+[2023-07-06 12:34:51,015][98493] Updated weights for policy 0, policy_version 366304 (0.0007)
+[2023-07-06 12:34:51,521][98493] Updated weights for policy 0, policy_version 366362 (0.0007)
+[2023-07-06 12:34:52,066][98493] Updated weights for policy 0, policy_version 366423 (0.0008)
+[2023-07-06 12:34:52,396][98493] Updated weights for policy 0, policy_version 366463 (0.0006)
+[2023-07-06 12:34:54,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111957.4, 300 sec: 110966.9). Total num frames: 750616576. Throughput: 0: 27807.3. Samples: 187678208. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:54,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:34:54,819][98493] Updated weights for policy 0, policy_version 366524 (0.0006)
+[2023-07-06 12:34:55,745][98449] Signal inference workers to stop experience collection... (18950 times)
+[2023-07-06 12:34:55,794][98493] InferenceWorker_p0-w0: stopping experience collection (18950 times)
+[2023-07-06 12:34:55,795][98493] Updated weights for policy 0, policy_version 366564 (0.0007)
+[2023-07-06 12:34:55,853][98449] Signal inference workers to resume experience collection... (18950 times)
+[2023-07-06 12:34:55,853][98493] InferenceWorker_p0-w0: resuming experience collection (18950 times)
+[2023-07-06 12:34:56,410][98493] Updated weights for policy 0, policy_version 366640 (0.0007)
+[2023-07-06 12:34:56,916][98493] Updated weights for policy 0, policy_version 366690 (0.0007)
+[2023-07-06 12:34:59,399][98493] Updated weights for policy 0, policy_version 366752 (0.0007)
+[2023-07-06 12:34:59,764][98243] Fps is (10 sec: 117965.8, 60 sec: 111411.3, 300 sec: 111077.9). Total num frames: 751173632. Throughput: 0: 28000.5. Samples: 187850240. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:34:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:35:00,484][98493] Updated weights for policy 0, policy_version 366810 (0.0007)
+[2023-07-06 12:35:01,038][98493] Updated weights for policy 0, policy_version 366869 (0.0007)
+[2023-07-06 12:35:01,640][98493] Updated weights for policy 0, policy_version 366944 (0.0007)
+[2023-07-06 12:35:01,928][98493] Updated weights for policy 0, policy_version 366976 (0.0006)
+[2023-07-06 12:35:04,764][98243] Fps is (10 sec: 108133.9, 60 sec: 110865.1, 300 sec: 111078.1). Total num frames: 751697920. Throughput: 0: 27955.2. Samples: 188013056. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:35:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:35:05,015][98493] Updated weights for policy 0, policy_version 367042 (0.0007)
+[2023-07-06 12:35:05,598][98493] Updated weights for policy 0, policy_version 367105 (0.0007)
+[2023-07-06 12:35:06,057][98493] Updated weights for policy 0, policy_version 367156 (0.0006)
+[2023-07-06 12:35:06,557][98493] Updated weights for policy 0, policy_version 367216 (0.0007)
+[2023-07-06 12:35:09,279][98493] Updated weights for policy 0, policy_version 367290 (0.0008)
+[2023-07-06 12:35:09,764][98243] Fps is (10 sec: 104859.5, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 752222208. Throughput: 0: 27807.3. Samples: 188095488. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:35:09,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:35:10,036][98493] Updated weights for policy 0, policy_version 367331 (0.0006)
+[2023-07-06 12:35:10,539][98493] Updated weights for policy 0, policy_version 367392 (0.0011)
+[2023-07-06 12:35:11,052][98493] Updated weights for policy 0, policy_version 367446 (0.0007)
+[2023-07-06 12:35:11,150][98449] Signal inference workers to stop experience collection... (19000 times)
+[2023-07-06 12:35:11,189][98493] InferenceWorker_p0-w0: stopping experience collection (19000 times)
+[2023-07-06 12:35:11,241][98449] Signal inference workers to resume experience collection... (19000 times)
+[2023-07-06 12:35:11,241][98493] InferenceWorker_p0-w0: resuming experience collection (19000 times)
+[2023-07-06 12:35:11,383][98493] Updated weights for policy 0, policy_version 367488 (0.0006)
+[2023-07-06 12:35:14,035][98493] Updated weights for policy 0, policy_version 367552 (0.0007)
+[2023-07-06 12:35:14,764][98243] Fps is (10 sec: 111412.5, 60 sec: 109226.7, 300 sec: 111300.2). Total num frames: 752812032. Throughput: 0: 27989.4. Samples: 188265984. Policy #0 lag: (min: 127.0, avg: 240.1, max: 351.0)
+[2023-07-06 12:35:14,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:35:15,068][98493] Updated weights for policy 0, policy_version 367619 (0.0007)
+[2023-07-06 12:35:15,656][98493] Updated weights for policy 0, policy_version 367696 (0.0007)
+[2023-07-06 12:35:16,079][98493] Updated weights for policy 0, policy_version 367744 (0.0007)
+[2023-07-06 12:35:18,740][98493] Updated weights for policy 0, policy_version 367798 (0.0007)
+[2023-07-06 12:35:19,278][98493] Updated weights for policy 0, policy_version 367828 (0.0008)
+[2023-07-06 12:35:19,716][98493] Updated weights for policy 0, policy_version 367876 (0.0007)
+[2023-07-06 12:35:19,764][98243] Fps is (10 sec: 117962.3, 60 sec: 109226.3, 300 sec: 111522.2). Total num frames: 753401856. Throughput: 0: 27841.4. Samples: 188430336. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:35:20,309][98493] Updated weights for policy 0, policy_version 367952 (0.0007)
+[2023-07-06 12:35:23,146][98493] Updated weights for policy 0, policy_version 368003 (0.0007)
+[2023-07-06 12:35:23,614][98493] Updated weights for policy 0, policy_version 368064 (0.0011)
+[2023-07-06 12:35:24,426][98493] Updated weights for policy 0, policy_version 368137 (0.0009)
+[2023-07-06 12:35:24,765][98243] Fps is (10 sec: 121233.9, 60 sec: 110864.2, 300 sec: 111855.3). Total num frames: 754024448. Throughput: 0: 27966.3. Samples: 188516864. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:24,766][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:35:24,978][98493] Updated weights for policy 0, policy_version 368193 (0.0007)
+[2023-07-06 12:35:25,492][98493] Updated weights for policy 0, policy_version 368256 (0.0007)
+[2023-07-06 12:35:28,715][98493] Updated weights for policy 0, policy_version 368325 (0.0007)
+[2023-07-06 12:35:29,214][98449] Signal inference workers to stop experience collection... (19050 times)
+[2023-07-06 12:35:29,256][98493] InferenceWorker_p0-w0: stopping experience collection (19050 times)
+[2023-07-06 12:35:29,294][98449] Signal inference workers to resume experience collection... (19050 times)
+[2023-07-06 12:35:29,294][98493] InferenceWorker_p0-w0: resuming experience collection (19050 times)
+[2023-07-06 12:35:29,373][98493] Updated weights for policy 0, policy_version 368405 (0.0008)
+[2023-07-06 12:35:29,764][98243] Fps is (10 sec: 117967.1, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 754581504. Throughput: 0: 27864.1. Samples: 188680704. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:35:29,924][98493] Updated weights for policy 0, policy_version 368468 (0.0008)
+[2023-07-06 12:35:32,828][98493] Updated weights for policy 0, policy_version 368513 (0.0007)
+[2023-07-06 12:35:33,333][98493] Updated weights for policy 0, policy_version 368576 (0.0008)
+[2023-07-06 12:35:33,755][98493] Updated weights for policy 0, policy_version 368624 (0.0008)
+[2023-07-06 12:35:34,326][98493] Updated weights for policy 0, policy_version 368688 (0.0009)
+[2023-07-06 12:35:34,764][98243] Fps is (10 sec: 111415.7, 60 sec: 111957.4, 300 sec: 111966.6). Total num frames: 755138560. Throughput: 0: 27557.1. Samples: 188840448. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:35:34,788][98493] Updated weights for policy 0, policy_version 368736 (0.0008)
+[2023-07-06 12:35:37,514][98493] Updated weights for policy 0, policy_version 368789 (0.0011)
+[2023-07-06 12:35:37,920][98493] Updated weights for policy 0, policy_version 368834 (0.0026)
+[2023-07-06 12:35:38,438][98493] Updated weights for policy 0, policy_version 368896 (0.0007)
+[2023-07-06 12:35:38,980][98493] Updated weights for policy 0, policy_version 368960 (0.0008)
+[2023-07-06 12:35:39,765][98243] Fps is (10 sec: 111407.6, 60 sec: 112502.9, 300 sec: 111855.5). Total num frames: 755695616. Throughput: 0: 27852.5. Samples: 188931584. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:39,766][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:35:39,826][98493] Updated weights for policy 0, policy_version 369008 (0.0008)
+[2023-07-06 12:35:42,369][98493] Updated weights for policy 0, policy_version 369046 (0.0007)
+[2023-07-06 12:35:42,915][98493] Updated weights for policy 0, policy_version 369106 (0.0007)
+[2023-07-06 12:35:43,423][98493] Updated weights for policy 0, policy_version 369168 (0.0007)
+[2023-07-06 12:35:43,811][98493] Updated weights for policy 0, policy_version 369212 (0.0007)
+[2023-07-06 12:35:44,694][98493] Updated weights for policy 0, policy_version 369272 (0.0007)
+[2023-07-06 12:35:44,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113595.5, 300 sec: 111855.5). Total num frames: 756285440. Throughput: 0: 27636.7. Samples: 189093888. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:35:46,918][98449] Signal inference workers to stop experience collection... (19100 times)
+[2023-07-06 12:35:46,948][98493] InferenceWorker_p0-w0: stopping experience collection (19100 times)
+[2023-07-06 12:35:47,004][98449] Signal inference workers to resume experience collection... (19100 times)
+[2023-07-06 12:35:47,004][98493] InferenceWorker_p0-w0: resuming experience collection (19100 times)
+[2023-07-06 12:35:47,375][98493] Updated weights for policy 0, policy_version 369332 (0.0008)
+[2023-07-06 12:35:47,965][98493] Updated weights for policy 0, policy_version 369399 (0.0008)
+[2023-07-06 12:35:48,547][98493] Updated weights for policy 0, policy_version 369467 (0.0008)
+[2023-07-06 12:35:49,158][98493] Updated weights for policy 0, policy_version 369531 (0.0008)
+[2023-07-06 12:35:49,764][98243] Fps is (10 sec: 111413.6, 60 sec: 113596.0, 300 sec: 111522.2). Total num frames: 756809728. Throughput: 0: 27773.1. Samples: 189262848. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:35:51,973][98493] Updated weights for policy 0, policy_version 369588 (0.0007)
+[2023-07-06 12:35:52,371][98493] Updated weights for policy 0, policy_version 369632 (0.0007)
+[2023-07-06 12:35:52,896][98493] Updated weights for policy 0, policy_version 369686 (0.0009)
+[2023-07-06 12:35:53,560][98493] Updated weights for policy 0, policy_version 369732 (0.0007)
+[2023-07-06 12:35:54,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111957.3, 300 sec: 111411.2). Total num frames: 757334016. Throughput: 0: 27841.5. Samples: 189348352. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:54,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:35:56,306][98493] Updated weights for policy 0, policy_version 369794 (0.0007)
+[2023-07-06 12:35:56,868][98493] Updated weights for policy 0, policy_version 369860 (0.0007)
+[2023-07-06 12:35:57,355][98493] Updated weights for policy 0, policy_version 369920 (0.0008)
+[2023-07-06 12:35:57,859][98493] Updated weights for policy 0, policy_version 369980 (0.0007)
+[2023-07-06 12:35:58,404][98493] Updated weights for policy 0, policy_version 370021 (0.0007)
+[2023-07-06 12:35:59,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111411.6, 300 sec: 111300.2). Total num frames: 757858304. Throughput: 0: 27659.3. Samples: 189510656. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:35:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:36:01,190][98493] Updated weights for policy 0, policy_version 370080 (0.0006)
+[2023-07-06 12:36:01,860][98493] Updated weights for policy 0, policy_version 370160 (0.0007)
+[2023-07-06 12:36:01,911][98449] Signal inference workers to stop experience collection... (19150 times)
+[2023-07-06 12:36:01,954][98493] InferenceWorker_p0-w0: stopping experience collection (19150 times)
+[2023-07-06 12:36:01,988][98449] Signal inference workers to resume experience collection... (19150 times)
+[2023-07-06 12:36:01,989][98493] InferenceWorker_p0-w0: resuming experience collection (19150 times)
+[2023-07-06 12:36:02,300][98493] Updated weights for policy 0, policy_version 370208 (0.0006)
+[2023-07-06 12:36:02,897][98493] Updated weights for policy 0, policy_version 370258 (0.0007)
+[2023-07-06 12:36:04,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111411.0, 300 sec: 110966.9). Total num frames: 758382592. Throughput: 0: 27796.0. Samples: 189681152. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:04,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:36:05,863][98493] Updated weights for policy 0, policy_version 370308 (0.0007)
+[2023-07-06 12:36:06,470][98493] Updated weights for policy 0, policy_version 370384 (0.0007)
+[2023-07-06 12:36:07,018][98493] Updated weights for policy 0, policy_version 370448 (0.0008)
+[2023-07-06 12:36:07,575][98493] Updated weights for policy 0, policy_version 370512 (0.0007)
+[2023-07-06 12:36:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.3, 300 sec: 110855.9). Total num frames: 758906880. Throughput: 0: 27568.7. Samples: 189757440. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:09,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:36:10,581][98493] Updated weights for policy 0, policy_version 370584 (0.0007)
+[2023-07-06 12:36:10,901][98493] Updated weights for policy 0, policy_version 370624 (0.0007)
+[2023-07-06 12:36:11,585][98493] Updated weights for policy 0, policy_version 370691 (0.0008)
+[2023-07-06 12:36:12,019][98493] Updated weights for policy 0, policy_version 370746 (0.0006)
+[2023-07-06 12:36:12,481][98493] Updated weights for policy 0, policy_version 370791 (0.0008)
+[2023-07-06 12:36:14,764][98243] Fps is (10 sec: 104858.8, 60 sec: 110318.8, 300 sec: 110633.7). Total num frames: 759431168. Throughput: 0: 27704.9. Samples: 189927424. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:14,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:36:15,239][98493] Updated weights for policy 0, policy_version 370832 (0.0007)
+[2023-07-06 12:36:15,864][98493] Updated weights for policy 0, policy_version 370901 (0.0008)
+[2023-07-06 12:36:16,422][98493] Updated weights for policy 0, policy_version 370964 (0.0008)
+[2023-07-06 12:36:16,989][98493] Updated weights for policy 0, policy_version 371024 (0.0008)
+[2023-07-06 12:36:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 109227.1, 300 sec: 110633.8). Total num frames: 759955456. Throughput: 0: 27955.3. Samples: 190098432. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:19,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:36:19,814][98449] Signal inference workers to stop experience collection... (19200 times)
+[2023-07-06 12:36:19,846][98493] InferenceWorker_p0-w0: stopping experience collection (19200 times)
+[2023-07-06 12:36:19,847][98493] Updated weights for policy 0, policy_version 371074 (0.0007)
+[2023-07-06 12:36:19,914][98449] Signal inference workers to resume experience collection... (19200 times)
+[2023-07-06 12:36:19,914][98493] InferenceWorker_p0-w0: resuming experience collection (19200 times)
+[2023-07-06 12:36:20,338][98493] Updated weights for policy 0, policy_version 371132 (0.0007)
+[2023-07-06 12:36:20,801][98493] Updated weights for policy 0, policy_version 371184 (0.0007)
+[2023-07-06 12:36:21,309][98493] Updated weights for policy 0, policy_version 371233 (0.0006)
+[2023-07-06 12:36:21,945][98493] Updated weights for policy 0, policy_version 371296 (0.0007)
+[2023-07-06 12:36:24,611][98493] Updated weights for policy 0, policy_version 371329 (0.0006)
+[2023-07-06 12:36:24,764][98243] Fps is (10 sec: 108133.8, 60 sec: 108135.3, 300 sec: 110744.8). Total num frames: 760512512. Throughput: 0: 27625.4. Samples: 190174720. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:36:24,959][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000371376_760578048.pth...
+[2023-07-06 12:36:25,028][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000358368_733937664.pth
+[2023-07-06 12:36:25,232][98493] Updated weights for policy 0, policy_version 371401 (0.0007)
+[2023-07-06 12:36:25,775][98493] Updated weights for policy 0, policy_version 371459 (0.0008)
+[2023-07-06 12:36:26,319][98493] Updated weights for policy 0, policy_version 371523 (0.0007)
+[2023-07-06 12:36:26,748][98493] Updated weights for policy 0, policy_version 371578 (0.0007)
+[2023-07-06 12:36:29,764][98243] Fps is (10 sec: 108134.1, 60 sec: 107588.3, 300 sec: 110744.7). Total num frames: 761036800. Throughput: 0: 27830.1. Samples: 190346240. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:36:29,930][98493] Updated weights for policy 0, policy_version 371622 (0.0007)
+[2023-07-06 12:36:30,523][98493] Updated weights for policy 0, policy_version 371687 (0.0007)
+[2023-07-06 12:36:30,937][98493] Updated weights for policy 0, policy_version 371734 (0.0007)
+[2023-07-06 12:36:31,430][98493] Updated weights for policy 0, policy_version 371792 (0.0007)
+[2023-07-06 12:36:34,304][98493] Updated weights for policy 0, policy_version 371843 (0.0006)
+[2023-07-06 12:36:34,764][98243] Fps is (10 sec: 111411.9, 60 sec: 108134.7, 300 sec: 110966.9). Total num frames: 761626624. Throughput: 0: 27796.0. Samples: 190513664. Policy #0 lag: (min: 15.0, avg: 111.8, max: 271.0)
+[2023-07-06 12:36:34,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:36:34,790][98493] Updated weights for policy 0, policy_version 371904 (0.0007)
+[2023-07-06 12:36:35,116][98449] Signal inference workers to stop experience collection... (19250 times)
+[2023-07-06 12:36:35,162][98493] InferenceWorker_p0-w0: stopping experience collection (19250 times)
+[2023-07-06 12:36:35,208][98449] Signal inference workers to resume experience collection... (19250 times)
+[2023-07-06 12:36:35,209][98493] InferenceWorker_p0-w0: resuming experience collection (19250 times)
+[2023-07-06 12:36:35,297][98493] Updated weights for policy 0, policy_version 371957 (0.0007)
+[2023-07-06 12:36:35,882][98493] Updated weights for policy 0, policy_version 372024 (0.0008)
+[2023-07-06 12:36:36,437][98493] Updated weights for policy 0, policy_version 372088 (0.0007)
+[2023-07-06 12:36:39,148][98493] Updated weights for policy 0, policy_version 372131 (0.0008)
+[2023-07-06 12:36:39,703][98493] Updated weights for policy 0, policy_version 372197 (0.0007)
+[2023-07-06 12:36:39,764][98243] Fps is (10 sec: 124518.6, 60 sec: 109773.5, 300 sec: 111411.2). Total num frames: 762281984. Throughput: 0: 27670.7. Samples: 190593536. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:36:39,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:36:40,214][98493] Updated weights for policy 0, policy_version 372256 (0.0007)
+[2023-07-06 12:36:40,764][98493] Updated weights for policy 0, policy_version 372320 (0.0007)
+[2023-07-06 12:36:43,505][98493] Updated weights for policy 0, policy_version 372358 (0.0007)
+[2023-07-06 12:36:44,036][98493] Updated weights for policy 0, policy_version 372417 (0.0008)
+[2023-07-06 12:36:44,535][98493] Updated weights for policy 0, policy_version 372480 (0.0007)
+[2023-07-06 12:36:44,764][98243] Fps is (10 sec: 121241.1, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 762839040. Throughput: 0: 27830.0. Samples: 190763008. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:36:44,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:36:45,249][98493] Updated weights for policy 0, policy_version 372544 (0.0008)
+[2023-07-06 12:36:45,745][98493] Updated weights for policy 0, policy_version 372605 (0.0006)
+[2023-07-06 12:36:48,452][98493] Updated weights for policy 0, policy_version 372656 (0.0007)
+[2023-07-06 12:36:49,236][98493] Updated weights for policy 0, policy_version 372709 (0.0007)
+[2023-07-06 12:36:49,764][98243] Fps is (10 sec: 111411.5, 60 sec: 109773.2, 300 sec: 111633.4). Total num frames: 763396096. Throughput: 0: 27614.0. Samples: 190923776. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:36:49,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:36:49,882][98493] Updated weights for policy 0, policy_version 372771 (0.0007)
+[2023-07-06 12:36:50,402][98449] Signal inference workers to stop experience collection... (19300 times)
+[2023-07-06 12:36:50,433][98493] InferenceWorker_p0-w0: stopping experience collection (19300 times)
+[2023-07-06 12:36:50,435][98493] Updated weights for policy 0, policy_version 372837 (0.0007)
+[2023-07-06 12:36:50,489][98449] Signal inference workers to resume experience collection... (19300 times)
+[2023-07-06 12:36:50,489][98493] InferenceWorker_p0-w0: resuming experience collection (19300 times)
+[2023-07-06 12:36:52,873][98493] Updated weights for policy 0, policy_version 372905 (0.0007)
+[2023-07-06 12:36:53,758][98493] Updated weights for policy 0, policy_version 372952 (0.0007)
+[2023-07-06 12:36:54,350][98493] Updated weights for policy 0, policy_version 372996 (0.0006)
+[2023-07-06 12:36:54,764][98243] Fps is (10 sec: 114688.3, 60 sec: 110865.0, 300 sec: 111411.2). Total num frames: 763985920. Throughput: 0: 27830.0. Samples: 191009792. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:36:54,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:36:54,866][98493] Updated weights for policy 0, policy_version 373056 (0.0006)
+[2023-07-06 12:36:55,296][98493] Updated weights for policy 0, policy_version 373104 (0.0007)
+[2023-07-06 12:36:57,830][98493] Updated weights for policy 0, policy_version 373155 (0.0007)
+[2023-07-06 12:36:58,476][98493] Updated weights for policy 0, policy_version 373200 (0.0007)
+[2023-07-06 12:36:59,009][98493] Updated weights for policy 0, policy_version 373250 (0.0008)
+[2023-07-06 12:36:59,522][98493] Updated weights for policy 0, policy_version 373312 (0.0007)
+[2023-07-06 12:36:59,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 764575744. Throughput: 0: 27739.0. Samples: 191175680. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:36:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:37:00,091][98493] Updated weights for policy 0, policy_version 373376 (0.0007)
+[2023-07-06 12:37:02,699][98493] Updated weights for policy 0, policy_version 373434 (0.0006)
+[2023-07-06 12:37:03,490][98493] Updated weights for policy 0, policy_version 373475 (0.0007)
+[2023-07-06 12:37:04,081][98493] Updated weights for policy 0, policy_version 373552 (0.0007)
+[2023-07-06 12:37:04,577][98493] Updated weights for policy 0, policy_version 373606 (0.0008)
+[2023-07-06 12:37:04,764][98243] Fps is (10 sec: 121241.5, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 765198336. Throughput: 0: 27465.9. Samples: 191334400. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:37:07,091][98493] Updated weights for policy 0, policy_version 373651 (0.0007)
+[2023-07-06 12:37:08,044][98493] Updated weights for policy 0, policy_version 373700 (0.0032)
+[2023-07-06 12:37:08,507][98493] Updated weights for policy 0, policy_version 373751 (0.0008)
+[2023-07-06 12:37:08,743][98449] Signal inference workers to stop experience collection... (19350 times)
+[2023-07-06 12:37:08,777][98493] InferenceWorker_p0-w0: stopping experience collection (19350 times)
+[2023-07-06 12:37:08,836][98449] Signal inference workers to resume experience collection... (19350 times)
+[2023-07-06 12:37:08,836][98493] InferenceWorker_p0-w0: resuming experience collection (19350 times)
+[2023-07-06 12:37:09,070][98493] Updated weights for policy 0, policy_version 373817 (0.0007)
+[2023-07-06 12:37:09,544][98493] Updated weights for policy 0, policy_version 373872 (0.0007)
+[2023-07-06 12:37:09,764][98243] Fps is (10 sec: 114687.4, 60 sec: 113595.7, 300 sec: 111744.5). Total num frames: 765722624. Throughput: 0: 27841.4. Samples: 191427584. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:37:11,821][98493] Updated weights for policy 0, policy_version 373924 (0.0006)
+[2023-07-06 12:37:12,942][98493] Updated weights for policy 0, policy_version 373984 (0.0007)
+[2023-07-06 12:37:13,401][98493] Updated weights for policy 0, policy_version 374032 (0.0007)
+[2023-07-06 12:37:13,849][98493] Updated weights for policy 0, policy_version 374080 (0.0007)
+[2023-07-06 12:37:14,356][98493] Updated weights for policy 0, policy_version 374137 (0.0007)
+[2023-07-06 12:37:14,764][98243] Fps is (10 sec: 104857.0, 60 sec: 113595.6, 300 sec: 111633.3). Total num frames: 766246912. Throughput: 0: 27716.2. Samples: 191593472. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:14,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:37:16,672][98493] Updated weights for policy 0, policy_version 374201 (0.0007)
+[2023-07-06 12:37:17,516][98493] Updated weights for policy 0, policy_version 374240 (0.0006)
+[2023-07-06 12:37:18,069][98493] Updated weights for policy 0, policy_version 374295 (0.0008)
+[2023-07-06 12:37:18,642][98493] Updated weights for policy 0, policy_version 374368 (0.0007)
+[2023-07-06 12:37:19,764][98243] Fps is (10 sec: 104858.3, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 766771200. Throughput: 0: 27648.0. Samples: 191757824. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:19,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:37:21,066][98493] Updated weights for policy 0, policy_version 374423 (0.0008)
+[2023-07-06 12:37:22,008][98493] Updated weights for policy 0, policy_version 374467 (0.0006)
+[2023-07-06 12:37:22,552][98493] Updated weights for policy 0, policy_version 374529 (0.0006)
+[2023-07-06 12:37:23,125][98493] Updated weights for policy 0, policy_version 374593 (0.0008)
+[2023-07-06 12:37:23,567][98493] Updated weights for policy 0, policy_version 374653 (0.0007)
+[2023-07-06 12:37:24,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113049.6, 300 sec: 111189.0). Total num frames: 767295488. Throughput: 0: 27750.3. Samples: 191842304. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:24,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:37:25,844][98449] Signal inference workers to stop experience collection... (19400 times)
+[2023-07-06 12:37:25,872][98493] InferenceWorker_p0-w0: stopping experience collection (19400 times)
+[2023-07-06 12:37:25,928][98449] Signal inference workers to resume experience collection... (19400 times)
+[2023-07-06 12:37:25,928][98493] InferenceWorker_p0-w0: resuming experience collection (19400 times)
+[2023-07-06 12:37:25,960][98493] Updated weights for policy 0, policy_version 374705 (0.0007)
+[2023-07-06 12:37:26,838][98493] Updated weights for policy 0, policy_version 374752 (0.0007)
+[2023-07-06 12:37:27,423][98493] Updated weights for policy 0, policy_version 374816 (0.0007)
+[2023-07-06 12:37:28,281][98493] Updated weights for policy 0, policy_version 374872 (0.0007)
+[2023-07-06 12:37:28,624][98493] Updated weights for policy 0, policy_version 374912 (0.0007)
+[2023-07-06 12:37:29,764][98243] Fps is (10 sec: 104856.2, 60 sec: 113049.4, 300 sec: 111078.0). Total num frames: 767819776. Throughput: 0: 27625.2. Samples: 192006144. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:37:30,593][98493] Updated weights for policy 0, policy_version 374973 (0.0007)
+[2023-07-06 12:37:31,568][98493] Updated weights for policy 0, policy_version 375024 (0.0007)
+[2023-07-06 12:37:32,085][98493] Updated weights for policy 0, policy_version 375075 (0.0008)
+[2023-07-06 12:37:32,686][98493] Updated weights for policy 0, policy_version 375109 (0.0007)
+[2023-07-06 12:37:33,189][98493] Updated weights for policy 0, policy_version 375168 (0.0007)
+[2023-07-06 12:37:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111957.2, 300 sec: 110855.8). Total num frames: 768344064. Throughput: 0: 27943.8. Samples: 192181248. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:34,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:37:35,237][98493] Updated weights for policy 0, policy_version 375208 (0.0007)
+[2023-07-06 12:37:35,974][98493] Updated weights for policy 0, policy_version 375264 (0.0007)
+[2023-07-06 12:37:36,707][98493] Updated weights for policy 0, policy_version 375317 (0.0007)
+[2023-07-06 12:37:37,375][98493] Updated weights for policy 0, policy_version 375362 (0.0007)
+[2023-07-06 12:37:37,796][98493] Updated weights for policy 0, policy_version 375421 (0.0007)
+[2023-07-06 12:37:39,764][98243] Fps is (10 sec: 111412.4, 60 sec: 110865.1, 300 sec: 110966.9). Total num frames: 768933888. Throughput: 0: 27795.9. Samples: 192260608. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:39,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:37:39,806][98493] Updated weights for policy 0, policy_version 375461 (0.0007)
+[2023-07-06 12:37:40,566][98493] Updated weights for policy 0, policy_version 375520 (0.0008)
+[2023-07-06 12:37:41,254][98493] Updated weights for policy 0, policy_version 375568 (0.0007)
+[2023-07-06 12:37:42,024][98493] Updated weights for policy 0, policy_version 375632 (0.0007)
+[2023-07-06 12:37:44,266][98493] Updated weights for policy 0, policy_version 375684 (0.0007)
+[2023-07-06 12:37:44,499][98449] Signal inference workers to stop experience collection... (19450 times)
+[2023-07-06 12:37:44,551][98493] InferenceWorker_p0-w0: stopping experience collection (19450 times)
+[2023-07-06 12:37:44,612][98449] Signal inference workers to resume experience collection... (19450 times)
+[2023-07-06 12:37:44,612][98493] InferenceWorker_p0-w0: resuming experience collection (19450 times)
+[2023-07-06 12:37:44,751][98493] Updated weights for policy 0, policy_version 375741 (0.0007)
+[2023-07-06 12:37:44,764][98243] Fps is (10 sec: 117963.7, 60 sec: 111411.0, 300 sec: 111077.9). Total num frames: 769523712. Throughput: 0: 27966.5. Samples: 192434176. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:44,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:37:45,343][98493] Updated weights for policy 0, policy_version 375802 (0.0007)
+[2023-07-06 12:37:46,255][98493] Updated weights for policy 0, policy_version 375856 (0.0007)
+[2023-07-06 12:37:47,005][98493] Updated weights for policy 0, policy_version 375920 (0.0007)
+[2023-07-06 12:37:49,053][98493] Updated weights for policy 0, policy_version 375973 (0.0007)
+[2023-07-06 12:37:49,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 770080768. Throughput: 0: 28171.4. Samples: 192602112. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:49,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:37:49,817][98493] Updated weights for policy 0, policy_version 376025 (0.0006)
+[2023-07-06 12:37:50,872][98493] Updated weights for policy 0, policy_version 376088 (0.0007)
+[2023-07-06 12:37:51,667][98493] Updated weights for policy 0, policy_version 376160 (0.0008)
+[2023-07-06 12:37:53,764][98493] Updated weights for policy 0, policy_version 376224 (0.0007)
+[2023-07-06 12:37:54,764][98243] Fps is (10 sec: 108135.6, 60 sec: 110318.9, 300 sec: 110744.7). Total num frames: 770605056. Throughput: 0: 27886.9. Samples: 192682496. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 12:37:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:37:54,776][98493] Updated weights for policy 0, policy_version 376279 (0.0006)
+[2023-07-06 12:37:55,522][98493] Updated weights for policy 0, policy_version 376341 (0.0008)
+[2023-07-06 12:37:56,001][98493] Updated weights for policy 0, policy_version 376400 (0.0007)
+[2023-07-06 12:37:58,507][98493] Updated weights for policy 0, policy_version 376464 (0.0007)
+[2023-07-06 12:37:59,283][98493] Updated weights for policy 0, policy_version 376515 (0.0007)
+[2023-07-06 12:37:59,733][98493] Updated weights for policy 0, policy_version 376573 (0.0007)
+[2023-07-06 12:37:59,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 771227648. Throughput: 0: 27921.1. Samples: 192849920. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:37:59,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:38:00,414][98493] Updated weights for policy 0, policy_version 376636 (0.0007)
+[2023-07-06 12:38:01,244][98493] Updated weights for policy 0, policy_version 376689 (0.0007)
+[2023-07-06 12:38:03,237][98493] Updated weights for policy 0, policy_version 376726 (0.0007)
+[2023-07-06 12:38:04,169][98449] Signal inference workers to stop experience collection... (19500 times)
+[2023-07-06 12:38:04,196][98493] InferenceWorker_p0-w0: stopping experience collection (19500 times)
+[2023-07-06 12:38:04,250][98449] Signal inference workers to resume experience collection... (19500 times)
+[2023-07-06 12:38:04,251][98493] InferenceWorker_p0-w0: resuming experience collection (19500 times)
+[2023-07-06 12:38:04,252][98493] Updated weights for policy 0, policy_version 376784 (0.0007)
+[2023-07-06 12:38:04,764][98243] Fps is (10 sec: 114689.0, 60 sec: 109226.8, 300 sec: 111078.0). Total num frames: 771751936. Throughput: 0: 27932.5. Samples: 193014784. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:04,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:38:04,872][98493] Updated weights for policy 0, policy_version 376855 (0.0007)
+[2023-07-06 12:38:05,528][98493] Updated weights for policy 0, policy_version 376898 (0.0006)
+[2023-07-06 12:38:05,961][98493] Updated weights for policy 0, policy_version 376955 (0.0007)
+[2023-07-06 12:38:07,891][98493] Updated weights for policy 0, policy_version 377008 (0.0006)
+[2023-07-06 12:38:09,295][98493] Updated weights for policy 0, policy_version 377056 (0.0007)
+[2023-07-06 12:38:09,764][98243] Fps is (10 sec: 108132.8, 60 sec: 109772.7, 300 sec: 111189.0). Total num frames: 772308992. Throughput: 0: 27932.4. Samples: 193099264. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:09,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:38:09,817][98493] Updated weights for policy 0, policy_version 377107 (0.0008)
+[2023-07-06 12:38:10,432][98493] Updated weights for policy 0, policy_version 377184 (0.0007)
+[2023-07-06 12:38:12,315][98493] Updated weights for policy 0, policy_version 377223 (0.0007)
+[2023-07-06 12:38:13,648][98493] Updated weights for policy 0, policy_version 377283 (0.0007)
+[2023-07-06 12:38:14,110][98493] Updated weights for policy 0, policy_version 377336 (0.0007)
+[2023-07-06 12:38:14,662][98493] Updated weights for policy 0, policy_version 377401 (0.0008)
+[2023-07-06 12:38:14,764][98243] Fps is (10 sec: 117961.8, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 772931584. Throughput: 0: 28114.4. Samples: 193271296. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:14,773][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:38:15,137][98493] Updated weights for policy 0, policy_version 377449 (0.0008)
+[2023-07-06 12:38:16,949][98493] Updated weights for policy 0, policy_version 377504 (0.0006)
+[2023-07-06 12:38:18,725][98493] Updated weights for policy 0, policy_version 377568 (0.0007)
+[2023-07-06 12:38:19,388][98493] Updated weights for policy 0, policy_version 377640 (0.0007)
+[2023-07-06 12:38:19,764][98243] Fps is (10 sec: 117967.0, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 773488640. Throughput: 0: 27739.1. Samples: 193429504. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:19,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:38:19,780][98449] Signal inference workers to stop experience collection... (19550 times)
+[2023-07-06 12:38:19,823][98493] InferenceWorker_p0-w0: stopping experience collection (19550 times)
+[2023-07-06 12:38:19,860][98449] Signal inference workers to resume experience collection... (19550 times)
+[2023-07-06 12:38:19,860][98493] InferenceWorker_p0-w0: resuming experience collection (19550 times)
+[2023-07-06 12:38:19,934][98493] Updated weights for policy 0, policy_version 377699 (0.0007)
+[2023-07-06 12:38:21,753][98493] Updated weights for policy 0, policy_version 377750 (0.0008)
+[2023-07-06 12:38:23,297][98493] Updated weights for policy 0, policy_version 377798 (0.0007)
+[2023-07-06 12:38:23,837][98493] Updated weights for policy 0, policy_version 377859 (0.0008)
+[2023-07-06 12:38:24,345][98493] Updated weights for policy 0, policy_version 377919 (0.0007)
+[2023-07-06 12:38:24,764][98243] Fps is (10 sec: 111412.9, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 774045696. Throughput: 0: 27921.0. Samples: 193517056. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:24,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:38:24,830][98493] Updated weights for policy 0, policy_version 377972 (0.0008)
+[2023-07-06 12:38:24,923][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000377984_774111232.pth...
+[2023-07-06 12:38:24,969][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000364928_747372544.pth
+[2023-07-06 12:38:26,765][98493] Updated weights for policy 0, policy_version 378016 (0.0008)
+[2023-07-06 12:38:27,980][98493] Updated weights for policy 0, policy_version 378064 (0.0006)
+[2023-07-06 12:38:28,408][98493] Updated weights for policy 0, policy_version 378112 (0.0007)
+[2023-07-06 12:38:28,956][98493] Updated weights for policy 0, policy_version 378175 (0.0007)
+[2023-07-06 12:38:29,690][98493] Updated weights for policy 0, policy_version 378234 (0.0006)
+[2023-07-06 12:38:29,764][98243] Fps is (10 sec: 114685.1, 60 sec: 113595.6, 300 sec: 111966.5). Total num frames: 774635520. Throughput: 0: 27682.1. Samples: 193679872. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:38:31,722][98493] Updated weights for policy 0, policy_version 378278 (0.0006)
+[2023-07-06 12:38:32,819][98493] Updated weights for policy 0, policy_version 378340 (0.0006)
+[2023-07-06 12:38:33,238][98493] Updated weights for policy 0, policy_version 378391 (0.0007)
+[2023-07-06 12:38:33,837][98493] Updated weights for policy 0, policy_version 378435 (0.0007)
+[2023-07-06 12:38:34,283][98493] Updated weights for policy 0, policy_version 378493 (0.0006)
+[2023-07-06 12:38:34,764][98243] Fps is (10 sec: 111411.4, 60 sec: 113595.8, 300 sec: 111855.5). Total num frames: 775159808. Throughput: 0: 27636.6. Samples: 193845760. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:34,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:38:36,454][98493] Updated weights for policy 0, policy_version 378552 (0.0007)
+[2023-07-06 12:38:37,680][98493] Updated weights for policy 0, policy_version 378608 (0.0006)
+[2023-07-06 12:38:38,022][98449] Signal inference workers to stop experience collection... (19600 times)
+[2023-07-06 12:38:38,053][98493] InferenceWorker_p0-w0: stopping experience collection (19600 times)
+[2023-07-06 12:38:38,132][98449] Signal inference workers to resume experience collection... (19600 times)
+[2023-07-06 12:38:38,132][98493] InferenceWorker_p0-w0: resuming experience collection (19600 times)
+[2023-07-06 12:38:38,133][98493] Updated weights for policy 0, policy_version 378656 (0.0006)
+[2023-07-06 12:38:38,655][98493] Updated weights for policy 0, policy_version 378708 (0.0006)
+[2023-07-06 12:38:38,952][98493] Updated weights for policy 0, policy_version 378748 (0.0006)
+[2023-07-06 12:38:39,764][98243] Fps is (10 sec: 104858.2, 60 sec: 112503.2, 300 sec: 111633.4). Total num frames: 775684096. Throughput: 0: 27795.9. Samples: 193933312. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:38:41,211][98493] Updated weights for policy 0, policy_version 378802 (0.0008)
+[2023-07-06 12:38:42,209][98493] Updated weights for policy 0, policy_version 378864 (0.0007)
+[2023-07-06 12:38:42,716][98493] Updated weights for policy 0, policy_version 378915 (0.0007)
+[2023-07-06 12:38:43,199][98493] Updated weights for policy 0, policy_version 378976 (0.0007)
+[2023-07-06 12:38:44,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 776208384. Throughput: 0: 27716.2. Samples: 194097152. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:44,772][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:38:45,778][98493] Updated weights for policy 0, policy_version 379030 (0.0008)
+[2023-07-06 12:38:46,822][98493] Updated weights for policy 0, policy_version 379095 (0.0007)
+[2023-07-06 12:38:47,355][98493] Updated weights for policy 0, policy_version 379157 (0.0007)
+[2023-07-06 12:38:47,901][98493] Updated weights for policy 0, policy_version 379218 (0.0007)
+[2023-07-06 12:38:49,764][98243] Fps is (10 sec: 104857.4, 60 sec: 110864.8, 300 sec: 111300.1). Total num frames: 776732672. Throughput: 0: 27841.3. Samples: 194267648. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:38:50,559][98493] Updated weights for policy 0, policy_version 379280 (0.0007)
+[2023-07-06 12:38:50,952][98493] Updated weights for policy 0, policy_version 379326 (0.0008)
+[2023-07-06 12:38:51,849][98493] Updated weights for policy 0, policy_version 379378 (0.0007)
+[2023-07-06 12:38:52,285][98493] Updated weights for policy 0, policy_version 379426 (0.0008)
+[2023-07-06 12:38:52,784][98493] Updated weights for policy 0, policy_version 379488 (0.0008)
+[2023-07-06 12:38:54,764][98243] Fps is (10 sec: 104857.3, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 777256960. Throughput: 0: 27704.9. Samples: 194345984. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:38:55,349][98493] Updated weights for policy 0, policy_version 379528 (0.0008)
+[2023-07-06 12:38:55,604][98449] Signal inference workers to stop experience collection... (19650 times)
+[2023-07-06 12:38:55,638][98493] InferenceWorker_p0-w0: stopping experience collection (19650 times)
+[2023-07-06 12:38:55,694][98449] Signal inference workers to resume experience collection... (19650 times)
+[2023-07-06 12:38:55,695][98493] InferenceWorker_p0-w0: resuming experience collection (19650 times)
+[2023-07-06 12:38:55,787][98493] Updated weights for policy 0, policy_version 379579 (0.0008)
+[2023-07-06 12:38:56,312][98493] Updated weights for policy 0, policy_version 379632 (0.0007)
+[2023-07-06 12:38:56,873][98493] Updated weights for policy 0, policy_version 379696 (0.0007)
+[2023-07-06 12:38:57,439][98493] Updated weights for policy 0, policy_version 379760 (0.0007)
+[2023-07-06 12:38:59,764][98243] Fps is (10 sec: 104856.5, 60 sec: 109226.2, 300 sec: 110966.8). Total num frames: 777781248. Throughput: 0: 27682.1. Samples: 194516992. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:38:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:39:00,086][98493] Updated weights for policy 0, policy_version 379808 (0.0007)
+[2023-07-06 12:39:01,068][98493] Updated weights for policy 0, policy_version 379872 (0.0008)
+[2023-07-06 12:39:01,572][98493] Updated weights for policy 0, policy_version 379922 (0.0007)
+[2023-07-06 12:39:02,058][98493] Updated weights for policy 0, policy_version 379984 (0.0007)
+[2023-07-06 12:39:04,399][98493] Updated weights for policy 0, policy_version 380034 (0.0007)
+[2023-07-06 12:39:04,765][98243] Fps is (10 sec: 114685.4, 60 sec: 110864.5, 300 sec: 111077.9). Total num frames: 778403840. Throughput: 0: 27886.7. Samples: 194684416. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:39:04,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:39:04,829][98493] Updated weights for policy 0, policy_version 380088 (0.0007)
+[2023-07-06 12:39:05,891][98493] Updated weights for policy 0, policy_version 380129 (0.0007)
+[2023-07-06 12:39:06,444][98493] Updated weights for policy 0, policy_version 380193 (0.0008)
+[2023-07-06 12:39:07,068][98493] Updated weights for policy 0, policy_version 380272 (0.0008)
+[2023-07-06 12:39:09,451][98493] Updated weights for policy 0, policy_version 380325 (0.0007)
+[2023-07-06 12:39:09,764][98243] Fps is (10 sec: 117966.3, 60 sec: 110865.1, 300 sec: 110855.7). Total num frames: 778960896. Throughput: 0: 27659.3. Samples: 194761728. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:39:09,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:39:10,492][98493] Updated weights for policy 0, policy_version 380384 (0.0007)
+[2023-07-06 12:39:11,057][98493] Updated weights for policy 0, policy_version 380448 (0.0008)
+[2023-07-06 12:39:11,586][98449] Signal inference workers to stop experience collection... (19700 times)
+[2023-07-06 12:39:11,608][98493] InferenceWorker_p0-w0: stopping experience collection (19700 times)
+[2023-07-06 12:39:11,669][98449] Signal inference workers to resume experience collection... (19700 times)
+[2023-07-06 12:39:11,669][98493] InferenceWorker_p0-w0: resuming experience collection (19700 times)
+[2023-07-06 12:39:11,826][98493] Updated weights for policy 0, policy_version 380512 (0.0007)
+[2023-07-06 12:39:14,029][98493] Updated weights for policy 0, policy_version 380560 (0.0006)
+[2023-07-06 12:39:14,764][98243] Fps is (10 sec: 108136.5, 60 sec: 109226.9, 300 sec: 110633.6). Total num frames: 779485184. Throughput: 0: 27887.0. Samples: 194934784. Policy #0 lag: (min: 4.0, avg: 88.4, max: 260.0)
+[2023-07-06 12:39:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:39:14,916][98493] Updated weights for policy 0, policy_version 380610 (0.0007)
+[2023-07-06 12:39:15,401][98493] Updated weights for policy 0, policy_version 380672 (0.0012)
+[2023-07-06 12:39:15,891][98493] Updated weights for policy 0, policy_version 380730 (0.0007)
+[2023-07-06 12:39:16,751][98493] Updated weights for policy 0, policy_version 380791 (0.0007)
+[2023-07-06 12:39:18,858][98493] Updated weights for policy 0, policy_version 380835 (0.0007)
+[2023-07-06 12:39:19,764][98243] Fps is (10 sec: 104856.3, 60 sec: 108680.0, 300 sec: 110633.6). Total num frames: 780009472. Throughput: 0: 27898.2. Samples: 195101184. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:39:19,903][98493] Updated weights for policy 0, policy_version 380889 (0.0006)
+[2023-07-06 12:39:20,408][98493] Updated weights for policy 0, policy_version 380944 (0.0007)
+[2023-07-06 12:39:21,349][98493] Updated weights for policy 0, policy_version 380998 (0.0008)
+[2023-07-06 12:39:21,835][98493] Updated weights for policy 0, policy_version 381056 (0.0007)
+[2023-07-06 12:39:23,634][98493] Updated weights for policy 0, policy_version 381115 (0.0007)
+[2023-07-06 12:39:24,665][98493] Updated weights for policy 0, policy_version 381158 (0.0006)
+[2023-07-06 12:39:24,764][98243] Fps is (10 sec: 114689.2, 60 sec: 109773.0, 300 sec: 110966.9). Total num frames: 780632064. Throughput: 0: 27761.9. Samples: 195182592. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:24,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:39:25,185][98493] Updated weights for policy 0, policy_version 381216 (0.0008)
+[2023-07-06 12:39:26,154][98493] Updated weights for policy 0, policy_version 381251 (0.0006)
+[2023-07-06 12:39:26,517][98493] Updated weights for policy 0, policy_version 381296 (0.0007)
+[2023-07-06 12:39:28,170][98493] Updated weights for policy 0, policy_version 381347 (0.0008)
+[2023-07-06 12:39:29,315][98493] Updated weights for policy 0, policy_version 381412 (0.0006)
+[2023-07-06 12:39:29,733][98449] Signal inference workers to stop experience collection... (19750 times)
+[2023-07-06 12:39:29,764][98243] Fps is (10 sec: 121244.4, 60 sec: 109773.1, 300 sec: 111189.1). Total num frames: 781221888. Throughput: 0: 27830.0. Samples: 195349504. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:39:29,770][98493] InferenceWorker_p0-w0: stopping experience collection (19750 times)
+[2023-07-06 12:39:29,829][98449] Signal inference workers to resume experience collection... (19750 times)
+[2023-07-06 12:39:29,829][98493] InferenceWorker_p0-w0: resuming experience collection (19750 times)
+[2023-07-06 12:39:29,831][98493] Updated weights for policy 0, policy_version 381472 (0.0008)
+[2023-07-06 12:39:30,792][98493] Updated weights for policy 0, policy_version 381512 (0.0007)
+[2023-07-06 12:39:31,215][98493] Updated weights for policy 0, policy_version 381561 (0.0007)
+[2023-07-06 12:39:32,845][98493] Updated weights for policy 0, policy_version 381605 (0.0007)
+[2023-07-06 12:39:33,857][98493] Updated weights for policy 0, policy_version 381655 (0.0007)
+[2023-07-06 12:39:34,472][98493] Updated weights for policy 0, policy_version 381728 (0.0008)
+[2023-07-06 12:39:34,764][98243] Fps is (10 sec: 121241.6, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 781844480. Throughput: 0: 27648.1. Samples: 195511808. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:34,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:39:35,557][98493] Updated weights for policy 0, policy_version 381769 (0.0007)
+[2023-07-06 12:39:36,010][98493] Updated weights for policy 0, policy_version 381824 (0.0007)
+[2023-07-06 12:39:37,758][98493] Updated weights for policy 0, policy_version 381888 (0.0007)
+[2023-07-06 12:39:38,896][98493] Updated weights for policy 0, policy_version 381943 (0.0006)
+[2023-07-06 12:39:39,448][98493] Updated weights for policy 0, policy_version 382010 (0.0009)
+[2023-07-06 12:39:39,764][98243] Fps is (10 sec: 114686.4, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 782368768. Throughput: 0: 27852.7. Samples: 195599360. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:39:40,617][98493] Updated weights for policy 0, policy_version 382073 (0.0008)
+[2023-07-06 12:39:42,004][98493] Updated weights for policy 0, policy_version 382112 (0.0007)
+[2023-07-06 12:39:43,162][98493] Updated weights for policy 0, policy_version 382160 (0.0007)
+[2023-07-06 12:39:43,650][98493] Updated weights for policy 0, policy_version 382209 (0.0007)
+[2023-07-06 12:39:44,118][98493] Updated weights for policy 0, policy_version 382266 (0.0006)
+[2023-07-06 12:39:44,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.3, 300 sec: 111522.4). Total num frames: 782893056. Throughput: 0: 27818.8. Samples: 195768832. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:44,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:39:45,442][98493] Updated weights for policy 0, policy_version 382328 (0.0009)
+[2023-07-06 12:39:46,745][98493] Updated weights for policy 0, policy_version 382371 (0.0008)
+[2023-07-06 12:39:47,985][98493] Updated weights for policy 0, policy_version 382439 (0.0008)
+[2023-07-06 12:39:48,088][98449] Signal inference workers to stop experience collection... (19800 times)
+[2023-07-06 12:39:48,124][98493] InferenceWorker_p0-w0: stopping experience collection (19800 times)
+[2023-07-06 12:39:48,169][98449] Signal inference workers to resume experience collection... (19800 times)
+[2023-07-06 12:39:48,169][98493] InferenceWorker_p0-w0: resuming experience collection (19800 times)
+[2023-07-06 12:39:48,525][98493] Updated weights for policy 0, policy_version 382501 (0.0007)
+[2023-07-06 12:39:49,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.3, 300 sec: 111189.0). Total num frames: 783417344. Throughput: 0: 27796.0. Samples: 195935232. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:39:50,292][98493] Updated weights for policy 0, policy_version 382562 (0.0007)
+[2023-07-06 12:39:51,298][98493] Updated weights for policy 0, policy_version 382612 (0.0007)
+[2023-07-06 12:39:52,394][98493] Updated weights for policy 0, policy_version 382658 (0.0007)
+[2023-07-06 12:39:52,956][98493] Updated weights for policy 0, policy_version 382724 (0.0008)
+[2023-07-06 12:39:53,438][98493] Updated weights for policy 0, policy_version 382784 (0.0007)
+[2023-07-06 12:39:54,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 783941632. Throughput: 0: 27955.2. Samples: 196019712. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:39:55,188][98493] Updated weights for policy 0, policy_version 382840 (0.0028)
+[2023-07-06 12:39:55,914][98493] Updated weights for policy 0, policy_version 382886 (0.0006)
+[2023-07-06 12:39:57,349][98493] Updated weights for policy 0, policy_version 382932 (0.0007)
+[2023-07-06 12:39:58,025][98493] Updated weights for policy 0, policy_version 383012 (0.0009)
+[2023-07-06 12:39:59,446][98493] Updated weights for policy 0, policy_version 383056 (0.0007)
+[2023-07-06 12:39:59,764][98243] Fps is (10 sec: 114688.8, 60 sec: 113050.1, 300 sec: 111411.2). Total num frames: 784564224. Throughput: 0: 27784.6. Samples: 196185088. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:39:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:40:00,175][98493] Updated weights for policy 0, policy_version 383106 (0.0006)
+[2023-07-06 12:40:00,652][98493] Updated weights for policy 0, policy_version 383168 (0.0008)
+[2023-07-06 12:40:02,547][98493] Updated weights for policy 0, policy_version 383248 (0.0011)
+[2023-07-06 12:40:04,380][98493] Updated weights for policy 0, policy_version 383312 (0.0007)
+[2023-07-06 12:40:04,764][98243] Fps is (10 sec: 114686.8, 60 sec: 111411.4, 300 sec: 111411.1). Total num frames: 785088512. Throughput: 0: 27750.4. Samples: 196349952. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:04,770][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:40:04,916][98493] Updated weights for policy 0, policy_version 383369 (0.0007)
+[2023-07-06 12:40:05,344][98493] Updated weights for policy 0, policy_version 383419 (0.0008)
+[2023-07-06 12:40:06,423][98449] Signal inference workers to stop experience collection... (19850 times)
+[2023-07-06 12:40:06,439][98493] InferenceWorker_p0-w0: stopping experience collection (19850 times)
+[2023-07-06 12:40:06,514][98449] Signal inference workers to resume experience collection... (19850 times)
+[2023-07-06 12:40:06,514][98493] InferenceWorker_p0-w0: resuming experience collection (19850 times)
+[2023-07-06 12:40:06,825][98493] Updated weights for policy 0, policy_version 383473 (0.0008)
+[2023-07-06 12:40:07,417][98493] Updated weights for policy 0, policy_version 383512 (0.0008)
+[2023-07-06 12:40:09,019][98493] Updated weights for policy 0, policy_version 383568 (0.0006)
+[2023-07-06 12:40:09,472][98493] Updated weights for policy 0, policy_version 383616 (0.0006)
+[2023-07-06 12:40:09,764][98243] Fps is (10 sec: 114687.1, 60 sec: 112503.5, 300 sec: 111522.2). Total num frames: 785711104. Throughput: 0: 27818.6. Samples: 196434432. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:40:09,974][98493] Updated weights for policy 0, policy_version 383674 (0.0006)
+[2023-07-06 12:40:11,418][98493] Updated weights for policy 0, policy_version 383718 (0.0006)
+[2023-07-06 12:40:12,423][98493] Updated weights for policy 0, policy_version 383778 (0.0006)
+[2023-07-06 12:40:13,757][98493] Updated weights for policy 0, policy_version 383834 (0.0006)
+[2023-07-06 12:40:14,231][98493] Updated weights for policy 0, policy_version 383888 (0.0007)
+[2023-07-06 12:40:14,764][98243] Fps is (10 sec: 121243.6, 60 sec: 113595.8, 300 sec: 111522.4). Total num frames: 786300928. Throughput: 0: 27921.1. Samples: 196605952. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:14,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:40:15,694][98493] Updated weights for policy 0, policy_version 383942 (0.0008)
+[2023-07-06 12:40:16,172][98493] Updated weights for policy 0, policy_version 384000 (0.0007)
+[2023-07-06 12:40:17,277][98493] Updated weights for policy 0, policy_version 384059 (0.0007)
+[2023-07-06 12:40:18,639][98493] Updated weights for policy 0, policy_version 384099 (0.0007)
+[2023-07-06 12:40:19,009][98493] Updated weights for policy 0, policy_version 384129 (0.0006)
+[2023-07-06 12:40:19,406][98493] Updated weights for policy 0, policy_version 384177 (0.0006)
+[2023-07-06 12:40:19,764][98243] Fps is (10 sec: 111412.3, 60 sec: 113596.2, 300 sec: 111189.3). Total num frames: 786825216. Throughput: 0: 28000.7. Samples: 196771840. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:40:20,267][98493] Updated weights for policy 0, policy_version 384208 (0.0006)
+[2023-07-06 12:40:20,745][98493] Updated weights for policy 0, policy_version 384256 (0.0006)
+[2023-07-06 12:40:22,069][98493] Updated weights for policy 0, policy_version 384318 (0.0007)
+[2023-07-06 12:40:23,291][98493] Updated weights for policy 0, policy_version 384376 (0.0008)
+[2023-07-06 12:40:23,971][98493] Updated weights for policy 0, policy_version 384420 (0.0007)
+[2023-07-06 12:40:24,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111957.1, 300 sec: 111078.0). Total num frames: 787349504. Throughput: 0: 27955.2. Samples: 196857344. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:40:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000384448_787349504.pth...
+[2023-07-06 12:40:24,905][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000371376_760578048.pth
+[2023-07-06 12:40:24,906][98449] Signal inference workers to stop experience collection... (19900 times)
+[2023-07-06 12:40:24,942][98493] InferenceWorker_p0-w0: stopping experience collection (19900 times)
+[2023-07-06 12:40:25,025][98449] Signal inference workers to resume experience collection... (19900 times)
+[2023-07-06 12:40:25,026][98493] InferenceWorker_p0-w0: resuming experience collection (19900 times)
+[2023-07-06 12:40:25,159][98493] Updated weights for policy 0, policy_version 384480 (0.0006)
+[2023-07-06 12:40:26,659][98493] Updated weights for policy 0, policy_version 384528 (0.0007)
+[2023-07-06 12:40:27,043][98493] Updated weights for policy 0, policy_version 384574 (0.0006)
+[2023-07-06 12:40:27,721][98493] Updated weights for policy 0, policy_version 384624 (0.0007)
+[2023-07-06 12:40:28,632][98493] Updated weights for policy 0, policy_version 384658 (0.0006)
+[2023-07-06 12:40:29,403][98493] Updated weights for policy 0, policy_version 384708 (0.0007)
+[2023-07-06 12:40:29,764][98243] Fps is (10 sec: 114688.8, 60 sec: 112503.6, 300 sec: 111300.2). Total num frames: 787972096. Throughput: 0: 27898.3. Samples: 197024256. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:29,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:40:29,855][98493] Updated weights for policy 0, policy_version 384766 (0.0007)
+[2023-07-06 12:40:31,715][98493] Updated weights for policy 0, policy_version 384825 (0.0007)
+[2023-07-06 12:40:32,315][98493] Updated weights for policy 0, policy_version 384868 (0.0007)
+[2023-07-06 12:40:33,571][98493] Updated weights for policy 0, policy_version 384931 (0.0009)
+[2023-07-06 12:40:34,307][98493] Updated weights for policy 0, policy_version 384979 (0.0007)
+[2023-07-06 12:40:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111411.1, 300 sec: 111300.3). Total num frames: 788529152. Throughput: 0: 27841.4. Samples: 197188096. Policy #0 lag: (min: 15.0, avg: 97.8, max: 271.0)
+[2023-07-06 12:40:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:40:36,177][98493] Updated weights for policy 0, policy_version 385056 (0.0007)
+[2023-07-06 12:40:36,999][98493] Updated weights for policy 0, policy_version 385108 (0.0007)
+[2023-07-06 12:40:37,350][98493] Updated weights for policy 0, policy_version 385151 (0.0006)
+[2023-07-06 12:40:38,315][98493] Updated weights for policy 0, policy_version 385200 (0.0007)
+[2023-07-06 12:40:38,998][98493] Updated weights for policy 0, policy_version 385255 (0.0007)
+[2023-07-06 12:40:39,764][98243] Fps is (10 sec: 108131.2, 60 sec: 111411.1, 300 sec: 111077.9). Total num frames: 789053440. Throughput: 0: 27886.8. Samples: 197274624. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:40:39,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 12:40:41,166][98493] Updated weights for policy 0, policy_version 385328 (0.0006)
+[2023-07-06 12:40:41,883][98493] Updated weights for policy 0, policy_version 385377 (0.0007)
+[2023-07-06 12:40:42,753][98493] Updated weights for policy 0, policy_version 385409 (0.0007)
+[2023-07-06 12:40:43,310][98493] Updated weights for policy 0, policy_version 385475 (0.0007)
+[2023-07-06 12:40:43,462][98449] Signal inference workers to stop experience collection... (19950 times)
+[2023-07-06 12:40:43,472][98493] InferenceWorker_p0-w0: stopping experience collection (19950 times)
+[2023-07-06 12:40:43,547][98449] Signal inference workers to resume experience collection... (19950 times)
+[2023-07-06 12:40:43,547][98493] InferenceWorker_p0-w0: resuming experience collection (19950 times)
+[2023-07-06 12:40:43,793][98493] Updated weights for policy 0, policy_version 385531 (0.0007)
+[2023-07-06 12:40:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 789577728. Throughput: 0: 27818.7. Samples: 197436928. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:40:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:40:45,932][98493] Updated weights for policy 0, policy_version 385584 (0.0007)
+[2023-07-06 12:40:46,512][98493] Updated weights for policy 0, policy_version 385650 (0.0007)
+[2023-07-06 12:40:47,806][98493] Updated weights for policy 0, policy_version 385684 (0.0008)
+[2023-07-06 12:40:48,357][98493] Updated weights for policy 0, policy_version 385746 (0.0007)
+[2023-07-06 12:40:49,764][98243] Fps is (10 sec: 104859.6, 60 sec: 111411.3, 300 sec: 111077.9). Total num frames: 790102016. Throughput: 0: 27978.0. Samples: 197608960. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:40:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:40:50,230][98493] Updated weights for policy 0, policy_version 385808 (0.0007)
+[2023-07-06 12:40:51,105][98493] Updated weights for policy 0, policy_version 385872 (0.0007)
+[2023-07-06 12:40:51,526][98493] Updated weights for policy 0, policy_version 385920 (0.0008)
+[2023-07-06 12:40:52,873][98493] Updated weights for policy 0, policy_version 385984 (0.0006)
+[2023-07-06 12:40:53,382][98493] Updated weights for policy 0, policy_version 386043 (0.0008)
+[2023-07-06 12:40:54,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111411.0, 300 sec: 111077.9). Total num frames: 790626304. Throughput: 0: 27932.4. Samples: 197691392. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:40:54,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:40:55,181][98493] Updated weights for policy 0, policy_version 386096 (0.0007)
+[2023-07-06 12:40:55,953][98493] Updated weights for policy 0, policy_version 386148 (0.0007)
+[2023-07-06 12:40:57,365][98493] Updated weights for policy 0, policy_version 386208 (0.0007)
+[2023-07-06 12:40:58,062][98493] Updated weights for policy 0, policy_version 386278 (0.0008)
+[2023-07-06 12:40:59,598][98493] Updated weights for policy 0, policy_version 386328 (0.0007)
+[2023-07-06 12:40:59,764][98243] Fps is (10 sec: 111412.4, 60 sec: 110865.2, 300 sec: 111300.2). Total num frames: 791216128. Throughput: 0: 27716.3. Samples: 197853184. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:40:59,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:41:00,647][98493] Updated weights for policy 0, policy_version 386384 (0.0007)
+[2023-07-06 12:41:01,027][98493] Updated weights for policy 0, policy_version 386430 (0.0006)
+[2023-07-06 12:41:02,146][98449] Signal inference workers to stop experience collection... (20000 times)
+[2023-07-06 12:41:02,175][98493] InferenceWorker_p0-w0: stopping experience collection (20000 times)
+[2023-07-06 12:41:02,231][98449] Signal inference workers to resume experience collection... (20000 times)
+[2023-07-06 12:41:02,231][98493] InferenceWorker_p0-w0: resuming experience collection (20000 times)
+[2023-07-06 12:41:02,330][98493] Updated weights for policy 0, policy_version 386492 (0.0011)
+[2023-07-06 12:41:02,920][98493] Updated weights for policy 0, policy_version 386535 (0.0007)
+[2023-07-06 12:41:04,193][98493] Updated weights for policy 0, policy_version 386576 (0.0008)
+[2023-07-06 12:41:04,764][98243] Fps is (10 sec: 117966.8, 60 sec: 111957.7, 300 sec: 111522.3). Total num frames: 791805952. Throughput: 0: 27761.8. Samples: 198021120. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:04,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:41:05,372][98493] Updated weights for policy 0, policy_version 386626 (0.0007)
+[2023-07-06 12:41:05,791][98493] Updated weights for policy 0, policy_version 386680 (0.0008)
+[2023-07-06 12:41:06,679][98493] Updated weights for policy 0, policy_version 386723 (0.0007)
+[2023-07-06 12:41:07,635][98493] Updated weights for policy 0, policy_version 386800 (0.0008)
+[2023-07-06 12:41:09,003][98493] Updated weights for policy 0, policy_version 386848 (0.0011)
+[2023-07-06 12:41:09,764][98243] Fps is (10 sec: 111410.0, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 792330240. Throughput: 0: 27670.8. Samples: 198102528. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:41:10,040][98493] Updated weights for policy 0, policy_version 386886 (0.0007)
+[2023-07-06 12:41:10,507][98493] Updated weights for policy 0, policy_version 386944 (0.0007)
+[2023-07-06 12:41:11,431][98493] Updated weights for policy 0, policy_version 387002 (0.0010)
+[2023-07-06 12:41:12,401][98493] Updated weights for policy 0, policy_version 387041 (0.0006)
+[2023-07-06 12:41:13,811][98493] Updated weights for policy 0, policy_version 387106 (0.0007)
+[2023-07-06 12:41:14,764][98243] Fps is (10 sec: 108133.5, 60 sec: 109772.7, 300 sec: 111633.3). Total num frames: 792887296. Throughput: 0: 27693.4. Samples: 198270464. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:14,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:41:14,949][98493] Updated weights for policy 0, policy_version 387169 (0.0007)
+[2023-07-06 12:41:15,859][98493] Updated weights for policy 0, policy_version 387216 (0.0007)
+[2023-07-06 12:41:16,745][98493] Updated weights for policy 0, policy_version 387265 (0.0008)
+[2023-07-06 12:41:18,314][98493] Updated weights for policy 0, policy_version 387329 (0.0007)
+[2023-07-06 12:41:19,491][98493] Updated weights for policy 0, policy_version 387394 (0.0007)
+[2023-07-06 12:41:19,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110318.9, 300 sec: 111633.4). Total num frames: 793444352. Throughput: 0: 27784.5. Samples: 198438400. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:19,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:41:19,926][98493] Updated weights for policy 0, policy_version 387455 (0.0008)
+[2023-07-06 12:41:20,675][98493] Updated weights for policy 0, policy_version 387493 (0.0007)
+[2023-07-06 12:41:21,755][98449] Signal inference workers to stop experience collection... (20050 times)
+[2023-07-06 12:41:21,789][98493] InferenceWorker_p0-w0: stopping experience collection (20050 times)
+[2023-07-06 12:41:21,828][98449] Signal inference workers to resume experience collection... (20050 times)
+[2023-07-06 12:41:21,828][98493] InferenceWorker_p0-w0: resuming experience collection (20050 times)
+[2023-07-06 12:41:21,901][98493] Updated weights for policy 0, policy_version 387553 (0.0007)
+[2023-07-06 12:41:23,118][98493] Updated weights for policy 0, policy_version 387608 (0.0008)
+[2023-07-06 12:41:24,094][98493] Updated weights for policy 0, policy_version 387653 (0.0006)
+[2023-07-06 12:41:24,764][98243] Fps is (10 sec: 114688.6, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 794034176. Throughput: 0: 27750.5. Samples: 198523392. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:41:25,121][98493] Updated weights for policy 0, policy_version 387714 (0.0007)
+[2023-07-06 12:41:25,604][98493] Updated weights for policy 0, policy_version 387776 (0.0007)
+[2023-07-06 12:41:26,659][98493] Updated weights for policy 0, policy_version 387840 (0.0007)
+[2023-07-06 12:41:27,783][98493] Updated weights for policy 0, policy_version 387888 (0.0006)
+[2023-07-06 12:41:28,985][98493] Updated weights for policy 0, policy_version 387942 (0.0006)
+[2023-07-06 12:41:29,764][98243] Fps is (10 sec: 111409.0, 60 sec: 109772.3, 300 sec: 111633.3). Total num frames: 794558464. Throughput: 0: 27909.6. Samples: 198692864. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:41:30,112][98493] Updated weights for policy 0, policy_version 388000 (0.0007)
+[2023-07-06 12:41:30,892][98493] Updated weights for policy 0, policy_version 388034 (0.0007)
+[2023-07-06 12:41:31,333][98493] Updated weights for policy 0, policy_version 388092 (0.0006)
+[2023-07-06 12:41:32,346][98493] Updated weights for policy 0, policy_version 388144 (0.0006)
+[2023-07-06 12:41:33,565][98493] Updated weights for policy 0, policy_version 388186 (0.0006)
+[2023-07-06 12:41:34,764][98243] Fps is (10 sec: 104856.6, 60 sec: 109226.5, 300 sec: 111189.0). Total num frames: 795082752. Throughput: 0: 27852.7. Samples: 198862336. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:34,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 12:41:34,836][98493] Updated weights for policy 0, policy_version 388234 (0.0008)
+[2023-07-06 12:41:35,265][98493] Updated weights for policy 0, policy_version 388282 (0.0012)
+[2023-07-06 12:41:35,846][98493] Updated weights for policy 0, policy_version 388329 (0.0007)
+[2023-07-06 12:41:36,762][98493] Updated weights for policy 0, policy_version 388371 (0.0007)
+[2023-07-06 12:41:37,899][98493] Updated weights for policy 0, policy_version 388432 (0.0012)
+[2023-07-06 12:41:38,300][98493] Updated weights for policy 0, policy_version 388475 (0.0008)
+[2023-07-06 12:41:39,764][98243] Fps is (10 sec: 111413.6, 60 sec: 110319.3, 300 sec: 111300.1). Total num frames: 795672576. Throughput: 0: 27852.9. Samples: 198944768. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:39,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:41:39,797][98493] Updated weights for policy 0, policy_version 388528 (0.0007)
+[2023-07-06 12:41:40,402][98493] Updated weights for policy 0, policy_version 388581 (0.0007)
+[2023-07-06 12:41:41,419][98449] Signal inference workers to stop experience collection... (20100 times)
+[2023-07-06 12:41:41,445][98493] InferenceWorker_p0-w0: stopping experience collection (20100 times)
+[2023-07-06 12:41:41,507][98449] Signal inference workers to resume experience collection... (20100 times)
+[2023-07-06 12:41:41,507][98493] InferenceWorker_p0-w0: resuming experience collection (20100 times)
+[2023-07-06 12:41:41,703][98493] Updated weights for policy 0, policy_version 388642 (0.0006)
+[2023-07-06 12:41:42,615][98493] Updated weights for policy 0, policy_version 388704 (0.0007)
+[2023-07-06 12:41:44,661][98493] Updated weights for policy 0, policy_version 388784 (0.0009)
+[2023-07-06 12:41:44,765][98243] Fps is (10 sec: 114686.2, 60 sec: 110864.6, 300 sec: 111300.0). Total num frames: 796229632. Throughput: 0: 28023.2. Samples: 199114240. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:44,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 12:41:45,186][98493] Updated weights for policy 0, policy_version 388837 (0.0007)
+[2023-07-06 12:41:46,511][98493] Updated weights for policy 0, policy_version 388889 (0.0007)
+[2023-07-06 12:41:47,010][98493] Updated weights for policy 0, policy_version 388930 (0.0007)
+[2023-07-06 12:41:49,263][98493] Updated weights for policy 0, policy_version 388993 (0.0007)
+[2023-07-06 12:41:49,764][98243] Fps is (10 sec: 108134.1, 60 sec: 110865.0, 300 sec: 111078.0). Total num frames: 796753920. Throughput: 0: 28000.7. Samples: 199281152. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:41:49,791][98493] Updated weights for policy 0, policy_version 389056 (0.0008)
+[2023-07-06 12:41:50,320][98493] Updated weights for policy 0, policy_version 389115 (0.0008)
+[2023-07-06 12:41:51,292][98493] Updated weights for policy 0, policy_version 389175 (0.0007)
+[2023-07-06 12:41:52,174][98493] Updated weights for policy 0, policy_version 389232 (0.0006)
+[2023-07-06 12:41:53,936][98493] Updated weights for policy 0, policy_version 389281 (0.0007)
+[2023-07-06 12:41:54,530][98493] Updated weights for policy 0, policy_version 389346 (0.0007)
+[2023-07-06 12:41:54,764][98243] Fps is (10 sec: 121245.1, 60 sec: 113596.1, 300 sec: 111411.2). Total num frames: 797442048. Throughput: 0: 28000.7. Samples: 199362560. Policy #0 lag: (min: 15.0, avg: 133.7, max: 271.0)
+[2023-07-06 12:41:54,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:41:55,600][98493] Updated weights for policy 0, policy_version 389392 (0.0007)
+[2023-07-06 12:41:56,706][98493] Updated weights for policy 0, policy_version 389441 (0.0009)
+[2023-07-06 12:41:57,147][98493] Updated weights for policy 0, policy_version 389500 (0.0007)
+[2023-07-06 12:41:58,675][98493] Updated weights for policy 0, policy_version 389539 (0.0007)
+[2023-07-06 12:41:58,934][98493] Updated weights for policy 0, policy_version 389568 (0.0006)
+[2023-07-06 12:41:59,132][98449] Signal inference workers to stop experience collection... (20150 times)
+[2023-07-06 12:41:59,164][98493] InferenceWorker_p0-w0: stopping experience collection (20150 times)
+[2023-07-06 12:41:59,243][98449] Signal inference workers to resume experience collection... (20150 times)
+[2023-07-06 12:41:59,243][98493] InferenceWorker_p0-w0: resuming experience collection (20150 times)
+[2023-07-06 12:41:59,461][98493] Updated weights for policy 0, policy_version 389627 (0.0007)
+[2023-07-06 12:41:59,764][98243] Fps is (10 sec: 121241.6, 60 sec: 112503.3, 300 sec: 111078.0). Total num frames: 797966336. Throughput: 0: 28046.2. Samples: 199532544. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:41:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:42:00,511][98493] Updated weights for policy 0, policy_version 389686 (0.0006)
+[2023-07-06 12:42:01,761][98493] Updated weights for policy 0, policy_version 389735 (0.0006)
+[2023-07-06 12:42:03,263][98493] Updated weights for policy 0, policy_version 389808 (0.0007)
+[2023-07-06 12:42:03,858][98493] Updated weights for policy 0, policy_version 389859 (0.0017)
+[2023-07-06 12:42:04,764][98243] Fps is (10 sec: 104856.1, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 798490624. Throughput: 0: 27989.3. Samples: 199697920. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:42:04,902][98493] Updated weights for policy 0, policy_version 389892 (0.0007)
+[2023-07-06 12:42:05,378][98493] Updated weights for policy 0, policy_version 389952 (0.0007)
+[2023-07-06 12:42:06,688][98493] Updated weights for policy 0, policy_version 390016 (0.0006)
+[2023-07-06 12:42:08,136][98493] Updated weights for policy 0, policy_version 390077 (0.0007)
+[2023-07-06 12:42:08,674][98493] Updated weights for policy 0, policy_version 390138 (0.0011)
+[2023-07-06 12:42:09,764][98243] Fps is (10 sec: 108134.8, 60 sec: 111957.4, 300 sec: 111189.1). Total num frames: 799047680. Throughput: 0: 28023.5. Samples: 199784448. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:09,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:42:10,043][98493] Updated weights for policy 0, policy_version 390202 (0.0007)
+[2023-07-06 12:42:11,233][98493] Updated weights for policy 0, policy_version 390265 (0.0007)
+[2023-07-06 12:42:12,842][98493] Updated weights for policy 0, policy_version 390328 (0.0008)
+[2023-07-06 12:42:13,379][98493] Updated weights for policy 0, policy_version 390395 (0.0034)
+[2023-07-06 12:42:14,764][98243] Fps is (10 sec: 111410.0, 60 sec: 111957.0, 300 sec: 111300.0). Total num frames: 799604736. Throughput: 0: 27795.9. Samples: 199943680. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:42:14,829][98493] Updated weights for policy 0, policy_version 390437 (0.0007)
+[2023-07-06 12:42:15,682][98493] Updated weights for policy 0, policy_version 390480 (0.0006)
+[2023-07-06 12:42:16,105][98493] Updated weights for policy 0, policy_version 390528 (0.0007)
+[2023-07-06 12:42:17,506][98493] Updated weights for policy 0, policy_version 390590 (0.0007)
+[2023-07-06 12:42:17,576][98449] Signal inference workers to stop experience collection... (20200 times)
+[2023-07-06 12:42:17,586][98493] InferenceWorker_p0-w0: stopping experience collection (20200 times)
+[2023-07-06 12:42:17,658][98449] Signal inference workers to resume experience collection... (20200 times)
+[2023-07-06 12:42:17,658][98493] InferenceWorker_p0-w0: resuming experience collection (20200 times)
+[2023-07-06 12:42:18,014][98493] Updated weights for policy 0, policy_version 390651 (0.0006)
+[2023-07-06 12:42:19,375][98493] Updated weights for policy 0, policy_version 390712 (0.0007)
+[2023-07-06 12:42:19,764][98243] Fps is (10 sec: 114688.0, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 800194560. Throughput: 0: 27875.6. Samples: 200116736. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:19,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:42:20,341][98493] Updated weights for policy 0, policy_version 390758 (0.0006)
+[2023-07-06 12:42:21,961][98493] Updated weights for policy 0, policy_version 390820 (0.0007)
+[2023-07-06 12:42:22,702][98493] Updated weights for policy 0, policy_version 390872 (0.0006)
+[2023-07-06 12:42:23,031][98493] Updated weights for policy 0, policy_version 390912 (0.0007)
+[2023-07-06 12:42:23,980][98493] Updated weights for policy 0, policy_version 390963 (0.0007)
+[2023-07-06 12:42:24,764][98243] Fps is (10 sec: 114690.1, 60 sec: 111957.3, 300 sec: 111633.4). Total num frames: 800751616. Throughput: 0: 27921.0. Samples: 200201216. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:42:24,793][98493] Updated weights for policy 0, policy_version 391008 (0.0006)
+[2023-07-06 12:42:24,919][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000391024_800817152.pth...
+[2023-07-06 12:42:24,949][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000377984_774111232.pth
+[2023-07-06 12:42:24,953][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000391024_800817152.pth
+[2023-07-06 12:42:26,590][98493] Updated weights for policy 0, policy_version 391058 (0.0008)
+[2023-07-06 12:42:27,002][98493] Updated weights for policy 0, policy_version 391104 (0.0011)
+[2023-07-06 12:42:27,482][98493] Updated weights for policy 0, policy_version 391162 (0.0016)
+[2023-07-06 12:42:28,515][98493] Updated weights for policy 0, policy_version 391216 (0.0007)
+[2023-07-06 12:42:29,525][98493] Updated weights for policy 0, policy_version 391251 (0.0007)
+[2023-07-06 12:42:29,764][98243] Fps is (10 sec: 114688.1, 60 sec: 113050.0, 300 sec: 111855.5). Total num frames: 801341440. Throughput: 0: 27909.9. Samples: 200370176. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:29,778][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 12:42:31,137][98493] Updated weights for policy 0, policy_version 391316 (0.0007)
+[2023-07-06 12:42:31,457][98493] Updated weights for policy 0, policy_version 391357 (0.0007)
+[2023-07-06 12:42:32,183][98493] Updated weights for policy 0, policy_version 391409 (0.0007)
+[2023-07-06 12:42:32,857][98493] Updated weights for policy 0, policy_version 391459 (0.0008)
+[2023-07-06 12:42:34,165][98493] Updated weights for policy 0, policy_version 391509 (0.0006)
+[2023-07-06 12:42:34,764][98243] Fps is (10 sec: 114687.1, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 801898496. Throughput: 0: 27977.9. Samples: 200540160. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:34,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:42:35,974][98493] Updated weights for policy 0, policy_version 391576 (0.0007)
+[2023-07-06 12:42:36,573][98493] Updated weights for policy 0, policy_version 391617 (0.0006)
+[2023-07-06 12:42:36,704][98449] Signal inference workers to stop experience collection... (20250 times)
+[2023-07-06 12:42:36,731][98493] InferenceWorker_p0-w0: stopping experience collection (20250 times)
+[2023-07-06 12:42:36,782][98449] Signal inference workers to resume experience collection... (20250 times)
+[2023-07-06 12:42:36,782][98493] InferenceWorker_p0-w0: resuming experience collection (20250 times)
+[2023-07-06 12:42:37,088][98493] Updated weights for policy 0, policy_version 391680 (0.0007)
+[2023-07-06 12:42:37,550][98493] Updated weights for policy 0, policy_version 391728 (0.0006)
+[2023-07-06 12:42:39,011][98493] Updated weights for policy 0, policy_version 391780 (0.0008)
+[2023-07-06 12:42:39,764][98243] Fps is (10 sec: 108134.0, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 802422784. Throughput: 0: 28034.8. Samples: 200624128. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:39,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:42:40,651][98493] Updated weights for policy 0, policy_version 391840 (0.0007)
+[2023-07-06 12:42:41,412][98493] Updated weights for policy 0, policy_version 391893 (0.0007)
+[2023-07-06 12:42:41,905][98493] Updated weights for policy 0, policy_version 391952 (0.0007)
+[2023-07-06 12:42:43,461][98493] Updated weights for policy 0, policy_version 392007 (0.0007)
+[2023-07-06 12:42:44,764][98243] Fps is (10 sec: 104858.2, 60 sec: 111957.7, 300 sec: 111411.2). Total num frames: 802947072. Throughput: 0: 28023.4. Samples: 200793600. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:44,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:42:45,155][98493] Updated weights for policy 0, policy_version 392065 (0.0008)
+[2023-07-06 12:42:45,635][98493] Updated weights for policy 0, policy_version 392128 (0.0007)
+[2023-07-06 12:42:46,217][98493] Updated weights for policy 0, policy_version 392189 (0.0007)
+[2023-07-06 12:42:47,047][98493] Updated weights for policy 0, policy_version 392256 (0.0007)
+[2023-07-06 12:42:48,652][98493] Updated weights for policy 0, policy_version 392317 (0.0007)
+[2023-07-06 12:42:49,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111957.5, 300 sec: 111411.2). Total num frames: 803471360. Throughput: 0: 28103.2. Samples: 200962560. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:49,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:42:50,131][98493] Updated weights for policy 0, policy_version 392379 (0.0007)
+[2023-07-06 12:42:50,996][98493] Updated weights for policy 0, policy_version 392442 (0.0007)
+[2023-07-06 12:42:52,043][98493] Updated weights for policy 0, policy_version 392507 (0.0007)
+[2023-07-06 12:42:53,449][98493] Updated weights for policy 0, policy_version 392560 (0.0007)
+[2023-07-06 12:42:54,622][98493] Updated weights for policy 0, policy_version 392602 (0.0007)
+[2023-07-06 12:42:54,764][98243] Fps is (10 sec: 111411.8, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 804061184. Throughput: 0: 27932.4. Samples: 201041408. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:54,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:42:55,226][98493] Updated weights for policy 0, policy_version 392656 (0.0007)
+[2023-07-06 12:42:55,287][98449] Signal inference workers to stop experience collection... (20300 times)
+[2023-07-06 12:42:55,318][98493] InferenceWorker_p0-w0: stopping experience collection (20300 times)
+[2023-07-06 12:42:55,351][98449] Signal inference workers to resume experience collection... (20300 times)
+[2023-07-06 12:42:55,351][98493] InferenceWorker_p0-w0: resuming experience collection (20300 times)
+[2023-07-06 12:42:56,230][98493] Updated weights for policy 0, policy_version 392706 (0.0006)
+[2023-07-06 12:42:56,715][98493] Updated weights for policy 0, policy_version 392768 (0.0007)
+[2023-07-06 12:42:58,123][98493] Updated weights for policy 0, policy_version 392824 (0.0007)
+[2023-07-06 12:42:59,443][98493] Updated weights for policy 0, policy_version 392864 (0.0007)
+[2023-07-06 12:42:59,764][98243] Fps is (10 sec: 117961.7, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 804651008. Throughput: 0: 28148.6. Samples: 201210368. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:42:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:42:59,947][98493] Updated weights for policy 0, policy_version 392902 (0.0014)
+[2023-07-06 12:43:00,850][98493] Updated weights for policy 0, policy_version 392976 (0.0007)
+[2023-07-06 12:43:02,390][98493] Updated weights for policy 0, policy_version 393048 (0.0007)
+[2023-07-06 12:43:03,812][98493] Updated weights for policy 0, policy_version 393090 (0.0007)
+[2023-07-06 12:43:04,184][98493] Updated weights for policy 0, policy_version 393136 (0.0006)
+[2023-07-06 12:43:04,764][98243] Fps is (10 sec: 114687.6, 60 sec: 111957.5, 300 sec: 111522.3). Total num frames: 805208064. Throughput: 0: 28068.9. Samples: 201379840. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:43:04,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:43:04,884][98493] Updated weights for policy 0, policy_version 393188 (0.0006)
+[2023-07-06 12:43:05,765][98493] Updated weights for policy 0, policy_version 393237 (0.0006)
+[2023-07-06 12:43:06,937][98493] Updated weights for policy 0, policy_version 393284 (0.0007)
+[2023-07-06 12:43:08,537][98493] Updated weights for policy 0, policy_version 393345 (0.0007)
+[2023-07-06 12:43:09,270][98493] Updated weights for policy 0, policy_version 393409 (0.0007)
+[2023-07-06 12:43:09,764][98243] Fps is (10 sec: 117967.5, 60 sec: 113049.6, 300 sec: 111522.4). Total num frames: 805830656. Throughput: 0: 28034.9. Samples: 201462784. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:43:09,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 12:43:10,187][98493] Updated weights for policy 0, policy_version 393473 (0.0007)
+[2023-07-06 12:43:10,668][98493] Updated weights for policy 0, policy_version 393530 (0.0008)
+[2023-07-06 12:43:11,969][98493] Updated weights for policy 0, policy_version 393568 (0.0007)
+[2023-07-06 12:43:13,324][98493] Updated weights for policy 0, policy_version 393637 (0.0007)
+[2023-07-06 12:43:14,329][98493] Updated weights for policy 0, policy_version 393680 (0.0007)
+[2023-07-06 12:43:14,761][98449] Signal inference workers to stop experience collection... (20350 times)
+[2023-07-06 12:43:14,764][98243] Fps is (10 sec: 111411.9, 60 sec: 111957.8, 300 sec: 111300.1). Total num frames: 806322176. Throughput: 0: 28000.7. Samples: 201630208. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 12:43:14,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:43:14,774][98493] Updated weights for policy 0, policy_version 393727 (0.0006)
+[2023-07-06 12:43:14,780][98449] Signal inference workers to resume experience collection... (20350 times)
+[2023-07-06 12:43:14,789][98493] InferenceWorker_p0-w0: stopping experience collection (20350 times)
+[2023-07-06 12:43:14,836][98493] InferenceWorker_p0-w0: resuming experience collection (20350 times)
+[2023-07-06 12:43:15,272][98493] Updated weights for policy 0, policy_version 393785 (0.0024)
+[2023-07-06 12:43:16,661][98493] Updated weights for policy 0, policy_version 393824 (0.0009)
+[2023-07-06 12:43:17,875][98493] Updated weights for policy 0, policy_version 393881 (0.0008)
+[2023-07-06 12:43:18,830][98493] Updated weights for policy 0, policy_version 393925 (0.0007)
+[2023-07-06 12:43:19,309][98493] Updated weights for policy 0, policy_version 393983 (0.0006)
+[2023-07-06 12:43:19,764][98243] Fps is (10 sec: 111410.9, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 806944768. Throughput: 0: 27943.9. Samples: 201797632. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:19,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:43:19,924][98493] Updated weights for policy 0, policy_version 394042 (0.0010)
+[2023-07-06 12:43:21,542][98493] Updated weights for policy 0, policy_version 394105 (0.0007)
+[2023-07-06 12:43:22,705][98493] Updated weights for policy 0, policy_version 394150 (0.0007)
+[2023-07-06 12:43:23,826][98493] Updated weights for policy 0, policy_version 394212 (0.0006)
+[2023-07-06 12:43:24,416][98493] Updated weights for policy 0, policy_version 394272 (0.0006)
+[2023-07-06 12:43:24,764][98243] Fps is (10 sec: 121241.1, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 807534592. Throughput: 0: 27943.8. Samples: 201881600. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:43:26,006][98493] Updated weights for policy 0, policy_version 394336 (0.0007)
+[2023-07-06 12:43:27,160][98493] Updated weights for policy 0, policy_version 394374 (0.0006)
+[2023-07-06 12:43:27,593][98493] Updated weights for policy 0, policy_version 394426 (0.0006)
+[2023-07-06 12:43:28,517][98493] Updated weights for policy 0, policy_version 394480 (0.0008)
+[2023-07-06 12:43:29,169][98493] Updated weights for policy 0, policy_version 394528 (0.0008)
+[2023-07-06 12:43:29,764][98243] Fps is (10 sec: 111410.9, 60 sec: 111957.2, 300 sec: 111522.3). Total num frames: 808058880. Throughput: 0: 27909.7. Samples: 202049536. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:29,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:43:30,550][98493] Updated weights for policy 0, policy_version 394562 (0.0006)
+[2023-07-06 12:43:31,001][98493] Updated weights for policy 0, policy_version 394621 (0.0007)
+[2023-07-06 12:43:31,963][98493] Updated weights for policy 0, policy_version 394684 (0.0007)
+[2023-07-06 12:43:33,307][98493] Updated weights for policy 0, policy_version 394752 (0.0006)
+[2023-07-06 12:43:33,824][98449] Signal inference workers to stop experience collection... (20400 times)
+[2023-07-06 12:43:33,861][98493] InferenceWorker_p0-w0: stopping experience collection (20400 times)
+[2023-07-06 12:43:33,904][98449] Signal inference workers to resume experience collection... (20400 times)
+[2023-07-06 12:43:33,905][98493] InferenceWorker_p0-w0: resuming experience collection (20400 times)
+[2023-07-06 12:43:34,144][98493] Updated weights for policy 0, policy_version 394812 (0.0006)
+[2023-07-06 12:43:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 808583168. Throughput: 0: 27875.5. Samples: 202216960. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:43:35,478][98493] Updated weights for policy 0, policy_version 394850 (0.0007)
+[2023-07-06 12:43:36,637][98493] Updated weights for policy 0, policy_version 394912 (0.0007)
+[2023-07-06 12:43:37,343][98493] Updated weights for policy 0, policy_version 394945 (0.0007)
+[2023-07-06 12:43:37,819][98493] Updated weights for policy 0, policy_version 395008 (0.0007)
+[2023-07-06 12:43:38,928][98493] Updated weights for policy 0, policy_version 395072 (0.0008)
+[2023-07-06 12:43:39,765][98243] Fps is (10 sec: 104852.9, 60 sec: 111410.3, 300 sec: 111522.1). Total num frames: 809107456. Throughput: 0: 28000.4. Samples: 202301440. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:39,766][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:43:40,236][98493] Updated weights for policy 0, policy_version 395131 (0.0007)
+[2023-07-06 12:43:41,463][98493] Updated weights for policy 0, policy_version 395193 (0.0007)
+[2023-07-06 12:43:42,347][98493] Updated weights for policy 0, policy_version 395248 (0.0007)
+[2023-07-06 12:43:43,460][98493] Updated weights for policy 0, policy_version 395312 (0.0007)
+[2023-07-06 12:43:44,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.6, 300 sec: 111744.5). Total num frames: 809697280. Throughput: 0: 27978.1. Samples: 202469376. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:44,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:43:44,823][98493] Updated weights for policy 0, policy_version 395365 (0.0007)
+[2023-07-06 12:43:45,714][98493] Updated weights for policy 0, policy_version 395411 (0.0006)
+[2023-07-06 12:43:46,824][98493] Updated weights for policy 0, policy_version 395472 (0.0008)
+[2023-07-06 12:43:47,193][98493] Updated weights for policy 0, policy_version 395514 (0.0007)
+[2023-07-06 12:43:48,295][98493] Updated weights for policy 0, policy_version 395582 (0.0007)
+[2023-07-06 12:43:49,677][98493] Updated weights for policy 0, policy_version 395632 (0.0008)
+[2023-07-06 12:43:49,764][98243] Fps is (10 sec: 114693.6, 60 sec: 113049.5, 300 sec: 111855.5). Total num frames: 810254336. Throughput: 0: 27966.6. Samples: 202638336. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:49,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:43:50,523][98493] Updated weights for policy 0, policy_version 395682 (0.0008)
+[2023-07-06 12:43:51,613][98493] Updated weights for policy 0, policy_version 395735 (0.0006)
+[2023-07-06 12:43:52,607][98493] Updated weights for policy 0, policy_version 395777 (0.0007)
+[2023-07-06 12:43:53,050][98493] Updated weights for policy 0, policy_version 395831 (0.0008)
+[2023-07-06 12:43:54,011][98449] Signal inference workers to stop experience collection... (20450 times)
+[2023-07-06 12:43:54,043][98493] InferenceWorker_p0-w0: stopping experience collection (20450 times)
+[2023-07-06 12:43:54,111][98449] Signal inference workers to resume experience collection... (20450 times)
+[2023-07-06 12:43:54,111][98493] InferenceWorker_p0-w0: resuming experience collection (20450 times)
+[2023-07-06 12:43:54,317][98493] Updated weights for policy 0, policy_version 395875 (0.0006)
+[2023-07-06 12:43:54,764][98243] Fps is (10 sec: 111410.4, 60 sec: 112503.4, 300 sec: 111966.7). Total num frames: 810811392. Throughput: 0: 28012.0. Samples: 202723328. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:54,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:43:55,138][98493] Updated weights for policy 0, policy_version 395936 (0.0006)
+[2023-07-06 12:43:56,175][98493] Updated weights for policy 0, policy_version 395975 (0.0006)
+[2023-07-06 12:43:56,631][98493] Updated weights for policy 0, policy_version 396032 (0.0007)
+[2023-07-06 12:43:57,847][98493] Updated weights for policy 0, policy_version 396091 (0.0006)
+[2023-07-06 12:43:59,175][98493] Updated weights for policy 0, policy_version 396146 (0.0007)
+[2023-07-06 12:43:59,566][98493] Updated weights for policy 0, policy_version 396181 (0.0032)
+[2023-07-06 12:43:59,764][98243] Fps is (10 sec: 117963.2, 60 sec: 113049.8, 300 sec: 111966.6). Total num frames: 811433984. Throughput: 0: 28046.1. Samples: 202892288. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:43:59,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:43:59,901][98493] Updated weights for policy 0, policy_version 396224 (0.0007)
+[2023-07-06 12:44:01,127][98493] Updated weights for policy 0, policy_version 396283 (0.0006)
+[2023-07-06 12:44:02,441][98493] Updated weights for policy 0, policy_version 396324 (0.0006)
+[2023-07-06 12:44:03,827][98493] Updated weights for policy 0, policy_version 396387 (0.0007)
+[2023-07-06 12:44:04,337][98493] Updated weights for policy 0, policy_version 396432 (0.0007)
+[2023-07-06 12:44:04,764][98243] Fps is (10 sec: 114688.8, 60 sec: 112503.6, 300 sec: 111855.6). Total num frames: 811958272. Throughput: 0: 27943.8. Samples: 203055104. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:04,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 12:44:04,770][98493] Updated weights for policy 0, policy_version 396479 (0.0008)
+[2023-07-06 12:44:05,825][98493] Updated weights for policy 0, policy_version 396538 (0.0007)
+[2023-07-06 12:44:07,075][98493] Updated weights for policy 0, policy_version 396593 (0.0020)
+[2023-07-06 12:44:08,495][98493] Updated weights for policy 0, policy_version 396640 (0.0007)
+[2023-07-06 12:44:08,958][98493] Updated weights for policy 0, policy_version 396688 (0.0007)
+[2023-07-06 12:44:09,359][98493] Updated weights for policy 0, policy_version 396734 (0.0007)
+[2023-07-06 12:44:09,764][98243] Fps is (10 sec: 108135.5, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 812515328. Throughput: 0: 28023.5. Samples: 203142656. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:09,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 12:44:10,439][98493] Updated weights for policy 0, policy_version 396784 (0.0006)
+[2023-07-06 12:44:11,435][98493] Updated weights for policy 0, policy_version 396832 (0.0009)
+[2023-07-06 12:44:12,716][98449] Signal inference workers to stop experience collection... (20500 times)
+[2023-07-06 12:44:12,752][98493] InferenceWorker_p0-w0: stopping experience collection (20500 times)
+[2023-07-06 12:44:12,813][98449] Signal inference workers to resume experience collection... (20500 times)
+[2023-07-06 12:44:12,813][98493] InferenceWorker_p0-w0: resuming experience collection (20500 times)
+[2023-07-06 12:44:12,896][98493] Updated weights for policy 0, policy_version 396884 (0.0007)
+[2023-07-06 12:44:13,666][98493] Updated weights for policy 0, policy_version 396931 (0.0007)
+[2023-07-06 12:44:14,088][98493] Updated weights for policy 0, policy_version 396984 (0.0007)
+[2023-07-06 12:44:14,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.5, 300 sec: 112077.8). Total num frames: 813072384. Throughput: 0: 28091.8. Samples: 203313664. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:14,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:44:14,883][98493] Updated weights for policy 0, policy_version 397024 (0.0020)
+[2023-07-06 12:44:16,053][98493] Updated weights for policy 0, policy_version 397081 (0.0007)
+[2023-07-06 12:44:16,363][98493] Updated weights for policy 0, policy_version 397120 (0.0006)
+[2023-07-06 12:44:17,700][98493] Updated weights for policy 0, policy_version 397179 (0.0007)
+[2023-07-06 12:44:18,918][98493] Updated weights for policy 0, policy_version 397242 (0.0007)
+[2023-07-06 12:44:19,537][98493] Updated weights for policy 0, policy_version 397296 (0.0019)
+[2023-07-06 12:44:19,764][98243] Fps is (10 sec: 117963.5, 60 sec: 112503.2, 300 sec: 112077.6). Total num frames: 813694976. Throughput: 0: 28000.6. Samples: 203476992. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:19,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:44:20,860][98493] Updated weights for policy 0, policy_version 397348 (0.0006)
+[2023-07-06 12:44:22,107][98493] Updated weights for policy 0, policy_version 397400 (0.0007)
+[2023-07-06 12:44:23,154][98493] Updated weights for policy 0, policy_version 397442 (0.0006)
+[2023-07-06 12:44:23,546][98493] Updated weights for policy 0, policy_version 397488 (0.0006)
+[2023-07-06 12:44:24,132][98493] Updated weights for policy 0, policy_version 397540 (0.0007)
+[2023-07-06 12:44:24,764][98243] Fps is (10 sec: 114687.8, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 814219264. Throughput: 0: 28069.3. Samples: 203564544. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:44:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000397568_814219264.pth...
+[2023-07-06 12:44:24,801][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000384448_787349504.pth
+[2023-07-06 12:44:25,390][98493] Updated weights for policy 0, policy_version 397571 (0.0006)
+[2023-07-06 12:44:25,782][98493] Updated weights for policy 0, policy_version 397616 (0.0007)
+[2023-07-06 12:44:27,041][98493] Updated weights for policy 0, policy_version 397688 (0.0007)
+[2023-07-06 12:44:28,078][98493] Updated weights for policy 0, policy_version 397744 (0.0007)
+[2023-07-06 12:44:28,949][98493] Updated weights for policy 0, policy_version 397808 (0.0007)
+[2023-07-06 12:44:29,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.1, 300 sec: 111522.2). Total num frames: 814743552. Throughput: 0: 28034.8. Samples: 203730944. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:44:30,410][98493] Updated weights for policy 0, policy_version 397856 (0.0008)
+[2023-07-06 12:44:31,453][98493] Updated weights for policy 0, policy_version 397892 (0.0006)
+[2023-07-06 12:44:31,674][98449] Signal inference workers to stop experience collection... (20550 times)
+[2023-07-06 12:44:31,723][98493] InferenceWorker_p0-w0: stopping experience collection (20550 times)
+[2023-07-06 12:44:31,800][98449] Signal inference workers to resume experience collection... (20550 times)
+[2023-07-06 12:44:31,800][98493] InferenceWorker_p0-w0: resuming experience collection (20550 times)
+[2023-07-06 12:44:32,344][98493] Updated weights for policy 0, policy_version 397955 (0.0006)
+[2023-07-06 12:44:32,844][98493] Updated weights for policy 0, policy_version 398016 (0.0007)
+[2023-07-06 12:44:33,867][98493] Updated weights for policy 0, policy_version 398070 (0.0008)
+[2023-07-06 12:44:34,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 815267840. Throughput: 0: 28012.1. Samples: 203898880. Policy #0 lag: (min: 60.0, avg: 164.0, max: 316.0)
+[2023-07-06 12:44:34,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:44:35,183][98493] Updated weights for policy 0, policy_version 398097 (0.0007)
+[2023-07-06 12:44:35,512][98493] Updated weights for policy 0, policy_version 398144 (0.0025)
+[2023-07-06 12:44:36,709][98493] Updated weights for policy 0, policy_version 398196 (0.0008)
+[2023-07-06 12:44:37,249][98493] Updated weights for policy 0, policy_version 398265 (0.0007)
+[2023-07-06 12:44:38,081][98493] Updated weights for policy 0, policy_version 398308 (0.0007)
+[2023-07-06 12:44:39,764][98243] Fps is (10 sec: 108135.6, 60 sec: 111958.3, 300 sec: 111633.3). Total num frames: 815824896. Throughput: 0: 27978.0. Samples: 203982336. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:44:39,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:44:39,883][98493] Updated weights for policy 0, policy_version 398368 (0.0008)
+[2023-07-06 12:44:41,081][98493] Updated weights for policy 0, policy_version 398416 (0.0007)
+[2023-07-06 12:44:41,674][98493] Updated weights for policy 0, policy_version 398467 (0.0007)
+[2023-07-06 12:44:42,316][98493] Updated weights for policy 0, policy_version 398529 (0.0006)
+[2023-07-06 12:44:44,143][98493] Updated weights for policy 0, policy_version 398593 (0.0007)
+[2023-07-06 12:44:44,592][98493] Updated weights for policy 0, policy_version 398651 (0.0006)
+[2023-07-06 12:44:44,764][98243] Fps is (10 sec: 117964.8, 60 sec: 112503.4, 300 sec: 111966.6). Total num frames: 816447488. Throughput: 0: 27943.9. Samples: 204149760. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:44:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:44:45,965][98493] Updated weights for policy 0, policy_version 398696 (0.0007)
+[2023-07-06 12:44:46,717][98493] Updated weights for policy 0, policy_version 398746 (0.0007)
+[2023-07-06 12:44:47,184][98493] Updated weights for policy 0, policy_version 398790 (0.0006)
+[2023-07-06 12:44:47,598][98493] Updated weights for policy 0, policy_version 398845 (0.0008)
+[2023-07-06 12:44:49,140][98493] Updated weights for policy 0, policy_version 398896 (0.0007)
+[2023-07-06 12:44:49,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111957.4, 300 sec: 111966.6). Total num frames: 816971776. Throughput: 0: 28160.0. Samples: 204322304. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:44:49,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:44:50,583][98493] Updated weights for policy 0, policy_version 398960 (0.0007)
+[2023-07-06 12:44:51,123][98449] Signal inference workers to stop experience collection... (20600 times)
+[2023-07-06 12:44:51,159][98493] InferenceWorker_p0-w0: stopping experience collection (20600 times)
+[2023-07-06 12:44:51,224][98449] Signal inference workers to resume experience collection... (20600 times)
+[2023-07-06 12:44:51,225][98493] InferenceWorker_p0-w0: resuming experience collection (20600 times)
+[2023-07-06 12:44:51,359][98493] Updated weights for policy 0, policy_version 399008 (0.0006)
+[2023-07-06 12:44:51,994][98493] Updated weights for policy 0, policy_version 399063 (0.0007)
+[2023-07-06 12:44:53,534][98493] Updated weights for policy 0, policy_version 399128 (0.0008)
+[2023-07-06 12:44:54,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111411.1, 300 sec: 111633.3). Total num frames: 817496064. Throughput: 0: 27989.3. Samples: 204402176. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:44:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:44:54,986][98493] Updated weights for policy 0, policy_version 399184 (0.0006)
+[2023-07-06 12:44:56,027][98493] Updated weights for policy 0, policy_version 399233 (0.0006)
+[2023-07-06 12:44:56,483][98493] Updated weights for policy 0, policy_version 399288 (0.0007)
+[2023-07-06 12:44:56,961][98493] Updated weights for policy 0, policy_version 399344 (0.0008)
+[2023-07-06 12:44:58,422][98493] Updated weights for policy 0, policy_version 399408 (0.0007)
+[2023-07-06 12:44:59,764][98243] Fps is (10 sec: 104854.8, 60 sec: 109772.6, 300 sec: 111633.3). Total num frames: 818020352. Throughput: 0: 27875.4. Samples: 204568064. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:44:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:45:00,028][98493] Updated weights for policy 0, policy_version 399456 (0.0008)
+[2023-07-06 12:45:00,966][98493] Updated weights for policy 0, policy_version 399514 (0.0007)
+[2023-07-06 12:45:01,502][98493] Updated weights for policy 0, policy_version 399574 (0.0007)
+[2023-07-06 12:45:02,940][98493] Updated weights for policy 0, policy_version 399620 (0.0008)
+[2023-07-06 12:45:03,404][98493] Updated weights for policy 0, policy_version 399680 (0.0007)
+[2023-07-06 12:45:04,765][98243] Fps is (10 sec: 114683.0, 60 sec: 111410.2, 300 sec: 111633.2). Total num frames: 818642944. Throughput: 0: 28000.5. Samples: 204737024. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:45:05,525][98493] Updated weights for policy 0, policy_version 399746 (0.0008)
+[2023-07-06 12:45:06,011][98493] Updated weights for policy 0, policy_version 399808 (0.0006)
+[2023-07-06 12:45:06,513][98493] Updated weights for policy 0, policy_version 399866 (0.0007)
+[2023-07-06 12:45:08,014][98493] Updated weights for policy 0, policy_version 399906 (0.0007)
+[2023-07-06 12:45:09,047][98493] Updated weights for policy 0, policy_version 399955 (0.0007)
+[2023-07-06 12:45:09,179][98449] Signal inference workers to stop experience collection... (20650 times)
+[2023-07-06 12:45:09,214][98493] InferenceWorker_p0-w0: stopping experience collection (20650 times)
+[2023-07-06 12:45:09,251][98449] Signal inference workers to resume experience collection... (20650 times)
+[2023-07-06 12:45:09,251][98493] InferenceWorker_p0-w0: resuming experience collection (20650 times)
+[2023-07-06 12:45:09,764][98243] Fps is (10 sec: 117967.5, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 819200000. Throughput: 0: 27978.0. Samples: 204823552. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:45:10,231][98493] Updated weights for policy 0, policy_version 400016 (0.0006)
+[2023-07-06 12:45:10,767][98493] Updated weights for policy 0, policy_version 400070 (0.0008)
+[2023-07-06 12:45:11,202][98493] Updated weights for policy 0, policy_version 400123 (0.0007)
+[2023-07-06 12:45:12,565][98493] Updated weights for policy 0, policy_version 400168 (0.0007)
+[2023-07-06 12:45:13,581][98493] Updated weights for policy 0, policy_version 400224 (0.0008)
+[2023-07-06 12:45:14,764][98243] Fps is (10 sec: 108140.1, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 819724288. Throughput: 0: 27989.4. Samples: 204990464. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:14,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:45:15,163][98493] Updated weights for policy 0, policy_version 400281 (0.0006)
+[2023-07-06 12:45:15,712][98493] Updated weights for policy 0, policy_version 400337 (0.0007)
+[2023-07-06 12:45:16,928][98493] Updated weights for policy 0, policy_version 400400 (0.0007)
+[2023-07-06 12:45:17,301][98493] Updated weights for policy 0, policy_version 400444 (0.0006)
+[2023-07-06 12:45:18,421][98493] Updated weights for policy 0, policy_version 400486 (0.0008)
+[2023-07-06 12:45:19,764][98243] Fps is (10 sec: 108134.6, 60 sec: 109773.1, 300 sec: 111633.4). Total num frames: 820281344. Throughput: 0: 28069.0. Samples: 205161984. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:19,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:45:19,979][98493] Updated weights for policy 0, policy_version 400547 (0.0007)
+[2023-07-06 12:45:20,647][98493] Updated weights for policy 0, policy_version 400635 (0.0007)
+[2023-07-06 12:45:21,770][98493] Updated weights for policy 0, policy_version 400688 (0.0007)
+[2023-07-06 12:45:23,065][98493] Updated weights for policy 0, policy_version 400724 (0.0006)
+[2023-07-06 12:45:24,706][98493] Updated weights for policy 0, policy_version 400784 (0.0007)
+[2023-07-06 12:45:24,764][98243] Fps is (10 sec: 108134.4, 60 sec: 109772.8, 300 sec: 111300.1). Total num frames: 820805632. Throughput: 0: 27955.2. Samples: 205240320. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:45:25,234][98493] Updated weights for policy 0, policy_version 400835 (0.0007)
+[2023-07-06 12:45:25,715][98493] Updated weights for policy 0, policy_version 400896 (0.0006)
+[2023-07-06 12:45:26,667][98493] Updated weights for policy 0, policy_version 400954 (0.0007)
+[2023-07-06 12:45:27,854][98449] Signal inference workers to stop experience collection... (20700 times)
+[2023-07-06 12:45:27,876][98493] InferenceWorker_p0-w0: stopping experience collection (20700 times)
+[2023-07-06 12:45:27,941][98449] Signal inference workers to resume experience collection... (20700 times)
+[2023-07-06 12:45:27,941][98493] InferenceWorker_p0-w0: resuming experience collection (20700 times)
+[2023-07-06 12:45:28,087][98493] Updated weights for policy 0, policy_version 400992 (0.0008)
+[2023-07-06 12:45:29,128][98493] Updated weights for policy 0, policy_version 401040 (0.0006)
+[2023-07-06 12:45:29,765][98243] Fps is (10 sec: 117960.4, 60 sec: 111956.8, 300 sec: 111633.2). Total num frames: 821460992. Throughput: 0: 27966.4. Samples: 205408256. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:29,766][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:45:29,770][98493] Updated weights for policy 0, policy_version 401111 (0.0008)
+[2023-07-06 12:45:31,078][98493] Updated weights for policy 0, policy_version 401156 (0.0007)
+[2023-07-06 12:45:32,522][98493] Updated weights for policy 0, policy_version 401219 (0.0007)
+[2023-07-06 12:45:32,969][98493] Updated weights for policy 0, policy_version 401275 (0.0007)
+[2023-07-06 12:45:34,192][98493] Updated weights for policy 0, policy_version 401330 (0.0009)
+[2023-07-06 12:45:34,679][98493] Updated weights for policy 0, policy_version 401392 (0.0007)
+[2023-07-06 12:45:34,764][98243] Fps is (10 sec: 124519.6, 60 sec: 113049.8, 300 sec: 111855.6). Total num frames: 822050816. Throughput: 0: 27750.4. Samples: 205571072. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:34,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:45:36,002][98493] Updated weights for policy 0, policy_version 401441 (0.0008)
+[2023-07-06 12:45:37,608][98493] Updated weights for policy 0, policy_version 401506 (0.0006)
+[2023-07-06 12:45:38,617][98493] Updated weights for policy 0, policy_version 401560 (0.0006)
+[2023-07-06 12:45:39,232][98493] Updated weights for policy 0, policy_version 401632 (0.0008)
+[2023-07-06 12:45:39,764][98243] Fps is (10 sec: 114690.0, 60 sec: 113049.2, 300 sec: 111966.5). Total num frames: 822607872. Throughput: 0: 27909.6. Samples: 205658112. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:39,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:45:40,500][98493] Updated weights for policy 0, policy_version 401669 (0.0008)
+[2023-07-06 12:45:41,945][98493] Updated weights for policy 0, policy_version 401729 (0.0008)
+[2023-07-06 12:45:42,405][98493] Updated weights for policy 0, policy_version 401788 (0.0007)
+[2023-07-06 12:45:43,505][98493] Updated weights for policy 0, policy_version 401840 (0.0007)
+[2023-07-06 12:45:44,068][98493] Updated weights for policy 0, policy_version 401904 (0.0008)
+[2023-07-06 12:45:44,765][98243] Fps is (10 sec: 108130.3, 60 sec: 111410.6, 300 sec: 111966.5). Total num frames: 823132160. Throughput: 0: 27943.8. Samples: 205825536. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:44,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:45:45,273][98493] Updated weights for policy 0, policy_version 401936 (0.0006)
+[2023-07-06 12:45:45,317][98449] Signal inference workers to stop experience collection... (20750 times)
+[2023-07-06 12:45:45,360][98493] InferenceWorker_p0-w0: stopping experience collection (20750 times)
+[2023-07-06 12:45:45,400][98449] Signal inference workers to resume experience collection... (20750 times)
+[2023-07-06 12:45:45,401][98493] InferenceWorker_p0-w0: resuming experience collection (20750 times)
+[2023-07-06 12:45:46,571][98493] Updated weights for policy 0, policy_version 401986 (0.0006)
+[2023-07-06 12:45:47,541][98493] Updated weights for policy 0, policy_version 402049 (0.0008)
+[2023-07-06 12:45:48,030][98493] Updated weights for policy 0, policy_version 402107 (0.0028)
+[2023-07-06 12:45:48,501][98493] Updated weights for policy 0, policy_version 402160 (0.0008)
+[2023-07-06 12:45:49,764][98243] Fps is (10 sec: 104858.2, 60 sec: 111410.9, 300 sec: 111966.6). Total num frames: 823656448. Throughput: 0: 27978.2. Samples: 205996032. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:49,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:45:50,173][98493] Updated weights for policy 0, policy_version 402224 (0.0007)
+[2023-07-06 12:45:51,475][98493] Updated weights for policy 0, policy_version 402256 (0.0009)
+[2023-07-06 12:45:52,230][98493] Updated weights for policy 0, policy_version 402307 (0.0006)
+[2023-07-06 12:45:52,939][98493] Updated weights for policy 0, policy_version 402369 (0.0007)
+[2023-07-06 12:45:53,367][98493] Updated weights for policy 0, policy_version 402426 (0.0007)
+[2023-07-06 12:45:54,764][98243] Fps is (10 sec: 108138.2, 60 sec: 111957.6, 300 sec: 111855.5). Total num frames: 824213504. Throughput: 0: 27852.8. Samples: 206076928. Policy #0 lag: (min: 47.0, avg: 183.1, max: 303.0)
+[2023-07-06 12:45:54,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:45:54,979][98493] Updated weights for policy 0, policy_version 402485 (0.0007)
+[2023-07-06 12:45:56,397][98493] Updated weights for policy 0, policy_version 402544 (0.0007)
+[2023-07-06 12:45:57,174][98493] Updated weights for policy 0, policy_version 402608 (0.0009)
+[2023-07-06 12:45:57,670][98493] Updated weights for policy 0, policy_version 402645 (0.0006)
+[2023-07-06 12:45:58,023][98493] Updated weights for policy 0, policy_version 402688 (0.0007)
+[2023-07-06 12:45:59,567][98493] Updated weights for policy 0, policy_version 402742 (0.0008)
+[2023-07-06 12:45:59,764][98243] Fps is (10 sec: 117966.2, 60 sec: 113596.1, 300 sec: 111966.6). Total num frames: 824836096. Throughput: 0: 27932.5. Samples: 206247424. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:45:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:46:01,216][98493] Updated weights for policy 0, policy_version 402790 (0.0007)
+[2023-07-06 12:46:01,679][98493] Updated weights for policy 0, policy_version 402840 (0.0008)
+[2023-07-06 12:46:02,019][98493] Updated weights for policy 0, policy_version 402880 (0.0006)
+[2023-07-06 12:46:02,688][98493] Updated weights for policy 0, policy_version 402944 (0.0007)
+[2023-07-06 12:46:03,851][98449] Signal inference workers to stop experience collection... (20800 times)
+[2023-07-06 12:46:03,902][98493] InferenceWorker_p0-w0: stopping experience collection (20800 times)
+[2023-07-06 12:46:03,959][98449] Signal inference workers to resume experience collection... (20800 times)
+[2023-07-06 12:46:03,959][98493] InferenceWorker_p0-w0: resuming experience collection (20800 times)
+[2023-07-06 12:46:04,764][98243] Fps is (10 sec: 114686.3, 60 sec: 111958.1, 300 sec: 111966.6). Total num frames: 825360384. Throughput: 0: 27807.2. Samples: 206413312. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:46:05,694][98493] Updated weights for policy 0, policy_version 403009 (0.0007)
+[2023-07-06 12:46:06,271][98493] Updated weights for policy 0, policy_version 403073 (0.0008)
+[2023-07-06 12:46:06,733][98493] Updated weights for policy 0, policy_version 403130 (0.0007)
+[2023-07-06 12:46:07,246][98493] Updated weights for policy 0, policy_version 403171 (0.0006)
+[2023-07-06 12:46:08,428][98493] Updated weights for policy 0, policy_version 403208 (0.0007)
+[2023-07-06 12:46:08,891][98493] Updated weights for policy 0, policy_version 403264 (0.0007)
+[2023-07-06 12:46:09,764][98243] Fps is (10 sec: 104856.5, 60 sec: 111411.0, 300 sec: 111855.5). Total num frames: 825884672. Throughput: 0: 27898.3. Samples: 206495744. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:09,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:46:10,774][98493] Updated weights for policy 0, policy_version 403299 (0.0007)
+[2023-07-06 12:46:11,396][98493] Updated weights for policy 0, policy_version 403376 (0.0007)
+[2023-07-06 12:46:11,963][98493] Updated weights for policy 0, policy_version 403427 (0.0007)
+[2023-07-06 12:46:13,287][98493] Updated weights for policy 0, policy_version 403504 (0.0007)
+[2023-07-06 12:46:14,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111410.9, 300 sec: 111744.4). Total num frames: 826408960. Throughput: 0: 27830.1. Samples: 206660608. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:14,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:46:15,710][98493] Updated weights for policy 0, policy_version 403552 (0.0007)
+[2023-07-06 12:46:16,263][98493] Updated weights for policy 0, policy_version 403616 (0.0007)
+[2023-07-06 12:46:16,751][98493] Updated weights for policy 0, policy_version 403667 (0.0007)
+[2023-07-06 12:46:17,102][98493] Updated weights for policy 0, policy_version 403712 (0.0007)
+[2023-07-06 12:46:17,916][98493] Updated weights for policy 0, policy_version 403751 (0.0007)
+[2023-07-06 12:46:19,764][98243] Fps is (10 sec: 104859.2, 60 sec: 110865.1, 300 sec: 111522.3). Total num frames: 826933248. Throughput: 0: 28046.2. Samples: 206833152. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:46:20,301][98493] Updated weights for policy 0, policy_version 403810 (0.0006)
+[2023-07-06 12:46:20,918][98493] Updated weights for policy 0, policy_version 403888 (0.0008)
+[2023-07-06 12:46:21,302][98449] Signal inference workers to stop experience collection... (20850 times)
+[2023-07-06 12:46:21,338][98493] InferenceWorker_p0-w0: stopping experience collection (20850 times)
+[2023-07-06 12:46:21,387][98449] Signal inference workers to resume experience collection... (20850 times)
+[2023-07-06 12:46:21,387][98493] InferenceWorker_p0-w0: resuming experience collection (20850 times)
+[2023-07-06 12:46:21,477][98493] Updated weights for policy 0, policy_version 403928 (0.0007)
+[2023-07-06 12:46:22,330][98493] Updated weights for policy 0, policy_version 403993 (0.0008)
+[2023-07-06 12:46:24,703][98493] Updated weights for policy 0, policy_version 404037 (0.0008)
+[2023-07-06 12:46:24,764][98243] Fps is (10 sec: 104859.6, 60 sec: 110865.1, 300 sec: 111522.4). Total num frames: 827457536. Throughput: 0: 27818.8. Samples: 206909952. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:24,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:46:24,919][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000404064_827523072.pth...
+[2023-07-06 12:46:25,023][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000391024_800817152.pth
+[2023-07-06 12:46:25,338][98493] Updated weights for policy 0, policy_version 404099 (0.0007)
+[2023-07-06 12:46:25,797][98493] Updated weights for policy 0, policy_version 404156 (0.0008)
+[2023-07-06 12:46:26,891][98493] Updated weights for policy 0, policy_version 404217 (0.0008)
+[2023-07-06 12:46:27,445][98493] Updated weights for policy 0, policy_version 404280 (0.0008)
+[2023-07-06 12:46:29,510][98493] Updated weights for policy 0, policy_version 404320 (0.0006)
+[2023-07-06 12:46:29,764][98243] Fps is (10 sec: 117964.8, 60 sec: 110865.8, 300 sec: 111966.6). Total num frames: 828112896. Throughput: 0: 27841.6. Samples: 207078400. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:29,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:46:30,234][98493] Updated weights for policy 0, policy_version 404368 (0.0007)
+[2023-07-06 12:46:30,686][98493] Updated weights for policy 0, policy_version 404416 (0.0007)
+[2023-07-06 12:46:31,423][98493] Updated weights for policy 0, policy_version 404471 (0.0007)
+[2023-07-06 12:46:31,889][98493] Updated weights for policy 0, policy_version 404517 (0.0007)
+[2023-07-06 12:46:34,266][98493] Updated weights for policy 0, policy_version 404567 (0.0007)
+[2023-07-06 12:46:34,722][98493] Updated weights for policy 0, policy_version 404612 (0.0007)
+[2023-07-06 12:46:34,764][98243] Fps is (10 sec: 117965.4, 60 sec: 109772.8, 300 sec: 111744.5). Total num frames: 828637184. Throughput: 0: 27818.8. Samples: 207247872. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:34,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:46:35,092][98493] Updated weights for policy 0, policy_version 404657 (0.0008)
+[2023-07-06 12:46:35,877][98493] Updated weights for policy 0, policy_version 404709 (0.0008)
+[2023-07-06 12:46:36,468][98493] Updated weights for policy 0, policy_version 404776 (0.0009)
+[2023-07-06 12:46:38,879][98493] Updated weights for policy 0, policy_version 404816 (0.0008)
+[2023-07-06 12:46:39,452][98449] Signal inference workers to stop experience collection... (20900 times)
+[2023-07-06 12:46:39,460][98493] Updated weights for policy 0, policy_version 404865 (0.0006)
+[2023-07-06 12:46:39,469][98493] InferenceWorker_p0-w0: stopping experience collection (20900 times)
+[2023-07-06 12:46:39,535][98449] Signal inference workers to resume experience collection... (20900 times)
+[2023-07-06 12:46:39,535][98493] InferenceWorker_p0-w0: resuming experience collection (20900 times)
+[2023-07-06 12:46:39,764][98243] Fps is (10 sec: 111410.4, 60 sec: 110319.2, 300 sec: 111855.6). Total num frames: 829227008. Throughput: 0: 27841.4. Samples: 207329792. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:39,772][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:46:39,859][98493] Updated weights for policy 0, policy_version 404913 (0.0007)
+[2023-07-06 12:46:40,479][98493] Updated weights for policy 0, policy_version 404966 (0.0008)
+[2023-07-06 12:46:41,070][98493] Updated weights for policy 0, policy_version 405034 (0.0008)
+[2023-07-06 12:46:43,723][98493] Updated weights for policy 0, policy_version 405065 (0.0007)
+[2023-07-06 12:46:44,142][98493] Updated weights for policy 0, policy_version 405113 (0.0008)
+[2023-07-06 12:46:44,619][98493] Updated weights for policy 0, policy_version 405156 (0.0006)
+[2023-07-06 12:46:44,765][98243] Fps is (10 sec: 114683.9, 60 sec: 110865.1, 300 sec: 111966.5). Total num frames: 829784064. Throughput: 0: 27898.1. Samples: 207502848. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:44,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:46:45,127][98493] Updated weights for policy 0, policy_version 405216 (0.0007)
+[2023-07-06 12:46:45,730][98493] Updated weights for policy 0, policy_version 405280 (0.0007)
+[2023-07-06 12:46:48,483][98493] Updated weights for policy 0, policy_version 405336 (0.0007)
+[2023-07-06 12:46:48,941][98493] Updated weights for policy 0, policy_version 405392 (0.0007)
+[2023-07-06 12:46:49,488][98493] Updated weights for policy 0, policy_version 405441 (0.0008)
+[2023-07-06 12:46:49,764][98243] Fps is (10 sec: 117964.8, 60 sec: 112503.7, 300 sec: 111744.4). Total num frames: 830406656. Throughput: 0: 27898.4. Samples: 207668736. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:46:49,977][98493] Updated weights for policy 0, policy_version 405504 (0.0008)
+[2023-07-06 12:46:50,476][98493] Updated weights for policy 0, policy_version 405563 (0.0006)
+[2023-07-06 12:46:53,270][98493] Updated weights for policy 0, policy_version 405605 (0.0007)
+[2023-07-06 12:46:53,867][98493] Updated weights for policy 0, policy_version 405656 (0.0006)
+[2023-07-06 12:46:54,281][98493] Updated weights for policy 0, policy_version 405700 (0.0007)
+[2023-07-06 12:46:54,764][98243] Fps is (10 sec: 121242.3, 60 sec: 113049.1, 300 sec: 111966.5). Total num frames: 830996480. Throughput: 0: 28023.4. Samples: 207756800. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:54,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:46:54,821][98449] Signal inference workers to stop experience collection... (20950 times)
+[2023-07-06 12:46:54,857][98493] InferenceWorker_p0-w0: stopping experience collection (20950 times)
+[2023-07-06 12:46:54,897][98449] Signal inference workers to resume experience collection... (20950 times)
+[2023-07-06 12:46:54,898][98493] InferenceWorker_p0-w0: resuming experience collection (20950 times)
+[2023-07-06 12:46:54,906][98493] Updated weights for policy 0, policy_version 405776 (0.0030)
+[2023-07-06 12:46:57,797][98493] Updated weights for policy 0, policy_version 405848 (0.0007)
+[2023-07-06 12:46:58,285][98493] Updated weights for policy 0, policy_version 405894 (0.0007)
+[2023-07-06 12:46:58,756][98493] Updated weights for policy 0, policy_version 405952 (0.0008)
+[2023-07-06 12:46:59,413][98493] Updated weights for policy 0, policy_version 406021 (0.0008)
+[2023-07-06 12:46:59,764][98243] Fps is (10 sec: 117965.5, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 831586304. Throughput: 0: 28023.6. Samples: 207921664. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:46:59,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:46:59,884][98493] Updated weights for policy 0, policy_version 406076 (0.0008)
+[2023-07-06 12:47:02,476][98493] Updated weights for policy 0, policy_version 406112 (0.0006)
+[2023-07-06 12:47:02,957][98493] Updated weights for policy 0, policy_version 406149 (0.0007)
+[2023-07-06 12:47:03,457][98493] Updated weights for policy 0, policy_version 406208 (0.0007)
+[2023-07-06 12:47:03,835][98493] Updated weights for policy 0, policy_version 406245 (0.0010)
+[2023-07-06 12:47:04,452][98493] Updated weights for policy 0, policy_version 406320 (0.0007)
+[2023-07-06 12:47:04,764][98243] Fps is (10 sec: 117967.6, 60 sec: 113595.9, 300 sec: 112299.8). Total num frames: 832176128. Throughput: 0: 27841.4. Samples: 208086016. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:47:04,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:47:07,384][98493] Updated weights for policy 0, policy_version 406371 (0.0007)
+[2023-07-06 12:47:08,071][98493] Updated weights for policy 0, policy_version 406448 (0.0007)
+[2023-07-06 12:47:08,589][98493] Updated weights for policy 0, policy_version 406500 (0.0007)
+[2023-07-06 12:47:09,018][98493] Updated weights for policy 0, policy_version 406548 (0.0007)
+[2023-07-06 12:47:09,764][98243] Fps is (10 sec: 111408.5, 60 sec: 113595.5, 300 sec: 112188.7). Total num frames: 832700416. Throughput: 0: 28159.9. Samples: 208177152. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:47:09,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:47:11,660][98493] Updated weights for policy 0, policy_version 406608 (0.0007)
+[2023-07-06 12:47:12,771][98493] Updated weights for policy 0, policy_version 406672 (0.0008)
+[2023-07-06 12:47:13,094][98449] Signal inference workers to stop experience collection... (21000 times)
+[2023-07-06 12:47:13,140][98493] InferenceWorker_p0-w0: stopping experience collection (21000 times)
+[2023-07-06 12:47:13,177][98449] Signal inference workers to resume experience collection... (21000 times)
+[2023-07-06 12:47:13,177][98493] InferenceWorker_p0-w0: resuming experience collection (21000 times)
+[2023-07-06 12:47:13,331][98493] Updated weights for policy 0, policy_version 406736 (0.0008)
+[2023-07-06 12:47:13,857][98493] Updated weights for policy 0, policy_version 406788 (0.0007)
+[2023-07-06 12:47:14,320][98493] Updated weights for policy 0, policy_version 406843 (0.0007)
+[2023-07-06 12:47:14,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113596.1, 300 sec: 111966.6). Total num frames: 833224704. Throughput: 0: 27977.9. Samples: 208337408. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:47:14,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:47:16,559][98493] Updated weights for policy 0, policy_version 406886 (0.0007)
+[2023-07-06 12:47:17,358][98493] Updated weights for policy 0, policy_version 406915 (0.0008)
+[2023-07-06 12:47:18,013][98493] Updated weights for policy 0, policy_version 406992 (0.0007)
+[2023-07-06 12:47:18,759][98493] Updated weights for policy 0, policy_version 407075 (0.0008)
+[2023-07-06 12:47:19,764][98243] Fps is (10 sec: 104858.3, 60 sec: 113595.4, 300 sec: 111855.5). Total num frames: 833748992. Throughput: 0: 27864.1. Samples: 208501760. Policy #0 lag: (min: 9.0, avg: 120.2, max: 265.0)
+[2023-07-06 12:47:19,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:47:21,483][98493] Updated weights for policy 0, policy_version 407152 (0.0008)
+[2023-07-06 12:47:22,178][98493] Updated weights for policy 0, policy_version 407200 (0.0006)
+[2023-07-06 12:47:22,687][98493] Updated weights for policy 0, policy_version 407252 (0.0007)
+[2023-07-06 12:47:23,197][98493] Updated weights for policy 0, policy_version 407312 (0.0007)
+[2023-07-06 12:47:23,618][98493] Updated weights for policy 0, policy_version 407360 (0.0007)
+[2023-07-06 12:47:24,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113595.7, 300 sec: 111633.3). Total num frames: 834273280. Throughput: 0: 27943.8. Samples: 208587264. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:47:26,509][98493] Updated weights for policy 0, policy_version 407423 (0.0007)
+[2023-07-06 12:47:26,931][98493] Updated weights for policy 0, policy_version 407472 (0.0007)
+[2023-07-06 12:47:27,446][98493] Updated weights for policy 0, policy_version 407524 (0.0008)
+[2023-07-06 12:47:27,974][98449] Signal inference workers to stop experience collection... (21050 times)
+[2023-07-06 12:47:28,005][98493] InferenceWorker_p0-w0: stopping experience collection (21050 times)
+[2023-07-06 12:47:28,013][98493] Updated weights for policy 0, policy_version 407588 (0.0007)
+[2023-07-06 12:47:28,067][98449] Signal inference workers to resume experience collection... (21050 times)
+[2023-07-06 12:47:28,067][98493] InferenceWorker_p0-w0: resuming experience collection (21050 times)
+[2023-07-06 12:47:29,764][98243] Fps is (10 sec: 104858.9, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 834797568. Throughput: 0: 27693.7. Samples: 208749056. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:47:30,989][98493] Updated weights for policy 0, policy_version 407648 (0.0012)
+[2023-07-06 12:47:31,629][98493] Updated weights for policy 0, policy_version 407721 (0.0007)
+[2023-07-06 12:47:32,236][98493] Updated weights for policy 0, policy_version 407780 (0.0007)
+[2023-07-06 12:47:32,829][98493] Updated weights for policy 0, policy_version 407844 (0.0007)
+[2023-07-06 12:47:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 835321856. Throughput: 0: 27818.7. Samples: 208920576. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:47:35,613][98493] Updated weights for policy 0, policy_version 407882 (0.0006)
+[2023-07-06 12:47:36,045][98493] Updated weights for policy 0, policy_version 407924 (0.0007)
+[2023-07-06 12:47:36,615][98493] Updated weights for policy 0, policy_version 407988 (0.0008)
+[2023-07-06 12:47:37,087][98493] Updated weights for policy 0, policy_version 408048 (0.0008)
+[2023-07-06 12:47:37,641][98493] Updated weights for policy 0, policy_version 408112 (0.0007)
+[2023-07-06 12:47:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 835846144. Throughput: 0: 27545.7. Samples: 208996352. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:47:40,496][98493] Updated weights for policy 0, policy_version 408150 (0.0007)
+[2023-07-06 12:47:41,054][98493] Updated weights for policy 0, policy_version 408209 (0.0008)
+[2023-07-06 12:47:41,669][98493] Updated weights for policy 0, policy_version 408288 (0.0008)
+[2023-07-06 12:47:42,195][98493] Updated weights for policy 0, policy_version 408352 (0.0008)
+[2023-07-06 12:47:44,764][98243] Fps is (10 sec: 104856.9, 60 sec: 109773.2, 300 sec: 111522.2). Total num frames: 836370432. Throughput: 0: 27716.2. Samples: 209168896. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:47:45,016][98493] Updated weights for policy 0, policy_version 408400 (0.0006)
+[2023-07-06 12:47:45,745][98493] Updated weights for policy 0, policy_version 408455 (0.0007)
+[2023-07-06 12:47:45,990][98449] Signal inference workers to stop experience collection... (21100 times)
+[2023-07-06 12:47:46,018][98493] InferenceWorker_p0-w0: stopping experience collection (21100 times)
+[2023-07-06 12:47:46,073][98449] Signal inference workers to resume experience collection... (21100 times)
+[2023-07-06 12:47:46,074][98493] InferenceWorker_p0-w0: resuming experience collection (21100 times)
+[2023-07-06 12:47:46,329][98493] Updated weights for policy 0, policy_version 408528 (0.0006)
+[2023-07-06 12:47:46,847][98493] Updated weights for policy 0, policy_version 408585 (0.0008)
+[2023-07-06 12:47:47,257][98493] Updated weights for policy 0, policy_version 408637 (0.0007)
+[2023-07-06 12:47:49,764][98243] Fps is (10 sec: 108132.4, 60 sec: 108680.2, 300 sec: 111411.1). Total num frames: 836927488. Throughput: 0: 27852.7. Samples: 209339392. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:47:50,113][98493] Updated weights for policy 0, policy_version 408693 (0.0007)
+[2023-07-06 12:47:50,703][98493] Updated weights for policy 0, policy_version 408743 (0.0007)
+[2023-07-06 12:47:51,298][98493] Updated weights for policy 0, policy_version 408802 (0.0007)
+[2023-07-06 12:47:51,713][98493] Updated weights for policy 0, policy_version 408852 (0.0007)
+[2023-07-06 12:47:54,356][98493] Updated weights for policy 0, policy_version 408900 (0.0007)
+[2023-07-06 12:47:54,764][98243] Fps is (10 sec: 114688.2, 60 sec: 108680.9, 300 sec: 111411.2). Total num frames: 837517312. Throughput: 0: 27545.7. Samples: 209416704. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:47:54,803][98493] Updated weights for policy 0, policy_version 408959 (0.0006)
+[2023-07-06 12:47:55,330][98493] Updated weights for policy 0, policy_version 409009 (0.0008)
+[2023-07-06 12:47:55,749][98493] Updated weights for policy 0, policy_version 409056 (0.0008)
+[2023-07-06 12:47:56,179][98493] Updated weights for policy 0, policy_version 409104 (0.0006)
+[2023-07-06 12:47:58,972][98493] Updated weights for policy 0, policy_version 409153 (0.0006)
+[2023-07-06 12:47:59,444][98493] Updated weights for policy 0, policy_version 409212 (0.0006)
+[2023-07-06 12:47:59,764][98243] Fps is (10 sec: 117967.7, 60 sec: 108680.6, 300 sec: 111522.3). Total num frames: 838107136. Throughput: 0: 27864.2. Samples: 209591296. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:47:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:48:00,104][98493] Updated weights for policy 0, policy_version 409267 (0.0007)
+[2023-07-06 12:48:00,689][98493] Updated weights for policy 0, policy_version 409336 (0.0006)
+[2023-07-06 12:48:01,038][98449] Signal inference workers to stop experience collection... (21150 times)
+[2023-07-06 12:48:01,085][98493] InferenceWorker_p0-w0: stopping experience collection (21150 times)
+[2023-07-06 12:48:01,119][98449] Signal inference workers to resume experience collection... (21150 times)
+[2023-07-06 12:48:01,120][98493] InferenceWorker_p0-w0: resuming experience collection (21150 times)
+[2023-07-06 12:48:01,154][98493] Updated weights for policy 0, policy_version 409394 (0.0006)
+[2023-07-06 12:48:04,246][98493] Updated weights for policy 0, policy_version 409456 (0.0006)
+[2023-07-06 12:48:04,760][98493] Updated weights for policy 0, policy_version 409512 (0.0007)
+[2023-07-06 12:48:04,764][98243] Fps is (10 sec: 114686.8, 60 sec: 108134.1, 300 sec: 111300.0). Total num frames: 838664192. Throughput: 0: 27852.8. Samples: 209755136. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:04,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:48:05,289][98493] Updated weights for policy 0, policy_version 409572 (0.0008)
+[2023-07-06 12:48:05,772][98493] Updated weights for policy 0, policy_version 409624 (0.0008)
+[2023-07-06 12:48:08,952][98493] Updated weights for policy 0, policy_version 409696 (0.0007)
+[2023-07-06 12:48:09,441][98493] Updated weights for policy 0, policy_version 409750 (0.0007)
+[2023-07-06 12:48:09,764][98243] Fps is (10 sec: 111410.7, 60 sec: 108680.9, 300 sec: 111522.3). Total num frames: 839221248. Throughput: 0: 27795.9. Samples: 209838080. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:09,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:48:09,935][98493] Updated weights for policy 0, policy_version 409808 (0.0008)
+[2023-07-06 12:48:10,568][98493] Updated weights for policy 0, policy_version 409878 (0.0007)
+[2023-07-06 12:48:13,445][98493] Updated weights for policy 0, policy_version 409936 (0.0007)
+[2023-07-06 12:48:13,964][98493] Updated weights for policy 0, policy_version 409990 (0.0033)
+[2023-07-06 12:48:14,517][98493] Updated weights for policy 0, policy_version 410053 (0.0007)
+[2023-07-06 12:48:14,764][98243] Fps is (10 sec: 117967.4, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 839843840. Throughput: 0: 27898.4. Samples: 210004480. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:48:15,102][98493] Updated weights for policy 0, policy_version 410114 (0.0008)
+[2023-07-06 12:48:15,567][98493] Updated weights for policy 0, policy_version 410176 (0.0006)
+[2023-07-06 12:48:18,609][98493] Updated weights for policy 0, policy_version 410240 (0.0006)
+[2023-07-06 12:48:18,681][98449] Signal inference workers to stop experience collection... (21200 times)
+[2023-07-06 12:48:18,713][98493] InferenceWorker_p0-w0: stopping experience collection (21200 times)
+[2023-07-06 12:48:18,749][98449] Signal inference workers to resume experience collection... (21200 times)
+[2023-07-06 12:48:18,749][98493] InferenceWorker_p0-w0: resuming experience collection (21200 times)
+[2023-07-06 12:48:19,173][98493] Updated weights for policy 0, policy_version 410304 (0.0006)
+[2023-07-06 12:48:19,764][98243] Fps is (10 sec: 121241.8, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 840433664. Throughput: 0: 27613.9. Samples: 210163200. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:19,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:48:19,782][98493] Updated weights for policy 0, policy_version 410370 (0.0007)
+[2023-07-06 12:48:20,262][98493] Updated weights for policy 0, policy_version 410432 (0.0011)
+[2023-07-06 12:48:23,436][98493] Updated weights for policy 0, policy_version 410481 (0.0007)
+[2023-07-06 12:48:23,863][98493] Updated weights for policy 0, policy_version 410531 (0.0008)
+[2023-07-06 12:48:24,428][98493] Updated weights for policy 0, policy_version 410594 (0.0007)
+[2023-07-06 12:48:24,764][98243] Fps is (10 sec: 111411.4, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 840957952. Throughput: 0: 27943.9. Samples: 210253824. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:24,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:48:24,902][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000410656_841023488.pth...
+[2023-07-06 12:48:24,990][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000397568_814219264.pth
+[2023-07-06 12:48:25,089][98493] Updated weights for policy 0, policy_version 410672 (0.0008)
+[2023-07-06 12:48:28,276][98493] Updated weights for policy 0, policy_version 410745 (0.0007)
+[2023-07-06 12:48:28,718][98493] Updated weights for policy 0, policy_version 410787 (0.0007)
+[2023-07-06 12:48:29,223][98493] Updated weights for policy 0, policy_version 410848 (0.0008)
+[2023-07-06 12:48:29,726][98493] Updated weights for policy 0, policy_version 410901 (0.0007)
+[2023-07-06 12:48:29,764][98243] Fps is (10 sec: 108134.8, 60 sec: 111957.5, 300 sec: 111633.4). Total num frames: 841515008. Throughput: 0: 27693.6. Samples: 210415104. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:29,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:48:32,532][98493] Updated weights for policy 0, policy_version 410960 (0.0007)
+[2023-07-06 12:48:32,958][98493] Updated weights for policy 0, policy_version 411008 (0.0008)
+[2023-07-06 12:48:33,556][98493] Updated weights for policy 0, policy_version 411064 (0.0007)
+[2023-07-06 12:48:33,897][98449] Signal inference workers to stop experience collection... (21250 times)
+[2023-07-06 12:48:33,938][98493] InferenceWorker_p0-w0: stopping experience collection (21250 times)
+[2023-07-06 12:48:33,983][98449] Signal inference workers to resume experience collection... (21250 times)
+[2023-07-06 12:48:33,983][98493] InferenceWorker_p0-w0: resuming experience collection (21250 times)
+[2023-07-06 12:48:34,064][98493] Updated weights for policy 0, policy_version 411125 (0.0007)
+[2023-07-06 12:48:34,563][98493] Updated weights for policy 0, policy_version 411184 (0.0007)
+[2023-07-06 12:48:34,764][98243] Fps is (10 sec: 117963.7, 60 sec: 113595.7, 300 sec: 111966.8). Total num frames: 842137600. Throughput: 0: 27454.7. Samples: 210574848. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:48:37,417][98493] Updated weights for policy 0, policy_version 411237 (0.0007)
+[2023-07-06 12:48:37,877][98493] Updated weights for policy 0, policy_version 411267 (0.0006)
+[2023-07-06 12:48:38,324][98493] Updated weights for policy 0, policy_version 411314 (0.0007)
+[2023-07-06 12:48:38,753][98493] Updated weights for policy 0, policy_version 411362 (0.0006)
+[2023-07-06 12:48:39,190][98493] Updated weights for policy 0, policy_version 411411 (0.0008)
+[2023-07-06 12:48:39,764][98243] Fps is (10 sec: 114687.2, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 842661888. Throughput: 0: 27795.9. Samples: 210667520. Policy #0 lag: (min: 9.0, avg: 88.0, max: 265.0)
+[2023-07-06 12:48:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:48:41,521][98493] Updated weights for policy 0, policy_version 411460 (0.0007)
+[2023-07-06 12:48:41,926][98493] Updated weights for policy 0, policy_version 411512 (0.0007)
+[2023-07-06 12:48:42,553][98493] Updated weights for policy 0, policy_version 411552 (0.0007)
+[2023-07-06 12:48:43,175][98493] Updated weights for policy 0, policy_version 411621 (0.0007)
+[2023-07-06 12:48:43,679][98493] Updated weights for policy 0, policy_version 411680 (0.0007)
+[2023-07-06 12:48:44,764][98243] Fps is (10 sec: 104858.1, 60 sec: 113595.9, 300 sec: 111633.4). Total num frames: 843186176. Throughput: 0: 27522.8. Samples: 210829824. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:48:44,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:48:46,611][98493] Updated weights for policy 0, policy_version 411745 (0.0007)
+[2023-07-06 12:48:46,860][98493] Updated weights for policy 0, policy_version 411776 (0.0007)
+[2023-07-06 12:48:47,431][98493] Updated weights for policy 0, policy_version 411835 (0.0007)
+[2023-07-06 12:48:47,902][98493] Updated weights for policy 0, policy_version 411888 (0.0007)
+[2023-07-06 12:48:48,526][98493] Updated weights for policy 0, policy_version 411959 (0.0007)
+[2023-07-06 12:48:49,764][98243] Fps is (10 sec: 104855.9, 60 sec: 113049.6, 300 sec: 111522.2). Total num frames: 843710464. Throughput: 0: 27625.2. Samples: 210998272. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:48:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:48:51,114][98449] Signal inference workers to stop experience collection... (21300 times)
+[2023-07-06 12:48:51,157][98493] InferenceWorker_p0-w0: stopping experience collection (21300 times)
+[2023-07-06 12:48:51,216][98449] Signal inference workers to resume experience collection... (21300 times)
+[2023-07-06 12:48:51,217][98493] InferenceWorker_p0-w0: resuming experience collection (21300 times)
+[2023-07-06 12:48:51,298][98493] Updated weights for policy 0, policy_version 412025 (0.0007)
+[2023-07-06 12:48:52,034][98493] Updated weights for policy 0, policy_version 412074 (0.0007)
+[2023-07-06 12:48:52,527][98493] Updated weights for policy 0, policy_version 412128 (0.0007)
+[2023-07-06 12:48:53,076][98493] Updated weights for policy 0, policy_version 412192 (0.0006)
+[2023-07-06 12:48:54,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111957.3, 300 sec: 111189.1). Total num frames: 844234752. Throughput: 0: 27625.2. Samples: 211081216. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:48:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:48:55,753][98493] Updated weights for policy 0, policy_version 412248 (0.0008)
+[2023-07-06 12:48:56,611][98493] Updated weights for policy 0, policy_version 412304 (0.0008)
+[2023-07-06 12:48:57,154][98493] Updated weights for policy 0, policy_version 412368 (0.0008)
+[2023-07-06 12:48:57,679][98493] Updated weights for policy 0, policy_version 412424 (0.0007)
+[2023-07-06 12:48:58,086][98493] Updated weights for policy 0, policy_version 412478 (0.0006)
+[2023-07-06 12:48:59,764][98243] Fps is (10 sec: 104859.1, 60 sec: 110864.9, 300 sec: 111189.0). Total num frames: 844759040. Throughput: 0: 27568.3. Samples: 211245056. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:48:59,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 12:49:00,776][98493] Updated weights for policy 0, policy_version 412538 (0.0008)
+[2023-07-06 12:49:01,809][98493] Updated weights for policy 0, policy_version 412600 (0.0008)
+[2023-07-06 12:49:02,467][98493] Updated weights for policy 0, policy_version 412672 (0.0007)
+[2023-07-06 12:49:02,978][98493] Updated weights for policy 0, policy_version 412730 (0.0007)
+[2023-07-06 12:49:04,764][98243] Fps is (10 sec: 104858.1, 60 sec: 110319.2, 300 sec: 111078.0). Total num frames: 845283328. Throughput: 0: 27784.5. Samples: 211413504. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:04,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:49:05,399][98493] Updated weights for policy 0, policy_version 412784 (0.0007)
+[2023-07-06 12:49:06,432][98493] Updated weights for policy 0, policy_version 412821 (0.0006)
+[2023-07-06 12:49:07,065][98493] Updated weights for policy 0, policy_version 412888 (0.0007)
+[2023-07-06 12:49:07,279][98449] Signal inference workers to stop experience collection... (21350 times)
+[2023-07-06 12:49:07,322][98493] InferenceWorker_p0-w0: stopping experience collection (21350 times)
+[2023-07-06 12:49:07,377][98449] Signal inference workers to resume experience collection... (21350 times)
+[2023-07-06 12:49:07,378][98493] InferenceWorker_p0-w0: resuming experience collection (21350 times)
+[2023-07-06 12:49:07,533][98493] Updated weights for policy 0, policy_version 412944 (0.0006)
+[2023-07-06 12:49:07,901][98493] Updated weights for policy 0, policy_version 412986 (0.0006)
+[2023-07-06 12:49:09,764][98243] Fps is (10 sec: 104857.7, 60 sec: 109772.8, 300 sec: 110966.9). Total num frames: 845807616. Throughput: 0: 27556.9. Samples: 211493888. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:49:10,069][98493] Updated weights for policy 0, policy_version 413029 (0.0008)
+[2023-07-06 12:49:11,190][98493] Updated weights for policy 0, policy_version 413095 (0.0007)
+[2023-07-06 12:49:11,644][98493] Updated weights for policy 0, policy_version 413152 (0.0008)
+[2023-07-06 12:49:12,165][98493] Updated weights for policy 0, policy_version 413205 (0.0007)
+[2023-07-06 12:49:14,385][98493] Updated weights for policy 0, policy_version 413252 (0.0007)
+[2023-07-06 12:49:14,764][98243] Fps is (10 sec: 114689.3, 60 sec: 109772.9, 300 sec: 110967.0). Total num frames: 846430208. Throughput: 0: 27773.2. Samples: 211664896. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:14,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:49:14,887][98493] Updated weights for policy 0, policy_version 413312 (0.0007)
+[2023-07-06 12:49:16,090][98493] Updated weights for policy 0, policy_version 413366 (0.0008)
+[2023-07-06 12:49:16,585][98493] Updated weights for policy 0, policy_version 413424 (0.0008)
+[2023-07-06 12:49:17,145][98493] Updated weights for policy 0, policy_version 413488 (0.0007)
+[2023-07-06 12:49:19,316][98493] Updated weights for policy 0, policy_version 413538 (0.0007)
+[2023-07-06 12:49:19,764][98243] Fps is (10 sec: 117964.8, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 846987264. Throughput: 0: 27864.2. Samples: 211828736. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:19,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:49:20,657][98493] Updated weights for policy 0, policy_version 413600 (0.0006)
+[2023-07-06 12:49:21,309][98493] Updated weights for policy 0, policy_version 413670 (0.0008)
+[2023-07-06 12:49:21,841][98493] Updated weights for policy 0, policy_version 413732 (0.0007)
+[2023-07-06 12:49:23,722][98493] Updated weights for policy 0, policy_version 413784 (0.0006)
+[2023-07-06 12:49:24,764][98243] Fps is (10 sec: 108132.8, 60 sec: 109226.4, 300 sec: 111078.0). Total num frames: 847511552. Throughput: 0: 27579.7. Samples: 211908608. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:24,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:49:25,376][98493] Updated weights for policy 0, policy_version 413840 (0.0006)
+[2023-07-06 12:49:25,420][98449] Signal inference workers to stop experience collection... (21400 times)
+[2023-07-06 12:49:25,464][98493] InferenceWorker_p0-w0: stopping experience collection (21400 times)
+[2023-07-06 12:49:25,507][98449] Signal inference workers to resume experience collection... (21400 times)
+[2023-07-06 12:49:25,508][98493] InferenceWorker_p0-w0: resuming experience collection (21400 times)
+[2023-07-06 12:49:25,920][98493] Updated weights for policy 0, policy_version 413904 (0.0007)
+[2023-07-06 12:49:26,430][98493] Updated weights for policy 0, policy_version 413953 (0.0008)
+[2023-07-06 12:49:26,878][98493] Updated weights for policy 0, policy_version 414009 (0.0007)
+[2023-07-06 12:49:28,609][98493] Updated weights for policy 0, policy_version 414055 (0.0007)
+[2023-07-06 12:49:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 108680.4, 300 sec: 111078.0). Total num frames: 848035840. Throughput: 0: 27704.9. Samples: 212076544. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:29,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:49:30,060][98493] Updated weights for policy 0, policy_version 414104 (0.0007)
+[2023-07-06 12:49:30,579][98493] Updated weights for policy 0, policy_version 414162 (0.0007)
+[2023-07-06 12:49:31,107][98493] Updated weights for policy 0, policy_version 414224 (0.0008)
+[2023-07-06 12:49:31,494][98493] Updated weights for policy 0, policy_version 414272 (0.0007)
+[2023-07-06 12:49:33,460][98493] Updated weights for policy 0, policy_version 414330 (0.0007)
+[2023-07-06 12:49:34,764][98243] Fps is (10 sec: 108135.5, 60 sec: 107588.4, 300 sec: 111078.0). Total num frames: 848592896. Throughput: 0: 27761.9. Samples: 212247552. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:34,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:49:34,944][98493] Updated weights for policy 0, policy_version 414371 (0.0006)
+[2023-07-06 12:49:35,447][98493] Updated weights for policy 0, policy_version 414432 (0.0007)
+[2023-07-06 12:49:35,912][98493] Updated weights for policy 0, policy_version 414480 (0.0007)
+[2023-07-06 12:49:37,807][98493] Updated weights for policy 0, policy_version 414529 (0.0007)
+[2023-07-06 12:49:38,231][98493] Updated weights for policy 0, policy_version 414588 (0.0007)
+[2023-07-06 12:49:39,651][98493] Updated weights for policy 0, policy_version 414640 (0.0008)
+[2023-07-06 12:49:39,764][98243] Fps is (10 sec: 114688.2, 60 sec: 108680.6, 300 sec: 110966.9). Total num frames: 849182720. Throughput: 0: 27739.1. Samples: 212329472. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:39,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:49:40,036][98493] Updated weights for policy 0, policy_version 414676 (0.0007)
+[2023-07-06 12:49:40,506][98449] Signal inference workers to stop experience collection... (21450 times)
+[2023-07-06 12:49:40,563][98493] InferenceWorker_p0-w0: stopping experience collection (21450 times)
+[2023-07-06 12:49:40,563][98493] Updated weights for policy 0, policy_version 414740 (0.0007)
+[2023-07-06 12:49:40,626][98449] Signal inference workers to resume experience collection... (21450 times)
+[2023-07-06 12:49:40,626][98493] InferenceWorker_p0-w0: resuming experience collection (21450 times)
+[2023-07-06 12:49:42,687][98493] Updated weights for policy 0, policy_version 414808 (0.0006)
+[2023-07-06 12:49:44,164][98493] Updated weights for policy 0, policy_version 414851 (0.0006)
+[2023-07-06 12:49:44,756][98493] Updated weights for policy 0, policy_version 414918 (0.0007)
+[2023-07-06 12:49:44,764][98243] Fps is (10 sec: 114687.4, 60 sec: 109226.6, 300 sec: 111077.9). Total num frames: 849739776. Throughput: 0: 27807.3. Samples: 212496384. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:44,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:49:45,352][98493] Updated weights for policy 0, policy_version 414979 (0.0008)
+[2023-07-06 12:49:45,796][98493] Updated weights for policy 0, policy_version 415036 (0.0007)
+[2023-07-06 12:49:47,489][98493] Updated weights for policy 0, policy_version 415098 (0.0008)
+[2023-07-06 12:49:49,281][98493] Updated weights for policy 0, policy_version 415138 (0.0007)
+[2023-07-06 12:49:49,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110319.3, 300 sec: 111300.2). Total num frames: 850329600. Throughput: 0: 27670.8. Samples: 212658688. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:49:49,885][98493] Updated weights for policy 0, policy_version 415216 (0.0007)
+[2023-07-06 12:49:50,463][98493] Updated weights for policy 0, policy_version 415280 (0.0007)
+[2023-07-06 12:49:52,087][98493] Updated weights for policy 0, policy_version 415330 (0.0007)
+[2023-07-06 12:49:53,701][98493] Updated weights for policy 0, policy_version 415384 (0.0006)
+[2023-07-06 12:49:54,022][98493] Updated weights for policy 0, policy_version 415420 (0.0007)
+[2023-07-06 12:49:54,568][98493] Updated weights for policy 0, policy_version 415473 (0.0008)
+[2023-07-06 12:49:54,764][98243] Fps is (10 sec: 117965.6, 60 sec: 111411.4, 300 sec: 111522.4). Total num frames: 850919424. Throughput: 0: 27796.0. Samples: 212744704. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:54,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:49:55,089][98493] Updated weights for policy 0, policy_version 415536 (0.0007)
+[2023-07-06 12:49:56,541][98493] Updated weights for policy 0, policy_version 415573 (0.0008)
+[2023-07-06 12:49:58,025][98493] Updated weights for policy 0, policy_version 415618 (0.0008)
+[2023-07-06 12:49:58,473][98493] Updated weights for policy 0, policy_version 415674 (0.0007)
+[2023-07-06 12:49:58,530][98449] Signal inference workers to stop experience collection... (21500 times)
+[2023-07-06 12:49:58,547][98493] InferenceWorker_p0-w0: stopping experience collection (21500 times)
+[2023-07-06 12:49:58,569][98449] Signal inference workers to resume experience collection... (21500 times)
+[2023-07-06 12:49:58,570][98493] InferenceWorker_p0-w0: resuming experience collection (21500 times)
+[2023-07-06 12:49:58,950][98493] Updated weights for policy 0, policy_version 415716 (0.0007)
+[2023-07-06 12:49:59,459][98493] Updated weights for policy 0, policy_version 415776 (0.0007)
+[2023-07-06 12:49:59,764][98243] Fps is (10 sec: 124514.9, 60 sec: 113595.3, 300 sec: 111633.5). Total num frames: 851574784. Throughput: 0: 27818.5. Samples: 212916736. Policy #0 lag: (min: 15.0, avg: 111.5, max: 271.0)
+[2023-07-06 12:49:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:50:01,136][98493] Updated weights for policy 0, policy_version 415824 (0.0008)
+[2023-07-06 12:50:02,613][98493] Updated weights for policy 0, policy_version 415875 (0.0008)
+[2023-07-06 12:50:03,071][98493] Updated weights for policy 0, policy_version 415934 (0.0007)
+[2023-07-06 12:50:03,591][98493] Updated weights for policy 0, policy_version 415984 (0.0007)
+[2023-07-06 12:50:04,280][98493] Updated weights for policy 0, policy_version 416039 (0.0007)
+[2023-07-06 12:50:04,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 852099072. Throughput: 0: 27795.9. Samples: 213079552. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:04,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:50:05,961][98493] Updated weights for policy 0, policy_version 416096 (0.0007)
+[2023-07-06 12:50:06,251][98493] Updated weights for policy 0, policy_version 416128 (0.0007)
+[2023-07-06 12:50:07,556][98493] Updated weights for policy 0, policy_version 416176 (0.0008)
+[2023-07-06 12:50:08,164][98493] Updated weights for policy 0, policy_version 416233 (0.0006)
+[2023-07-06 12:50:08,743][98493] Updated weights for policy 0, policy_version 416260 (0.0011)
+[2023-07-06 12:50:09,203][98493] Updated weights for policy 0, policy_version 416315 (0.0007)
+[2023-07-06 12:50:09,764][98243] Fps is (10 sec: 104859.3, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 852623360. Throughput: 0: 27977.9. Samples: 213167616. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:50:10,682][98493] Updated weights for policy 0, policy_version 416379 (0.0007)
+[2023-07-06 12:50:12,109][98493] Updated weights for policy 0, policy_version 416420 (0.0007)
+[2023-07-06 12:50:12,659][98493] Updated weights for policy 0, policy_version 416473 (0.0007)
+[2023-07-06 12:50:13,296][98493] Updated weights for policy 0, policy_version 416516 (0.0007)
+[2023-07-06 12:50:13,706][98493] Updated weights for policy 0, policy_version 416566 (0.0006)
+[2023-07-06 12:50:14,765][98243] Fps is (10 sec: 104852.9, 60 sec: 111956.4, 300 sec: 111411.0). Total num frames: 853147648. Throughput: 0: 27943.6. Samples: 213334016. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:14,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:50:15,295][98493] Updated weights for policy 0, policy_version 416614 (0.0008)
+[2023-07-06 12:50:16,456][98493] Updated weights for policy 0, policy_version 416647 (0.0006)
+[2023-07-06 12:50:16,861][98493] Updated weights for policy 0, policy_version 416701 (0.0006)
+[2023-07-06 12:50:17,035][98449] Signal inference workers to stop experience collection... (21550 times)
+[2023-07-06 12:50:17,066][98493] InferenceWorker_p0-w0: stopping experience collection (21550 times)
+[2023-07-06 12:50:17,133][98449] Signal inference workers to resume experience collection... (21550 times)
+[2023-07-06 12:50:17,133][98493] InferenceWorker_p0-w0: resuming experience collection (21550 times)
+[2023-07-06 12:50:17,488][98493] Updated weights for policy 0, policy_version 416764 (0.0007)
+[2023-07-06 12:50:18,214][98493] Updated weights for policy 0, policy_version 416806 (0.0007)
+[2023-07-06 12:50:19,764][98243] Fps is (10 sec: 108135.6, 60 sec: 111957.4, 300 sec: 111522.3). Total num frames: 853704704. Throughput: 0: 28034.8. Samples: 213509120. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:19,764][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 12:50:19,929][98493] Updated weights for policy 0, policy_version 416866 (0.0007)
+[2023-07-06 12:50:21,535][98493] Updated weights for policy 0, policy_version 416930 (0.0007)
+[2023-07-06 12:50:21,961][98493] Updated weights for policy 0, policy_version 416980 (0.0007)
+[2023-07-06 12:50:22,694][98493] Updated weights for policy 0, policy_version 417025 (0.0007)
+[2023-07-06 12:50:23,201][98493] Updated weights for policy 0, policy_version 417088 (0.0007)
+[2023-07-06 12:50:24,647][98493] Updated weights for policy 0, policy_version 417137 (0.0007)
+[2023-07-06 12:50:24,764][98243] Fps is (10 sec: 117969.7, 60 sec: 113595.9, 300 sec: 111411.3). Total num frames: 854327296. Throughput: 0: 28000.7. Samples: 213589504. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:24,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:50:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000417152_854327296.pth...
+[2023-07-06 12:50:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000404064_827523072.pth
+[2023-07-06 12:50:26,162][98493] Updated weights for policy 0, policy_version 417175 (0.0006)
+[2023-07-06 12:50:26,624][98493] Updated weights for policy 0, policy_version 417232 (0.0010)
+[2023-07-06 12:50:27,059][98493] Updated weights for policy 0, policy_version 417280 (0.0007)
+[2023-07-06 12:50:27,731][98493] Updated weights for policy 0, policy_version 417328 (0.0007)
+[2023-07-06 12:50:28,994][98493] Updated weights for policy 0, policy_version 417376 (0.0007)
+[2023-07-06 12:50:29,764][98243] Fps is (10 sec: 114688.4, 60 sec: 113595.8, 300 sec: 111189.0). Total num frames: 854851584. Throughput: 0: 28114.5. Samples: 213761536. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:29,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:50:30,850][98493] Updated weights for policy 0, policy_version 417440 (0.0006)
+[2023-07-06 12:50:31,417][98493] Updated weights for policy 0, policy_version 417504 (0.0008)
+[2023-07-06 12:50:31,920][98493] Updated weights for policy 0, policy_version 417541 (0.0007)
+[2023-07-06 12:50:32,397][98493] Updated weights for policy 0, policy_version 417600 (0.0008)
+[2023-07-06 12:50:34,014][98493] Updated weights for policy 0, policy_version 417660 (0.0007)
+[2023-07-06 12:50:34,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113049.6, 300 sec: 111078.0). Total num frames: 855375872. Throughput: 0: 28228.2. Samples: 213928960. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:34,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:50:35,529][98449] Signal inference workers to stop experience collection... (21600 times)
+[2023-07-06 12:50:35,566][98493] InferenceWorker_p0-w0: stopping experience collection (21600 times)
+[2023-07-06 12:50:35,567][98493] Updated weights for policy 0, policy_version 417700 (0.0007)
+[2023-07-06 12:50:35,637][98449] Signal inference workers to resume experience collection... (21600 times)
+[2023-07-06 12:50:35,638][98493] InferenceWorker_p0-w0: resuming experience collection (21600 times)
+[2023-07-06 12:50:36,070][98493] Updated weights for policy 0, policy_version 417760 (0.0007)
+[2023-07-06 12:50:36,571][98493] Updated weights for policy 0, policy_version 417793 (0.0007)
+[2023-07-06 12:50:37,033][98493] Updated weights for policy 0, policy_version 417849 (0.0007)
+[2023-07-06 12:50:38,721][98493] Updated weights for policy 0, policy_version 417912 (0.0008)
+[2023-07-06 12:50:39,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111957.3, 300 sec: 111078.1). Total num frames: 855900160. Throughput: 0: 28160.0. Samples: 214011904. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:50:40,140][98493] Updated weights for policy 0, policy_version 417968 (0.0007)
+[2023-07-06 12:50:40,674][98493] Updated weights for policy 0, policy_version 418023 (0.0007)
+[2023-07-06 12:50:41,500][98493] Updated weights for policy 0, policy_version 418059 (0.0007)
+[2023-07-06 12:50:41,950][98493] Updated weights for policy 0, policy_version 418112 (0.0008)
+[2023-07-06 12:50:43,360][98493] Updated weights for policy 0, policy_version 418171 (0.0008)
+[2023-07-06 12:50:44,649][98493] Updated weights for policy 0, policy_version 418224 (0.0006)
+[2023-07-06 12:50:44,764][98243] Fps is (10 sec: 114688.7, 60 sec: 113049.8, 300 sec: 111411.3). Total num frames: 856522752. Throughput: 0: 28126.1. Samples: 214182400. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:44,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:50:45,224][98493] Updated weights for policy 0, policy_version 418288 (0.0007)
+[2023-07-06 12:50:46,735][98493] Updated weights for policy 0, policy_version 418352 (0.0007)
+[2023-07-06 12:50:47,797][98493] Updated weights for policy 0, policy_version 418400 (0.0007)
+[2023-07-06 12:50:49,034][98493] Updated weights for policy 0, policy_version 418436 (0.0007)
+[2023-07-06 12:50:49,521][98493] Updated weights for policy 0, policy_version 418496 (0.0007)
+[2023-07-06 12:50:49,764][98243] Fps is (10 sec: 121242.1, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 857112576. Throughput: 0: 28205.5. Samples: 214348800. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:49,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:50:50,030][98493] Updated weights for policy 0, policy_version 418554 (0.0007)
+[2023-07-06 12:50:51,391][98493] Updated weights for policy 0, policy_version 418595 (0.0007)
+[2023-07-06 12:50:52,156][98493] Updated weights for policy 0, policy_version 418627 (0.0006)
+[2023-07-06 12:50:52,589][98493] Updated weights for policy 0, policy_version 418681 (0.0006)
+[2023-07-06 12:50:53,679][98449] Signal inference workers to stop experience collection... (21650 times)
+[2023-07-06 12:50:53,720][98493] InferenceWorker_p0-w0: stopping experience collection (21650 times)
+[2023-07-06 12:50:53,767][98449] Signal inference workers to resume experience collection... (21650 times)
+[2023-07-06 12:50:53,768][98493] InferenceWorker_p0-w0: resuming experience collection (21650 times)
+[2023-07-06 12:50:53,909][98493] Updated weights for policy 0, policy_version 418720 (0.0007)
+[2023-07-06 12:50:54,502][98493] Updated weights for policy 0, policy_version 418768 (0.0006)
+[2023-07-06 12:50:54,764][98243] Fps is (10 sec: 114685.0, 60 sec: 112503.0, 300 sec: 111300.1). Total num frames: 857669632. Throughput: 0: 28080.3. Samples: 214431232. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:54,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:50:55,671][98493] Updated weights for policy 0, policy_version 418832 (0.0008)
+[2023-07-06 12:50:56,056][98493] Updated weights for policy 0, policy_version 418875 (0.0006)
+[2023-07-06 12:50:56,824][98493] Updated weights for policy 0, policy_version 418915 (0.0007)
+[2023-07-06 12:50:58,444][98493] Updated weights for policy 0, policy_version 418976 (0.0007)
+[2023-07-06 12:50:59,073][98493] Updated weights for policy 0, policy_version 419024 (0.0006)
+[2023-07-06 12:50:59,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 858259456. Throughput: 0: 28228.5. Samples: 214604288. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:50:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:51:00,439][98493] Updated weights for policy 0, policy_version 419078 (0.0006)
+[2023-07-06 12:51:01,252][98493] Updated weights for policy 0, policy_version 419137 (0.0006)
+[2023-07-06 12:51:01,673][98493] Updated weights for policy 0, policy_version 419196 (0.0006)
+[2023-07-06 12:51:03,020][98493] Updated weights for policy 0, policy_version 419262 (0.0007)
+[2023-07-06 12:51:03,939][98493] Updated weights for policy 0, policy_version 419303 (0.0007)
+[2023-07-06 12:51:04,764][98243] Fps is (10 sec: 111413.1, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 858783744. Throughput: 0: 28103.1. Samples: 214773760. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:51:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:51:05,227][98493] Updated weights for policy 0, policy_version 419353 (0.0007)
+[2023-07-06 12:51:05,530][98493] Updated weights for policy 0, policy_version 419389 (0.0007)
+[2023-07-06 12:51:06,395][98493] Updated weights for policy 0, policy_version 419432 (0.0007)
+[2023-07-06 12:51:07,261][98493] Updated weights for policy 0, policy_version 419462 (0.0007)
+[2023-07-06 12:51:07,677][98493] Updated weights for policy 0, policy_version 419515 (0.0007)
+[2023-07-06 12:51:08,665][98493] Updated weights for policy 0, policy_version 419568 (0.0008)
+[2023-07-06 12:51:09,665][98493] Updated weights for policy 0, policy_version 419616 (0.0007)
+[2023-07-06 12:51:09,764][98243] Fps is (10 sec: 111412.3, 60 sec: 112503.6, 300 sec: 111744.5). Total num frames: 859373568. Throughput: 0: 28216.9. Samples: 214859264. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:51:09,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:51:10,809][98493] Updated weights for policy 0, policy_version 419664 (0.0007)
+[2023-07-06 12:51:11,208][98493] Updated weights for policy 0, policy_version 419708 (0.0006)
+[2023-07-06 12:51:12,174][98449] Signal inference workers to stop experience collection... (21700 times)
+[2023-07-06 12:51:12,208][98493] InferenceWorker_p0-w0: stopping experience collection (21700 times)
+[2023-07-06 12:51:12,254][98449] Signal inference workers to resume experience collection... (21700 times)
+[2023-07-06 12:51:12,254][98493] InferenceWorker_p0-w0: resuming experience collection (21700 times)
+[2023-07-06 12:51:12,334][98493] Updated weights for policy 0, policy_version 419769 (0.0007)
+[2023-07-06 12:51:13,002][98493] Updated weights for policy 0, policy_version 419810 (0.0006)
+[2023-07-06 12:51:14,471][98493] Updated weights for policy 0, policy_version 419864 (0.0007)
+[2023-07-06 12:51:14,764][98243] Fps is (10 sec: 117965.3, 60 sec: 113596.6, 300 sec: 111966.6). Total num frames: 859963392. Throughput: 0: 28148.6. Samples: 215028224. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:51:14,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:51:15,314][98493] Updated weights for policy 0, policy_version 419920 (0.0007)
+[2023-07-06 12:51:16,674][98493] Updated weights for policy 0, policy_version 419984 (0.0006)
+[2023-07-06 12:51:17,819][98493] Updated weights for policy 0, policy_version 420036 (0.0006)
+[2023-07-06 12:51:18,972][98493] Updated weights for policy 0, policy_version 420097 (0.0007)
+[2023-07-06 12:51:19,437][98493] Updated weights for policy 0, policy_version 420155 (0.0007)
+[2023-07-06 12:51:19,764][98243] Fps is (10 sec: 111411.1, 60 sec: 113049.5, 300 sec: 111966.6). Total num frames: 860487680. Throughput: 0: 28148.6. Samples: 215195648. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:51:19,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:51:20,240][98493] Updated weights for policy 0, policy_version 420196 (0.0007)
+[2023-07-06 12:51:21,024][98493] Updated weights for policy 0, policy_version 420228 (0.0007)
+[2023-07-06 12:51:21,478][98493] Updated weights for policy 0, policy_version 420281 (0.0007)
+[2023-07-06 12:51:22,831][98493] Updated weights for policy 0, policy_version 420324 (0.0007)
+[2023-07-06 12:51:23,528][98493] Updated weights for policy 0, policy_version 420360 (0.0006)
+[2023-07-06 12:51:23,983][98493] Updated weights for policy 0, policy_version 420415 (0.0007)
+[2023-07-06 12:51:24,764][98243] Fps is (10 sec: 108133.9, 60 sec: 111957.3, 300 sec: 111633.3). Total num frames: 861044736. Throughput: 0: 28205.5. Samples: 215281152. Policy #0 lag: (min: 52.0, avg: 165.9, max: 309.0)
+[2023-07-06 12:51:24,764][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 12:51:24,989][98493] Updated weights for policy 0, policy_version 420471 (0.0007)
+[2023-07-06 12:51:25,793][98493] Updated weights for policy 0, policy_version 420497 (0.0007)
+[2023-07-06 12:51:27,261][98493] Updated weights for policy 0, policy_version 420567 (0.0007)
+[2023-07-06 12:51:27,587][98493] Updated weights for policy 0, policy_version 420608 (0.0006)
+[2023-07-06 12:51:28,579][98493] Updated weights for policy 0, policy_version 420667 (0.0007)
+[2023-07-06 12:51:29,754][98493] Updated weights for policy 0, policy_version 420730 (0.0007)
+[2023-07-06 12:51:29,764][98243] Fps is (10 sec: 114688.5, 60 sec: 113049.5, 300 sec: 111855.5). Total num frames: 861634560. Throughput: 0: 28194.1. Samples: 215451136. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:29,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:51:30,530][98493] Updated weights for policy 0, policy_version 420769 (0.0008)
+[2023-07-06 12:51:31,673][98493] Updated weights for policy 0, policy_version 420816 (0.0006)
+[2023-07-06 12:51:31,735][98449] Signal inference workers to stop experience collection... (21750 times)
+[2023-07-06 12:51:31,780][98493] InferenceWorker_p0-w0: stopping experience collection (21750 times)
+[2023-07-06 12:51:31,843][98449] Signal inference workers to resume experience collection... (21750 times)
+[2023-07-06 12:51:31,844][98493] InferenceWorker_p0-w0: resuming experience collection (21750 times)
+[2023-07-06 12:51:32,139][98493] Updated weights for policy 0, policy_version 420864 (0.0007)
+[2023-07-06 12:51:33,171][98493] Updated weights for policy 0, policy_version 420902 (0.0007)
+[2023-07-06 12:51:34,199][98493] Updated weights for policy 0, policy_version 420944 (0.0007)
+[2023-07-06 12:51:34,524][98493] Updated weights for policy 0, policy_version 420984 (0.0007)
+[2023-07-06 12:51:34,764][98243] Fps is (10 sec: 114688.4, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 862191616. Throughput: 0: 28296.5. Samples: 215622144. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:34,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 12:51:35,118][98493] Updated weights for policy 0, policy_version 421051 (0.0008)
+[2023-07-06 12:51:36,582][98493] Updated weights for policy 0, policy_version 421105 (0.0007)
+[2023-07-06 12:51:37,928][98493] Updated weights for policy 0, policy_version 421168 (0.0006)
+[2023-07-06 12:51:38,768][98493] Updated weights for policy 0, policy_version 421205 (0.0006)
+[2023-07-06 12:51:39,628][98493] Updated weights for policy 0, policy_version 421273 (0.0008)
+[2023-07-06 12:51:39,764][98243] Fps is (10 sec: 114687.9, 60 sec: 114688.1, 300 sec: 111855.6). Total num frames: 862781440. Throughput: 0: 28330.8. Samples: 215706112. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:39,764][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 12:51:39,948][98493] Updated weights for policy 0, policy_version 421312 (0.0008)
+[2023-07-06 12:51:41,377][98493] Updated weights for policy 0, policy_version 421372 (0.0007)
+[2023-07-06 12:51:42,819][98493] Updated weights for policy 0, policy_version 421435 (0.0006)
+[2023-07-06 12:51:43,600][98493] Updated weights for policy 0, policy_version 421474 (0.0006)
+[2023-07-06 12:51:44,423][98493] Updated weights for policy 0, policy_version 421529 (0.0006)
+[2023-07-06 12:51:44,764][98243] Fps is (10 sec: 117964.0, 60 sec: 114141.6, 300 sec: 111744.4). Total num frames: 863371264. Throughput: 0: 28205.5. Samples: 215873536. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:44,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:51:45,679][98493] Updated weights for policy 0, policy_version 421593 (0.0007)
+[2023-07-06 12:51:46,019][98493] Updated weights for policy 0, policy_version 421632 (0.0006)
+[2023-07-06 12:51:47,918][98493] Updated weights for policy 0, policy_version 421699 (0.0007)
+[2023-07-06 12:51:48,363][98493] Updated weights for policy 0, policy_version 421757 (0.0008)
+[2023-07-06 12:51:49,320][98493] Updated weights for policy 0, policy_version 421820 (0.0007)
+[2023-07-06 12:51:49,764][98243] Fps is (10 sec: 111410.9, 60 sec: 113049.5, 300 sec: 111522.4). Total num frames: 863895552. Throughput: 0: 28125.9. Samples: 216039424. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:49,770][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:51:50,259][98449] Signal inference workers to stop experience collection... (21800 times)
+[2023-07-06 12:51:50,294][98493] InferenceWorker_p0-w0: stopping experience collection (21800 times)
+[2023-07-06 12:51:50,344][98449] Signal inference workers to resume experience collection... (21800 times)
+[2023-07-06 12:51:50,345][98493] InferenceWorker_p0-w0: resuming experience collection (21800 times)
+[2023-07-06 12:51:50,426][98493] Updated weights for policy 0, policy_version 421882 (0.0007)
+[2023-07-06 12:51:52,303][98493] Updated weights for policy 0, policy_version 421926 (0.0007)
+[2023-07-06 12:51:52,969][98493] Updated weights for policy 0, policy_version 421985 (0.0007)
+[2023-07-06 12:51:53,775][98493] Updated weights for policy 0, policy_version 422038 (0.0006)
+[2023-07-06 12:51:54,765][98243] Fps is (10 sec: 104853.3, 60 sec: 112503.0, 300 sec: 111299.9). Total num frames: 864419840. Throughput: 0: 28125.6. Samples: 216124928. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:54,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:51:54,818][98493] Updated weights for policy 0, policy_version 422085 (0.0007)
+[2023-07-06 12:51:55,282][98493] Updated weights for policy 0, policy_version 422139 (0.0007)
+[2023-07-06 12:51:56,995][98493] Updated weights for policy 0, policy_version 422192 (0.0007)
+[2023-07-06 12:51:57,802][98493] Updated weights for policy 0, policy_version 422256 (0.0007)
+[2023-07-06 12:51:58,391][98493] Updated weights for policy 0, policy_version 422304 (0.0007)
+[2023-07-06 12:51:59,643][98493] Updated weights for policy 0, policy_version 422361 (0.0007)
+[2023-07-06 12:51:59,764][98243] Fps is (10 sec: 111409.9, 60 sec: 112503.4, 300 sec: 111300.1). Total num frames: 865009664. Throughput: 0: 28000.6. Samples: 216288256. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:51:59,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:51:59,963][98493] Updated weights for policy 0, policy_version 422400 (0.0006)
+[2023-07-06 12:52:01,954][98493] Updated weights for policy 0, policy_version 422458 (0.0008)
+[2023-07-06 12:52:02,488][98493] Updated weights for policy 0, policy_version 422501 (0.0007)
+[2023-07-06 12:52:03,184][98493] Updated weights for policy 0, policy_version 422560 (0.0007)
+[2023-07-06 12:52:04,270][98493] Updated weights for policy 0, policy_version 422628 (0.0008)
+[2023-07-06 12:52:04,764][98243] Fps is (10 sec: 117970.2, 60 sec: 113595.8, 300 sec: 111522.4). Total num frames: 865599488. Throughput: 0: 27989.3. Samples: 216455168. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:52:06,274][98493] Updated weights for policy 0, policy_version 422672 (0.0007)
+[2023-07-06 12:52:06,987][98493] Updated weights for policy 0, policy_version 422722 (0.0008)
+[2023-07-06 12:52:07,442][98493] Updated weights for policy 0, policy_version 422778 (0.0006)
+[2023-07-06 12:52:08,077][98493] Updated weights for policy 0, policy_version 422833 (0.0006)
+[2023-07-06 12:52:08,609][98493] Updated weights for policy 0, policy_version 422864 (0.0006)
+[2023-07-06 12:52:09,764][98243] Fps is (10 sec: 111412.7, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 866123776. Throughput: 0: 28023.5. Samples: 216542208. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:09,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:52:10,767][98493] Updated weights for policy 0, policy_version 422928 (0.0007)
+[2023-07-06 12:52:10,815][98449] Signal inference workers to stop experience collection... (21850 times)
+[2023-07-06 12:52:10,857][98493] InferenceWorker_p0-w0: stopping experience collection (21850 times)
+[2023-07-06 12:52:10,896][98449] Signal inference workers to resume experience collection... (21850 times)
+[2023-07-06 12:52:10,897][98493] InferenceWorker_p0-w0: resuming experience collection (21850 times)
+[2023-07-06 12:52:11,192][98493] Updated weights for policy 0, policy_version 422976 (0.0007)
+[2023-07-06 12:52:12,006][98493] Updated weights for policy 0, policy_version 423030 (0.0006)
+[2023-07-06 12:52:12,883][98493] Updated weights for policy 0, policy_version 423088 (0.0008)
+[2023-07-06 12:52:13,652][98493] Updated weights for policy 0, policy_version 423146 (0.0008)
+[2023-07-06 12:52:14,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111410.9, 300 sec: 111522.3). Total num frames: 866648064. Throughput: 0: 27943.7. Samples: 216708608. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:52:15,532][98493] Updated weights for policy 0, policy_version 423202 (0.0008)
+[2023-07-06 12:52:16,502][98493] Updated weights for policy 0, policy_version 423252 (0.0007)
+[2023-07-06 12:52:17,142][98493] Updated weights for policy 0, policy_version 423312 (0.0008)
+[2023-07-06 12:52:17,523][98493] Updated weights for policy 0, policy_version 423355 (0.0008)
+[2023-07-06 12:52:18,290][98493] Updated weights for policy 0, policy_version 423408 (0.0007)
+[2023-07-06 12:52:19,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 867172352. Throughput: 0: 27978.0. Samples: 216881152. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:52:20,208][98493] Updated weights for policy 0, policy_version 423458 (0.0007)
+[2023-07-06 12:52:21,218][98493] Updated weights for policy 0, policy_version 423509 (0.0006)
+[2023-07-06 12:52:21,797][98493] Updated weights for policy 0, policy_version 423553 (0.0006)
+[2023-07-06 12:52:22,245][98493] Updated weights for policy 0, policy_version 423614 (0.0006)
+[2023-07-06 12:52:22,857][98493] Updated weights for policy 0, policy_version 423674 (0.0007)
+[2023-07-06 12:52:24,764][98243] Fps is (10 sec: 108135.4, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 867729408. Throughput: 0: 27875.5. Samples: 216960512. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:52:24,770][98493] Updated weights for policy 0, policy_version 423712 (0.0006)
+[2023-07-06 12:52:24,927][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000423728_867794944.pth...
+[2023-07-06 12:52:24,946][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000410656_841023488.pth
+[2023-07-06 12:52:25,843][98493] Updated weights for policy 0, policy_version 423768 (0.0006)
+[2023-07-06 12:52:26,163][98493] Updated weights for policy 0, policy_version 423808 (0.0008)
+[2023-07-06 12:52:27,009][98493] Updated weights for policy 0, policy_version 423864 (0.0007)
+[2023-07-06 12:52:27,427][98493] Updated weights for policy 0, policy_version 423908 (0.0008)
+[2023-07-06 12:52:29,235][98493] Updated weights for policy 0, policy_version 423952 (0.0007)
+[2023-07-06 12:52:29,436][98449] Signal inference workers to stop experience collection... (21900 times)
+[2023-07-06 12:52:29,475][98493] InferenceWorker_p0-w0: stopping experience collection (21900 times)
+[2023-07-06 12:52:29,524][98449] Signal inference workers to resume experience collection... (21900 times)
+[2023-07-06 12:52:29,525][98493] InferenceWorker_p0-w0: resuming experience collection (21900 times)
+[2023-07-06 12:52:29,606][98493] Updated weights for policy 0, policy_version 423993 (0.0007)
+[2023-07-06 12:52:29,764][98243] Fps is (10 sec: 117962.6, 60 sec: 111957.0, 300 sec: 111966.5). Total num frames: 868352000. Throughput: 0: 28068.9. Samples: 217136640. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:52:30,524][98493] Updated weights for policy 0, policy_version 424048 (0.0007)
+[2023-07-06 12:52:31,237][98493] Updated weights for policy 0, policy_version 424084 (0.0006)
+[2023-07-06 12:52:31,834][98493] Updated weights for policy 0, policy_version 424135 (0.0006)
+[2023-07-06 12:52:33,618][98493] Updated weights for policy 0, policy_version 424193 (0.0007)
+[2023-07-06 12:52:33,992][98493] Updated weights for policy 0, policy_version 424243 (0.0007)
+[2023-07-06 12:52:34,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111410.9, 300 sec: 111966.5). Total num frames: 868876288. Throughput: 0: 28216.8. Samples: 217309184. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:34,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 12:52:35,089][98493] Updated weights for policy 0, policy_version 424291 (0.0012)
+[2023-07-06 12:52:35,927][98493] Updated weights for policy 0, policy_version 424347 (0.0007)
+[2023-07-06 12:52:36,374][98493] Updated weights for policy 0, policy_version 424389 (0.0007)
+[2023-07-06 12:52:36,819][98493] Updated weights for policy 0, policy_version 424443 (0.0006)
+[2023-07-06 12:52:38,746][98493] Updated weights for policy 0, policy_version 424496 (0.0007)
+[2023-07-06 12:52:39,764][98243] Fps is (10 sec: 111414.0, 60 sec: 111411.3, 300 sec: 112188.8). Total num frames: 869466112. Throughput: 0: 28171.7. Samples: 217392640. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:39,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:52:39,770][98493] Updated weights for policy 0, policy_version 424560 (0.0007)
+[2023-07-06 12:52:40,719][98493] Updated weights for policy 0, policy_version 424624 (0.0007)
+[2023-07-06 12:52:41,254][98493] Updated weights for policy 0, policy_version 424677 (0.0006)
+[2023-07-06 12:52:43,080][98493] Updated weights for policy 0, policy_version 424720 (0.0008)
+[2023-07-06 12:52:43,526][98493] Updated weights for policy 0, policy_version 424768 (0.0006)
+[2023-07-06 12:52:44,152][98493] Updated weights for policy 0, policy_version 424827 (0.0007)
+[2023-07-06 12:52:44,764][98243] Fps is (10 sec: 117966.9, 60 sec: 111411.3, 300 sec: 112299.9). Total num frames: 870055936. Throughput: 0: 28342.1. Samples: 217563648. Policy #0 lag: (min: 10.0, avg: 137.1, max: 266.0)
+[2023-07-06 12:52:44,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:52:45,505][98493] Updated weights for policy 0, policy_version 424854 (0.0009)
+[2023-07-06 12:52:45,998][98493] Updated weights for policy 0, policy_version 424912 (0.0007)
+[2023-07-06 12:52:47,637][98493] Updated weights for policy 0, policy_version 424964 (0.0007)
+[2023-07-06 12:52:47,963][98449] Signal inference workers to stop experience collection... (21950 times)
+[2023-07-06 12:52:47,978][98493] InferenceWorker_p0-w0: stopping experience collection (21950 times)
+[2023-07-06 12:52:48,047][98449] Signal inference workers to resume experience collection... (21950 times)
+[2023-07-06 12:52:48,047][98493] InferenceWorker_p0-w0: resuming experience collection (21950 times)
+[2023-07-06 12:52:48,185][98493] Updated weights for policy 0, policy_version 425024 (0.0008)
+[2023-07-06 12:52:48,788][98493] Updated weights for policy 0, policy_version 425072 (0.0007)
+[2023-07-06 12:52:49,764][98243] Fps is (10 sec: 111408.7, 60 sec: 111410.9, 300 sec: 112077.6). Total num frames: 870580224. Throughput: 0: 28398.8. Samples: 217733120. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:52:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:52:49,968][98493] Updated weights for policy 0, policy_version 425108 (0.0006)
+[2023-07-06 12:52:50,545][98493] Updated weights for policy 0, policy_version 425177 (0.0006)
+[2023-07-06 12:52:52,486][98493] Updated weights for policy 0, policy_version 425241 (0.0007)
+[2023-07-06 12:52:53,408][98493] Updated weights for policy 0, policy_version 425285 (0.0006)
+[2023-07-06 12:52:54,481][98493] Updated weights for policy 0, policy_version 425349 (0.0009)
+[2023-07-06 12:52:54,764][98243] Fps is (10 sec: 111411.1, 60 sec: 112504.3, 300 sec: 112077.6). Total num frames: 871170048. Throughput: 0: 28285.1. Samples: 217815040. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:52:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:52:54,940][98493] Updated weights for policy 0, policy_version 425395 (0.0007)
+[2023-07-06 12:52:55,381][98493] Updated weights for policy 0, policy_version 425446 (0.0007)
+[2023-07-06 12:52:56,999][98493] Updated weights for policy 0, policy_version 425488 (0.0007)
+[2023-07-06 12:52:58,110][98493] Updated weights for policy 0, policy_version 425537 (0.0007)
+[2023-07-06 12:52:58,464][98493] Updated weights for policy 0, policy_version 425584 (0.0006)
+[2023-07-06 12:52:59,431][98493] Updated weights for policy 0, policy_version 425640 (0.0008)
+[2023-07-06 12:52:59,764][98243] Fps is (10 sec: 117966.3, 60 sec: 112503.7, 300 sec: 112188.8). Total num frames: 871759872. Throughput: 0: 28353.5. Samples: 217984512. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:52:59,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:52:59,885][98493] Updated weights for policy 0, policy_version 425682 (0.0009)
+[2023-07-06 12:53:01,868][98493] Updated weights for policy 0, policy_version 425751 (0.0007)
+[2023-07-06 12:53:02,974][98493] Updated weights for policy 0, policy_version 425808 (0.0007)
+[2023-07-06 12:53:03,399][98493] Updated weights for policy 0, policy_version 425856 (0.0007)
+[2023-07-06 12:53:04,205][98493] Updated weights for policy 0, policy_version 425907 (0.0007)
+[2023-07-06 12:53:04,706][98493] Updated weights for policy 0, policy_version 425968 (0.0007)
+[2023-07-06 12:53:04,764][98243] Fps is (10 sec: 121241.8, 60 sec: 113049.6, 300 sec: 112410.9). Total num frames: 872382464. Throughput: 0: 28160.0. Samples: 218148352. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:53:06,421][98449] Signal inference workers to stop experience collection... (22000 times)
+[2023-07-06 12:53:06,452][98493] InferenceWorker_p0-w0: stopping experience collection (22000 times)
+[2023-07-06 12:53:06,522][98449] Signal inference workers to resume experience collection... (22000 times)
+[2023-07-06 12:53:06,522][98493] InferenceWorker_p0-w0: resuming experience collection (22000 times)
+[2023-07-06 12:53:06,607][98493] Updated weights for policy 0, policy_version 426004 (0.0007)
+[2023-07-06 12:53:07,633][98493] Updated weights for policy 0, policy_version 426049 (0.0006)
+[2023-07-06 12:53:08,083][98493] Updated weights for policy 0, policy_version 426102 (0.0008)
+[2023-07-06 12:53:08,453][98493] Updated weights for policy 0, policy_version 426135 (0.0008)
+[2023-07-06 12:53:08,871][98493] Updated weights for policy 0, policy_version 426178 (0.0007)
+[2023-07-06 12:53:09,333][98493] Updated weights for policy 0, policy_version 426231 (0.0007)
+[2023-07-06 12:53:09,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113595.6, 300 sec: 112188.7). Total num frames: 872939520. Throughput: 0: 28433.1. Samples: 218240000. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:53:11,359][98493] Updated weights for policy 0, policy_version 426274 (0.0006)
+[2023-07-06 12:53:12,634][98493] Updated weights for policy 0, policy_version 426339 (0.0006)
+[2023-07-06 12:53:13,105][98493] Updated weights for policy 0, policy_version 426392 (0.0008)
+[2023-07-06 12:53:13,614][98493] Updated weights for policy 0, policy_version 426448 (0.0009)
+[2023-07-06 12:53:14,764][98243] Fps is (10 sec: 108134.3, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 873463808. Throughput: 0: 28148.7. Samples: 218403328. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:14,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:53:15,751][98493] Updated weights for policy 0, policy_version 426498 (0.0007)
+[2023-07-06 12:53:16,289][98493] Updated weights for policy 0, policy_version 426560 (0.0007)
+[2023-07-06 12:53:17,590][98493] Updated weights for policy 0, policy_version 426612 (0.0008)
+[2023-07-06 12:53:18,154][98493] Updated weights for policy 0, policy_version 426678 (0.0007)
+[2023-07-06 12:53:18,680][98493] Updated weights for policy 0, policy_version 426749 (0.0007)
+[2023-07-06 12:53:19,764][98243] Fps is (10 sec: 104858.0, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 873988096. Throughput: 0: 28023.6. Samples: 218570240. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:53:20,947][98493] Updated weights for policy 0, policy_version 426812 (0.0007)
+[2023-07-06 12:53:22,175][98493] Updated weights for policy 0, policy_version 426876 (0.0008)
+[2023-07-06 12:53:22,616][98449] Signal inference workers to stop experience collection... (22050 times)
+[2023-07-06 12:53:22,653][98493] InferenceWorker_p0-w0: stopping experience collection (22050 times)
+[2023-07-06 12:53:22,723][98449] Signal inference workers to resume experience collection... (22050 times)
+[2023-07-06 12:53:22,724][98493] InferenceWorker_p0-w0: resuming experience collection (22050 times)
+[2023-07-06 12:53:22,826][98493] Updated weights for policy 0, policy_version 426936 (0.0007)
+[2023-07-06 12:53:23,392][98493] Updated weights for policy 0, policy_version 427004 (0.0007)
+[2023-07-06 12:53:24,764][98243] Fps is (10 sec: 104855.2, 60 sec: 113049.2, 300 sec: 111855.4). Total num frames: 874512384. Throughput: 0: 27966.4. Samples: 218651136. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:53:25,774][98493] Updated weights for policy 0, policy_version 427056 (0.0007)
+[2023-07-06 12:53:26,653][98493] Updated weights for policy 0, policy_version 427094 (0.0007)
+[2023-07-06 12:53:27,224][98493] Updated weights for policy 0, policy_version 427157 (0.0008)
+[2023-07-06 12:53:27,667][98493] Updated weights for policy 0, policy_version 427201 (0.0008)
+[2023-07-06 12:53:28,166][98493] Updated weights for policy 0, policy_version 427264 (0.0007)
+[2023-07-06 12:53:29,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 875036672. Throughput: 0: 27818.7. Samples: 218815488. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:29,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:53:30,679][98493] Updated weights for policy 0, policy_version 427323 (0.0006)
+[2023-07-06 12:53:31,446][98493] Updated weights for policy 0, policy_version 427376 (0.0006)
+[2023-07-06 12:53:32,052][98493] Updated weights for policy 0, policy_version 427432 (0.0007)
+[2023-07-06 12:53:32,449][98493] Updated weights for policy 0, policy_version 427462 (0.0006)
+[2023-07-06 12:53:32,884][98493] Updated weights for policy 0, policy_version 427517 (0.0006)
+[2023-07-06 12:53:34,764][98243] Fps is (10 sec: 104860.2, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 875560960. Throughput: 0: 27955.3. Samples: 218991104. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:34,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:53:35,142][98493] Updated weights for policy 0, policy_version 427576 (0.0007)
+[2023-07-06 12:53:35,844][98493] Updated weights for policy 0, policy_version 427616 (0.0006)
+[2023-07-06 12:53:36,114][98493] Updated weights for policy 0, policy_version 427648 (0.0006)
+[2023-07-06 12:53:36,777][98493] Updated weights for policy 0, policy_version 427705 (0.0008)
+[2023-07-06 12:53:37,305][98493] Updated weights for policy 0, policy_version 427744 (0.0007)
+[2023-07-06 12:53:39,393][98493] Updated weights for policy 0, policy_version 427778 (0.0007)
+[2023-07-06 12:53:39,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111957.3, 300 sec: 111855.5). Total num frames: 876183552. Throughput: 0: 27898.3. Samples: 219070464. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:39,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:53:39,854][98493] Updated weights for policy 0, policy_version 427835 (0.0008)
+[2023-07-06 12:53:40,521][98493] Updated weights for policy 0, policy_version 427888 (0.0007)
+[2023-07-06 12:53:41,004][98449] Signal inference workers to stop experience collection... (22100 times)
+[2023-07-06 12:53:41,045][98493] InferenceWorker_p0-w0: stopping experience collection (22100 times)
+[2023-07-06 12:53:41,046][98493] Updated weights for policy 0, policy_version 427928 (0.0006)
+[2023-07-06 12:53:41,087][98449] Signal inference workers to resume experience collection... (22100 times)
+[2023-07-06 12:53:41,087][98493] InferenceWorker_p0-w0: resuming experience collection (22100 times)
+[2023-07-06 12:53:41,707][98493] Updated weights for policy 0, policy_version 427984 (0.0007)
+[2023-07-06 12:53:44,222][98493] Updated weights for policy 0, policy_version 428039 (0.0007)
+[2023-07-06 12:53:44,658][98493] Updated weights for policy 0, policy_version 428093 (0.0007)
+[2023-07-06 12:53:44,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111411.2, 300 sec: 111966.7). Total num frames: 876740608. Throughput: 0: 27966.6. Samples: 219243008. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:44,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:53:45,496][98493] Updated weights for policy 0, policy_version 428144 (0.0007)
+[2023-07-06 12:53:45,950][98493] Updated weights for policy 0, policy_version 428192 (0.0006)
+[2023-07-06 12:53:46,559][98493] Updated weights for policy 0, policy_version 428240 (0.0007)
+[2023-07-06 12:53:48,807][98493] Updated weights for policy 0, policy_version 428292 (0.0007)
+[2023-07-06 12:53:49,241][98493] Updated weights for policy 0, policy_version 428346 (0.0008)
+[2023-07-06 12:53:49,764][98243] Fps is (10 sec: 108132.7, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 877264896. Throughput: 0: 28057.5. Samples: 219410944. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:49,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:53:50,348][98493] Updated weights for policy 0, policy_version 428400 (0.0008)
+[2023-07-06 12:53:50,870][98493] Updated weights for policy 0, policy_version 428455 (0.0007)
+[2023-07-06 12:53:51,193][98493] Updated weights for policy 0, policy_version 428482 (0.0006)
+[2023-07-06 12:53:51,649][98493] Updated weights for policy 0, policy_version 428541 (0.0006)
+[2023-07-06 12:53:53,877][98493] Updated weights for policy 0, policy_version 428601 (0.0007)
+[2023-07-06 12:53:54,764][98243] Fps is (10 sec: 108134.2, 60 sec: 110865.0, 300 sec: 112077.7). Total num frames: 877821952. Throughput: 0: 27795.9. Samples: 219490816. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:53:54,892][98493] Updated weights for policy 0, policy_version 428640 (0.0007)
+[2023-07-06 12:53:55,428][98493] Updated weights for policy 0, policy_version 428690 (0.0009)
+[2023-07-06 12:53:56,022][98493] Updated weights for policy 0, policy_version 428759 (0.0007)
+[2023-07-06 12:53:58,319][98493] Updated weights for policy 0, policy_version 428802 (0.0006)
+[2023-07-06 12:53:59,220][98493] Updated weights for policy 0, policy_version 428866 (0.0007)
+[2023-07-06 12:53:59,368][98449] Signal inference workers to stop experience collection... (22150 times)
+[2023-07-06 12:53:59,403][98493] InferenceWorker_p0-w0: stopping experience collection (22150 times)
+[2023-07-06 12:53:59,449][98449] Signal inference workers to resume experience collection... (22150 times)
+[2023-07-06 12:53:59,450][98493] InferenceWorker_p0-w0: resuming experience collection (22150 times)
+[2023-07-06 12:53:59,764][98243] Fps is (10 sec: 117966.5, 60 sec: 111411.3, 300 sec: 112410.9). Total num frames: 878444544. Throughput: 0: 27966.6. Samples: 219661824. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:53:59,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:53:59,819][98493] Updated weights for policy 0, policy_version 428933 (0.0006)
+[2023-07-06 12:54:00,221][98493] Updated weights for policy 0, policy_version 428988 (0.0007)
+[2023-07-06 12:54:00,833][98493] Updated weights for policy 0, policy_version 429052 (0.0007)
+[2023-07-06 12:54:03,528][98493] Updated weights for policy 0, policy_version 429113 (0.0006)
+[2023-07-06 12:54:04,063][98493] Updated weights for policy 0, policy_version 429152 (0.0006)
+[2023-07-06 12:54:04,573][98493] Updated weights for policy 0, policy_version 429203 (0.0006)
+[2023-07-06 12:54:04,764][98243] Fps is (10 sec: 121243.0, 60 sec: 110865.2, 300 sec: 112633.1). Total num frames: 879034368. Throughput: 0: 27943.9. Samples: 219827712. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:54:04,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:54:05,084][98493] Updated weights for policy 0, policy_version 429250 (0.0006)
+[2023-07-06 12:54:07,772][98493] Updated weights for policy 0, policy_version 429313 (0.0007)
+[2023-07-06 12:54:08,261][98493] Updated weights for policy 0, policy_version 429371 (0.0006)
+[2023-07-06 12:54:08,958][98493] Updated weights for policy 0, policy_version 429440 (0.0007)
+[2023-07-06 12:54:09,452][98493] Updated weights for policy 0, policy_version 429501 (0.0007)
+[2023-07-06 12:54:09,764][98243] Fps is (10 sec: 117963.0, 60 sec: 111411.0, 300 sec: 112521.9). Total num frames: 879624192. Throughput: 0: 28103.2. Samples: 219915776. Policy #0 lag: (min: 2.0, avg: 103.7, max: 258.0)
+[2023-07-06 12:54:09,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:54:10,340][98493] Updated weights for policy 0, policy_version 429553 (0.0007)
+[2023-07-06 12:54:12,684][98493] Updated weights for policy 0, policy_version 429590 (0.0006)
+[2023-07-06 12:54:13,127][98493] Updated weights for policy 0, policy_version 429634 (0.0007)
+[2023-07-06 12:54:13,678][98493] Updated weights for policy 0, policy_version 429697 (0.0007)
+[2023-07-06 12:54:14,170][98493] Updated weights for policy 0, policy_version 429760 (0.0007)
+[2023-07-06 12:54:14,764][98243] Fps is (10 sec: 114687.4, 60 sec: 111957.4, 300 sec: 112522.0). Total num frames: 880181248. Throughput: 0: 28114.5. Samples: 220080640. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:14,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:54:15,136][98493] Updated weights for policy 0, policy_version 429818 (0.0007)
+[2023-07-06 12:54:17,488][98449] Signal inference workers to stop experience collection... (22200 times)
+[2023-07-06 12:54:17,526][98493] InferenceWorker_p0-w0: stopping experience collection (22200 times)
+[2023-07-06 12:54:17,562][98449] Signal inference workers to resume experience collection... (22200 times)
+[2023-07-06 12:54:17,563][98493] InferenceWorker_p0-w0: resuming experience collection (22200 times)
+[2023-07-06 12:54:17,652][98493] Updated weights for policy 0, policy_version 429860 (0.0006)
+[2023-07-06 12:54:18,154][98493] Updated weights for policy 0, policy_version 429920 (0.0008)
+[2023-07-06 12:54:18,733][98493] Updated weights for policy 0, policy_version 429984 (0.0008)
+[2023-07-06 12:54:19,477][98493] Updated weights for policy 0, policy_version 430048 (0.0007)
+[2023-07-06 12:54:19,764][98243] Fps is (10 sec: 117966.0, 60 sec: 113595.7, 300 sec: 112855.2). Total num frames: 880803840. Throughput: 0: 27750.4. Samples: 220239872. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:19,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:54:22,219][98493] Updated weights for policy 0, policy_version 430105 (0.0008)
+[2023-07-06 12:54:22,772][98493] Updated weights for policy 0, policy_version 430162 (0.0007)
+[2023-07-06 12:54:23,403][98493] Updated weights for policy 0, policy_version 430240 (0.0007)
+[2023-07-06 12:54:24,340][98493] Updated weights for policy 0, policy_version 430274 (0.0006)
+[2023-07-06 12:54:24,764][98243] Fps is (10 sec: 111410.4, 60 sec: 113050.0, 300 sec: 112744.1). Total num frames: 881295360. Throughput: 0: 27977.9. Samples: 220329472. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:24,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 12:54:24,805][98493] Updated weights for policy 0, policy_version 430334 (0.0007)
+[2023-07-06 12:54:24,812][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000430336_881328128.pth...
+[2023-07-06 12:54:24,849][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000417152_854327296.pth
+[2023-07-06 12:54:27,329][98493] Updated weights for policy 0, policy_version 430391 (0.0007)
+[2023-07-06 12:54:27,853][98493] Updated weights for policy 0, policy_version 430452 (0.0007)
+[2023-07-06 12:54:28,386][98493] Updated weights for policy 0, policy_version 430519 (0.0008)
+[2023-07-06 12:54:29,169][98493] Updated weights for policy 0, policy_version 430563 (0.0006)
+[2023-07-06 12:54:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 113595.7, 300 sec: 112744.1). Total num frames: 881852416. Throughput: 0: 27716.2. Samples: 220490240. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:29,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:54:32,019][98493] Updated weights for policy 0, policy_version 430617 (0.0007)
+[2023-07-06 12:54:32,530][98493] Updated weights for policy 0, policy_version 430672 (0.0008)
+[2023-07-06 12:54:33,159][98449] Signal inference workers to stop experience collection... (22250 times)
+[2023-07-06 12:54:33,166][98493] Updated weights for policy 0, policy_version 430738 (0.0007)
+[2023-07-06 12:54:33,188][98493] InferenceWorker_p0-w0: stopping experience collection (22250 times)
+[2023-07-06 12:54:33,248][98449] Signal inference workers to resume experience collection... (22250 times)
+[2023-07-06 12:54:33,249][98493] InferenceWorker_p0-w0: resuming experience collection (22250 times)
+[2023-07-06 12:54:33,691][98493] Updated weights for policy 0, policy_version 430800 (0.0007)
+[2023-07-06 12:54:34,130][98493] Updated weights for policy 0, policy_version 430848 (0.0007)
+[2023-07-06 12:54:34,764][98243] Fps is (10 sec: 108134.5, 60 sec: 113595.7, 300 sec: 112522.0). Total num frames: 882376704. Throughput: 0: 27659.4. Samples: 220655616. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:54:36,877][98493] Updated weights for policy 0, policy_version 430902 (0.0007)
+[2023-07-06 12:54:37,303][98493] Updated weights for policy 0, policy_version 430950 (0.0012)
+[2023-07-06 12:54:37,873][98493] Updated weights for policy 0, policy_version 431014 (0.0008)
+[2023-07-06 12:54:38,566][98493] Updated weights for policy 0, policy_version 431072 (0.0007)
+[2023-07-06 12:54:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111957.2, 300 sec: 112410.9). Total num frames: 882900992. Throughput: 0: 27784.5. Samples: 220741120. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:54:41,360][98493] Updated weights for policy 0, policy_version 431129 (0.0007)
+[2023-07-06 12:54:41,842][98493] Updated weights for policy 0, policy_version 431184 (0.0006)
+[2023-07-06 12:54:42,399][98493] Updated weights for policy 0, policy_version 431248 (0.0006)
+[2023-07-06 12:54:42,797][98493] Updated weights for policy 0, policy_version 431293 (0.0007)
+[2023-07-06 12:54:43,621][98493] Updated weights for policy 0, policy_version 431353 (0.0008)
+[2023-07-06 12:54:44,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.2, 300 sec: 112188.7). Total num frames: 883425280. Throughput: 0: 27625.2. Samples: 220904960. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 12:54:46,190][98493] Updated weights for policy 0, policy_version 431398 (0.0006)
+[2023-07-06 12:54:46,767][98493] Updated weights for policy 0, policy_version 431457 (0.0007)
+[2023-07-06 12:54:47,349][98493] Updated weights for policy 0, policy_version 431524 (0.0008)
+[2023-07-06 12:54:48,042][98493] Updated weights for policy 0, policy_version 431568 (0.0007)
+[2023-07-06 12:54:49,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 883949568. Throughput: 0: 27773.1. Samples: 221077504. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:54:50,488][98493] Updated weights for policy 0, policy_version 431618 (0.0006)
+[2023-07-06 12:54:50,753][98449] Signal inference workers to stop experience collection... (22300 times)
+[2023-07-06 12:54:50,789][98493] InferenceWorker_p0-w0: stopping experience collection (22300 times)
+[2023-07-06 12:54:50,845][98449] Signal inference workers to resume experience collection... (22300 times)
+[2023-07-06 12:54:50,845][98493] InferenceWorker_p0-w0: resuming experience collection (22300 times)
+[2023-07-06 12:54:50,971][98493] Updated weights for policy 0, policy_version 431680 (0.0006)
+[2023-07-06 12:54:51,427][98493] Updated weights for policy 0, policy_version 431728 (0.0007)
+[2023-07-06 12:54:51,944][98493] Updated weights for policy 0, policy_version 431782 (0.0008)
+[2023-07-06 12:54:52,932][98493] Updated weights for policy 0, policy_version 431844 (0.0015)
+[2023-07-06 12:54:54,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110865.1, 300 sec: 111522.4). Total num frames: 884473856. Throughput: 0: 27625.3. Samples: 221158912. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:54:55,219][98493] Updated weights for policy 0, policy_version 431876 (0.0006)
+[2023-07-06 12:54:55,783][98493] Updated weights for policy 0, policy_version 431946 (0.0008)
+[2023-07-06 12:54:56,417][98493] Updated weights for policy 0, policy_version 432022 (0.0007)
+[2023-07-06 12:54:57,333][98493] Updated weights for policy 0, policy_version 432071 (0.0007)
+[2023-07-06 12:54:57,751][98493] Updated weights for policy 0, policy_version 432123 (0.0006)
+[2023-07-06 12:54:59,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109226.6, 300 sec: 111522.3). Total num frames: 884998144. Throughput: 0: 27727.6. Samples: 221328384. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:54:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:55:00,157][98493] Updated weights for policy 0, policy_version 432184 (0.0007)
+[2023-07-06 12:55:00,664][98493] Updated weights for policy 0, policy_version 432240 (0.0007)
+[2023-07-06 12:55:01,248][98493] Updated weights for policy 0, policy_version 432304 (0.0008)
+[2023-07-06 12:55:02,545][98493] Updated weights for policy 0, policy_version 432380 (0.0007)
+[2023-07-06 12:55:04,764][98243] Fps is (10 sec: 111411.5, 60 sec: 109226.5, 300 sec: 111744.5). Total num frames: 885587968. Throughput: 0: 27852.8. Samples: 221493248. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:55:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:55:04,888][98493] Updated weights for policy 0, policy_version 432435 (0.0008)
+[2023-07-06 12:55:05,332][98493] Updated weights for policy 0, policy_version 432487 (0.0007)
+[2023-07-06 12:55:05,898][98493] Updated weights for policy 0, policy_version 432537 (0.0006)
+[2023-07-06 12:55:06,213][98493] Updated weights for policy 0, policy_version 432576 (0.0006)
+[2023-07-06 12:55:06,870][98449] Signal inference workers to stop experience collection... (22350 times)
+[2023-07-06 12:55:06,901][98493] InferenceWorker_p0-w0: stopping experience collection (22350 times)
+[2023-07-06 12:55:06,956][98449] Signal inference workers to resume experience collection... (22350 times)
+[2023-07-06 12:55:06,956][98493] InferenceWorker_p0-w0: resuming experience collection (22350 times)
+[2023-07-06 12:55:07,262][98493] Updated weights for policy 0, policy_version 432625 (0.0008)
+[2023-07-06 12:55:09,439][98493] Updated weights for policy 0, policy_version 432676 (0.0007)
+[2023-07-06 12:55:09,764][98243] Fps is (10 sec: 117965.3, 60 sec: 109226.9, 300 sec: 111966.8). Total num frames: 886177792. Throughput: 0: 27670.8. Samples: 221574656. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:55:09,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 12:55:09,869][98493] Updated weights for policy 0, policy_version 432725 (0.0007)
+[2023-07-06 12:55:10,533][98493] Updated weights for policy 0, policy_version 432793 (0.0008)
+[2023-07-06 12:55:10,843][98493] Updated weights for policy 0, policy_version 432832 (0.0007)
+[2023-07-06 12:55:12,161][98493] Updated weights for policy 0, policy_version 432896 (0.0008)
+[2023-07-06 12:55:14,300][98493] Updated weights for policy 0, policy_version 432947 (0.0009)
+[2023-07-06 12:55:14,686][98493] Updated weights for policy 0, policy_version 432992 (0.0018)
+[2023-07-06 12:55:14,764][98243] Fps is (10 sec: 117963.2, 60 sec: 109772.5, 300 sec: 112077.6). Total num frames: 886767616. Throughput: 0: 27943.8. Samples: 221747712. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:55:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:55:15,198][98493] Updated weights for policy 0, policy_version 433047 (0.0007)
+[2023-07-06 12:55:16,499][98493] Updated weights for policy 0, policy_version 433094 (0.0007)
+[2023-07-06 12:55:16,953][98493] Updated weights for policy 0, policy_version 433152 (0.0006)
+[2023-07-06 12:55:18,868][98493] Updated weights for policy 0, policy_version 433200 (0.0006)
+[2023-07-06 12:55:19,380][98493] Updated weights for policy 0, policy_version 433257 (0.0007)
+[2023-07-06 12:55:19,764][98243] Fps is (10 sec: 121239.6, 60 sec: 109772.6, 300 sec: 112077.6). Total num frames: 887390208. Throughput: 0: 27921.0. Samples: 221912064. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:55:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:55:19,872][98493] Updated weights for policy 0, policy_version 433312 (0.0008)
+[2023-07-06 12:55:21,407][98493] Updated weights for policy 0, policy_version 433368 (0.0006)
+[2023-07-06 12:55:21,756][98493] Updated weights for policy 0, policy_version 433408 (0.0006)
+[2023-07-06 12:55:23,569][98493] Updated weights for policy 0, policy_version 433472 (0.0008)
+[2023-07-06 12:55:23,918][98449] Signal inference workers to stop experience collection... (22400 times)
+[2023-07-06 12:55:23,957][98493] InferenceWorker_p0-w0: stopping experience collection (22400 times)
+[2023-07-06 12:55:23,999][98449] Signal inference workers to resume experience collection... (22400 times)
+[2023-07-06 12:55:24,000][98493] InferenceWorker_p0-w0: resuming experience collection (22400 times)
+[2023-07-06 12:55:24,177][98493] Updated weights for policy 0, policy_version 433536 (0.0007)
+[2023-07-06 12:55:24,764][98243] Fps is (10 sec: 124520.2, 60 sec: 111957.4, 300 sec: 112410.9). Total num frames: 888012800. Throughput: 0: 27989.3. Samples: 222000640. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:55:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:55:26,052][98493] Updated weights for policy 0, policy_version 433604 (0.0008)
+[2023-07-06 12:55:26,494][98493] Updated weights for policy 0, policy_version 433659 (0.0007)
+[2023-07-06 12:55:28,214][98493] Updated weights for policy 0, policy_version 433712 (0.0007)
+[2023-07-06 12:55:28,791][98493] Updated weights for policy 0, policy_version 433776 (0.0022)
+[2023-07-06 12:55:29,320][98493] Updated weights for policy 0, policy_version 433824 (0.0007)
+[2023-07-06 12:55:29,764][98243] Fps is (10 sec: 114688.0, 60 sec: 111411.0, 300 sec: 112410.8). Total num frames: 888537088. Throughput: 0: 27841.4. Samples: 222157824. Policy #0 lag: (min: 15.0, avg: 170.8, max: 271.0)
+[2023-07-06 12:55:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:55:30,870][98493] Updated weights for policy 0, policy_version 433888 (0.0007)
+[2023-07-06 12:55:32,694][98493] Updated weights for policy 0, policy_version 433938 (0.0007)
+[2023-07-06 12:55:33,344][98493] Updated weights for policy 0, policy_version 434006 (0.0007)
+[2023-07-06 12:55:33,954][98493] Updated weights for policy 0, policy_version 434080 (0.0007)
+[2023-07-06 12:55:34,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.1, 300 sec: 112410.9). Total num frames: 889061376. Throughput: 0: 27704.9. Samples: 222324224. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:55:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:55:35,532][98493] Updated weights for policy 0, policy_version 434136 (0.0007)
+[2023-07-06 12:55:37,296][98493] Updated weights for policy 0, policy_version 434178 (0.0007)
+[2023-07-06 12:55:38,014][98493] Updated weights for policy 0, policy_version 434243 (0.0006)
+[2023-07-06 12:55:38,575][98493] Updated weights for policy 0, policy_version 434307 (0.0007)
+[2023-07-06 12:55:39,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111410.9, 300 sec: 112077.6). Total num frames: 889585664. Throughput: 0: 27830.0. Samples: 222411264. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:55:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 12:55:39,882][98493] Updated weights for policy 0, policy_version 434372 (0.0007)
+[2023-07-06 12:55:40,332][98493] Updated weights for policy 0, policy_version 434425 (0.0008)
+[2023-07-06 12:55:42,590][98493] Updated weights for policy 0, policy_version 434480 (0.0007)
+[2023-07-06 12:55:42,633][98449] Signal inference workers to stop experience collection... (22450 times)
+[2023-07-06 12:55:42,679][98493] InferenceWorker_p0-w0: stopping experience collection (22450 times)
+[2023-07-06 12:55:42,730][98449] Signal inference workers to resume experience collection... (22450 times)
+[2023-07-06 12:55:42,730][98493] InferenceWorker_p0-w0: resuming experience collection (22450 times)
+[2023-07-06 12:55:43,211][98493] Updated weights for policy 0, policy_version 434553 (0.0008)
+[2023-07-06 12:55:43,586][98493] Updated weights for policy 0, policy_version 434584 (0.0007)
+[2023-07-06 12:55:44,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 890109952. Throughput: 0: 27648.0. Samples: 222572544. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:55:44,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:55:44,788][98493] Updated weights for policy 0, policy_version 434640 (0.0007)
+[2023-07-06 12:55:47,055][98493] Updated weights for policy 0, policy_version 434692 (0.0008)
+[2023-07-06 12:55:47,525][98493] Updated weights for policy 0, policy_version 434739 (0.0007)
+[2023-07-06 12:55:48,080][98493] Updated weights for policy 0, policy_version 434804 (0.0008)
+[2023-07-06 12:55:48,545][98493] Updated weights for policy 0, policy_version 434854 (0.0007)
+[2023-07-06 12:55:49,188][98493] Updated weights for policy 0, policy_version 434896 (0.0007)
+[2023-07-06 12:55:49,570][98493] Updated weights for policy 0, policy_version 434944 (0.0006)
+[2023-07-06 12:55:49,764][98243] Fps is (10 sec: 117965.9, 60 sec: 113595.7, 300 sec: 112188.8). Total num frames: 890765312. Throughput: 0: 27704.8. Samples: 222739968. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:55:49,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 12:55:52,177][98493] Updated weights for policy 0, policy_version 434992 (0.0006)
+[2023-07-06 12:55:52,811][98493] Updated weights for policy 0, policy_version 435064 (0.0007)
+[2023-07-06 12:55:53,303][98493] Updated weights for policy 0, policy_version 435120 (0.0007)
+[2023-07-06 12:55:53,985][98493] Updated weights for policy 0, policy_version 435171 (0.0007)
+[2023-07-06 12:55:54,764][98243] Fps is (10 sec: 117963.9, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 891289600. Throughput: 0: 27852.7. Samples: 222828032. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:55:54,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:55:56,591][98493] Updated weights for policy 0, policy_version 435223 (0.0007)
+[2023-07-06 12:55:57,058][98493] Updated weights for policy 0, policy_version 435280 (0.0007)
+[2023-07-06 12:55:57,590][98493] Updated weights for policy 0, policy_version 435329 (0.0008)
+[2023-07-06 12:55:58,320][98493] Updated weights for policy 0, policy_version 435393 (0.0009)
+[2023-07-06 12:55:58,471][98449] Signal inference workers to stop experience collection... (22500 times)
+[2023-07-06 12:55:58,489][98493] InferenceWorker_p0-w0: stopping experience collection (22500 times)
+[2023-07-06 12:55:58,545][98449] Signal inference workers to resume experience collection... (22500 times)
+[2023-07-06 12:55:58,546][98493] InferenceWorker_p0-w0: resuming experience collection (22500 times)
+[2023-07-06 12:55:58,764][98493] Updated weights for policy 0, policy_version 435450 (0.0007)
+[2023-07-06 12:55:59,765][98243] Fps is (10 sec: 104854.6, 60 sec: 113595.1, 300 sec: 111966.5). Total num frames: 891813888. Throughput: 0: 27625.1. Samples: 222990848. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:55:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:56:01,558][98493] Updated weights for policy 0, policy_version 435504 (0.0008)
+[2023-07-06 12:56:01,932][98493] Updated weights for policy 0, policy_version 435543 (0.0007)
+[2023-07-06 12:56:02,463][98493] Updated weights for policy 0, policy_version 435600 (0.0007)
+[2023-07-06 12:56:02,856][98493] Updated weights for policy 0, policy_version 435648 (0.0007)
+[2023-07-06 12:56:03,628][98493] Updated weights for policy 0, policy_version 435696 (0.0007)
+[2023-07-06 12:56:04,764][98243] Fps is (10 sec: 104858.1, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 892338176. Throughput: 0: 27807.4. Samples: 223163392. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:04,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:56:05,962][98493] Updated weights for policy 0, policy_version 435744 (0.0007)
+[2023-07-06 12:56:06,609][98493] Updated weights for policy 0, policy_version 435816 (0.0007)
+[2023-07-06 12:56:07,379][98493] Updated weights for policy 0, policy_version 435872 (0.0007)
+[2023-07-06 12:56:08,089][98493] Updated weights for policy 0, policy_version 435920 (0.0007)
+[2023-07-06 12:56:09,764][98243] Fps is (10 sec: 104859.9, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 892862464. Throughput: 0: 27591.0. Samples: 223242240. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:09,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:56:10,403][98493] Updated weights for policy 0, policy_version 435984 (0.0007)
+[2023-07-06 12:56:10,942][98493] Updated weights for policy 0, policy_version 436039 (0.0007)
+[2023-07-06 12:56:11,402][98493] Updated weights for policy 0, policy_version 436096 (0.0006)
+[2023-07-06 12:56:12,338][98493] Updated weights for policy 0, policy_version 436144 (0.0006)
+[2023-07-06 12:56:12,895][98493] Updated weights for policy 0, policy_version 436201 (0.0007)
+[2023-07-06 12:56:14,764][98243] Fps is (10 sec: 104856.8, 60 sec: 110319.0, 300 sec: 111522.2). Total num frames: 893386752. Throughput: 0: 27841.4. Samples: 223410688. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:56:15,237][98493] Updated weights for policy 0, policy_version 436256 (0.0006)
+[2023-07-06 12:56:15,835][98493] Updated weights for policy 0, policy_version 436308 (0.0006)
+[2023-07-06 12:56:16,769][98493] Updated weights for policy 0, policy_version 436368 (0.0008)
+[2023-07-06 12:56:16,979][98449] Signal inference workers to stop experience collection... (22550 times)
+[2023-07-06 12:56:17,000][98493] InferenceWorker_p0-w0: stopping experience collection (22550 times)
+[2023-07-06 12:56:17,069][98449] Signal inference workers to resume experience collection... (22550 times)
+[2023-07-06 12:56:17,070][98493] InferenceWorker_p0-w0: resuming experience collection (22550 times)
+[2023-07-06 12:56:17,313][98493] Updated weights for policy 0, policy_version 436420 (0.0007)
+[2023-07-06 12:56:17,745][98493] Updated weights for policy 0, policy_version 436478 (0.0007)
+[2023-07-06 12:56:19,764][98243] Fps is (10 sec: 111412.8, 60 sec: 109773.1, 300 sec: 111633.4). Total num frames: 893976576. Throughput: 0: 27932.5. Samples: 223581184. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:19,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:56:19,904][98493] Updated weights for policy 0, policy_version 436538 (0.0007)
+[2023-07-06 12:56:20,866][98493] Updated weights for policy 0, policy_version 436592 (0.0008)
+[2023-07-06 12:56:21,636][98493] Updated weights for policy 0, policy_version 436640 (0.0007)
+[2023-07-06 12:56:22,178][98493] Updated weights for policy 0, policy_version 436692 (0.0007)
+[2023-07-06 12:56:24,269][98493] Updated weights for policy 0, policy_version 436760 (0.0007)
+[2023-07-06 12:56:24,764][98243] Fps is (10 sec: 117965.3, 60 sec: 109226.6, 300 sec: 111633.3). Total num frames: 894566400. Throughput: 0: 27716.3. Samples: 223658496. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:56:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000436800_894566400.pth...
+[2023-07-06 12:56:24,804][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000423728_867794944.pth
+[2023-07-06 12:56:25,316][98493] Updated weights for policy 0, policy_version 436801 (0.0006)
+[2023-07-06 12:56:25,692][98493] Updated weights for policy 0, policy_version 436850 (0.0006)
+[2023-07-06 12:56:26,336][98493] Updated weights for policy 0, policy_version 436896 (0.0007)
+[2023-07-06 12:56:26,696][98493] Updated weights for policy 0, policy_version 436929 (0.0006)
+[2023-07-06 12:56:27,217][98493] Updated weights for policy 0, policy_version 436992 (0.0006)
+[2023-07-06 12:56:29,274][98493] Updated weights for policy 0, policy_version 437051 (0.0008)
+[2023-07-06 12:56:29,764][98243] Fps is (10 sec: 111409.6, 60 sec: 109226.7, 300 sec: 111522.2). Total num frames: 895090688. Throughput: 0: 27989.2. Samples: 223832064. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:56:30,286][98493] Updated weights for policy 0, policy_version 437104 (0.0008)
+[2023-07-06 12:56:31,073][98493] Updated weights for policy 0, policy_version 437152 (0.0006)
+[2023-07-06 12:56:31,572][98493] Updated weights for policy 0, policy_version 437205 (0.0006)
+[2023-07-06 12:56:33,618][98493] Updated weights for policy 0, policy_version 437252 (0.0008)
+[2023-07-06 12:56:34,106][98493] Updated weights for policy 0, policy_version 437312 (0.0007)
+[2023-07-06 12:56:34,764][98243] Fps is (10 sec: 104858.5, 60 sec: 109226.9, 300 sec: 111300.1). Total num frames: 895614976. Throughput: 0: 28012.1. Samples: 224000512. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:34,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:56:35,134][98493] Updated weights for policy 0, policy_version 437371 (0.0007)
+[2023-07-06 12:56:35,516][98449] Signal inference workers to stop experience collection... (22600 times)
+[2023-07-06 12:56:35,541][98493] InferenceWorker_p0-w0: stopping experience collection (22600 times)
+[2023-07-06 12:56:35,602][98449] Signal inference workers to resume experience collection... (22600 times)
+[2023-07-06 12:56:35,602][98493] InferenceWorker_p0-w0: resuming experience collection (22600 times)
+[2023-07-06 12:56:35,947][98493] Updated weights for policy 0, policy_version 437426 (0.0009)
+[2023-07-06 12:56:36,415][98493] Updated weights for policy 0, policy_version 437477 (0.0008)
+[2023-07-06 12:56:38,798][98493] Updated weights for policy 0, policy_version 437552 (0.0007)
+[2023-07-06 12:56:39,764][98243] Fps is (10 sec: 108136.1, 60 sec: 109773.1, 300 sec: 111189.1). Total num frames: 896172032. Throughput: 0: 27852.9. Samples: 224081408. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:39,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 12:56:39,996][98493] Updated weights for policy 0, policy_version 437616 (0.0007)
+[2023-07-06 12:56:40,532][98493] Updated weights for policy 0, policy_version 437667 (0.0008)
+[2023-07-06 12:56:41,033][98493] Updated weights for policy 0, policy_version 437728 (0.0007)
+[2023-07-06 12:56:43,332][98493] Updated weights for policy 0, policy_version 437792 (0.0007)
+[2023-07-06 12:56:44,295][98493] Updated weights for policy 0, policy_version 437848 (0.0007)
+[2023-07-06 12:56:44,765][98243] Fps is (10 sec: 117960.7, 60 sec: 111410.6, 300 sec: 111522.2). Total num frames: 896794624. Throughput: 0: 27966.6. Samples: 224249344. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:44,766][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 12:56:44,842][98493] Updated weights for policy 0, policy_version 437895 (0.0008)
+[2023-07-06 12:56:45,405][98493] Updated weights for policy 0, policy_version 437961 (0.0007)
+[2023-07-06 12:56:45,798][98493] Updated weights for policy 0, policy_version 438006 (0.0007)
+[2023-07-06 12:56:48,060][98493] Updated weights for policy 0, policy_version 438048 (0.0007)
+[2023-07-06 12:56:49,093][98493] Updated weights for policy 0, policy_version 438104 (0.0007)
+[2023-07-06 12:56:49,394][98493] Updated weights for policy 0, policy_version 438142 (0.0007)
+[2023-07-06 12:56:49,764][98243] Fps is (10 sec: 117965.0, 60 sec: 109773.0, 300 sec: 111633.5). Total num frames: 897351680. Throughput: 0: 27841.5. Samples: 224416256. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:49,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:56:49,930][98493] Updated weights for policy 0, policy_version 438182 (0.0007)
+[2023-07-06 12:56:50,409][98493] Updated weights for policy 0, policy_version 438240 (0.0007)
+[2023-07-06 12:56:52,689][98493] Updated weights for policy 0, policy_version 438293 (0.0007)
+[2023-07-06 12:56:53,599][98449] Signal inference workers to stop experience collection... (22650 times)
+[2023-07-06 12:56:53,628][98493] InferenceWorker_p0-w0: stopping experience collection (22650 times)
+[2023-07-06 12:56:53,657][98493] Updated weights for policy 0, policy_version 438343 (0.0006)
+[2023-07-06 12:56:53,700][98449] Signal inference workers to resume experience collection... (22650 times)
+[2023-07-06 12:56:53,700][98493] InferenceWorker_p0-w0: resuming experience collection (22650 times)
+[2023-07-06 12:56:54,136][98493] Updated weights for policy 0, policy_version 438400 (0.0008)
+[2023-07-06 12:56:54,660][98493] Updated weights for policy 0, policy_version 438451 (0.0007)
+[2023-07-06 12:56:54,765][98243] Fps is (10 sec: 117964.8, 60 sec: 111410.8, 300 sec: 111744.4). Total num frames: 897974272. Throughput: 0: 27989.2. Samples: 224501760. Policy #0 lag: (min: 2.0, avg: 75.0, max: 258.0)
+[2023-07-06 12:56:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:56:55,233][98493] Updated weights for policy 0, policy_version 438519 (0.0007)
+[2023-07-06 12:56:57,346][98493] Updated weights for policy 0, policy_version 438552 (0.0008)
+[2023-07-06 12:56:58,439][98493] Updated weights for policy 0, policy_version 438599 (0.0007)
+[2023-07-06 12:56:59,006][98493] Updated weights for policy 0, policy_version 438658 (0.0007)
+[2023-07-06 12:56:59,582][98493] Updated weights for policy 0, policy_version 438724 (0.0008)
+[2023-07-06 12:56:59,764][98243] Fps is (10 sec: 117965.2, 60 sec: 111958.1, 300 sec: 111633.4). Total num frames: 898531328. Throughput: 0: 28000.8. Samples: 224670720. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:56:59,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:57:00,008][98493] Updated weights for policy 0, policy_version 438780 (0.0007)
+[2023-07-06 12:57:02,404][98493] Updated weights for policy 0, policy_version 438843 (0.0009)
+[2023-07-06 12:57:03,509][98493] Updated weights for policy 0, policy_version 438884 (0.0006)
+[2023-07-06 12:57:03,973][98493] Updated weights for policy 0, policy_version 438934 (0.0008)
+[2023-07-06 12:57:04,528][98493] Updated weights for policy 0, policy_version 438997 (0.0008)
+[2023-07-06 12:57:04,764][98243] Fps is (10 sec: 114691.5, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 899121152. Throughput: 0: 27773.1. Samples: 224830976. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:57:06,550][98493] Updated weights for policy 0, policy_version 439056 (0.0007)
+[2023-07-06 12:57:06,998][98493] Updated weights for policy 0, policy_version 439104 (0.0006)
+[2023-07-06 12:57:08,294][98493] Updated weights for policy 0, policy_version 439168 (0.0007)
+[2023-07-06 12:57:08,746][98493] Updated weights for policy 0, policy_version 439216 (0.0007)
+[2023-07-06 12:57:09,084][98449] Signal inference workers to stop experience collection... (22700 times)
+[2023-07-06 12:57:09,109][98493] InferenceWorker_p0-w0: stopping experience collection (22700 times)
+[2023-07-06 12:57:09,171][98449] Signal inference workers to resume experience collection... (22700 times)
+[2023-07-06 12:57:09,171][98493] InferenceWorker_p0-w0: resuming experience collection (22700 times)
+[2023-07-06 12:57:09,303][98493] Updated weights for policy 0, policy_version 439280 (0.0007)
+[2023-07-06 12:57:09,764][98243] Fps is (10 sec: 114687.0, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 899678208. Throughput: 0: 28103.1. Samples: 224923136. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:09,778][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:57:11,219][98493] Updated weights for policy 0, policy_version 439315 (0.0007)
+[2023-07-06 12:57:12,450][98493] Updated weights for policy 0, policy_version 439361 (0.0011)
+[2023-07-06 12:57:13,032][98493] Updated weights for policy 0, policy_version 439431 (0.0008)
+[2023-07-06 12:57:13,750][98493] Updated weights for policy 0, policy_version 439520 (0.0007)
+[2023-07-06 12:57:14,764][98243] Fps is (10 sec: 108133.1, 60 sec: 113595.7, 300 sec: 111966.5). Total num frames: 900202496. Throughput: 0: 27795.9. Samples: 225082880. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:14,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:57:15,934][98493] Updated weights for policy 0, policy_version 439576 (0.0007)
+[2023-07-06 12:57:17,366][98493] Updated weights for policy 0, policy_version 439618 (0.0007)
+[2023-07-06 12:57:17,822][98493] Updated weights for policy 0, policy_version 439669 (0.0008)
+[2023-07-06 12:57:18,273][98493] Updated weights for policy 0, policy_version 439719 (0.0008)
+[2023-07-06 12:57:18,863][98493] Updated weights for policy 0, policy_version 439780 (0.0008)
+[2023-07-06 12:57:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 112503.4, 300 sec: 111855.5). Total num frames: 900726784. Throughput: 0: 27886.9. Samples: 225255424. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 12:57:20,671][98493] Updated weights for policy 0, policy_version 439833 (0.0007)
+[2023-07-06 12:57:21,863][98493] Updated weights for policy 0, policy_version 439875 (0.0008)
+[2023-07-06 12:57:22,299][98493] Updated weights for policy 0, policy_version 439925 (0.0007)
+[2023-07-06 12:57:22,860][98493] Updated weights for policy 0, policy_version 439986 (0.0007)
+[2023-07-06 12:57:23,452][98493] Updated weights for policy 0, policy_version 440058 (0.0008)
+[2023-07-06 12:57:24,764][98243] Fps is (10 sec: 104857.0, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 901251072. Throughput: 0: 27977.8. Samples: 225340416. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:24,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 12:57:25,599][98493] Updated weights for policy 0, policy_version 440120 (0.0007)
+[2023-07-06 12:57:26,801][98493] Updated weights for policy 0, policy_version 440166 (0.0007)
+[2023-07-06 12:57:26,911][98449] Signal inference workers to stop experience collection... (22750 times)
+[2023-07-06 12:57:26,937][98493] InferenceWorker_p0-w0: stopping experience collection (22750 times)
+[2023-07-06 12:57:27,003][98449] Signal inference workers to resume experience collection... (22750 times)
+[2023-07-06 12:57:27,003][98493] InferenceWorker_p0-w0: resuming experience collection (22750 times)
+[2023-07-06 12:57:27,357][98493] Updated weights for policy 0, policy_version 440228 (0.0006)
+[2023-07-06 12:57:27,845][98493] Updated weights for policy 0, policy_version 440288 (0.0008)
+[2023-07-06 12:57:29,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 901775360. Throughput: 0: 27887.1. Samples: 225504256. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:29,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 12:57:29,792][98493] Updated weights for policy 0, policy_version 440336 (0.0007)
+[2023-07-06 12:57:30,211][98493] Updated weights for policy 0, policy_version 440384 (0.0006)
+[2023-07-06 12:57:31,636][98493] Updated weights for policy 0, policy_version 440448 (0.0008)
+[2023-07-06 12:57:32,062][98493] Updated weights for policy 0, policy_version 440496 (0.0006)
+[2023-07-06 12:57:32,562][98493] Updated weights for policy 0, policy_version 440544 (0.0007)
+[2023-07-06 12:57:34,167][98493] Updated weights for policy 0, policy_version 440579 (0.0007)
+[2023-07-06 12:57:34,654][98493] Updated weights for policy 0, policy_version 440640 (0.0008)
+[2023-07-06 12:57:34,764][98243] Fps is (10 sec: 117967.7, 60 sec: 113595.8, 300 sec: 111744.4). Total num frames: 902430720. Throughput: 0: 27955.2. Samples: 225674240. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:34,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:57:36,215][98493] Updated weights for policy 0, policy_version 440688 (0.0007)
+[2023-07-06 12:57:36,615][98493] Updated weights for policy 0, policy_version 440725 (0.0007)
+[2023-07-06 12:57:37,163][98493] Updated weights for policy 0, policy_version 440788 (0.0007)
+[2023-07-06 12:57:38,873][98493] Updated weights for policy 0, policy_version 440833 (0.0006)
+[2023-07-06 12:57:39,317][98493] Updated weights for policy 0, policy_version 440888 (0.0007)
+[2023-07-06 12:57:39,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113049.5, 300 sec: 111522.3). Total num frames: 902955008. Throughput: 0: 27875.7. Samples: 225756160. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:57:40,898][98493] Updated weights for policy 0, policy_version 440955 (0.0007)
+[2023-07-06 12:57:41,633][98493] Updated weights for policy 0, policy_version 441008 (0.0006)
+[2023-07-06 12:57:42,127][98493] Updated weights for policy 0, policy_version 441060 (0.0008)
+[2023-07-06 12:57:43,534][98449] Signal inference workers to stop experience collection... (22800 times)
+[2023-07-06 12:57:43,569][98493] Updated weights for policy 0, policy_version 441109 (0.0007)
+[2023-07-06 12:57:43,578][98493] InferenceWorker_p0-w0: stopping experience collection (22800 times)
+[2023-07-06 12:57:43,623][98449] Signal inference workers to resume experience collection... (22800 times)
+[2023-07-06 12:57:43,623][98493] InferenceWorker_p0-w0: resuming experience collection (22800 times)
+[2023-07-06 12:57:44,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111411.7, 300 sec: 111522.3). Total num frames: 903479296. Throughput: 0: 27864.1. Samples: 225924608. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:57:45,579][98493] Updated weights for policy 0, policy_version 441160 (0.0006)
+[2023-07-06 12:57:46,137][98493] Updated weights for policy 0, policy_version 441221 (0.0008)
+[2023-07-06 12:57:46,578][98493] Updated weights for policy 0, policy_version 441267 (0.0007)
+[2023-07-06 12:57:47,156][98493] Updated weights for policy 0, policy_version 441339 (0.0007)
+[2023-07-06 12:57:48,271][98493] Updated weights for policy 0, policy_version 441392 (0.0007)
+[2023-07-06 12:57:49,764][98243] Fps is (10 sec: 104857.9, 60 sec: 110865.0, 300 sec: 111300.1). Total num frames: 904003584. Throughput: 0: 28103.1. Samples: 226095616. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:57:50,643][98493] Updated weights for policy 0, policy_version 441456 (0.0007)
+[2023-07-06 12:57:51,141][98493] Updated weights for policy 0, policy_version 441508 (0.0009)
+[2023-07-06 12:57:51,650][98493] Updated weights for policy 0, policy_version 441568 (0.0006)
+[2023-07-06 12:57:52,833][98493] Updated weights for policy 0, policy_version 441626 (0.0007)
+[2023-07-06 12:57:54,764][98243] Fps is (10 sec: 104857.7, 60 sec: 109227.2, 300 sec: 111078.0). Total num frames: 904527872. Throughput: 0: 27830.0. Samples: 226175488. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:54,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 12:57:54,982][98493] Updated weights for policy 0, policy_version 441668 (0.0006)
+[2023-07-06 12:57:55,462][98493] Updated weights for policy 0, policy_version 441728 (0.0007)
+[2023-07-06 12:57:56,095][98493] Updated weights for policy 0, policy_version 441794 (0.0007)
+[2023-07-06 12:57:56,538][98493] Updated weights for policy 0, policy_version 441855 (0.0007)
+[2023-07-06 12:57:57,859][98493] Updated weights for policy 0, policy_version 441914 (0.0007)
+[2023-07-06 12:57:59,764][98243] Fps is (10 sec: 104857.7, 60 sec: 108680.4, 300 sec: 110744.7). Total num frames: 905052160. Throughput: 0: 28012.2. Samples: 226343424. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:57:59,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:58:00,199][98493] Updated weights for policy 0, policy_version 441974 (0.0006)
+[2023-07-06 12:58:00,577][98449] Signal inference workers to stop experience collection... (22850 times)
+[2023-07-06 12:58:00,622][98493] InferenceWorker_p0-w0: stopping experience collection (22850 times)
+[2023-07-06 12:58:00,664][98449] Signal inference workers to resume experience collection... (22850 times)
+[2023-07-06 12:58:00,665][98493] InferenceWorker_p0-w0: resuming experience collection (22850 times)
+[2023-07-06 12:58:00,735][98493] Updated weights for policy 0, policy_version 442034 (0.0007)
+[2023-07-06 12:58:01,321][98493] Updated weights for policy 0, policy_version 442112 (0.0008)
+[2023-07-06 12:58:02,403][98493] Updated weights for policy 0, policy_version 442164 (0.0009)
+[2023-07-06 12:58:04,764][98243] Fps is (10 sec: 111411.5, 60 sec: 108680.5, 300 sec: 110855.8). Total num frames: 905641984. Throughput: 0: 27932.4. Samples: 226512384. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:58:04,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:58:04,786][98493] Updated weights for policy 0, policy_version 442211 (0.0007)
+[2023-07-06 12:58:05,281][98493] Updated weights for policy 0, policy_version 442272 (0.0007)
+[2023-07-06 12:58:05,782][98493] Updated weights for policy 0, policy_version 442323 (0.0007)
+[2023-07-06 12:58:06,089][98493] Updated weights for policy 0, policy_version 442363 (0.0006)
+[2023-07-06 12:58:07,066][98493] Updated weights for policy 0, policy_version 442425 (0.0007)
+[2023-07-06 12:58:09,140][98493] Updated weights for policy 0, policy_version 442464 (0.0007)
+[2023-07-06 12:58:09,653][98493] Updated weights for policy 0, policy_version 442512 (0.0007)
+[2023-07-06 12:58:09,764][98243] Fps is (10 sec: 121241.1, 60 sec: 109772.8, 300 sec: 111189.0). Total num frames: 906264576. Throughput: 0: 27784.6. Samples: 226590720. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:58:09,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:58:10,176][98493] Updated weights for policy 0, policy_version 442569 (0.0006)
+[2023-07-06 12:58:10,640][98493] Updated weights for policy 0, policy_version 442624 (0.0006)
+[2023-07-06 12:58:12,035][98493] Updated weights for policy 0, policy_version 442682 (0.0007)
+[2023-07-06 12:58:14,133][98493] Updated weights for policy 0, policy_version 442752 (0.0006)
+[2023-07-06 12:58:14,628][98493] Updated weights for policy 0, policy_version 442808 (0.0008)
+[2023-07-06 12:58:14,764][98243] Fps is (10 sec: 124518.5, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 906887168. Throughput: 0: 27966.6. Samples: 226762752. Policy #0 lag: (min: 123.0, avg: 238.3, max: 371.0)
+[2023-07-06 12:58:14,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:58:15,223][98493] Updated weights for policy 0, policy_version 442848 (0.0008)
+[2023-07-06 12:58:16,569][98493] Updated weights for policy 0, policy_version 442896 (0.0007)
+[2023-07-06 12:58:18,499][98493] Updated weights for policy 0, policy_version 442951 (0.0006)
+[2023-07-06 12:58:18,751][98449] Signal inference workers to stop experience collection... (22900 times)
+[2023-07-06 12:58:18,793][98493] InferenceWorker_p0-w0: stopping experience collection (22900 times)
+[2023-07-06 12:58:18,841][98449] Signal inference workers to resume experience collection... (22900 times)
+[2023-07-06 12:58:18,841][98493] InferenceWorker_p0-w0: resuming experience collection (22900 times)
+[2023-07-06 12:58:18,936][98493] Updated weights for policy 0, policy_version 442996 (0.0007)
+[2023-07-06 12:58:19,489][98493] Updated weights for policy 0, policy_version 443066 (0.0007)
+[2023-07-06 12:58:19,764][98243] Fps is (10 sec: 114688.9, 60 sec: 111411.3, 300 sec: 111522.4). Total num frames: 907411456. Throughput: 0: 27795.9. Samples: 226925056. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:19,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:58:20,058][98493] Updated weights for policy 0, policy_version 443120 (0.0007)
+[2023-07-06 12:58:21,676][98493] Updated weights for policy 0, policy_version 443184 (0.0007)
+[2023-07-06 12:58:23,460][98493] Updated weights for policy 0, policy_version 443235 (0.0007)
+[2023-07-06 12:58:23,959][98493] Updated weights for policy 0, policy_version 443296 (0.0007)
+[2023-07-06 12:58:24,455][98493] Updated weights for policy 0, policy_version 443335 (0.0006)
+[2023-07-06 12:58:24,764][98243] Fps is (10 sec: 111411.1, 60 sec: 112503.8, 300 sec: 111744.4). Total num frames: 908001280. Throughput: 0: 27909.7. Samples: 227012096. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:24,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 12:58:24,923][98493] Updated weights for policy 0, policy_version 443391 (0.0007)
+[2023-07-06 12:58:24,927][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000443392_908066816.pth...
+[2023-07-06 12:58:24,971][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000430336_881328128.pth
+[2023-07-06 12:58:26,187][98493] Updated weights for policy 0, policy_version 443440 (0.0008)
+[2023-07-06 12:58:28,325][98493] Updated weights for policy 0, policy_version 443504 (0.0007)
+[2023-07-06 12:58:28,963][98493] Updated weights for policy 0, policy_version 443578 (0.0007)
+[2023-07-06 12:58:29,654][98493] Updated weights for policy 0, policy_version 443642 (0.0008)
+[2023-07-06 12:58:29,764][98243] Fps is (10 sec: 117962.9, 60 sec: 113595.6, 300 sec: 111966.5). Total num frames: 908591104. Throughput: 0: 27830.0. Samples: 227176960. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 12:58:30,822][98493] Updated weights for policy 0, policy_version 443708 (0.0006)
+[2023-07-06 12:58:33,006][98493] Updated weights for policy 0, policy_version 443748 (0.0006)
+[2023-07-06 12:58:33,606][98493] Updated weights for policy 0, policy_version 443824 (0.0007)
+[2023-07-06 12:58:34,085][98493] Updated weights for policy 0, policy_version 443864 (0.0007)
+[2023-07-06 12:58:34,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.1, 300 sec: 111633.3). Total num frames: 909115392. Throughput: 0: 27568.4. Samples: 227336192. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:34,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 12:58:35,484][98493] Updated weights for policy 0, policy_version 443936 (0.0007)
+[2023-07-06 12:58:37,491][98449] Signal inference workers to stop experience collection... (22950 times)
+[2023-07-06 12:58:37,501][98493] Updated weights for policy 0, policy_version 443969 (0.0007)
+[2023-07-06 12:58:37,513][98493] InferenceWorker_p0-w0: stopping experience collection (22950 times)
+[2023-07-06 12:58:37,590][98449] Signal inference workers to resume experience collection... (22950 times)
+[2023-07-06 12:58:37,591][98493] InferenceWorker_p0-w0: resuming experience collection (22950 times)
+[2023-07-06 12:58:37,959][98493] Updated weights for policy 0, policy_version 444022 (0.0007)
+[2023-07-06 12:58:38,684][98493] Updated weights for policy 0, policy_version 444104 (0.0008)
+[2023-07-06 12:58:39,764][98243] Fps is (10 sec: 104858.7, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 909639680. Throughput: 0: 27795.9. Samples: 227426304. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:39,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:58:40,231][98493] Updated weights for policy 0, policy_version 444161 (0.0007)
+[2023-07-06 12:58:40,613][98493] Updated weights for policy 0, policy_version 444208 (0.0007)
+[2023-07-06 12:58:42,266][98493] Updated weights for policy 0, policy_version 444240 (0.0006)
+[2023-07-06 12:58:42,817][98493] Updated weights for policy 0, policy_version 444304 (0.0007)
+[2023-07-06 12:58:43,224][98493] Updated weights for policy 0, policy_version 444349 (0.0007)
+[2023-07-06 12:58:43,929][98493] Updated weights for policy 0, policy_version 444413 (0.0007)
+[2023-07-06 12:58:44,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 910163968. Throughput: 0: 27647.9. Samples: 227587584. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:44,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:58:45,251][98493] Updated weights for policy 0, policy_version 444475 (0.0007)
+[2023-07-06 12:58:46,980][98493] Updated weights for policy 0, policy_version 444512 (0.0006)
+[2023-07-06 12:58:47,529][98493] Updated weights for policy 0, policy_version 444576 (0.0008)
+[2023-07-06 12:58:48,626][98493] Updated weights for policy 0, policy_version 444634 (0.0007)
+[2023-07-06 12:58:49,498][98493] Updated weights for policy 0, policy_version 444679 (0.0006)
+[2023-07-06 12:58:49,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112503.5, 300 sec: 111633.4). Total num frames: 910753792. Throughput: 0: 27568.4. Samples: 227752960. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:58:49,956][98493] Updated weights for policy 0, policy_version 444736 (0.0006)
+[2023-07-06 12:58:51,868][98493] Updated weights for policy 0, policy_version 444790 (0.0007)
+[2023-07-06 12:58:52,430][98493] Updated weights for policy 0, policy_version 444857 (0.0008)
+[2023-07-06 12:58:53,504][98493] Updated weights for policy 0, policy_version 444922 (0.0007)
+[2023-07-06 12:58:53,949][98449] Signal inference workers to stop experience collection... (23000 times)
+[2023-07-06 12:58:53,972][98493] InferenceWorker_p0-w0: stopping experience collection (23000 times)
+[2023-07-06 12:58:54,047][98449] Signal inference workers to resume experience collection... (23000 times)
+[2023-07-06 12:58:54,047][98493] InferenceWorker_p0-w0: resuming experience collection (23000 times)
+[2023-07-06 12:58:54,268][98493] Updated weights for policy 0, policy_version 444967 (0.0007)
+[2023-07-06 12:58:54,764][98243] Fps is (10 sec: 117965.8, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 911343616. Throughput: 0: 27716.3. Samples: 227837952. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 12:58:56,307][98493] Updated weights for policy 0, policy_version 445001 (0.0007)
+[2023-07-06 12:58:56,848][98493] Updated weights for policy 0, policy_version 445063 (0.0007)
+[2023-07-06 12:58:57,321][98493] Updated weights for policy 0, policy_version 445120 (0.0007)
+[2023-07-06 12:58:58,428][98493] Updated weights for policy 0, policy_version 445174 (0.0007)
+[2023-07-06 12:58:59,017][98493] Updated weights for policy 0, policy_version 445217 (0.0007)
+[2023-07-06 12:58:59,764][98243] Fps is (10 sec: 111409.0, 60 sec: 113595.4, 300 sec: 111300.0). Total num frames: 911867904. Throughput: 0: 27591.0. Samples: 228004352. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:58:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 12:59:01,224][98493] Updated weights for policy 0, policy_version 445280 (0.0007)
+[2023-07-06 12:59:01,847][98493] Updated weights for policy 0, policy_version 445348 (0.0007)
+[2023-07-06 12:59:02,899][98493] Updated weights for policy 0, policy_version 445400 (0.0007)
+[2023-07-06 12:59:03,228][98493] Updated weights for policy 0, policy_version 445439 (0.0007)
+[2023-07-06 12:59:03,759][98493] Updated weights for policy 0, policy_version 445500 (0.0007)
+[2023-07-06 12:59:04,764][98243] Fps is (10 sec: 104857.0, 60 sec: 112503.3, 300 sec: 111078.0). Total num frames: 912392192. Throughput: 0: 27716.2. Samples: 228172288. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:59:05,861][98493] Updated weights for policy 0, policy_version 445558 (0.0008)
+[2023-07-06 12:59:06,799][98493] Updated weights for policy 0, policy_version 445602 (0.0007)
+[2023-07-06 12:59:07,683][98493] Updated weights for policy 0, policy_version 445671 (0.0007)
+[2023-07-06 12:59:08,199][98493] Updated weights for policy 0, policy_version 445731 (0.0008)
+[2023-07-06 12:59:09,764][98243] Fps is (10 sec: 104859.2, 60 sec: 110865.1, 300 sec: 110966.9). Total num frames: 912916480. Throughput: 0: 27613.8. Samples: 228254720. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:09,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 12:59:10,109][98493] Updated weights for policy 0, policy_version 445763 (0.0007)
+[2023-07-06 12:59:10,577][98493] Updated weights for policy 0, policy_version 445818 (0.0007)
+[2023-07-06 12:59:11,610][98493] Updated weights for policy 0, policy_version 445872 (0.0007)
+[2023-07-06 12:59:12,242][98449] Signal inference workers to stop experience collection... (23050 times)
+[2023-07-06 12:59:12,282][98493] InferenceWorker_p0-w0: stopping experience collection (23050 times)
+[2023-07-06 12:59:12,319][98449] Signal inference workers to resume experience collection... (23050 times)
+[2023-07-06 12:59:12,320][98493] InferenceWorker_p0-w0: resuming experience collection (23050 times)
+[2023-07-06 12:59:12,402][98493] Updated weights for policy 0, policy_version 445923 (0.0006)
+[2023-07-06 12:59:13,002][98493] Updated weights for policy 0, policy_version 445993 (0.0008)
+[2023-07-06 12:59:14,765][98243] Fps is (10 sec: 104855.2, 60 sec: 109226.1, 300 sec: 110633.5). Total num frames: 913440768. Throughput: 0: 27647.9. Samples: 228421120. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:14,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:59:15,082][98493] Updated weights for policy 0, policy_version 446055 (0.0007)
+[2023-07-06 12:59:16,359][98493] Updated weights for policy 0, policy_version 446112 (0.0007)
+[2023-07-06 12:59:16,894][98493] Updated weights for policy 0, policy_version 446163 (0.0007)
+[2023-07-06 12:59:17,439][98493] Updated weights for policy 0, policy_version 446224 (0.0007)
+[2023-07-06 12:59:17,848][98493] Updated weights for policy 0, policy_version 446272 (0.0007)
+[2023-07-06 12:59:19,764][98243] Fps is (10 sec: 111409.3, 60 sec: 110318.5, 300 sec: 110966.8). Total num frames: 914030592. Throughput: 0: 27875.4. Samples: 228590592. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 12:59:19,920][98493] Updated weights for policy 0, policy_version 446332 (0.0006)
+[2023-07-06 12:59:21,003][98493] Updated weights for policy 0, policy_version 446384 (0.0006)
+[2023-07-06 12:59:21,723][98493] Updated weights for policy 0, policy_version 446439 (0.0007)
+[2023-07-06 12:59:21,910][98493] Updated weights for policy 0, policy_version 446464 (0.0007)
+[2023-07-06 12:59:22,658][98493] Updated weights for policy 0, policy_version 446528 (0.0008)
+[2023-07-06 12:59:24,638][98493] Updated weights for policy 0, policy_version 446592 (0.0008)
+[2023-07-06 12:59:24,764][98243] Fps is (10 sec: 117968.0, 60 sec: 110318.9, 300 sec: 111078.0). Total num frames: 914620416. Throughput: 0: 27636.6. Samples: 228669952. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 12:59:25,940][98493] Updated weights for policy 0, policy_version 446655 (0.0008)
+[2023-07-06 12:59:26,397][98493] Updated weights for policy 0, policy_version 446705 (0.0006)
+[2023-07-06 12:59:27,191][98493] Updated weights for policy 0, policy_version 446736 (0.0006)
+[2023-07-06 12:59:28,822][98493] Updated weights for policy 0, policy_version 446792 (0.0008)
+[2023-07-06 12:59:29,236][98493] Updated weights for policy 0, policy_version 446845 (0.0007)
+[2023-07-06 12:59:29,764][98243] Fps is (10 sec: 111413.6, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 915144704. Throughput: 0: 27898.4. Samples: 228843008. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:29,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 12:59:30,457][98493] Updated weights for policy 0, policy_version 446896 (0.0007)
+[2023-07-06 12:59:30,502][98449] Signal inference workers to stop experience collection... (23100 times)
+[2023-07-06 12:59:30,549][98493] InferenceWorker_p0-w0: stopping experience collection (23100 times)
+[2023-07-06 12:59:30,588][98449] Signal inference workers to resume experience collection... (23100 times)
+[2023-07-06 12:59:30,589][98493] InferenceWorker_p0-w0: resuming experience collection (23100 times)
+[2023-07-06 12:59:30,945][98493] Updated weights for policy 0, policy_version 446948 (0.0006)
+[2023-07-06 12:59:32,046][98493] Updated weights for policy 0, policy_version 447010 (0.0007)
+[2023-07-06 12:59:33,476][98493] Updated weights for policy 0, policy_version 447056 (0.0007)
+[2023-07-06 12:59:33,892][98493] Updated weights for policy 0, policy_version 447104 (0.0007)
+[2023-07-06 12:59:34,765][98243] Fps is (10 sec: 104853.2, 60 sec: 109225.9, 300 sec: 111077.8). Total num frames: 915668992. Throughput: 0: 28011.8. Samples: 229013504. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:34,766][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:59:35,167][98493] Updated weights for policy 0, policy_version 447152 (0.0007)
+[2023-07-06 12:59:35,782][98493] Updated weights for policy 0, policy_version 447225 (0.0007)
+[2023-07-06 12:59:36,574][98493] Updated weights for policy 0, policy_version 447271 (0.0006)
+[2023-07-06 12:59:38,198][98493] Updated weights for policy 0, policy_version 447314 (0.0007)
+[2023-07-06 12:59:39,673][98493] Updated weights for policy 0, policy_version 447376 (0.0006)
+[2023-07-06 12:59:39,765][98243] Fps is (10 sec: 108130.1, 60 sec: 109772.1, 300 sec: 111188.9). Total num frames: 916226048. Throughput: 0: 27909.5. Samples: 229093888. Policy #0 lag: (min: 9.0, avg: 84.0, max: 265.0)
+[2023-07-06 12:59:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 12:59:40,243][98493] Updated weights for policy 0, policy_version 447440 (0.0007)
+[2023-07-06 12:59:40,840][98493] Updated weights for policy 0, policy_version 447490 (0.0008)
+[2023-07-06 12:59:42,842][98493] Updated weights for policy 0, policy_version 447553 (0.0006)
+[2023-07-06 12:59:43,298][98493] Updated weights for policy 0, policy_version 447612 (0.0007)
+[2023-07-06 12:59:44,764][98243] Fps is (10 sec: 111417.0, 60 sec: 110319.3, 300 sec: 111300.2). Total num frames: 916783104. Throughput: 0: 27909.9. Samples: 229260288. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 12:59:44,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:59:44,879][98493] Updated weights for policy 0, policy_version 447673 (0.0007)
+[2023-07-06 12:59:45,396][98493] Updated weights for policy 0, policy_version 447729 (0.0007)
+[2023-07-06 12:59:45,966][98493] Updated weights for policy 0, policy_version 447799 (0.0008)
+[2023-07-06 12:59:47,989][98493] Updated weights for policy 0, policy_version 447842 (0.0006)
+[2023-07-06 12:59:49,052][98449] Signal inference workers to stop experience collection... (23150 times)
+[2023-07-06 12:59:49,096][98493] InferenceWorker_p0-w0: stopping experience collection (23150 times)
+[2023-07-06 12:59:49,147][98449] Signal inference workers to resume experience collection... (23150 times)
+[2023-07-06 12:59:49,147][98493] InferenceWorker_p0-w0: resuming experience collection (23150 times)
+[2023-07-06 12:59:49,149][98493] Updated weights for policy 0, policy_version 447888 (0.0006)
+[2023-07-06 12:59:49,575][98493] Updated weights for policy 0, policy_version 447936 (0.0006)
+[2023-07-06 12:59:49,764][98243] Fps is (10 sec: 114692.0, 60 sec: 110318.8, 300 sec: 111522.3). Total num frames: 917372928. Throughput: 0: 27932.5. Samples: 229429248. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 12:59:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 12:59:50,206][98493] Updated weights for policy 0, policy_version 447989 (0.0006)
+[2023-07-06 12:59:50,688][98493] Updated weights for policy 0, policy_version 448048 (0.0008)
+[2023-07-06 12:59:52,622][98493] Updated weights for policy 0, policy_version 448096 (0.0006)
+[2023-07-06 12:59:53,566][98493] Updated weights for policy 0, policy_version 448144 (0.0007)
+[2023-07-06 12:59:54,436][98493] Updated weights for policy 0, policy_version 448208 (0.0008)
+[2023-07-06 12:59:54,764][98243] Fps is (10 sec: 121240.9, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 917995520. Throughput: 0: 27943.9. Samples: 229512192. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 12:59:54,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 12:59:54,974][98493] Updated weights for policy 0, policy_version 448265 (0.0007)
+[2023-07-06 12:59:55,389][98493] Updated weights for policy 0, policy_version 448314 (0.0008)
+[2023-07-06 12:59:57,470][98493] Updated weights for policy 0, policy_version 448378 (0.0010)
+[2023-07-06 12:59:58,622][98493] Updated weights for policy 0, policy_version 448432 (0.0007)
+[2023-07-06 12:59:59,445][98493] Updated weights for policy 0, policy_version 448491 (0.0007)
+[2023-07-06 12:59:59,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.5, 300 sec: 111744.4). Total num frames: 918552576. Throughput: 0: 27955.4. Samples: 229679104. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 12:59:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 12:59:59,914][98493] Updated weights for policy 0, policy_version 448544 (0.0007)
+[2023-07-06 13:00:01,961][98493] Updated weights for policy 0, policy_version 448592 (0.0006)
+[2023-07-06 13:00:02,351][98493] Updated weights for policy 0, policy_version 448633 (0.0007)
+[2023-07-06 13:00:03,204][98493] Updated weights for policy 0, policy_version 448676 (0.0006)
+[2023-07-06 13:00:04,089][98493] Updated weights for policy 0, policy_version 448736 (0.0007)
+[2023-07-06 13:00:04,639][98493] Updated weights for policy 0, policy_version 448800 (0.0007)
+[2023-07-06 13:00:04,764][98243] Fps is (10 sec: 114687.8, 60 sec: 112503.6, 300 sec: 111744.4). Total num frames: 919142400. Throughput: 0: 27830.2. Samples: 229842944. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:04,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:00:06,420][98493] Updated weights for policy 0, policy_version 448834 (0.0006)
+[2023-07-06 13:00:06,540][98449] Signal inference workers to stop experience collection... (23200 times)
+[2023-07-06 13:00:06,586][98493] InferenceWorker_p0-w0: stopping experience collection (23200 times)
+[2023-07-06 13:00:06,619][98449] Signal inference workers to resume experience collection... (23200 times)
+[2023-07-06 13:00:06,619][98493] InferenceWorker_p0-w0: resuming experience collection (23200 times)
+[2023-07-06 13:00:06,863][98493] Updated weights for policy 0, policy_version 448889 (0.0008)
+[2023-07-06 13:00:07,855][98493] Updated weights for policy 0, policy_version 448932 (0.0008)
+[2023-07-06 13:00:08,589][98493] Updated weights for policy 0, policy_version 448976 (0.0007)
+[2023-07-06 13:00:09,088][98493] Updated weights for policy 0, policy_version 449025 (0.0007)
+[2023-07-06 13:00:09,565][98493] Updated weights for policy 0, policy_version 449088 (0.0006)
+[2023-07-06 13:00:09,764][98243] Fps is (10 sec: 117965.6, 60 sec: 113595.9, 300 sec: 111744.5). Total num frames: 919732224. Throughput: 0: 28046.3. Samples: 229932032. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:09,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:00:11,445][98493] Updated weights for policy 0, policy_version 449147 (0.0007)
+[2023-07-06 13:00:12,764][98493] Updated weights for policy 0, policy_version 449200 (0.0007)
+[2023-07-06 13:00:13,401][98493] Updated weights for policy 0, policy_version 449250 (0.0007)
+[2023-07-06 13:00:13,907][98493] Updated weights for policy 0, policy_version 449312 (0.0007)
+[2023-07-06 13:00:14,764][98243] Fps is (10 sec: 111410.9, 60 sec: 113596.2, 300 sec: 111411.2). Total num frames: 920256512. Throughput: 0: 27841.4. Samples: 230095872. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:14,768][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:00:15,970][98493] Updated weights for policy 0, policy_version 449361 (0.0007)
+[2023-07-06 13:00:17,350][98493] Updated weights for policy 0, policy_version 449424 (0.0007)
+[2023-07-06 13:00:17,937][98493] Updated weights for policy 0, policy_version 449488 (0.0008)
+[2023-07-06 13:00:18,517][98493] Updated weights for policy 0, policy_version 449552 (0.0007)
+[2023-07-06 13:00:18,924][98493] Updated weights for policy 0, policy_version 449599 (0.0007)
+[2023-07-06 13:00:19,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.9, 300 sec: 111078.0). Total num frames: 920780800. Throughput: 0: 27750.7. Samples: 230262272. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:19,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:00:20,867][98493] Updated weights for policy 0, policy_version 449656 (0.0007)
+[2023-07-06 13:00:22,470][98493] Updated weights for policy 0, policy_version 449722 (0.0007)
+[2023-07-06 13:00:23,013][98493] Updated weights for policy 0, policy_version 449779 (0.0008)
+[2023-07-06 13:00:23,140][98449] Signal inference workers to stop experience collection... (23250 times)
+[2023-07-06 13:00:23,159][98493] InferenceWorker_p0-w0: stopping experience collection (23250 times)
+[2023-07-06 13:00:23,231][98449] Signal inference workers to resume experience collection... (23250 times)
+[2023-07-06 13:00:23,232][98493] InferenceWorker_p0-w0: resuming experience collection (23250 times)
+[2023-07-06 13:00:23,518][98493] Updated weights for policy 0, policy_version 449840 (0.0007)
+[2023-07-06 13:00:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 921305088. Throughput: 0: 27853.0. Samples: 230347264. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:24,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:00:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000449856_921305088.pth...
+[2023-07-06 13:00:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000436800_894566400.pth
+[2023-07-06 13:00:25,686][98493] Updated weights for policy 0, policy_version 449914 (0.0007)
+[2023-07-06 13:00:27,240][98493] Updated weights for policy 0, policy_version 449968 (0.0007)
+[2023-07-06 13:00:27,857][98493] Updated weights for policy 0, policy_version 450035 (0.0008)
+[2023-07-06 13:00:28,412][98493] Updated weights for policy 0, policy_version 450107 (0.0008)
+[2023-07-06 13:00:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 921829376. Throughput: 0: 27682.1. Samples: 230505984. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:29,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:00:30,482][98493] Updated weights for policy 0, policy_version 450171 (0.0008)
+[2023-07-06 13:00:31,777][98493] Updated weights for policy 0, policy_version 450224 (0.0007)
+[2023-07-06 13:00:32,346][98493] Updated weights for policy 0, policy_version 450272 (0.0007)
+[2023-07-06 13:00:33,182][98493] Updated weights for policy 0, policy_version 450330 (0.0007)
+[2023-07-06 13:00:34,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111412.1, 300 sec: 111078.0). Total num frames: 922353664. Throughput: 0: 27739.1. Samples: 230677504. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:34,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:00:34,781][98493] Updated weights for policy 0, policy_version 450384 (0.0006)
+[2023-07-06 13:00:36,040][98493] Updated weights for policy 0, policy_version 450439 (0.0007)
+[2023-07-06 13:00:36,496][98493] Updated weights for policy 0, policy_version 450494 (0.0007)
+[2023-07-06 13:00:37,265][98493] Updated weights for policy 0, policy_version 450544 (0.0007)
+[2023-07-06 13:00:37,894][98493] Updated weights for policy 0, policy_version 450593 (0.0007)
+[2023-07-06 13:00:39,473][98493] Updated weights for policy 0, policy_version 450656 (0.0006)
+[2023-07-06 13:00:39,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113050.1, 300 sec: 111522.2). Total num frames: 923009024. Throughput: 0: 27738.9. Samples: 230760448. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:00:40,869][98493] Updated weights for policy 0, policy_version 450704 (0.0007)
+[2023-07-06 13:00:41,615][98493] Updated weights for policy 0, policy_version 450755 (0.0007)
+[2023-07-06 13:00:42,378][98449] Signal inference workers to stop experience collection... (23300 times)
+[2023-07-06 13:00:42,393][98493] Updated weights for policy 0, policy_version 450817 (0.0007)
+[2023-07-06 13:00:42,402][98493] InferenceWorker_p0-w0: stopping experience collection (23300 times)
+[2023-07-06 13:00:42,473][98449] Signal inference workers to resume experience collection... (23300 times)
+[2023-07-06 13:00:42,474][98493] InferenceWorker_p0-w0: resuming experience collection (23300 times)
+[2023-07-06 13:00:42,858][98493] Updated weights for policy 0, policy_version 450878 (0.0007)
+[2023-07-06 13:00:44,229][98493] Updated weights for policy 0, policy_version 450936 (0.0007)
+[2023-07-06 13:00:44,764][98243] Fps is (10 sec: 117964.1, 60 sec: 112503.3, 300 sec: 111078.0). Total num frames: 923533312. Throughput: 0: 27784.5. Samples: 230929408. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:44,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:00:45,769][98493] Updated weights for policy 0, policy_version 450980 (0.0006)
+[2023-07-06 13:00:46,291][98493] Updated weights for policy 0, policy_version 451031 (0.0007)
+[2023-07-06 13:00:47,283][98493] Updated weights for policy 0, policy_version 451096 (0.0007)
+[2023-07-06 13:00:48,634][98493] Updated weights for policy 0, policy_version 451137 (0.0006)
+[2023-07-06 13:00:49,115][98493] Updated weights for policy 0, policy_version 451198 (0.0007)
+[2023-07-06 13:00:49,764][98243] Fps is (10 sec: 104858.9, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 924057600. Throughput: 0: 27921.1. Samples: 231099392. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:00:50,405][98493] Updated weights for policy 0, policy_version 451259 (0.0007)
+[2023-07-06 13:00:50,995][98493] Updated weights for policy 0, policy_version 451299 (0.0008)
+[2023-07-06 13:00:52,151][98493] Updated weights for policy 0, policy_version 451360 (0.0006)
+[2023-07-06 13:00:53,451][98493] Updated weights for policy 0, policy_version 451417 (0.0007)
+[2023-07-06 13:00:54,764][98243] Fps is (10 sec: 108134.7, 60 sec: 110318.9, 300 sec: 111189.2). Total num frames: 924614656. Throughput: 0: 27739.0. Samples: 231180288. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:54,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:00:54,813][98493] Updated weights for policy 0, policy_version 451474 (0.0007)
+[2023-07-06 13:00:55,250][98493] Updated weights for policy 0, policy_version 451524 (0.0007)
+[2023-07-06 13:00:55,735][98493] Updated weights for policy 0, policy_version 451584 (0.0007)
+[2023-07-06 13:00:57,181][98493] Updated weights for policy 0, policy_version 451643 (0.0006)
+[2023-07-06 13:00:58,281][98493] Updated weights for policy 0, policy_version 451696 (0.0007)
+[2023-07-06 13:00:59,710][98493] Updated weights for policy 0, policy_version 451749 (0.0007)
+[2023-07-06 13:00:59,764][98243] Fps is (10 sec: 111412.2, 60 sec: 110319.2, 300 sec: 111300.2). Total num frames: 925171712. Throughput: 0: 27830.1. Samples: 231348224. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:00:59,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:01:00,195][98493] Updated weights for policy 0, policy_version 451808 (0.0008)
+[2023-07-06 13:01:01,543][98449] Signal inference workers to stop experience collection... (23350 times)
+[2023-07-06 13:01:01,557][98493] Updated weights for policy 0, policy_version 451842 (0.0006)
+[2023-07-06 13:01:01,563][98493] InferenceWorker_p0-w0: stopping experience collection (23350 times)
+[2023-07-06 13:01:01,634][98449] Signal inference workers to resume experience collection... (23350 times)
+[2023-07-06 13:01:01,635][98493] InferenceWorker_p0-w0: resuming experience collection (23350 times)
+[2023-07-06 13:01:02,072][98493] Updated weights for policy 0, policy_version 451904 (0.0008)
+[2023-07-06 13:01:02,833][98493] Updated weights for policy 0, policy_version 451960 (0.0006)
+[2023-07-06 13:01:04,350][98493] Updated weights for policy 0, policy_version 452002 (0.0007)
+[2023-07-06 13:01:04,764][98243] Fps is (10 sec: 114688.4, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 925761536. Throughput: 0: 27932.5. Samples: 231519232. Policy #0 lag: (min: 6.0, avg: 111.3, max: 262.0)
+[2023-07-06 13:01:04,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:01:04,940][98493] Updated weights for policy 0, policy_version 452064 (0.0007)
+[2023-07-06 13:01:06,405][98493] Updated weights for policy 0, policy_version 452121 (0.0006)
+[2023-07-06 13:01:06,727][98493] Updated weights for policy 0, policy_version 452160 (0.0007)
+[2023-07-06 13:01:07,338][98493] Updated weights for policy 0, policy_version 452217 (0.0007)
+[2023-07-06 13:01:08,990][98493] Updated weights for policy 0, policy_version 452272 (0.0007)
+[2023-07-06 13:01:09,728][98493] Updated weights for policy 0, policy_version 452336 (0.0007)
+[2023-07-06 13:01:09,764][98243] Fps is (10 sec: 121240.9, 60 sec: 110865.1, 300 sec: 111855.6). Total num frames: 926384128. Throughput: 0: 27864.2. Samples: 231601152. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:09,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:01:11,420][98493] Updated weights for policy 0, policy_version 452370 (0.0007)
+[2023-07-06 13:01:11,914][98493] Updated weights for policy 0, policy_version 452432 (0.0007)
+[2023-07-06 13:01:13,242][98493] Updated weights for policy 0, policy_version 452483 (0.0007)
+[2023-07-06 13:01:13,721][98493] Updated weights for policy 0, policy_version 452544 (0.0007)
+[2023-07-06 13:01:14,322][98493] Updated weights for policy 0, policy_version 452593 (0.0007)
+[2023-07-06 13:01:14,764][98243] Fps is (10 sec: 117963.5, 60 sec: 111411.1, 300 sec: 111744.4). Total num frames: 926941184. Throughput: 0: 28068.9. Samples: 231769088. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:14,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:01:16,364][98493] Updated weights for policy 0, policy_version 452658 (0.0007)
+[2023-07-06 13:01:16,845][98493] Updated weights for policy 0, policy_version 452720 (0.0006)
+[2023-07-06 13:01:18,401][98493] Updated weights for policy 0, policy_version 452794 (0.0007)
+[2023-07-06 13:01:19,039][98493] Updated weights for policy 0, policy_version 452849 (0.0007)
+[2023-07-06 13:01:19,764][98243] Fps is (10 sec: 108132.7, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 927465472. Throughput: 0: 27966.5. Samples: 231936000. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:19,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:01:20,687][98449] Signal inference workers to stop experience collection... (23400 times)
+[2023-07-06 13:01:20,704][98493] InferenceWorker_p0-w0: stopping experience collection (23400 times)
+[2023-07-06 13:01:20,778][98449] Signal inference workers to resume experience collection... (23400 times)
+[2023-07-06 13:01:20,779][98493] InferenceWorker_p0-w0: resuming experience collection (23400 times)
+[2023-07-06 13:01:21,013][98493] Updated weights for policy 0, policy_version 452903 (0.0007)
+[2023-07-06 13:01:21,608][98493] Updated weights for policy 0, policy_version 452976 (0.0008)
+[2023-07-06 13:01:22,805][98493] Updated weights for policy 0, policy_version 453024 (0.0007)
+[2023-07-06 13:01:23,344][98493] Updated weights for policy 0, policy_version 453088 (0.0007)
+[2023-07-06 13:01:24,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 927989760. Throughput: 0: 28023.5. Samples: 232021504. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:01:25,618][98493] Updated weights for policy 0, policy_version 453136 (0.0007)
+[2023-07-06 13:01:26,178][98493] Updated weights for policy 0, policy_version 453200 (0.0007)
+[2023-07-06 13:01:26,616][98493] Updated weights for policy 0, policy_version 453248 (0.0008)
+[2023-07-06 13:01:27,744][98493] Updated weights for policy 0, policy_version 453305 (0.0007)
+[2023-07-06 13:01:28,240][98493] Updated weights for policy 0, policy_version 453360 (0.0007)
+[2023-07-06 13:01:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 928514048. Throughput: 0: 27909.6. Samples: 232185344. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:01:30,416][98493] Updated weights for policy 0, policy_version 453409 (0.0006)
+[2023-07-06 13:01:30,927][98493] Updated weights for policy 0, policy_version 453472 (0.0007)
+[2023-07-06 13:01:32,447][98493] Updated weights for policy 0, policy_version 453538 (0.0007)
+[2023-07-06 13:01:32,972][98493] Updated weights for policy 0, policy_version 453600 (0.0007)
+[2023-07-06 13:01:34,761][98493] Updated weights for policy 0, policy_version 453634 (0.0008)
+[2023-07-06 13:01:34,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111410.9, 300 sec: 111411.1). Total num frames: 929038336. Throughput: 0: 27932.4. Samples: 232356352. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:01:35,447][98493] Updated weights for policy 0, policy_version 453712 (0.0007)
+[2023-07-06 13:01:36,886][98493] Updated weights for policy 0, policy_version 453765 (0.0007)
+[2023-07-06 13:01:37,121][98449] Signal inference workers to stop experience collection... (23450 times)
+[2023-07-06 13:01:37,165][98493] InferenceWorker_p0-w0: stopping experience collection (23450 times)
+[2023-07-06 13:01:37,219][98449] Signal inference workers to resume experience collection... (23450 times)
+[2023-07-06 13:01:37,220][98493] InferenceWorker_p0-w0: resuming experience collection (23450 times)
+[2023-07-06 13:01:37,318][98493] Updated weights for policy 0, policy_version 453822 (0.0007)
+[2023-07-06 13:01:37,915][98493] Updated weights for policy 0, policy_version 453883 (0.0006)
+[2023-07-06 13:01:39,745][98493] Updated weights for policy 0, policy_version 453936 (0.0007)
+[2023-07-06 13:01:39,764][98243] Fps is (10 sec: 114690.2, 60 sec: 110865.5, 300 sec: 111411.4). Total num frames: 929660928. Throughput: 0: 27887.0. Samples: 232435200. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:39,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:01:40,393][98493] Updated weights for policy 0, policy_version 453984 (0.0007)
+[2023-07-06 13:01:41,591][98493] Updated weights for policy 0, policy_version 454032 (0.0006)
+[2023-07-06 13:01:42,051][98493] Updated weights for policy 0, policy_version 454080 (0.0008)
+[2023-07-06 13:01:42,596][98493] Updated weights for policy 0, policy_version 454140 (0.0007)
+[2023-07-06 13:01:44,408][98493] Updated weights for policy 0, policy_version 454200 (0.0007)
+[2023-07-06 13:01:44,764][98243] Fps is (10 sec: 121244.1, 60 sec: 111957.5, 300 sec: 111522.3). Total num frames: 930250752. Throughput: 0: 27966.6. Samples: 232606720. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:44,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:01:44,945][98493] Updated weights for policy 0, policy_version 454243 (0.0007)
+[2023-07-06 13:01:46,386][98493] Updated weights for policy 0, policy_version 454288 (0.0006)
+[2023-07-06 13:01:46,901][98493] Updated weights for policy 0, policy_version 454340 (0.0006)
+[2023-07-06 13:01:48,793][98493] Updated weights for policy 0, policy_version 454403 (0.0008)
+[2023-07-06 13:01:49,287][98493] Updated weights for policy 0, policy_version 454464 (0.0008)
+[2023-07-06 13:01:49,764][98243] Fps is (10 sec: 117963.6, 60 sec: 113049.6, 300 sec: 111411.3). Total num frames: 930840576. Throughput: 0: 27807.3. Samples: 232770560. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:01:49,783][98493] Updated weights for policy 0, policy_version 454521 (0.0007)
+[2023-07-06 13:01:51,602][98493] Updated weights for policy 0, policy_version 454578 (0.0007)
+[2023-07-06 13:01:52,043][98493] Updated weights for policy 0, policy_version 454628 (0.0007)
+[2023-07-06 13:01:53,696][98493] Updated weights for policy 0, policy_version 454678 (0.0006)
+[2023-07-06 13:01:54,259][98493] Updated weights for policy 0, policy_version 454741 (0.0007)
+[2023-07-06 13:01:54,373][98449] Signal inference workers to stop experience collection... (23500 times)
+[2023-07-06 13:01:54,409][98493] InferenceWorker_p0-w0: stopping experience collection (23500 times)
+[2023-07-06 13:01:54,467][98449] Signal inference workers to resume experience collection... (23500 times)
+[2023-07-06 13:01:54,468][98493] InferenceWorker_p0-w0: resuming experience collection (23500 times)
+[2023-07-06 13:01:54,605][98493] Updated weights for policy 0, policy_version 454784 (0.0007)
+[2023-07-06 13:01:54,764][98243] Fps is (10 sec: 114684.4, 60 sec: 113049.1, 300 sec: 111411.1). Total num frames: 931397632. Throughput: 0: 27886.8. Samples: 232856064. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:01:56,463][98493] Updated weights for policy 0, policy_version 454852 (0.0007)
+[2023-07-06 13:01:56,940][98493] Updated weights for policy 0, policy_version 454912 (0.0007)
+[2023-07-06 13:01:58,683][98493] Updated weights for policy 0, policy_version 454967 (0.0007)
+[2023-07-06 13:01:59,260][98493] Updated weights for policy 0, policy_version 455033 (0.0009)
+[2023-07-06 13:01:59,764][98243] Fps is (10 sec: 108134.6, 60 sec: 112503.3, 300 sec: 111189.1). Total num frames: 931921920. Throughput: 0: 27887.0. Samples: 233024000. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:01:59,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:02:00,953][98493] Updated weights for policy 0, policy_version 455072 (0.0006)
+[2023-07-06 13:02:01,466][98493] Updated weights for policy 0, policy_version 455123 (0.0008)
+[2023-07-06 13:02:01,855][98493] Updated weights for policy 0, policy_version 455168 (0.0006)
+[2023-07-06 13:02:03,409][98493] Updated weights for policy 0, policy_version 455232 (0.0007)
+[2023-07-06 13:02:03,910][98493] Updated weights for policy 0, policy_version 455289 (0.0007)
+[2023-07-06 13:02:04,764][98243] Fps is (10 sec: 104860.0, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 932446208. Throughput: 0: 27875.6. Samples: 233190400. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:02:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:02:05,779][98493] Updated weights for policy 0, policy_version 455351 (0.0007)
+[2023-07-06 13:02:06,162][98493] Updated weights for policy 0, policy_version 455394 (0.0006)
+[2023-07-06 13:02:08,068][98493] Updated weights for policy 0, policy_version 455458 (0.0008)
+[2023-07-06 13:02:08,492][98493] Updated weights for policy 0, policy_version 455509 (0.0006)
+[2023-07-06 13:02:09,764][98243] Fps is (10 sec: 104856.8, 60 sec: 109772.6, 300 sec: 111078.0). Total num frames: 932970496. Throughput: 0: 27909.7. Samples: 233277440. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:02:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:02:09,923][98493] Updated weights for policy 0, policy_version 455554 (0.0007)
+[2023-07-06 13:02:10,474][98493] Updated weights for policy 0, policy_version 455621 (0.0008)
+[2023-07-06 13:02:10,944][98493] Updated weights for policy 0, policy_version 455680 (0.0007)
+[2023-07-06 13:02:12,432][98449] Signal inference workers to stop experience collection... (23550 times)
+[2023-07-06 13:02:12,456][98493] InferenceWorker_p0-w0: stopping experience collection (23550 times)
+[2023-07-06 13:02:12,525][98449] Signal inference workers to resume experience collection... (23550 times)
+[2023-07-06 13:02:12,526][98493] InferenceWorker_p0-w0: resuming experience collection (23550 times)
+[2023-07-06 13:02:12,890][98493] Updated weights for policy 0, policy_version 455735 (0.0007)
+[2023-07-06 13:02:13,439][98493] Updated weights for policy 0, policy_version 455803 (0.0007)
+[2023-07-06 13:02:14,638][98493] Updated weights for policy 0, policy_version 455845 (0.0006)
+[2023-07-06 13:02:14,764][98243] Fps is (10 sec: 114688.4, 60 sec: 110865.2, 300 sec: 111411.2). Total num frames: 933593088. Throughput: 0: 27909.8. Samples: 233441280. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:02:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:02:15,230][98493] Updated weights for policy 0, policy_version 455912 (0.0007)
+[2023-07-06 13:02:17,533][98493] Updated weights for policy 0, policy_version 455975 (0.0007)
+[2023-07-06 13:02:18,120][98493] Updated weights for policy 0, policy_version 456048 (0.0008)
+[2023-07-06 13:02:19,497][98493] Updated weights for policy 0, policy_version 456104 (0.0006)
+[2023-07-06 13:02:19,764][98243] Fps is (10 sec: 117965.4, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 934150144. Throughput: 0: 27773.2. Samples: 233606144. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:02:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:02:19,925][98493] Updated weights for policy 0, policy_version 456148 (0.0008)
+[2023-07-06 13:02:22,320][98493] Updated weights for policy 0, policy_version 456208 (0.0007)
+[2023-07-06 13:02:22,854][98493] Updated weights for policy 0, policy_version 456265 (0.0007)
+[2023-07-06 13:02:23,295][98493] Updated weights for policy 0, policy_version 456318 (0.0007)
+[2023-07-06 13:02:24,254][98493] Updated weights for policy 0, policy_version 456368 (0.0007)
+[2023-07-06 13:02:24,747][98493] Updated weights for policy 0, policy_version 456422 (0.0007)
+[2023-07-06 13:02:24,764][98243] Fps is (10 sec: 114687.6, 60 sec: 112503.5, 300 sec: 111744.4). Total num frames: 934739968. Throughput: 0: 27966.5. Samples: 233693696. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:02:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:02:24,924][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000456448_934805504.pth...
+[2023-07-06 13:02:24,983][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000443392_908066816.pth
+[2023-07-06 13:02:24,987][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000456448_934805504.pth
+[2023-07-06 13:02:27,111][98493] Updated weights for policy 0, policy_version 456480 (0.0008)
+[2023-07-06 13:02:27,671][98493] Updated weights for policy 0, policy_version 456544 (0.0007)
+[2023-07-06 13:02:28,722][98449] Signal inference workers to stop experience collection... (23600 times)
+[2023-07-06 13:02:28,751][98493] InferenceWorker_p0-w0: stopping experience collection (23600 times)
+[2023-07-06 13:02:28,760][98493] Updated weights for policy 0, policy_version 456596 (0.0007)
+[2023-07-06 13:02:28,815][98449] Signal inference workers to resume experience collection... (23600 times)
+[2023-07-06 13:02:28,815][98493] InferenceWorker_p0-w0: resuming experience collection (23600 times)
+[2023-07-06 13:02:29,419][98493] Updated weights for policy 0, policy_version 456672 (0.0007)
+[2023-07-06 13:02:29,764][98243] Fps is (10 sec: 117963.9, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 935329792. Throughput: 0: 27807.2. Samples: 233858048. Policy #0 lag: (min: 44.0, avg: 151.8, max: 300.0)
+[2023-07-06 13:02:29,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:02:31,718][98493] Updated weights for policy 0, policy_version 456727 (0.0007)
+[2023-07-06 13:02:32,136][98493] Updated weights for policy 0, policy_version 456771 (0.0007)
+[2023-07-06 13:02:32,679][98493] Updated weights for policy 0, policy_version 456832 (0.0007)
+[2023-07-06 13:02:34,099][98493] Updated weights for policy 0, policy_version 456898 (0.0007)
+[2023-07-06 13:02:34,600][98493] Updated weights for policy 0, policy_version 456960 (0.0007)
+[2023-07-06 13:02:34,764][98243] Fps is (10 sec: 111410.0, 60 sec: 113595.8, 300 sec: 111522.2). Total num frames: 935854080. Throughput: 0: 27659.3. Samples: 234015232. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:02:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:02:36,655][98493] Updated weights for policy 0, policy_version 457024 (0.0006)
+[2023-07-06 13:02:37,268][98493] Updated weights for policy 0, policy_version 457080 (0.0008)
+[2023-07-06 13:02:38,492][98493] Updated weights for policy 0, policy_version 457124 (0.0007)
+[2023-07-06 13:02:39,011][98493] Updated weights for policy 0, policy_version 457184 (0.0009)
+[2023-07-06 13:02:39,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111957.1, 300 sec: 111522.3). Total num frames: 936378368. Throughput: 0: 27693.7. Samples: 234102272. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:02:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:02:41,019][98493] Updated weights for policy 0, policy_version 457237 (0.0007)
+[2023-07-06 13:02:41,524][98493] Updated weights for policy 0, policy_version 457282 (0.0007)
+[2023-07-06 13:02:42,889][98493] Updated weights for policy 0, policy_version 457348 (0.0007)
+[2023-07-06 13:02:43,489][98493] Updated weights for policy 0, policy_version 457418 (0.0007)
+[2023-07-06 13:02:43,890][98493] Updated weights for policy 0, policy_version 457468 (0.0007)
+[2023-07-06 13:02:44,764][98243] Fps is (10 sec: 104859.2, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 936902656. Throughput: 0: 27670.8. Samples: 234269184. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:02:44,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:02:46,095][98493] Updated weights for policy 0, policy_version 457529 (0.0007)
+[2023-07-06 13:02:46,246][98449] Signal inference workers to stop experience collection... (23650 times)
+[2023-07-06 13:02:46,258][98493] InferenceWorker_p0-w0: stopping experience collection (23650 times)
+[2023-07-06 13:02:46,334][98449] Signal inference workers to resume experience collection... (23650 times)
+[2023-07-06 13:02:46,334][98493] InferenceWorker_p0-w0: resuming experience collection (23650 times)
+[2023-07-06 13:02:46,554][98493] Updated weights for policy 0, policy_version 457571 (0.0007)
+[2023-07-06 13:02:47,694][98493] Updated weights for policy 0, policy_version 457632 (0.0006)
+[2023-07-06 13:02:48,240][98493] Updated weights for policy 0, policy_version 457696 (0.0007)
+[2023-07-06 13:02:49,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109772.8, 300 sec: 111522.3). Total num frames: 937426944. Throughput: 0: 27727.6. Samples: 234438144. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:02:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:02:50,798][98493] Updated weights for policy 0, policy_version 457744 (0.0006)
+[2023-07-06 13:02:51,369][98493] Updated weights for policy 0, policy_version 457808 (0.0007)
+[2023-07-06 13:02:51,766][98493] Updated weights for policy 0, policy_version 457850 (0.0007)
+[2023-07-06 13:02:52,526][98493] Updated weights for policy 0, policy_version 457922 (0.0010)
+[2023-07-06 13:02:53,028][98493] Updated weights for policy 0, policy_version 457984 (0.0007)
+[2023-07-06 13:02:54,764][98243] Fps is (10 sec: 104857.3, 60 sec: 109227.1, 300 sec: 111522.3). Total num frames: 937951232. Throughput: 0: 27591.1. Samples: 234519040. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:02:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:02:55,882][98493] Updated weights for policy 0, policy_version 458048 (0.0007)
+[2023-07-06 13:02:56,401][98493] Updated weights for policy 0, policy_version 458106 (0.0007)
+[2023-07-06 13:02:57,159][98493] Updated weights for policy 0, policy_version 458160 (0.0008)
+[2023-07-06 13:02:57,730][98493] Updated weights for policy 0, policy_version 458224 (0.0008)
+[2023-07-06 13:02:59,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109226.6, 300 sec: 111300.1). Total num frames: 938475520. Throughput: 0: 27648.0. Samples: 234685440. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:02:59,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:03:00,458][98493] Updated weights for policy 0, policy_version 458272 (0.0007)
+[2023-07-06 13:03:00,986][98493] Updated weights for policy 0, policy_version 458323 (0.0007)
+[2023-07-06 13:03:01,554][98493] Updated weights for policy 0, policy_version 458371 (0.0007)
+[2023-07-06 13:03:02,057][98493] Updated weights for policy 0, policy_version 458432 (0.0006)
+[2023-07-06 13:03:02,239][98449] Signal inference workers to stop experience collection... (23700 times)
+[2023-07-06 13:03:02,269][98493] InferenceWorker_p0-w0: stopping experience collection (23700 times)
+[2023-07-06 13:03:02,322][98449] Signal inference workers to resume experience collection... (23700 times)
+[2023-07-06 13:03:02,327][98493] InferenceWorker_p0-w0: resuming experience collection (23700 times)
+[2023-07-06 13:03:02,580][98493] Updated weights for policy 0, policy_version 458492 (0.0007)
+[2023-07-06 13:03:04,764][98243] Fps is (10 sec: 104856.7, 60 sec: 109226.5, 300 sec: 110966.9). Total num frames: 938999808. Throughput: 0: 27830.0. Samples: 234858496. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:03:05,262][98493] Updated weights for policy 0, policy_version 458535 (0.0006)
+[2023-07-06 13:03:05,841][98493] Updated weights for policy 0, policy_version 458594 (0.0006)
+[2023-07-06 13:03:06,379][98493] Updated weights for policy 0, policy_version 458656 (0.0020)
+[2023-07-06 13:03:07,034][98493] Updated weights for policy 0, policy_version 458724 (0.0008)
+[2023-07-06 13:03:09,764][98243] Fps is (10 sec: 108135.4, 60 sec: 109773.0, 300 sec: 110744.7). Total num frames: 939556864. Throughput: 0: 27579.8. Samples: 234934784. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:09,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:03:09,821][98493] Updated weights for policy 0, policy_version 458776 (0.0006)
+[2023-07-06 13:03:10,443][98493] Updated weights for policy 0, policy_version 458848 (0.0008)
+[2023-07-06 13:03:11,000][98493] Updated weights for policy 0, policy_version 458896 (0.0007)
+[2023-07-06 13:03:11,631][98493] Updated weights for policy 0, policy_version 458965 (0.0007)
+[2023-07-06 13:03:14,580][98493] Updated weights for policy 0, policy_version 459031 (0.0007)
+[2023-07-06 13:03:14,764][98243] Fps is (10 sec: 114688.4, 60 sec: 109226.5, 300 sec: 110966.8). Total num frames: 940146688. Throughput: 0: 27682.1. Samples: 235103744. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:03:15,128][98493] Updated weights for policy 0, policy_version 459089 (0.0008)
+[2023-07-06 13:03:15,498][98493] Updated weights for policy 0, policy_version 459136 (0.0006)
+[2023-07-06 13:03:16,314][98493] Updated weights for policy 0, policy_version 459200 (0.0008)
+[2023-07-06 13:03:16,808][98493] Updated weights for policy 0, policy_version 459256 (0.0007)
+[2023-07-06 13:03:19,311][98493] Updated weights for policy 0, policy_version 459301 (0.0007)
+[2023-07-06 13:03:19,694][98449] Signal inference workers to stop experience collection... (23750 times)
+[2023-07-06 13:03:19,733][98493] InferenceWorker_p0-w0: stopping experience collection (23750 times)
+[2023-07-06 13:03:19,764][98243] Fps is (10 sec: 117964.2, 60 sec: 109772.8, 300 sec: 110966.9). Total num frames: 940736512. Throughput: 0: 27830.1. Samples: 235267584. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:19,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:03:19,801][98449] Signal inference workers to resume experience collection... (23750 times)
+[2023-07-06 13:03:19,801][98493] InferenceWorker_p0-w0: resuming experience collection (23750 times)
+[2023-07-06 13:03:19,883][98493] Updated weights for policy 0, policy_version 459363 (0.0008)
+[2023-07-06 13:03:20,835][98493] Updated weights for policy 0, policy_version 459424 (0.0006)
+[2023-07-06 13:03:21,466][98493] Updated weights for policy 0, policy_version 459490 (0.0007)
+[2023-07-06 13:03:23,628][98493] Updated weights for policy 0, policy_version 459536 (0.0007)
+[2023-07-06 13:03:24,368][98493] Updated weights for policy 0, policy_version 459588 (0.0008)
+[2023-07-06 13:03:24,764][98243] Fps is (10 sec: 117965.6, 60 sec: 109772.8, 300 sec: 110966.9). Total num frames: 941326336. Throughput: 0: 27727.7. Samples: 235350016. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:03:25,460][98493] Updated weights for policy 0, policy_version 459652 (0.0007)
+[2023-07-06 13:03:26,026][98493] Updated weights for policy 0, policy_version 459716 (0.0008)
+[2023-07-06 13:03:26,472][98493] Updated weights for policy 0, policy_version 459769 (0.0006)
+[2023-07-06 13:03:28,640][98493] Updated weights for policy 0, policy_version 459812 (0.0007)
+[2023-07-06 13:03:29,150][98493] Updated weights for policy 0, policy_version 459844 (0.0006)
+[2023-07-06 13:03:29,602][98493] Updated weights for policy 0, policy_version 459899 (0.0006)
+[2023-07-06 13:03:29,764][98243] Fps is (10 sec: 114685.4, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 941883392. Throughput: 0: 27761.6. Samples: 235518464. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:03:30,583][98493] Updated weights for policy 0, policy_version 459961 (0.0009)
+[2023-07-06 13:03:31,100][98493] Updated weights for policy 0, policy_version 460026 (0.0008)
+[2023-07-06 13:03:33,332][98493] Updated weights for policy 0, policy_version 460067 (0.0007)
+[2023-07-06 13:03:34,077][98493] Updated weights for policy 0, policy_version 460134 (0.0007)
+[2023-07-06 13:03:34,764][98243] Fps is (10 sec: 108134.5, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 942407680. Throughput: 0: 27716.3. Samples: 235685376. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:34,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:03:34,950][98493] Updated weights for policy 0, policy_version 460179 (0.0007)
+[2023-07-06 13:03:35,533][98493] Updated weights for policy 0, policy_version 460245 (0.0007)
+[2023-07-06 13:03:37,728][98493] Updated weights for policy 0, policy_version 460295 (0.0006)
+[2023-07-06 13:03:37,961][98449] Signal inference workers to stop experience collection... (23800 times)
+[2023-07-06 13:03:38,000][98493] InferenceWorker_p0-w0: stopping experience collection (23800 times)
+[2023-07-06 13:03:38,049][98449] Signal inference workers to resume experience collection... (23800 times)
+[2023-07-06 13:03:38,050][98493] InferenceWorker_p0-w0: resuming experience collection (23800 times)
+[2023-07-06 13:03:38,191][98493] Updated weights for policy 0, policy_version 460352 (0.0007)
+[2023-07-06 13:03:38,926][98493] Updated weights for policy 0, policy_version 460406 (0.0008)
+[2023-07-06 13:03:39,764][98243] Fps is (10 sec: 111412.1, 60 sec: 110318.7, 300 sec: 111300.1). Total num frames: 942997504. Throughput: 0: 27830.0. Samples: 235771392. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:03:39,766][98493] Updated weights for policy 0, policy_version 460451 (0.0007)
+[2023-07-06 13:03:40,179][98493] Updated weights for policy 0, policy_version 460500 (0.0006)
+[2023-07-06 13:03:42,526][98493] Updated weights for policy 0, policy_version 460563 (0.0008)
+[2023-07-06 13:03:43,182][98493] Updated weights for policy 0, policy_version 460609 (0.0007)
+[2023-07-06 13:03:43,623][98493] Updated weights for policy 0, policy_version 460662 (0.0007)
+[2023-07-06 13:03:44,138][98493] Updated weights for policy 0, policy_version 460695 (0.0007)
+[2023-07-06 13:03:44,730][98493] Updated weights for policy 0, policy_version 460768 (0.0008)
+[2023-07-06 13:03:44,764][98243] Fps is (10 sec: 124519.0, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 943652864. Throughput: 0: 27818.7. Samples: 235937280. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:44,764][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:03:47,223][98493] Updated weights for policy 0, policy_version 460816 (0.0007)
+[2023-07-06 13:03:48,149][98493] Updated weights for policy 0, policy_version 460880 (0.0007)
+[2023-07-06 13:03:48,688][98493] Updated weights for policy 0, policy_version 460937 (0.0007)
+[2023-07-06 13:03:49,255][98493] Updated weights for policy 0, policy_version 460995 (0.0007)
+[2023-07-06 13:03:49,726][98493] Updated weights for policy 0, policy_version 461051 (0.0023)
+[2023-07-06 13:03:49,764][98243] Fps is (10 sec: 124521.0, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 944242688. Throughput: 0: 27557.1. Samples: 236098560. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:49,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:03:52,401][98493] Updated weights for policy 0, policy_version 461113 (0.0007)
+[2023-07-06 13:03:52,951][98493] Updated weights for policy 0, policy_version 461156 (0.0007)
+[2023-07-06 13:03:53,534][98493] Updated weights for policy 0, policy_version 461220 (0.0008)
+[2023-07-06 13:03:54,037][98493] Updated weights for policy 0, policy_version 461274 (0.0007)
+[2023-07-06 13:03:54,128][98449] Signal inference workers to stop experience collection... (23850 times)
+[2023-07-06 13:03:54,159][98493] InferenceWorker_p0-w0: stopping experience collection (23850 times)
+[2023-07-06 13:03:54,217][98449] Signal inference workers to resume experience collection... (23850 times)
+[2023-07-06 13:03:54,217][98493] InferenceWorker_p0-w0: resuming experience collection (23850 times)
+[2023-07-06 13:03:54,365][98493] Updated weights for policy 0, policy_version 461312 (0.0007)
+[2023-07-06 13:03:54,764][98243] Fps is (10 sec: 111410.4, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 944766976. Throughput: 0: 27921.0. Samples: 236191232. Policy #0 lag: (min: 15.0, avg: 89.7, max: 271.0)
+[2023-07-06 13:03:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:03:57,007][98493] Updated weights for policy 0, policy_version 461360 (0.0007)
+[2023-07-06 13:03:57,793][98493] Updated weights for policy 0, policy_version 461416 (0.0007)
+[2023-07-06 13:03:58,254][98493] Updated weights for policy 0, policy_version 461472 (0.0007)
+[2023-07-06 13:03:58,760][98493] Updated weights for policy 0, policy_version 461525 (0.0007)
+[2023-07-06 13:03:59,764][98243] Fps is (10 sec: 104857.0, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 945291264. Throughput: 0: 27784.6. Samples: 236354048. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:03:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:04:01,361][98493] Updated weights for policy 0, policy_version 461574 (0.0007)
+[2023-07-06 13:04:02,338][98493] Updated weights for policy 0, policy_version 461635 (0.0006)
+[2023-07-06 13:04:02,922][98493] Updated weights for policy 0, policy_version 461698 (0.0008)
+[2023-07-06 13:04:03,460][98493] Updated weights for policy 0, policy_version 461763 (0.0007)
+[2023-07-06 13:04:04,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 945815552. Throughput: 0: 27784.5. Samples: 236517888. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:04:06,171][98493] Updated weights for policy 0, policy_version 461825 (0.0007)
+[2023-07-06 13:04:06,621][98493] Updated weights for policy 0, policy_version 461884 (0.0006)
+[2023-07-06 13:04:07,613][98493] Updated weights for policy 0, policy_version 461943 (0.0008)
+[2023-07-06 13:04:08,180][98493] Updated weights for policy 0, policy_version 462002 (0.0007)
+[2023-07-06 13:04:08,672][98493] Updated weights for policy 0, policy_version 462064 (0.0008)
+[2023-07-06 13:04:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 113049.5, 300 sec: 111522.4). Total num frames: 946339840. Throughput: 0: 27841.4. Samples: 236602880. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:04:11,484][98493] Updated weights for policy 0, policy_version 462128 (0.0007)
+[2023-07-06 13:04:12,121][98493] Updated weights for policy 0, policy_version 462192 (0.0006)
+[2023-07-06 13:04:12,328][98449] Signal inference workers to stop experience collection... (23900 times)
+[2023-07-06 13:04:12,368][98493] InferenceWorker_p0-w0: stopping experience collection (23900 times)
+[2023-07-06 13:04:12,425][98449] Signal inference workers to resume experience collection... (23900 times)
+[2023-07-06 13:04:12,426][98493] InferenceWorker_p0-w0: resuming experience collection (23900 times)
+[2023-07-06 13:04:12,650][98493] Updated weights for policy 0, policy_version 462242 (0.0008)
+[2023-07-06 13:04:12,977][98493] Updated weights for policy 0, policy_version 462281 (0.0007)
+[2023-07-06 13:04:13,394][98493] Updated weights for policy 0, policy_version 462327 (0.0007)
+[2023-07-06 13:04:14,764][98243] Fps is (10 sec: 104856.6, 60 sec: 111957.3, 300 sec: 111300.2). Total num frames: 946864128. Throughput: 0: 27693.6. Samples: 236764672. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:04:16,037][98493] Updated weights for policy 0, policy_version 462372 (0.0007)
+[2023-07-06 13:04:16,662][98493] Updated weights for policy 0, policy_version 462406 (0.0006)
+[2023-07-06 13:04:17,118][98493] Updated weights for policy 0, policy_version 462449 (0.0009)
+[2023-07-06 13:04:17,557][98493] Updated weights for policy 0, policy_version 462498 (0.0007)
+[2023-07-06 13:04:18,165][98493] Updated weights for policy 0, policy_version 462576 (0.0007)
+[2023-07-06 13:04:19,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110865.0, 300 sec: 111078.0). Total num frames: 947388416. Throughput: 0: 27841.4. Samples: 236938240. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:04:20,693][98493] Updated weights for policy 0, policy_version 462640 (0.0006)
+[2023-07-06 13:04:21,433][98493] Updated weights for policy 0, policy_version 462688 (0.0007)
+[2023-07-06 13:04:22,056][98493] Updated weights for policy 0, policy_version 462756 (0.0007)
+[2023-07-06 13:04:22,499][98493] Updated weights for policy 0, policy_version 462807 (0.0007)
+[2023-07-06 13:04:24,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109772.7, 300 sec: 111077.9). Total num frames: 947912704. Throughput: 0: 27602.6. Samples: 237013504. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:04:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000462848_947912704.pth...
+[2023-07-06 13:04:24,796][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000449856_921305088.pth
+[2023-07-06 13:04:25,528][98493] Updated weights for policy 0, policy_version 462864 (0.0007)
+[2023-07-06 13:04:25,980][98493] Updated weights for policy 0, policy_version 462912 (0.0008)
+[2023-07-06 13:04:26,520][98493] Updated weights for policy 0, policy_version 462970 (0.0008)
+[2023-07-06 13:04:26,972][98493] Updated weights for policy 0, policy_version 463024 (0.0007)
+[2023-07-06 13:04:27,405][98493] Updated weights for policy 0, policy_version 463072 (0.0007)
+[2023-07-06 13:04:29,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109227.0, 300 sec: 111078.1). Total num frames: 948436992. Throughput: 0: 27704.8. Samples: 237184000. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:29,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:04:30,152][98449] Signal inference workers to stop experience collection... (23950 times)
+[2023-07-06 13:04:30,187][98493] InferenceWorker_p0-w0: stopping experience collection (23950 times)
+[2023-07-06 13:04:30,243][98449] Signal inference workers to resume experience collection... (23950 times)
+[2023-07-06 13:04:30,243][98493] InferenceWorker_p0-w0: resuming experience collection (23950 times)
+[2023-07-06 13:04:30,245][98493] Updated weights for policy 0, policy_version 463120 (0.0007)
+[2023-07-06 13:04:30,781][98493] Updated weights for policy 0, policy_version 463172 (0.0007)
+[2023-07-06 13:04:31,336][98493] Updated weights for policy 0, policy_version 463235 (0.0008)
+[2023-07-06 13:04:31,890][98493] Updated weights for policy 0, policy_version 463298 (0.0008)
+[2023-07-06 13:04:32,356][98493] Updated weights for policy 0, policy_version 463356 (0.0010)
+[2023-07-06 13:04:34,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109226.6, 300 sec: 110967.0). Total num frames: 948961280. Throughput: 0: 27932.4. Samples: 237355520. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:34,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:04:35,506][98493] Updated weights for policy 0, policy_version 463424 (0.0007)
+[2023-07-06 13:04:36,003][98493] Updated weights for policy 0, policy_version 463474 (0.0007)
+[2023-07-06 13:04:36,486][98493] Updated weights for policy 0, policy_version 463536 (0.0006)
+[2023-07-06 13:04:36,970][98493] Updated weights for policy 0, policy_version 463591 (0.0007)
+[2023-07-06 13:04:39,764][98243] Fps is (10 sec: 104857.4, 60 sec: 108134.6, 300 sec: 110855.8). Total num frames: 949485568. Throughput: 0: 27557.0. Samples: 237431296. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:04:40,046][98493] Updated weights for policy 0, policy_version 463650 (0.0007)
+[2023-07-06 13:04:40,506][98493] Updated weights for policy 0, policy_version 463703 (0.0007)
+[2023-07-06 13:04:41,054][98493] Updated weights for policy 0, policy_version 463761 (0.0009)
+[2023-07-06 13:04:41,609][98493] Updated weights for policy 0, policy_version 463828 (0.0008)
+[2023-07-06 13:04:44,342][98493] Updated weights for policy 0, policy_version 463873 (0.0007)
+[2023-07-06 13:04:44,764][98243] Fps is (10 sec: 114686.8, 60 sec: 107588.0, 300 sec: 110966.9). Total num frames: 950108160. Throughput: 0: 27750.3. Samples: 237602816. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:04:44,797][98493] Updated weights for policy 0, policy_version 463924 (0.0007)
+[2023-07-06 13:04:45,029][98449] Signal inference workers to stop experience collection... (24000 times)
+[2023-07-06 13:04:45,079][98493] InferenceWorker_p0-w0: stopping experience collection (24000 times)
+[2023-07-06 13:04:45,156][98449] Signal inference workers to resume experience collection... (24000 times)
+[2023-07-06 13:04:45,156][98493] InferenceWorker_p0-w0: resuming experience collection (24000 times)
+[2023-07-06 13:04:45,397][98493] Updated weights for policy 0, policy_version 463992 (0.0008)
+[2023-07-06 13:04:46,014][98493] Updated weights for policy 0, policy_version 464064 (0.0007)
+[2023-07-06 13:04:46,547][98493] Updated weights for policy 0, policy_version 464124 (0.0007)
+[2023-07-06 13:04:49,362][98493] Updated weights for policy 0, policy_version 464176 (0.0007)
+[2023-07-06 13:04:49,764][98243] Fps is (10 sec: 121242.4, 60 sec: 107588.2, 300 sec: 110855.8). Total num frames: 950697984. Throughput: 0: 27818.7. Samples: 237769728. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:49,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:04:49,767][98493] Updated weights for policy 0, policy_version 464212 (0.0007)
+[2023-07-06 13:04:50,237][98493] Updated weights for policy 0, policy_version 464261 (0.0008)
+[2023-07-06 13:04:50,808][98493] Updated weights for policy 0, policy_version 464325 (0.0007)
+[2023-07-06 13:04:51,254][98493] Updated weights for policy 0, policy_version 464382 (0.0007)
+[2023-07-06 13:04:54,147][98493] Updated weights for policy 0, policy_version 464445 (0.0007)
+[2023-07-06 13:04:54,690][98493] Updated weights for policy 0, policy_version 464484 (0.0009)
+[2023-07-06 13:04:54,765][98243] Fps is (10 sec: 117960.6, 60 sec: 108679.7, 300 sec: 110966.7). Total num frames: 951287808. Throughput: 0: 27727.4. Samples: 237850624. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:54,766][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:04:55,169][98493] Updated weights for policy 0, policy_version 464544 (0.0007)
+[2023-07-06 13:04:55,678][98493] Updated weights for policy 0, policy_version 464597 (0.0008)
+[2023-07-06 13:04:55,997][98493] Updated weights for policy 0, policy_version 464636 (0.0006)
+[2023-07-06 13:04:58,744][98493] Updated weights for policy 0, policy_version 464688 (0.0007)
+[2023-07-06 13:04:59,301][98493] Updated weights for policy 0, policy_version 464741 (0.0007)
+[2023-07-06 13:04:59,764][98243] Fps is (10 sec: 117965.3, 60 sec: 109772.9, 300 sec: 110966.9). Total num frames: 951877632. Throughput: 0: 27898.4. Samples: 238020096. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:04:59,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:04:59,803][98493] Updated weights for policy 0, policy_version 464800 (0.0007)
+[2023-07-06 13:05:00,128][98449] Signal inference workers to stop experience collection... (24050 times)
+[2023-07-06 13:05:00,182][98493] InferenceWorker_p0-w0: stopping experience collection (24050 times)
+[2023-07-06 13:05:00,251][98449] Signal inference workers to resume experience collection... (24050 times)
+[2023-07-06 13:05:00,251][98493] InferenceWorker_p0-w0: resuming experience collection (24050 times)
+[2023-07-06 13:05:00,334][98493] Updated weights for policy 0, policy_version 464852 (0.0008)
+[2023-07-06 13:05:03,292][98493] Updated weights for policy 0, policy_version 464899 (0.0006)
+[2023-07-06 13:05:03,872][98493] Updated weights for policy 0, policy_version 464962 (0.0007)
+[2023-07-06 13:05:04,451][98493] Updated weights for policy 0, policy_version 465029 (0.0007)
+[2023-07-06 13:05:04,764][98243] Fps is (10 sec: 114693.5, 60 sec: 110318.9, 300 sec: 110855.8). Total num frames: 952434688. Throughput: 0: 27545.6. Samples: 238177792. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:05:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:05:05,045][98493] Updated weights for policy 0, policy_version 465097 (0.0007)
+[2023-07-06 13:05:05,455][98493] Updated weights for policy 0, policy_version 465146 (0.0007)
+[2023-07-06 13:05:08,350][98493] Updated weights for policy 0, policy_version 465191 (0.0007)
+[2023-07-06 13:05:08,848][98493] Updated weights for policy 0, policy_version 465248 (0.0008)
+[2023-07-06 13:05:09,340][98493] Updated weights for policy 0, policy_version 465299 (0.0007)
+[2023-07-06 13:05:09,761][98493] Updated weights for policy 0, policy_version 465347 (0.0034)
+[2023-07-06 13:05:09,765][98243] Fps is (10 sec: 114682.7, 60 sec: 111410.5, 300 sec: 111077.8). Total num frames: 953024512. Throughput: 0: 27875.3. Samples: 238267904. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:05:09,766][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:05:10,213][98493] Updated weights for policy 0, policy_version 465404 (0.0006)
+[2023-07-06 13:05:13,006][98493] Updated weights for policy 0, policy_version 465464 (0.0006)
+[2023-07-06 13:05:13,610][98493] Updated weights for policy 0, policy_version 465535 (0.0033)
+[2023-07-06 13:05:14,253][98493] Updated weights for policy 0, policy_version 465603 (0.0007)
+[2023-07-06 13:05:14,764][98243] Fps is (10 sec: 124516.4, 60 sec: 113595.6, 300 sec: 111522.2). Total num frames: 953679872. Throughput: 0: 27727.6. Samples: 238431744. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:05:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:05:17,111][98493] Updated weights for policy 0, policy_version 465666 (0.0009)
+[2023-07-06 13:05:17,360][98449] Signal inference workers to stop experience collection... (24100 times)
+[2023-07-06 13:05:17,393][98493] InferenceWorker_p0-w0: stopping experience collection (24100 times)
+[2023-07-06 13:05:17,446][98449] Signal inference workers to resume experience collection... (24100 times)
+[2023-07-06 13:05:17,446][98493] InferenceWorker_p0-w0: resuming experience collection (24100 times)
+[2023-07-06 13:05:17,906][98493] Updated weights for policy 0, policy_version 465730 (0.0007)
+[2023-07-06 13:05:18,352][98493] Updated weights for policy 0, policy_version 465790 (0.0006)
+[2023-07-06 13:05:18,878][98493] Updated weights for policy 0, policy_version 465826 (0.0007)
+[2023-07-06 13:05:19,433][98493] Updated weights for policy 0, policy_version 465892 (0.0007)
+[2023-07-06 13:05:19,764][98243] Fps is (10 sec: 117969.2, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 954204160. Throughput: 0: 27477.3. Samples: 238592000. Policy #0 lag: (min: 7.0, avg: 74.5, max: 263.0)
+[2023-07-06 13:05:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:05:22,007][98493] Updated weights for policy 0, policy_version 465952 (0.0007)
+[2023-07-06 13:05:22,535][98493] Updated weights for policy 0, policy_version 466000 (0.0007)
+[2023-07-06 13:05:22,946][98493] Updated weights for policy 0, policy_version 466048 (0.0007)
+[2023-07-06 13:05:23,708][98493] Updated weights for policy 0, policy_version 466112 (0.0007)
+[2023-07-06 13:05:24,209][98493] Updated weights for policy 0, policy_version 466170 (0.0008)
+[2023-07-06 13:05:24,764][98243] Fps is (10 sec: 104859.1, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 954728448. Throughput: 0: 27841.4. Samples: 238684160. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:24,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:05:26,843][98493] Updated weights for policy 0, policy_version 466214 (0.0009)
+[2023-07-06 13:05:27,414][98493] Updated weights for policy 0, policy_version 466273 (0.0009)
+[2023-07-06 13:05:28,113][98493] Updated weights for policy 0, policy_version 466327 (0.0007)
+[2023-07-06 13:05:28,646][98493] Updated weights for policy 0, policy_version 466386 (0.0009)
+[2023-07-06 13:05:28,993][98493] Updated weights for policy 0, policy_version 466432 (0.0007)
+[2023-07-06 13:05:29,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 955252736. Throughput: 0: 27659.4. Samples: 238847488. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:05:31,531][98493] Updated weights for policy 0, policy_version 466487 (0.0007)
+[2023-07-06 13:05:32,063][98493] Updated weights for policy 0, policy_version 466532 (0.0007)
+[2023-07-06 13:05:32,663][98493] Updated weights for policy 0, policy_version 466582 (0.0007)
+[2023-07-06 13:05:33,224][98493] Updated weights for policy 0, policy_version 466644 (0.0029)
+[2023-07-06 13:05:33,348][98449] Signal inference workers to stop experience collection... (24150 times)
+[2023-07-06 13:05:33,375][98493] InferenceWorker_p0-w0: stopping experience collection (24150 times)
+[2023-07-06 13:05:33,442][98449] Signal inference workers to resume experience collection... (24150 times)
+[2023-07-06 13:05:33,443][98493] InferenceWorker_p0-w0: resuming experience collection (24150 times)
+[2023-07-06 13:05:33,539][98493] Updated weights for policy 0, policy_version 466685 (0.0007)
+[2023-07-06 13:05:34,764][98243] Fps is (10 sec: 104857.5, 60 sec: 113595.7, 300 sec: 111078.0). Total num frames: 955777024. Throughput: 0: 27727.6. Samples: 239017472. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:34,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:05:36,528][98493] Updated weights for policy 0, policy_version 466761 (0.0007)
+[2023-07-06 13:05:36,999][98493] Updated weights for policy 0, policy_version 466816 (0.0007)
+[2023-07-06 13:05:37,858][98493] Updated weights for policy 0, policy_version 466880 (0.0007)
+[2023-07-06 13:05:38,425][98493] Updated weights for policy 0, policy_version 466944 (0.0007)
+[2023-07-06 13:05:39,764][98243] Fps is (10 sec: 104856.6, 60 sec: 113595.6, 300 sec: 111077.9). Total num frames: 956301312. Throughput: 0: 27762.0. Samples: 239099904. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:05:41,471][98493] Updated weights for policy 0, policy_version 467008 (0.0007)
+[2023-07-06 13:05:41,995][98493] Updated weights for policy 0, policy_version 467060 (0.0007)
+[2023-07-06 13:05:42,544][98493] Updated weights for policy 0, policy_version 467125 (0.0008)
+[2023-07-06 13:05:42,988][98493] Updated weights for policy 0, policy_version 467170 (0.0006)
+[2023-07-06 13:05:44,764][98243] Fps is (10 sec: 104855.8, 60 sec: 111957.2, 300 sec: 111077.9). Total num frames: 956825600. Throughput: 0: 27602.3. Samples: 239262208. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:05:45,734][98493] Updated weights for policy 0, policy_version 467216 (0.0007)
+[2023-07-06 13:05:46,240][98493] Updated weights for policy 0, policy_version 467268 (0.0007)
+[2023-07-06 13:05:46,914][98493] Updated weights for policy 0, policy_version 467329 (0.0007)
+[2023-07-06 13:05:47,350][98493] Updated weights for policy 0, policy_version 467379 (0.0008)
+[2023-07-06 13:05:47,768][98493] Updated weights for policy 0, policy_version 467428 (0.0006)
+[2023-07-06 13:05:49,764][98243] Fps is (10 sec: 104858.3, 60 sec: 110865.0, 300 sec: 110966.9). Total num frames: 957349888. Throughput: 0: 27955.2. Samples: 239435776. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:49,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:05:50,526][98493] Updated weights for policy 0, policy_version 467488 (0.0011)
+[2023-07-06 13:05:50,950][98493] Updated weights for policy 0, policy_version 467536 (0.0007)
+[2023-07-06 13:05:51,150][98449] Signal inference workers to stop experience collection... (24200 times)
+[2023-07-06 13:05:51,192][98493] InferenceWorker_p0-w0: stopping experience collection (24200 times)
+[2023-07-06 13:05:51,239][98449] Signal inference workers to resume experience collection... (24200 times)
+[2023-07-06 13:05:51,239][98493] InferenceWorker_p0-w0: resuming experience collection (24200 times)
+[2023-07-06 13:05:51,462][98493] Updated weights for policy 0, policy_version 467587 (0.0007)
+[2023-07-06 13:05:51,938][98493] Updated weights for policy 0, policy_version 467648 (0.0008)
+[2023-07-06 13:05:52,471][98493] Updated weights for policy 0, policy_version 467707 (0.0007)
+[2023-07-06 13:05:54,765][98243] Fps is (10 sec: 104851.6, 60 sec: 109772.3, 300 sec: 110855.5). Total num frames: 957874176. Throughput: 0: 27647.8. Samples: 239512064. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:05:55,302][98493] Updated weights for policy 0, policy_version 467760 (0.0006)
+[2023-07-06 13:05:55,826][98493] Updated weights for policy 0, policy_version 467811 (0.0007)
+[2023-07-06 13:05:56,324][98493] Updated weights for policy 0, policy_version 467872 (0.0007)
+[2023-07-06 13:05:56,952][98493] Updated weights for policy 0, policy_version 467941 (0.0008)
+[2023-07-06 13:05:59,764][98243] Fps is (10 sec: 108134.7, 60 sec: 109226.5, 300 sec: 110744.7). Total num frames: 958431232. Throughput: 0: 27830.1. Samples: 239684096. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:05:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:05:59,833][98493] Updated weights for policy 0, policy_version 468000 (0.0008)
+[2023-07-06 13:06:00,285][98493] Updated weights for policy 0, policy_version 468048 (0.0007)
+[2023-07-06 13:06:01,025][98493] Updated weights for policy 0, policy_version 468098 (0.0007)
+[2023-07-06 13:06:01,451][98493] Updated weights for policy 0, policy_version 468148 (0.0007)
+[2023-07-06 13:06:02,023][98493] Updated weights for policy 0, policy_version 468218 (0.0008)
+[2023-07-06 13:06:04,567][98493] Updated weights for policy 0, policy_version 468265 (0.0007)
+[2023-07-06 13:06:04,764][98243] Fps is (10 sec: 117973.0, 60 sec: 110318.8, 300 sec: 110744.7). Total num frames: 959053824. Throughput: 0: 28034.8. Samples: 239853568. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:04,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:06:05,117][98493] Updated weights for policy 0, policy_version 468324 (0.0007)
+[2023-07-06 13:06:05,698][98493] Updated weights for policy 0, policy_version 468368 (0.0006)
+[2023-07-06 13:06:06,298][98449] Signal inference workers to stop experience collection... (24250 times)
+[2023-07-06 13:06:06,323][98493] InferenceWorker_p0-w0: stopping experience collection (24250 times)
+[2023-07-06 13:06:06,324][98493] Updated weights for policy 0, policy_version 468437 (0.0007)
+[2023-07-06 13:06:06,389][98449] Signal inference workers to resume experience collection... (24250 times)
+[2023-07-06 13:06:06,389][98493] InferenceWorker_p0-w0: resuming experience collection (24250 times)
+[2023-07-06 13:06:09,084][98493] Updated weights for policy 0, policy_version 468486 (0.0007)
+[2023-07-06 13:06:09,666][98493] Updated weights for policy 0, policy_version 468560 (0.0007)
+[2023-07-06 13:06:09,764][98243] Fps is (10 sec: 117963.4, 60 sec: 109773.3, 300 sec: 110744.7). Total num frames: 959610880. Throughput: 0: 27773.1. Samples: 239933952. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:09,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:06:10,344][98493] Updated weights for policy 0, policy_version 468609 (0.0006)
+[2023-07-06 13:06:10,813][98493] Updated weights for policy 0, policy_version 468661 (0.0007)
+[2023-07-06 13:06:11,369][98493] Updated weights for policy 0, policy_version 468730 (0.0007)
+[2023-07-06 13:06:14,207][98493] Updated weights for policy 0, policy_version 468786 (0.0007)
+[2023-07-06 13:06:14,680][98493] Updated weights for policy 0, policy_version 468839 (0.0032)
+[2023-07-06 13:06:14,764][98243] Fps is (10 sec: 114688.9, 60 sec: 108680.8, 300 sec: 110966.9). Total num frames: 960200704. Throughput: 0: 27978.0. Samples: 240106496. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:14,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:06:15,090][98493] Updated weights for policy 0, policy_version 468873 (0.0007)
+[2023-07-06 13:06:15,512][98493] Updated weights for policy 0, policy_version 468920 (0.0007)
+[2023-07-06 13:06:15,985][98493] Updated weights for policy 0, policy_version 468976 (0.0007)
+[2023-07-06 13:06:18,597][98493] Updated weights for policy 0, policy_version 469024 (0.0007)
+[2023-07-06 13:06:19,162][98493] Updated weights for policy 0, policy_version 469088 (0.0008)
+[2023-07-06 13:06:19,764][98243] Fps is (10 sec: 114688.1, 60 sec: 109226.5, 300 sec: 111077.9). Total num frames: 960757760. Throughput: 0: 27841.4. Samples: 240270336. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:06:19,772][98493] Updated weights for policy 0, policy_version 469125 (0.0007)
+[2023-07-06 13:06:20,211][98493] Updated weights for policy 0, policy_version 469175 (0.0008)
+[2023-07-06 13:06:20,700][98493] Updated weights for policy 0, policy_version 469232 (0.0007)
+[2023-07-06 13:06:23,406][98493] Updated weights for policy 0, policy_version 469286 (0.0007)
+[2023-07-06 13:06:23,960][98449] Signal inference workers to stop experience collection... (24300 times)
+[2023-07-06 13:06:23,990][98493] InferenceWorker_p0-w0: stopping experience collection (24300 times)
+[2023-07-06 13:06:23,995][98493] Updated weights for policy 0, policy_version 469351 (0.0008)
+[2023-07-06 13:06:24,035][98449] Signal inference workers to resume experience collection... (24300 times)
+[2023-07-06 13:06:24,036][98493] InferenceWorker_p0-w0: resuming experience collection (24300 times)
+[2023-07-06 13:06:24,629][98493] Updated weights for policy 0, policy_version 469435 (0.0029)
+[2023-07-06 13:06:24,764][98243] Fps is (10 sec: 121241.3, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 961413120. Throughput: 0: 27978.0. Samples: 240358912. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:24,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:06:25,027][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000469472_961478656.pth...
+[2023-07-06 13:06:25,028][98493] Updated weights for policy 0, policy_version 469472 (0.0008)
+[2023-07-06 13:06:25,077][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000456448_934805504.pth
+[2023-07-06 13:06:28,135][98493] Updated weights for policy 0, policy_version 469536 (0.0007)
+[2023-07-06 13:06:28,649][98493] Updated weights for policy 0, policy_version 469589 (0.0006)
+[2023-07-06 13:06:29,079][98493] Updated weights for policy 0, policy_version 469638 (0.0007)
+[2023-07-06 13:06:29,675][98493] Updated weights for policy 0, policy_version 469703 (0.0030)
+[2023-07-06 13:06:29,764][98243] Fps is (10 sec: 121242.9, 60 sec: 111957.3, 300 sec: 111633.4). Total num frames: 961970176. Throughput: 0: 27966.7. Samples: 240520704. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:29,784][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:06:30,117][98493] Updated weights for policy 0, policy_version 469760 (0.0007)
+[2023-07-06 13:06:32,982][98493] Updated weights for policy 0, policy_version 469815 (0.0007)
+[2023-07-06 13:06:33,518][98493] Updated weights for policy 0, policy_version 469874 (0.0009)
+[2023-07-06 13:06:34,059][98493] Updated weights for policy 0, policy_version 469942 (0.0007)
+[2023-07-06 13:06:34,687][98493] Updated weights for policy 0, policy_version 469986 (0.0007)
+[2023-07-06 13:06:34,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113049.6, 300 sec: 111522.2). Total num frames: 962560000. Throughput: 0: 27648.0. Samples: 240679936. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:34,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:06:37,710][98493] Updated weights for policy 0, policy_version 470040 (0.0007)
+[2023-07-06 13:06:38,138][98493] Updated weights for policy 0, policy_version 470083 (0.0006)
+[2023-07-06 13:06:38,638][98493] Updated weights for policy 0, policy_version 470144 (0.0007)
+[2023-07-06 13:06:39,086][98493] Updated weights for policy 0, policy_version 470192 (0.0007)
+[2023-07-06 13:06:39,255][98449] Signal inference workers to stop experience collection... (24350 times)
+[2023-07-06 13:06:39,307][98493] InferenceWorker_p0-w0: stopping experience collection (24350 times)
+[2023-07-06 13:06:39,359][98449] Signal inference workers to resume experience collection... (24350 times)
+[2023-07-06 13:06:39,359][98493] InferenceWorker_p0-w0: resuming experience collection (24350 times)
+[2023-07-06 13:06:39,590][98493] Updated weights for policy 0, policy_version 470242 (0.0008)
+[2023-07-06 13:06:39,764][98243] Fps is (10 sec: 111410.1, 60 sec: 113049.6, 300 sec: 111300.1). Total num frames: 963084288. Throughput: 0: 28023.9. Samples: 240773120. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:06:42,414][98493] Updated weights for policy 0, policy_version 470293 (0.0006)
+[2023-07-06 13:06:42,975][98493] Updated weights for policy 0, policy_version 470359 (0.0006)
+[2023-07-06 13:06:43,375][98493] Updated weights for policy 0, policy_version 470406 (0.0007)
+[2023-07-06 13:06:43,935][98493] Updated weights for policy 0, policy_version 470467 (0.0008)
+[2023-07-06 13:06:44,764][98243] Fps is (10 sec: 108132.5, 60 sec: 113595.7, 300 sec: 111189.0). Total num frames: 963641344. Throughput: 0: 27761.7. Samples: 240933376. Policy #0 lag: (min: 15.0, avg: 87.2, max: 271.0)
+[2023-07-06 13:06:44,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:06:47,036][98493] Updated weights for policy 0, policy_version 470529 (0.0008)
+[2023-07-06 13:06:47,529][98493] Updated weights for policy 0, policy_version 470585 (0.0008)
+[2023-07-06 13:06:48,213][98493] Updated weights for policy 0, policy_version 470665 (0.0007)
+[2023-07-06 13:06:48,767][98493] Updated weights for policy 0, policy_version 470727 (0.0008)
+[2023-07-06 13:06:49,193][98493] Updated weights for policy 0, policy_version 470779 (0.0007)
+[2023-07-06 13:06:49,764][98243] Fps is (10 sec: 108135.5, 60 sec: 113595.8, 300 sec: 111078.1). Total num frames: 964165632. Throughput: 0: 27579.8. Samples: 241094656. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:06:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:06:52,214][98493] Updated weights for policy 0, policy_version 470837 (0.0007)
+[2023-07-06 13:06:52,760][98493] Updated weights for policy 0, policy_version 470898 (0.0007)
+[2023-07-06 13:06:53,348][98493] Updated weights for policy 0, policy_version 470969 (0.0007)
+[2023-07-06 13:06:53,822][98493] Updated weights for policy 0, policy_version 471024 (0.0007)
+[2023-07-06 13:06:54,764][98243] Fps is (10 sec: 104859.8, 60 sec: 113597.2, 300 sec: 111078.0). Total num frames: 964689920. Throughput: 0: 27750.5. Samples: 241182720. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:06:54,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:06:56,736][98449] Signal inference workers to stop experience collection... (24400 times)
+[2023-07-06 13:06:56,779][98493] InferenceWorker_p0-w0: stopping experience collection (24400 times)
+[2023-07-06 13:06:56,787][98493] Updated weights for policy 0, policy_version 471079 (0.0008)
+[2023-07-06 13:06:56,827][98449] Signal inference workers to resume experience collection... (24400 times)
+[2023-07-06 13:06:56,827][98493] InferenceWorker_p0-w0: resuming experience collection (24400 times)
+[2023-07-06 13:06:57,325][98493] Updated weights for policy 0, policy_version 471142 (0.0007)
+[2023-07-06 13:06:57,854][98493] Updated weights for policy 0, policy_version 471203 (0.0007)
+[2023-07-06 13:06:58,457][98493] Updated weights for policy 0, policy_version 471280 (0.0007)
+[2023-07-06 13:06:59,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113049.5, 300 sec: 111078.0). Total num frames: 965214208. Throughput: 0: 27409.0. Samples: 241339904. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:06:59,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:07:01,222][98493] Updated weights for policy 0, policy_version 471333 (0.0007)
+[2023-07-06 13:07:01,918][98493] Updated weights for policy 0, policy_version 471362 (0.0006)
+[2023-07-06 13:07:02,351][98493] Updated weights for policy 0, policy_version 471421 (0.0008)
+[2023-07-06 13:07:02,967][98493] Updated weights for policy 0, policy_version 471481 (0.0007)
+[2023-07-06 13:07:03,477][98493] Updated weights for policy 0, policy_version 471545 (0.0007)
+[2023-07-06 13:07:04,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 965738496. Throughput: 0: 27602.5. Samples: 241512448. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:07:05,798][98493] Updated weights for policy 0, policy_version 471591 (0.0007)
+[2023-07-06 13:07:06,923][98493] Updated weights for policy 0, policy_version 471648 (0.0008)
+[2023-07-06 13:07:07,474][98493] Updated weights for policy 0, policy_version 471700 (0.0007)
+[2023-07-06 13:07:07,975][98493] Updated weights for policy 0, policy_version 471760 (0.0007)
+[2023-07-06 13:07:09,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110865.2, 300 sec: 110744.7). Total num frames: 966262784. Throughput: 0: 27488.7. Samples: 241595904. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:09,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:07:10,106][98493] Updated weights for policy 0, policy_version 471813 (0.0006)
+[2023-07-06 13:07:10,547][98493] Updated weights for policy 0, policy_version 471867 (0.0007)
+[2023-07-06 13:07:11,828][98493] Updated weights for policy 0, policy_version 471927 (0.0007)
+[2023-07-06 13:07:12,331][98449] Signal inference workers to stop experience collection... (24450 times)
+[2023-07-06 13:07:12,375][98493] InferenceWorker_p0-w0: stopping experience collection (24450 times)
+[2023-07-06 13:07:12,413][98449] Signal inference workers to resume experience collection... (24450 times)
+[2023-07-06 13:07:12,413][98493] InferenceWorker_p0-w0: resuming experience collection (24450 times)
+[2023-07-06 13:07:12,414][98493] Updated weights for policy 0, policy_version 472000 (0.0007)
+[2023-07-06 13:07:12,911][98493] Updated weights for policy 0, policy_version 472060 (0.0007)
+[2023-07-06 13:07:14,764][98243] Fps is (10 sec: 104858.5, 60 sec: 109772.8, 300 sec: 110633.7). Total num frames: 966787072. Throughput: 0: 27488.7. Samples: 241757696. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:07:15,316][98493] Updated weights for policy 0, policy_version 472112 (0.0006)
+[2023-07-06 13:07:16,474][98493] Updated weights for policy 0, policy_version 472162 (0.0007)
+[2023-07-06 13:07:16,956][98493] Updated weights for policy 0, policy_version 472215 (0.0006)
+[2023-07-06 13:07:17,602][98493] Updated weights for policy 0, policy_version 472292 (0.0007)
+[2023-07-06 13:07:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 109226.9, 300 sec: 110411.5). Total num frames: 967311360. Throughput: 0: 27784.5. Samples: 241930240. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:19,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:07:19,804][98493] Updated weights for policy 0, policy_version 472336 (0.0006)
+[2023-07-06 13:07:20,166][98493] Updated weights for policy 0, policy_version 472378 (0.0008)
+[2023-07-06 13:07:21,059][98493] Updated weights for policy 0, policy_version 472432 (0.0008)
+[2023-07-06 13:07:21,725][98493] Updated weights for policy 0, policy_version 472496 (0.0007)
+[2023-07-06 13:07:22,252][98493] Updated weights for policy 0, policy_version 472551 (0.0007)
+[2023-07-06 13:07:24,618][98493] Updated weights for policy 0, policy_version 472608 (0.0007)
+[2023-07-06 13:07:24,764][98243] Fps is (10 sec: 114688.9, 60 sec: 108680.7, 300 sec: 110522.6). Total num frames: 967933952. Throughput: 0: 27386.4. Samples: 242005504. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:24,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:07:24,891][98493] Updated weights for policy 0, policy_version 472640 (0.0006)
+[2023-07-06 13:07:25,722][98493] Updated weights for policy 0, policy_version 472696 (0.0007)
+[2023-07-06 13:07:26,340][98493] Updated weights for policy 0, policy_version 472743 (0.0007)
+[2023-07-06 13:07:26,780][98493] Updated weights for policy 0, policy_version 472788 (0.0007)
+[2023-07-06 13:07:29,247][98493] Updated weights for policy 0, policy_version 472839 (0.0007)
+[2023-07-06 13:07:29,668][98493] Updated weights for policy 0, policy_version 472891 (0.0008)
+[2023-07-06 13:07:29,764][98243] Fps is (10 sec: 117964.7, 60 sec: 108680.5, 300 sec: 110633.7). Total num frames: 968491008. Throughput: 0: 27693.6. Samples: 242179584. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:07:30,487][98493] Updated weights for policy 0, policy_version 472945 (0.0008)
+[2023-07-06 13:07:30,706][98449] Signal inference workers to stop experience collection... (24500 times)
+[2023-07-06 13:07:30,735][98493] InferenceWorker_p0-w0: stopping experience collection (24500 times)
+[2023-07-06 13:07:30,793][98449] Signal inference workers to resume experience collection... (24500 times)
+[2023-07-06 13:07:30,794][98493] InferenceWorker_p0-w0: resuming experience collection (24500 times)
+[2023-07-06 13:07:30,872][98493] Updated weights for policy 0, policy_version 472977 (0.0007)
+[2023-07-06 13:07:31,446][98493] Updated weights for policy 0, policy_version 473044 (0.0008)
+[2023-07-06 13:07:34,290][98493] Updated weights for policy 0, policy_version 473111 (0.0007)
+[2023-07-06 13:07:34,765][98243] Fps is (10 sec: 108129.4, 60 sec: 107587.6, 300 sec: 110633.5). Total num frames: 969015296. Throughput: 0: 27772.9. Samples: 242344448. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:34,766][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:07:34,986][98493] Updated weights for policy 0, policy_version 473179 (0.0007)
+[2023-07-06 13:07:35,879][98493] Updated weights for policy 0, policy_version 473242 (0.0007)
+[2023-07-06 13:07:36,306][98493] Updated weights for policy 0, policy_version 473288 (0.0007)
+[2023-07-06 13:07:36,733][98493] Updated weights for policy 0, policy_version 473338 (0.0009)
+[2023-07-06 13:07:39,068][98493] Updated weights for policy 0, policy_version 473392 (0.0008)
+[2023-07-06 13:07:39,764][98243] Fps is (10 sec: 104856.3, 60 sec: 107588.2, 300 sec: 110633.6). Total num frames: 969539584. Throughput: 0: 27625.2. Samples: 242425856. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:39,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:07:40,081][98493] Updated weights for policy 0, policy_version 473456 (0.0007)
+[2023-07-06 13:07:40,562][98493] Updated weights for policy 0, policy_version 473504 (0.0009)
+[2023-07-06 13:07:41,220][98493] Updated weights for policy 0, policy_version 473575 (0.0007)
+[2023-07-06 13:07:43,706][98493] Updated weights for policy 0, policy_version 473639 (0.0008)
+[2023-07-06 13:07:44,764][98243] Fps is (10 sec: 108139.8, 60 sec: 107588.8, 300 sec: 110744.8). Total num frames: 970096640. Throughput: 0: 27773.2. Samples: 242589696. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:44,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:07:45,021][98493] Updated weights for policy 0, policy_version 473712 (0.0034)
+[2023-07-06 13:07:45,635][98493] Updated weights for policy 0, policy_version 473776 (0.0008)
+[2023-07-06 13:07:46,199][98493] Updated weights for policy 0, policy_version 473840 (0.0007)
+[2023-07-06 13:07:48,452][98493] Updated weights for policy 0, policy_version 473888 (0.0010)
+[2023-07-06 13:07:49,308][98449] Signal inference workers to stop experience collection... (24550 times)
+[2023-07-06 13:07:49,325][98493] InferenceWorker_p0-w0: stopping experience collection (24550 times)
+[2023-07-06 13:07:49,396][98449] Signal inference workers to resume experience collection... (24550 times)
+[2023-07-06 13:07:49,397][98493] InferenceWorker_p0-w0: resuming experience collection (24550 times)
+[2023-07-06 13:07:49,494][98493] Updated weights for policy 0, policy_version 473942 (0.0007)
+[2023-07-06 13:07:49,764][98243] Fps is (10 sec: 114687.4, 60 sec: 108680.2, 300 sec: 110966.8). Total num frames: 970686464. Throughput: 0: 27647.9. Samples: 242756608. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:49,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:07:50,054][98493] Updated weights for policy 0, policy_version 474008 (0.0009)
+[2023-07-06 13:07:50,605][98493] Updated weights for policy 0, policy_version 474068 (0.0007)
+[2023-07-06 13:07:52,992][98493] Updated weights for policy 0, policy_version 474137 (0.0007)
+[2023-07-06 13:07:53,880][98493] Updated weights for policy 0, policy_version 474177 (0.0007)
+[2023-07-06 13:07:54,299][98493] Updated weights for policy 0, policy_version 474233 (0.0006)
+[2023-07-06 13:07:54,764][98243] Fps is (10 sec: 117961.2, 60 sec: 109772.4, 300 sec: 111189.0). Total num frames: 971276288. Throughput: 0: 27682.0. Samples: 242841600. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:07:54,932][98493] Updated weights for policy 0, policy_version 474288 (0.0007)
+[2023-07-06 13:07:55,555][98493] Updated weights for policy 0, policy_version 474363 (0.0007)
+[2023-07-06 13:07:57,931][98493] Updated weights for policy 0, policy_version 474416 (0.0007)
+[2023-07-06 13:07:58,783][98493] Updated weights for policy 0, policy_version 474455 (0.0007)
+[2023-07-06 13:07:59,295][98493] Updated weights for policy 0, policy_version 474502 (0.0006)
+[2023-07-06 13:07:59,764][98243] Fps is (10 sec: 121244.1, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 971898880. Throughput: 0: 27795.9. Samples: 243008512. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:07:59,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:08:00,153][98493] Updated weights for policy 0, policy_version 474564 (0.0007)
+[2023-07-06 13:08:02,247][98493] Updated weights for policy 0, policy_version 474627 (0.0008)
+[2023-07-06 13:08:02,681][98493] Updated weights for policy 0, policy_version 474684 (0.0006)
+[2023-07-06 13:08:03,776][98493] Updated weights for policy 0, policy_version 474742 (0.0008)
+[2023-07-06 13:08:04,226][98493] Updated weights for policy 0, policy_version 474784 (0.0007)
+[2023-07-06 13:08:04,765][98243] Fps is (10 sec: 114685.7, 60 sec: 111410.6, 300 sec: 111411.0). Total num frames: 972423168. Throughput: 0: 27590.9. Samples: 243171840. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:08:04,766][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:08:05,015][98493] Updated weights for policy 0, policy_version 474840 (0.0007)
+[2023-07-06 13:08:06,713][98493] Updated weights for policy 0, policy_version 474896 (0.0006)
+[2023-07-06 13:08:06,880][98449] Signal inference workers to stop experience collection... (24600 times)
+[2023-07-06 13:08:06,924][98493] InferenceWorker_p0-w0: stopping experience collection (24600 times)
+[2023-07-06 13:08:06,984][98449] Signal inference workers to resume experience collection... (24600 times)
+[2023-07-06 13:08:06,984][98493] InferenceWorker_p0-w0: resuming experience collection (24600 times)
+[2023-07-06 13:08:07,934][98493] Updated weights for policy 0, policy_version 474960 (0.0007)
+[2023-07-06 13:08:08,292][98493] Updated weights for policy 0, policy_version 475006 (0.0007)
+[2023-07-06 13:08:09,303][98493] Updated weights for policy 0, policy_version 475067 (0.0007)
+[2023-07-06 13:08:09,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112503.6, 300 sec: 111411.2). Total num frames: 973012992. Throughput: 0: 27818.6. Samples: 243257344. Policy #0 lag: (min: 4.0, avg: 50.1, max: 239.0)
+[2023-07-06 13:08:09,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:08:09,938][98493] Updated weights for policy 0, policy_version 475136 (0.0008)
+[2023-07-06 13:08:11,833][98493] Updated weights for policy 0, policy_version 475197 (0.0006)
+[2023-07-06 13:08:13,172][98493] Updated weights for policy 0, policy_version 475248 (0.0007)
+[2023-07-06 13:08:14,101][98493] Updated weights for policy 0, policy_version 475303 (0.0007)
+[2023-07-06 13:08:14,574][98493] Updated weights for policy 0, policy_version 475360 (0.0007)
+[2023-07-06 13:08:14,764][98243] Fps is (10 sec: 114692.3, 60 sec: 113049.6, 300 sec: 111300.1). Total num frames: 973570048. Throughput: 0: 27693.5. Samples: 243425792. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:14,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:08:15,880][98493] Updated weights for policy 0, policy_version 475396 (0.0007)
+[2023-07-06 13:08:17,456][98493] Updated weights for policy 0, policy_version 475463 (0.0007)
+[2023-07-06 13:08:17,860][98493] Updated weights for policy 0, policy_version 475512 (0.0006)
+[2023-07-06 13:08:18,862][98493] Updated weights for policy 0, policy_version 475568 (0.0006)
+[2023-07-06 13:08:19,405][98493] Updated weights for policy 0, policy_version 475632 (0.0007)
+[2023-07-06 13:08:19,764][98243] Fps is (10 sec: 111410.8, 60 sec: 113595.7, 300 sec: 111189.0). Total num frames: 974127104. Throughput: 0: 27682.4. Samples: 243590144. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:19,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:08:20,551][98493] Updated weights for policy 0, policy_version 475685 (0.0007)
+[2023-07-06 13:08:22,286][98493] Updated weights for policy 0, policy_version 475730 (0.0008)
+[2023-07-06 13:08:23,135][98493] Updated weights for policy 0, policy_version 475792 (0.0007)
+[2023-07-06 13:08:23,661][98493] Updated weights for policy 0, policy_version 475847 (0.0008)
+[2023-07-06 13:08:24,101][98493] Updated weights for policy 0, policy_version 475902 (0.0006)
+[2023-07-06 13:08:24,764][98243] Fps is (10 sec: 108132.9, 60 sec: 111956.9, 300 sec: 111078.0). Total num frames: 974651392. Throughput: 0: 27830.0. Samples: 243678208. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:24,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:08:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000475904_974651392.pth...
+[2023-07-06 13:08:24,808][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000462848_947912704.pth
+[2023-07-06 13:08:24,966][98449] Signal inference workers to stop experience collection... (24650 times)
+[2023-07-06 13:08:24,980][98493] InferenceWorker_p0-w0: stopping experience collection (24650 times)
+[2023-07-06 13:08:25,049][98449] Signal inference workers to resume experience collection... (24650 times)
+[2023-07-06 13:08:25,049][98493] InferenceWorker_p0-w0: resuming experience collection (24650 times)
+[2023-07-06 13:08:25,444][98493] Updated weights for policy 0, policy_version 475958 (0.0007)
+[2023-07-06 13:08:26,977][98493] Updated weights for policy 0, policy_version 476002 (0.0008)
+[2023-07-06 13:08:28,037][98493] Updated weights for policy 0, policy_version 476066 (0.0006)
+[2023-07-06 13:08:28,535][98493] Updated weights for policy 0, policy_version 476128 (0.0008)
+[2023-07-06 13:08:29,636][98493] Updated weights for policy 0, policy_version 476168 (0.0007)
+[2023-07-06 13:08:29,764][98243] Fps is (10 sec: 108135.1, 60 sec: 111957.5, 300 sec: 111189.1). Total num frames: 975208448. Throughput: 0: 27875.5. Samples: 243844096. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:29,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:08:30,115][98493] Updated weights for policy 0, policy_version 476224 (0.0006)
+[2023-07-06 13:08:31,638][98493] Updated weights for policy 0, policy_version 476264 (0.0007)
+[2023-07-06 13:08:32,530][98493] Updated weights for policy 0, policy_version 476320 (0.0008)
+[2023-07-06 13:08:33,172][98493] Updated weights for policy 0, policy_version 476377 (0.0007)
+[2023-07-06 13:08:33,458][98493] Updated weights for policy 0, policy_version 476412 (0.0006)
+[2023-07-06 13:08:34,609][98493] Updated weights for policy 0, policy_version 476465 (0.0006)
+[2023-07-06 13:08:34,765][98243] Fps is (10 sec: 117959.7, 60 sec: 113595.3, 300 sec: 111300.0). Total num frames: 975831040. Throughput: 0: 27943.6. Samples: 244014080. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:08:36,185][98493] Updated weights for policy 0, policy_version 476515 (0.0006)
+[2023-07-06 13:08:36,994][98493] Updated weights for policy 0, policy_version 476560 (0.0008)
+[2023-07-06 13:08:37,670][98493] Updated weights for policy 0, policy_version 476610 (0.0008)
+[2023-07-06 13:08:38,147][98493] Updated weights for policy 0, policy_version 476672 (0.0006)
+[2023-07-06 13:08:39,487][98493] Updated weights for policy 0, policy_version 476736 (0.0006)
+[2023-07-06 13:08:39,764][98243] Fps is (10 sec: 114686.7, 60 sec: 113595.9, 300 sec: 110855.8). Total num frames: 976355328. Throughput: 0: 27966.7. Samples: 244100096. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:39,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:08:40,963][98493] Updated weights for policy 0, policy_version 476793 (0.0007)
+[2023-07-06 13:08:41,806][98493] Updated weights for policy 0, policy_version 476832 (0.0019)
+[2023-07-06 13:08:42,408][98493] Updated weights for policy 0, policy_version 476880 (0.0008)
+[2023-07-06 13:08:42,770][98493] Updated weights for policy 0, policy_version 476922 (0.0007)
+[2023-07-06 13:08:43,577][98449] Signal inference workers to stop experience collection... (24700 times)
+[2023-07-06 13:08:43,622][98493] InferenceWorker_p0-w0: stopping experience collection (24700 times)
+[2023-07-06 13:08:43,659][98449] Signal inference workers to resume experience collection... (24700 times)
+[2023-07-06 13:08:43,659][98493] InferenceWorker_p0-w0: resuming experience collection (24700 times)
+[2023-07-06 13:08:43,875][98493] Updated weights for policy 0, policy_version 476982 (0.0008)
+[2023-07-06 13:08:44,764][98243] Fps is (10 sec: 104864.0, 60 sec: 113049.4, 300 sec: 110633.6). Total num frames: 976879616. Throughput: 0: 28000.7. Samples: 244268544. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:44,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:08:45,374][98493] Updated weights for policy 0, policy_version 477040 (0.0006)
+[2023-07-06 13:08:46,492][98493] Updated weights for policy 0, policy_version 477088 (0.0006)
+[2023-07-06 13:08:47,071][98493] Updated weights for policy 0, policy_version 477121 (0.0006)
+[2023-07-06 13:08:47,530][98493] Updated weights for policy 0, policy_version 477179 (0.0007)
+[2023-07-06 13:08:48,635][98493] Updated weights for policy 0, policy_version 477223 (0.0008)
+[2023-07-06 13:08:49,542][98493] Updated weights for policy 0, policy_version 477249 (0.0007)
+[2023-07-06 13:08:49,764][98243] Fps is (10 sec: 111412.0, 60 sec: 113050.0, 300 sec: 110855.8). Total num frames: 977469440. Throughput: 0: 28194.4. Samples: 244440576. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:08:50,885][98493] Updated weights for policy 0, policy_version 477316 (0.0008)
+[2023-07-06 13:08:51,307][98493] Updated weights for policy 0, policy_version 477372 (0.0007)
+[2023-07-06 13:08:52,073][98493] Updated weights for policy 0, policy_version 477433 (0.0007)
+[2023-07-06 13:08:53,370][98493] Updated weights for policy 0, policy_version 477495 (0.0008)
+[2023-07-06 13:08:54,465][98493] Updated weights for policy 0, policy_version 477543 (0.0006)
+[2023-07-06 13:08:54,764][98243] Fps is (10 sec: 117964.4, 60 sec: 113049.9, 300 sec: 111078.0). Total num frames: 978059264. Throughput: 0: 28160.0. Samples: 244524544. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:54,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:08:56,042][98493] Updated weights for policy 0, policy_version 477605 (0.0007)
+[2023-07-06 13:08:56,583][98493] Updated weights for policy 0, policy_version 477666 (0.0007)
+[2023-07-06 13:08:58,238][98493] Updated weights for policy 0, policy_version 477728 (0.0006)
+[2023-07-06 13:08:58,827][98493] Updated weights for policy 0, policy_version 477779 (0.0007)
+[2023-07-06 13:08:59,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 978583552. Throughput: 0: 28103.1. Samples: 244690432. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:08:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:09:00,345][98493] Updated weights for policy 0, policy_version 477829 (0.0009)
+[2023-07-06 13:09:00,946][98493] Updated weights for policy 0, policy_version 477889 (0.0006)
+[2023-07-06 13:09:01,428][98493] Updated weights for policy 0, policy_version 477950 (0.0006)
+[2023-07-06 13:09:03,027][98449] Signal inference workers to stop experience collection... (24750 times)
+[2023-07-06 13:09:03,074][98493] InferenceWorker_p0-w0: stopping experience collection (24750 times)
+[2023-07-06 13:09:03,136][98449] Signal inference workers to resume experience collection... (24750 times)
+[2023-07-06 13:09:03,137][98493] InferenceWorker_p0-w0: resuming experience collection (24750 times)
+[2023-07-06 13:09:03,138][98493] Updated weights for policy 0, policy_version 478000 (0.0007)
+[2023-07-06 13:09:03,787][98493] Updated weights for policy 0, policy_version 478074 (0.0008)
+[2023-07-06 13:09:04,764][98243] Fps is (10 sec: 104855.4, 60 sec: 111411.5, 300 sec: 111077.9). Total num frames: 979107840. Throughput: 0: 28159.9. Samples: 244857344. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:09:05,446][98493] Updated weights for policy 0, policy_version 478114 (0.0007)
+[2023-07-06 13:09:05,831][98493] Updated weights for policy 0, policy_version 478160 (0.0008)
+[2023-07-06 13:09:06,236][98493] Updated weights for policy 0, policy_version 478208 (0.0006)
+[2023-07-06 13:09:07,991][98493] Updated weights for policy 0, policy_version 478274 (0.0027)
+[2023-07-06 13:09:08,346][98493] Updated weights for policy 0, policy_version 478320 (0.0007)
+[2023-07-06 13:09:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110318.8, 300 sec: 111078.0). Total num frames: 979632128. Throughput: 0: 28080.4. Samples: 244941824. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:09:10,043][98493] Updated weights for policy 0, policy_version 478372 (0.0007)
+[2023-07-06 13:09:10,631][98493] Updated weights for policy 0, policy_version 478423 (0.0006)
+[2023-07-06 13:09:12,163][98493] Updated weights for policy 0, policy_version 478468 (0.0007)
+[2023-07-06 13:09:12,781][98493] Updated weights for policy 0, policy_version 478535 (0.0007)
+[2023-07-06 13:09:13,248][98493] Updated weights for policy 0, policy_version 478592 (0.0007)
+[2023-07-06 13:09:14,749][98493] Updated weights for policy 0, policy_version 478656 (0.0008)
+[2023-07-06 13:09:14,764][98243] Fps is (10 sec: 117967.8, 60 sec: 111957.4, 300 sec: 111522.3). Total num frames: 980287488. Throughput: 0: 28080.3. Samples: 245107712. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:14,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:09:15,688][98493] Updated weights for policy 0, policy_version 478717 (0.0007)
+[2023-07-06 13:09:17,278][98493] Updated weights for policy 0, policy_version 478755 (0.0007)
+[2023-07-06 13:09:17,712][98493] Updated weights for policy 0, policy_version 478804 (0.0007)
+[2023-07-06 13:09:19,099][98493] Updated weights for policy 0, policy_version 478849 (0.0007)
+[2023-07-06 13:09:19,576][98493] Updated weights for policy 0, policy_version 478909 (0.0008)
+[2023-07-06 13:09:19,764][98243] Fps is (10 sec: 117965.6, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 980811776. Throughput: 0: 28069.4. Samples: 245277184. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:19,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:09:19,844][98449] Signal inference workers to stop experience collection... (24800 times)
+[2023-07-06 13:09:19,882][98493] InferenceWorker_p0-w0: stopping experience collection (24800 times)
+[2023-07-06 13:09:19,921][98449] Signal inference workers to resume experience collection... (24800 times)
+[2023-07-06 13:09:19,921][98493] InferenceWorker_p0-w0: resuming experience collection (24800 times)
+[2023-07-06 13:09:20,142][98493] Updated weights for policy 0, policy_version 478974 (0.0007)
+[2023-07-06 13:09:22,009][98493] Updated weights for policy 0, policy_version 479014 (0.0007)
+[2023-07-06 13:09:22,488][98493] Updated weights for policy 0, policy_version 479072 (0.0008)
+[2023-07-06 13:09:23,625][98493] Updated weights for policy 0, policy_version 479111 (0.0007)
+[2023-07-06 13:09:24,277][98493] Updated weights for policy 0, policy_version 479184 (0.0007)
+[2023-07-06 13:09:24,764][98243] Fps is (10 sec: 117964.3, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 981467136. Throughput: 0: 27989.4. Samples: 245359616. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:24,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:09:26,500][98493] Updated weights for policy 0, policy_version 479234 (0.0006)
+[2023-07-06 13:09:27,129][98493] Updated weights for policy 0, policy_version 479312 (0.0006)
+[2023-07-06 13:09:27,495][98493] Updated weights for policy 0, policy_version 479349 (0.0007)
+[2023-07-06 13:09:28,431][98493] Updated weights for policy 0, policy_version 479392 (0.0008)
+[2023-07-06 13:09:29,391][98493] Updated weights for policy 0, policy_version 479456 (0.0007)
+[2023-07-06 13:09:29,764][98243] Fps is (10 sec: 117963.7, 60 sec: 113049.4, 300 sec: 111966.6). Total num frames: 981991424. Throughput: 0: 27921.0. Samples: 245524992. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:09:31,454][98493] Updated weights for policy 0, policy_version 479520 (0.0007)
+[2023-07-06 13:09:32,080][98493] Updated weights for policy 0, policy_version 479588 (0.0007)
+[2023-07-06 13:09:33,290][98493] Updated weights for policy 0, policy_version 479648 (0.0006)
+[2023-07-06 13:09:33,790][98493] Updated weights for policy 0, policy_version 479696 (0.0007)
+[2023-07-06 13:09:34,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111412.3, 300 sec: 111966.6). Total num frames: 982515712. Throughput: 0: 27784.5. Samples: 245690880. Policy #0 lag: (min: 13.0, avg: 110.2, max: 269.0)
+[2023-07-06 13:09:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:09:35,806][98493] Updated weights for policy 0, policy_version 479747 (0.0006)
+[2023-07-06 13:09:36,270][98493] Updated weights for policy 0, policy_version 479808 (0.0007)
+[2023-07-06 13:09:36,788][98493] Updated weights for policy 0, policy_version 479856 (0.0006)
+[2023-07-06 13:09:37,952][98493] Updated weights for policy 0, policy_version 479904 (0.0006)
+[2023-07-06 13:09:38,550][98449] Signal inference workers to stop experience collection... (24850 times)
+[2023-07-06 13:09:38,565][98493] InferenceWorker_p0-w0: stopping experience collection (24850 times)
+[2023-07-06 13:09:38,649][98449] Signal inference workers to resume experience collection... (24850 times)
+[2023-07-06 13:09:38,649][98493] InferenceWorker_p0-w0: resuming experience collection (24850 times)
+[2023-07-06 13:09:38,651][98493] Updated weights for policy 0, policy_version 479952 (0.0006)
+[2023-07-06 13:09:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.3, 300 sec: 111633.4). Total num frames: 983040000. Throughput: 0: 27909.7. Samples: 245780480. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:09:39,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:09:40,358][98493] Updated weights for policy 0, policy_version 480004 (0.0007)
+[2023-07-06 13:09:40,801][98493] Updated weights for policy 0, policy_version 480058 (0.0008)
+[2023-07-06 13:09:41,445][98493] Updated weights for policy 0, policy_version 480112 (0.0007)
+[2023-07-06 13:09:42,727][98493] Updated weights for policy 0, policy_version 480160 (0.0007)
+[2023-07-06 13:09:43,396][98493] Updated weights for policy 0, policy_version 480218 (0.0007)
+[2023-07-06 13:09:44,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.1, 300 sec: 111411.2). Total num frames: 983564288. Throughput: 0: 27841.4. Samples: 245943296. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:09:44,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:09:45,095][98493] Updated weights for policy 0, policy_version 480272 (0.0007)
+[2023-07-06 13:09:45,519][98493] Updated weights for policy 0, policy_version 480320 (0.0007)
+[2023-07-06 13:09:46,259][98493] Updated weights for policy 0, policy_version 480380 (0.0006)
+[2023-07-06 13:09:47,547][98493] Updated weights for policy 0, policy_version 480432 (0.0007)
+[2023-07-06 13:09:48,268][98493] Updated weights for policy 0, policy_version 480472 (0.0009)
+[2023-07-06 13:09:48,586][98493] Updated weights for policy 0, policy_version 480512 (0.0007)
+[2023-07-06 13:09:49,764][98243] Fps is (10 sec: 108135.4, 60 sec: 110865.2, 300 sec: 111300.3). Total num frames: 984121344. Throughput: 0: 27978.1. Samples: 246116352. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:09:49,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:09:49,990][98493] Updated weights for policy 0, policy_version 480568 (0.0007)
+[2023-07-06 13:09:50,826][98493] Updated weights for policy 0, policy_version 480624 (0.0007)
+[2023-07-06 13:09:52,113][98493] Updated weights for policy 0, policy_version 480688 (0.0007)
+[2023-07-06 13:09:53,272][98493] Updated weights for policy 0, policy_version 480752 (0.0007)
+[2023-07-06 13:09:54,475][98493] Updated weights for policy 0, policy_version 480800 (0.0007)
+[2023-07-06 13:09:54,764][98243] Fps is (10 sec: 117963.4, 60 sec: 111410.9, 300 sec: 111411.1). Total num frames: 984743936. Throughput: 0: 27932.4. Samples: 246198784. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:09:54,766][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:09:55,037][98493] Updated weights for policy 0, policy_version 480839 (0.0007)
+[2023-07-06 13:09:55,525][98493] Updated weights for policy 0, policy_version 480896 (0.0007)
+[2023-07-06 13:09:56,908][98493] Updated weights for policy 0, policy_version 480960 (0.0007)
+[2023-07-06 13:09:57,997][98449] Signal inference workers to stop experience collection... (24900 times)
+[2023-07-06 13:09:58,030][98493] InferenceWorker_p0-w0: stopping experience collection (24900 times)
+[2023-07-06 13:09:58,101][98449] Signal inference workers to resume experience collection... (24900 times)
+[2023-07-06 13:09:58,101][98493] InferenceWorker_p0-w0: resuming experience collection (24900 times)
+[2023-07-06 13:09:58,184][98493] Updated weights for policy 0, policy_version 481019 (0.0007)
+[2023-07-06 13:09:59,182][98493] Updated weights for policy 0, policy_version 481060 (0.0007)
+[2023-07-06 13:09:59,764][98243] Fps is (10 sec: 114686.9, 60 sec: 111411.2, 300 sec: 111300.1). Total num frames: 985268224. Throughput: 0: 28012.0. Samples: 246368256. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:09:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:09:59,800][98493] Updated weights for policy 0, policy_version 481104 (0.0008)
+[2023-07-06 13:10:00,265][98493] Updated weights for policy 0, policy_version 481152 (0.0008)
+[2023-07-06 13:10:01,604][98493] Updated weights for policy 0, policy_version 481213 (0.0008)
+[2023-07-06 13:10:02,880][98493] Updated weights for policy 0, policy_version 481273 (0.0008)
+[2023-07-06 13:10:04,188][98493] Updated weights for policy 0, policy_version 481337 (0.0007)
+[2023-07-06 13:10:04,756][98493] Updated weights for policy 0, policy_version 481379 (0.0006)
+[2023-07-06 13:10:04,770][98243] Fps is (10 sec: 111349.9, 60 sec: 112493.3, 300 sec: 111298.1). Total num frames: 985858048. Throughput: 0: 27815.1. Samples: 246529024. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:04,770][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:10:06,139][98493] Updated weights for policy 0, policy_version 481446 (0.0007)
+[2023-07-06 13:10:07,514][98493] Updated weights for policy 0, policy_version 481520 (0.0008)
+[2023-07-06 13:10:08,868][98493] Updated weights for policy 0, policy_version 481552 (0.0006)
+[2023-07-06 13:10:09,494][98493] Updated weights for policy 0, policy_version 481618 (0.0008)
+[2023-07-06 13:10:09,764][98243] Fps is (10 sec: 114687.9, 60 sec: 113049.6, 300 sec: 110966.9). Total num frames: 986415104. Throughput: 0: 27875.5. Samples: 246614016. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:10:09,810][98493] Updated weights for policy 0, policy_version 481663 (0.0008)
+[2023-07-06 13:10:10,720][98493] Updated weights for policy 0, policy_version 481701 (0.0006)
+[2023-07-06 13:10:12,189][98493] Updated weights for policy 0, policy_version 481764 (0.0007)
+[2023-07-06 13:10:13,544][98493] Updated weights for policy 0, policy_version 481813 (0.0007)
+[2023-07-06 13:10:14,228][98493] Updated weights for policy 0, policy_version 481892 (0.0008)
+[2023-07-06 13:10:14,764][98243] Fps is (10 sec: 111474.1, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 986972160. Throughput: 0: 27989.3. Samples: 246784512. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:14,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:10:15,424][98493] Updated weights for policy 0, policy_version 481952 (0.0007)
+[2023-07-06 13:10:16,653][98493] Updated weights for policy 0, policy_version 482000 (0.0006)
+[2023-07-06 13:10:16,837][98449] Signal inference workers to stop experience collection... (24950 times)
+[2023-07-06 13:10:16,870][98493] InferenceWorker_p0-w0: stopping experience collection (24950 times)
+[2023-07-06 13:10:16,938][98449] Signal inference workers to resume experience collection... (24950 times)
+[2023-07-06 13:10:16,938][98493] InferenceWorker_p0-w0: resuming experience collection (24950 times)
+[2023-07-06 13:10:18,126][98493] Updated weights for policy 0, policy_version 482049 (0.0006)
+[2023-07-06 13:10:18,574][98493] Updated weights for policy 0, policy_version 482099 (0.0007)
+[2023-07-06 13:10:19,154][98493] Updated weights for policy 0, policy_version 482173 (0.0007)
+[2023-07-06 13:10:19,764][98243] Fps is (10 sec: 108134.8, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 987496448. Throughput: 0: 27932.4. Samples: 246947840. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:10:20,412][98493] Updated weights for policy 0, policy_version 482235 (0.0007)
+[2023-07-06 13:10:21,944][98493] Updated weights for policy 0, policy_version 482298 (0.0007)
+[2023-07-06 13:10:23,040][98493] Updated weights for policy 0, policy_version 482342 (0.0016)
+[2023-07-06 13:10:23,585][98493] Updated weights for policy 0, policy_version 482391 (0.0008)
+[2023-07-06 13:10:24,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 988020736. Throughput: 0: 27784.5. Samples: 247030784. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:10:24,893][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000482448_988053504.pth...
+[2023-07-06 13:10:24,987][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000469472_961478656.pth
+[2023-07-06 13:10:25,096][98493] Updated weights for policy 0, policy_version 482464 (0.0027)
+[2023-07-06 13:10:26,397][98493] Updated weights for policy 0, policy_version 482528 (0.0007)
+[2023-07-06 13:10:27,557][98493] Updated weights for policy 0, policy_version 482576 (0.0006)
+[2023-07-06 13:10:28,331][98493] Updated weights for policy 0, policy_version 482630 (0.0007)
+[2023-07-06 13:10:28,810][98493] Updated weights for policy 0, policy_version 482688 (0.0007)
+[2023-07-06 13:10:29,764][98243] Fps is (10 sec: 108134.6, 60 sec: 109772.9, 300 sec: 111189.1). Total num frames: 988577792. Throughput: 0: 27750.4. Samples: 247192064. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:10:30,222][98493] Updated weights for policy 0, policy_version 482749 (0.0008)
+[2023-07-06 13:10:31,400][98493] Updated weights for policy 0, policy_version 482800 (0.0008)
+[2023-07-06 13:10:32,484][98493] Updated weights for policy 0, policy_version 482836 (0.0007)
+[2023-07-06 13:10:33,479][98493] Updated weights for policy 0, policy_version 482896 (0.0007)
+[2023-07-06 13:10:34,764][98243] Fps is (10 sec: 104856.2, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 989069312. Throughput: 0: 27522.7. Samples: 247354880. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:34,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:10:34,793][98493] Updated weights for policy 0, policy_version 482946 (0.0007)
+[2023-07-06 13:10:35,265][98493] Updated weights for policy 0, policy_version 482999 (0.0008)
+[2023-07-06 13:10:35,969][98493] Updated weights for policy 0, policy_version 483045 (0.0007)
+[2023-07-06 13:10:37,047][98449] Signal inference workers to stop experience collection... (25000 times)
+[2023-07-06 13:10:37,061][98493] Updated weights for policy 0, policy_version 483074 (0.0007)
+[2023-07-06 13:10:37,069][98493] InferenceWorker_p0-w0: stopping experience collection (25000 times)
+[2023-07-06 13:10:37,136][98449] Signal inference workers to resume experience collection... (25000 times)
+[2023-07-06 13:10:37,136][98493] InferenceWorker_p0-w0: resuming experience collection (25000 times)
+[2023-07-06 13:10:38,093][98493] Updated weights for policy 0, policy_version 483139 (0.0007)
+[2023-07-06 13:10:38,533][98493] Updated weights for policy 0, policy_version 483196 (0.0007)
+[2023-07-06 13:10:39,764][98243] Fps is (10 sec: 104858.2, 60 sec: 109773.0, 300 sec: 111189.1). Total num frames: 989626368. Throughput: 0: 27466.1. Samples: 247434752. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:39,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:10:39,924][98493] Updated weights for policy 0, policy_version 483248 (0.0007)
+[2023-07-06 13:10:40,616][98493] Updated weights for policy 0, policy_version 483280 (0.0007)
+[2023-07-06 13:10:41,941][98493] Updated weights for policy 0, policy_version 483335 (0.0006)
+[2023-07-06 13:10:42,903][98493] Updated weights for policy 0, policy_version 483408 (0.0007)
+[2023-07-06 13:10:43,333][98493] Updated weights for policy 0, policy_version 483456 (0.0007)
+[2023-07-06 13:10:44,753][98493] Updated weights for policy 0, policy_version 483516 (0.0008)
+[2023-07-06 13:10:44,764][98243] Fps is (10 sec: 114688.2, 60 sec: 110864.9, 300 sec: 111411.2). Total num frames: 990216192. Throughput: 0: 27363.5. Samples: 247599616. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:44,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:10:45,430][98493] Updated weights for policy 0, policy_version 483568 (0.0008)
+[2023-07-06 13:10:47,117][98493] Updated weights for policy 0, policy_version 483642 (0.0007)
+[2023-07-06 13:10:47,769][98493] Updated weights for policy 0, policy_version 483682 (0.0006)
+[2023-07-06 13:10:49,335][98493] Updated weights for policy 0, policy_version 483744 (0.0007)
+[2023-07-06 13:10:49,765][98243] Fps is (10 sec: 117959.2, 60 sec: 111410.3, 300 sec: 111633.5). Total num frames: 990806016. Throughput: 0: 27503.3. Samples: 247766528. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:49,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:10:49,876][98493] Updated weights for policy 0, policy_version 483808 (0.0007)
+[2023-07-06 13:10:51,255][98493] Updated weights for policy 0, policy_version 483846 (0.0006)
+[2023-07-06 13:10:51,731][98493] Updated weights for policy 0, policy_version 483904 (0.0006)
+[2023-07-06 13:10:52,712][98493] Updated weights for policy 0, policy_version 483961 (0.0007)
+[2023-07-06 13:10:54,162][98493] Updated weights for policy 0, policy_version 484004 (0.0007)
+[2023-07-06 13:10:54,734][98493] Updated weights for policy 0, policy_version 484067 (0.0007)
+[2023-07-06 13:10:54,764][98243] Fps is (10 sec: 114689.4, 60 sec: 110319.2, 300 sec: 111633.3). Total num frames: 991363072. Throughput: 0: 27500.1. Samples: 247851520. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:54,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:10:55,951][98449] Signal inference workers to stop experience collection... (25050 times)
+[2023-07-06 13:10:55,967][98493] InferenceWorker_p0-w0: stopping experience collection (25050 times)
+[2023-07-06 13:10:56,053][98449] Signal inference workers to resume experience collection... (25050 times)
+[2023-07-06 13:10:56,053][98493] InferenceWorker_p0-w0: resuming experience collection (25050 times)
+[2023-07-06 13:10:56,280][98493] Updated weights for policy 0, policy_version 484133 (0.0007)
+[2023-07-06 13:10:57,240][98493] Updated weights for policy 0, policy_version 484192 (0.0007)
+[2023-07-06 13:10:58,777][98493] Updated weights for policy 0, policy_version 484245 (0.0008)
+[2023-07-06 13:10:59,337][98493] Updated weights for policy 0, policy_version 484309 (0.0008)
+[2023-07-06 13:10:59,770][98243] Fps is (10 sec: 114627.9, 60 sec: 111400.8, 300 sec: 111520.2). Total num frames: 991952896. Throughput: 0: 27530.8. Samples: 248023552. Policy #0 lag: (min: 13.0, avg: 145.5, max: 269.0)
+[2023-07-06 13:10:59,770][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:11:00,532][98493] Updated weights for policy 0, policy_version 484368 (0.0007)
+[2023-07-06 13:11:00,948][98493] Updated weights for policy 0, policy_version 484414 (0.0007)
+[2023-07-06 13:11:02,351][98493] Updated weights for policy 0, policy_version 484476 (0.0009)
+[2023-07-06 13:11:03,739][98493] Updated weights for policy 0, policy_version 484528 (0.0007)
+[2023-07-06 13:11:04,234][98493] Updated weights for policy 0, policy_version 484580 (0.0008)
+[2023-07-06 13:11:04,764][98243] Fps is (10 sec: 111410.0, 60 sec: 110329.1, 300 sec: 111411.2). Total num frames: 992477184. Throughput: 0: 27477.3. Samples: 248184320. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:11:05,352][98493] Updated weights for policy 0, policy_version 484640 (0.0007)
+[2023-07-06 13:11:06,939][98493] Updated weights for policy 0, policy_version 484704 (0.0008)
+[2023-07-06 13:11:08,259][98493] Updated weights for policy 0, policy_version 484737 (0.0007)
+[2023-07-06 13:11:08,716][98493] Updated weights for policy 0, policy_version 484787 (0.0008)
+[2023-07-06 13:11:09,265][98493] Updated weights for policy 0, policy_version 484859 (0.0007)
+[2023-07-06 13:11:09,764][98243] Fps is (10 sec: 108195.6, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 993034240. Throughput: 0: 27545.6. Samples: 248270336. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:09,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:11:10,016][98493] Updated weights for policy 0, policy_version 484923 (0.0007)
+[2023-07-06 13:11:11,813][98493] Updated weights for policy 0, policy_version 484965 (0.0007)
+[2023-07-06 13:11:12,922][98493] Updated weights for policy 0, policy_version 484998 (0.0007)
+[2023-07-06 13:11:13,483][98493] Updated weights for policy 0, policy_version 485062 (0.0008)
+[2023-07-06 13:11:13,596][98449] Signal inference workers to stop experience collection... (25100 times)
+[2023-07-06 13:11:13,613][98493] InferenceWorker_p0-w0: stopping experience collection (25100 times)
+[2023-07-06 13:11:13,688][98449] Signal inference workers to resume experience collection... (25100 times)
+[2023-07-06 13:11:13,689][98493] InferenceWorker_p0-w0: resuming experience collection (25100 times)
+[2023-07-06 13:11:13,924][98493] Updated weights for policy 0, policy_version 485117 (0.0008)
+[2023-07-06 13:11:14,650][98493] Updated weights for policy 0, policy_version 485169 (0.0008)
+[2023-07-06 13:11:14,764][98243] Fps is (10 sec: 117966.9, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 993656832. Throughput: 0: 27659.4. Samples: 248436736. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:14,764][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 13:11:16,411][98493] Updated weights for policy 0, policy_version 485206 (0.0006)
+[2023-07-06 13:11:17,591][98493] Updated weights for policy 0, policy_version 485249 (0.0006)
+[2023-07-06 13:11:18,032][98493] Updated weights for policy 0, policy_version 485302 (0.0007)
+[2023-07-06 13:11:18,467][98493] Updated weights for policy 0, policy_version 485347 (0.0007)
+[2023-07-06 13:11:19,021][98493] Updated weights for policy 0, policy_version 485408 (0.0007)
+[2023-07-06 13:11:19,764][98243] Fps is (10 sec: 114686.2, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 994181120. Throughput: 0: 27716.3. Samples: 248602112. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:19,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:11:21,154][98493] Updated weights for policy 0, policy_version 485464 (0.0007)
+[2023-07-06 13:11:21,476][98493] Updated weights for policy 0, policy_version 485504 (0.0006)
+[2023-07-06 13:11:22,650][98493] Updated weights for policy 0, policy_version 485540 (0.0008)
+[2023-07-06 13:11:23,138][98493] Updated weights for policy 0, policy_version 485600 (0.0008)
+[2023-07-06 13:11:23,582][98493] Updated weights for policy 0, policy_version 485636 (0.0008)
+[2023-07-06 13:11:24,038][98493] Updated weights for policy 0, policy_version 485692 (0.0007)
+[2023-07-06 13:11:24,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.2, 300 sec: 110966.9). Total num frames: 994705408. Throughput: 0: 27909.6. Samples: 248690688. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:24,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:11:26,009][98493] Updated weights for policy 0, policy_version 485745 (0.0007)
+[2023-07-06 13:11:27,397][98493] Updated weights for policy 0, policy_version 485793 (0.0007)
+[2023-07-06 13:11:27,976][98493] Updated weights for policy 0, policy_version 485859 (0.0008)
+[2023-07-06 13:11:28,554][98493] Updated weights for policy 0, policy_version 485926 (0.0007)
+[2023-07-06 13:11:29,764][98243] Fps is (10 sec: 104859.3, 60 sec: 110865.1, 300 sec: 110744.7). Total num frames: 995229696. Throughput: 0: 27716.4. Samples: 248846848. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:29,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:11:30,624][98493] Updated weights for policy 0, policy_version 485968 (0.0006)
+[2023-07-06 13:11:32,016][98493] Updated weights for policy 0, policy_version 486018 (0.0006)
+[2023-07-06 13:11:32,147][98449] Signal inference workers to stop experience collection... (25150 times)
+[2023-07-06 13:11:32,183][98493] InferenceWorker_p0-w0: stopping experience collection (25150 times)
+[2023-07-06 13:11:32,246][98449] Signal inference workers to resume experience collection... (25150 times)
+[2023-07-06 13:11:32,246][98493] InferenceWorker_p0-w0: resuming experience collection (25150 times)
+[2023-07-06 13:11:32,641][98493] Updated weights for policy 0, policy_version 486082 (0.0008)
+[2023-07-06 13:11:33,192][98493] Updated weights for policy 0, policy_version 486148 (0.0007)
+[2023-07-06 13:11:33,623][98493] Updated weights for policy 0, policy_version 486202 (0.0006)
+[2023-07-06 13:11:34,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.5, 300 sec: 110744.8). Total num frames: 995753984. Throughput: 0: 27750.6. Samples: 249015296. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:11:35,696][98493] Updated weights for policy 0, policy_version 486266 (0.0008)
+[2023-07-06 13:11:37,187][98493] Updated weights for policy 0, policy_version 486331 (0.0009)
+[2023-07-06 13:11:37,778][98493] Updated weights for policy 0, policy_version 486392 (0.0008)
+[2023-07-06 13:11:38,307][98493] Updated weights for policy 0, policy_version 486457 (0.0007)
+[2023-07-06 13:11:39,764][98243] Fps is (10 sec: 104856.2, 60 sec: 110864.7, 300 sec: 110633.7). Total num frames: 996278272. Throughput: 0: 27647.9. Samples: 249095680. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:39,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:11:40,480][98493] Updated weights for policy 0, policy_version 486501 (0.0007)
+[2023-07-06 13:11:42,046][98493] Updated weights for policy 0, policy_version 486569 (0.0007)
+[2023-07-06 13:11:42,575][98493] Updated weights for policy 0, policy_version 486628 (0.0007)
+[2023-07-06 13:11:43,054][98493] Updated weights for policy 0, policy_version 486688 (0.0008)
+[2023-07-06 13:11:44,764][98243] Fps is (10 sec: 104857.0, 60 sec: 109772.9, 300 sec: 110633.6). Total num frames: 996802560. Throughput: 0: 27446.6. Samples: 249258496. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:11:44,909][98493] Updated weights for policy 0, policy_version 486723 (0.0006)
+[2023-07-06 13:11:45,354][98493] Updated weights for policy 0, policy_version 486781 (0.0008)
+[2023-07-06 13:11:46,867][98493] Updated weights for policy 0, policy_version 486848 (0.0008)
+[2023-07-06 13:11:47,392][98493] Updated weights for policy 0, policy_version 486906 (0.0006)
+[2023-07-06 13:11:47,632][98449] Signal inference workers to stop experience collection... (25200 times)
+[2023-07-06 13:11:47,666][98493] InferenceWorker_p0-w0: stopping experience collection (25200 times)
+[2023-07-06 13:11:47,718][98449] Signal inference workers to resume experience collection... (25200 times)
+[2023-07-06 13:11:47,719][98493] InferenceWorker_p0-w0: resuming experience collection (25200 times)
+[2023-07-06 13:11:47,809][98493] Updated weights for policy 0, policy_version 486950 (0.0006)
+[2023-07-06 13:11:49,764][98243] Fps is (10 sec: 108135.4, 60 sec: 109227.3, 300 sec: 110744.7). Total num frames: 997359616. Throughput: 0: 27659.4. Samples: 249428992. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:49,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:11:49,880][98493] Updated weights for policy 0, policy_version 487013 (0.0008)
+[2023-07-06 13:11:51,445][98493] Updated weights for policy 0, policy_version 487072 (0.0007)
+[2023-07-06 13:11:51,964][98493] Updated weights for policy 0, policy_version 487125 (0.0007)
+[2023-07-06 13:11:52,444][98493] Updated weights for policy 0, policy_version 487184 (0.0007)
+[2023-07-06 13:11:52,827][98493] Updated weights for policy 0, policy_version 487225 (0.0005)
+[2023-07-06 13:11:54,585][98493] Updated weights for policy 0, policy_version 487269 (0.0007)
+[2023-07-06 13:11:54,764][98243] Fps is (10 sec: 117966.2, 60 sec: 110319.1, 300 sec: 111078.0). Total num frames: 997982208. Throughput: 0: 27488.7. Samples: 249507328. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:54,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:11:56,008][98493] Updated weights for policy 0, policy_version 487328 (0.0007)
+[2023-07-06 13:11:56,681][98493] Updated weights for policy 0, policy_version 487408 (0.0008)
+[2023-07-06 13:11:57,203][98493] Updated weights for policy 0, policy_version 487461 (0.0014)
+[2023-07-06 13:11:59,211][98493] Updated weights for policy 0, policy_version 487507 (0.0008)
+[2023-07-06 13:11:59,764][98243] Fps is (10 sec: 114688.6, 60 sec: 109237.0, 300 sec: 111078.0). Total num frames: 998506496. Throughput: 0: 27591.1. Samples: 249678336. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:11:59,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:12:00,633][98493] Updated weights for policy 0, policy_version 487568 (0.0007)
+[2023-07-06 13:12:01,310][98493] Updated weights for policy 0, policy_version 487640 (0.0007)
+[2023-07-06 13:12:01,886][98493] Updated weights for policy 0, policy_version 487702 (0.0007)
+[2023-07-06 13:12:02,203][98493] Updated weights for policy 0, policy_version 487742 (0.0031)
+[2023-07-06 13:12:04,266][98493] Updated weights for policy 0, policy_version 487803 (0.0008)
+[2023-07-06 13:12:04,764][98243] Fps is (10 sec: 104856.9, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 999030784. Throughput: 0: 27613.9. Samples: 249844736. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:12:04,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:12:05,530][98493] Updated weights for policy 0, policy_version 487849 (0.0008)
+[2023-07-06 13:12:05,699][98449] Signal inference workers to stop experience collection... (25250 times)
+[2023-07-06 13:12:05,732][98493] InferenceWorker_p0-w0: stopping experience collection (25250 times)
+[2023-07-06 13:12:05,764][98449] Signal inference workers to resume experience collection... (25250 times)
+[2023-07-06 13:12:05,764][98493] InferenceWorker_p0-w0: resuming experience collection (25250 times)
+[2023-07-06 13:12:05,916][98493] Updated weights for policy 0, policy_version 487888 (0.0007)
+[2023-07-06 13:12:06,585][98493] Updated weights for policy 0, policy_version 487968 (0.0008)
+[2023-07-06 13:12:08,536][98493] Updated weights for policy 0, policy_version 488002 (0.0017)
+[2023-07-06 13:12:08,987][98493] Updated weights for policy 0, policy_version 488060 (0.0007)
+[2023-07-06 13:12:09,764][98243] Fps is (10 sec: 104857.3, 60 sec: 108680.5, 300 sec: 111078.0). Total num frames: 999555072. Throughput: 0: 27431.8. Samples: 249925120. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:12:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:12:10,432][98493] Updated weights for policy 0, policy_version 488112 (0.0008)
+[2023-07-06 13:12:10,874][98493] Updated weights for policy 0, policy_version 488160 (0.0018)
+[2023-07-06 13:12:11,390][98493] Updated weights for policy 0, policy_version 488215 (0.0007)
+[2023-07-06 13:12:11,716][98493] Updated weights for policy 0, policy_version 488256 (0.0006)
+[2023-07-06 13:12:13,588][98493] Updated weights for policy 0, policy_version 488316 (0.0008)
+[2023-07-06 13:12:14,764][98243] Fps is (10 sec: 104857.9, 60 sec: 107042.1, 300 sec: 111078.0). Total num frames: 1000079360. Throughput: 0: 27704.9. Samples: 250093568. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:12:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:12:15,033][98493] Updated weights for policy 0, policy_version 488360 (0.0008)
+[2023-07-06 13:12:15,455][98493] Updated weights for policy 0, policy_version 488404 (0.0006)
+[2023-07-06 13:12:16,183][98493] Updated weights for policy 0, policy_version 488496 (0.0007)
+[2023-07-06 13:12:18,382][98493] Updated weights for policy 0, policy_version 488560 (0.0007)
+[2023-07-06 13:12:19,410][98493] Updated weights for policy 0, policy_version 488608 (0.0006)
+[2023-07-06 13:12:19,764][98243] Fps is (10 sec: 117964.1, 60 sec: 109226.8, 300 sec: 111189.0). Total num frames: 1000734720. Throughput: 0: 27636.6. Samples: 250258944. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:12:19,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:12:20,388][98493] Updated weights for policy 0, policy_version 488676 (0.0007)
+[2023-07-06 13:12:20,822][98493] Updated weights for policy 0, policy_version 488726 (0.0007)
+[2023-07-06 13:12:22,844][98493] Updated weights for policy 0, policy_version 488784 (0.0007)
+[2023-07-06 13:12:22,890][98449] Signal inference workers to stop experience collection... (25300 times)
+[2023-07-06 13:12:22,923][98493] InferenceWorker_p0-w0: stopping experience collection (25300 times)
+[2023-07-06 13:12:22,978][98449] Signal inference workers to resume experience collection... (25300 times)
+[2023-07-06 13:12:22,978][98493] InferenceWorker_p0-w0: resuming experience collection (25300 times)
+[2023-07-06 13:12:24,000][98493] Updated weights for policy 0, policy_version 488848 (0.0008)
+[2023-07-06 13:12:24,382][98493] Updated weights for policy 0, policy_version 488895 (0.0006)
+[2023-07-06 13:12:24,764][98243] Fps is (10 sec: 117964.8, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1001259008. Throughput: 0: 27796.0. Samples: 250346496. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:12:24,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:12:24,928][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000488928_1001324544.pth...
+[2023-07-06 13:12:24,991][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000475904_974651392.pth
+[2023-07-06 13:12:25,240][98493] Updated weights for policy 0, policy_version 488960 (0.0009)
+[2023-07-06 13:12:25,804][98493] Updated weights for policy 0, policy_version 489024 (0.0007)
+[2023-07-06 13:12:27,799][98493] Updated weights for policy 0, policy_version 489072 (0.0007)
+[2023-07-06 13:12:28,933][98493] Updated weights for policy 0, policy_version 489136 (0.0007)
+[2023-07-06 13:12:29,645][98493] Updated weights for policy 0, policy_version 489184 (0.0007)
+[2023-07-06 13:12:29,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110318.9, 300 sec: 111300.3). Total num frames: 1001848832. Throughput: 0: 27864.2. Samples: 250512384. Policy #0 lag: (min: 121.0, avg: 201.8, max: 375.0)
+[2023-07-06 13:12:29,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:12:30,161][98493] Updated weights for policy 0, policy_version 489237 (0.0007)
+[2023-07-06 13:12:32,282][98493] Updated weights for policy 0, policy_version 489286 (0.0007)
+[2023-07-06 13:12:32,757][98493] Updated weights for policy 0, policy_version 489344 (0.0007)
+[2023-07-06 13:12:33,737][98493] Updated weights for policy 0, policy_version 489408 (0.0007)
+[2023-07-06 13:12:34,392][98493] Updated weights for policy 0, policy_version 489457 (0.0007)
+[2023-07-06 13:12:34,764][98243] Fps is (10 sec: 124518.3, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 1002504192. Throughput: 0: 27693.5. Samples: 250675200. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:12:34,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:12:34,958][98493] Updated weights for policy 0, policy_version 489531 (0.0008)
+[2023-07-06 13:12:37,183][98493] Updated weights for policy 0, policy_version 489574 (0.0007)
+[2023-07-06 13:12:38,287][98493] Updated weights for policy 0, policy_version 489632 (0.0007)
+[2023-07-06 13:12:38,727][98493] Updated weights for policy 0, policy_version 489668 (0.0006)
+[2023-07-06 13:12:39,315][98493] Updated weights for policy 0, policy_version 489744 (0.0007)
+[2023-07-06 13:12:39,523][98449] Signal inference workers to stop experience collection... (25350 times)
+[2023-07-06 13:12:39,564][98493] InferenceWorker_p0-w0: stopping experience collection (25350 times)
+[2023-07-06 13:12:39,613][98449] Signal inference workers to resume experience collection... (25350 times)
+[2023-07-06 13:12:39,613][98493] InferenceWorker_p0-w0: resuming experience collection (25350 times)
+[2023-07-06 13:12:39,764][98243] Fps is (10 sec: 124519.0, 60 sec: 113596.0, 300 sec: 111855.5). Total num frames: 1003094016. Throughput: 0: 27898.3. Samples: 250762752. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:12:39,764][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:12:41,416][98493] Updated weights for policy 0, policy_version 489794 (0.0013)
+[2023-07-06 13:12:42,915][98493] Updated weights for policy 0, policy_version 489861 (0.0008)
+[2023-07-06 13:12:43,381][98493] Updated weights for policy 0, policy_version 489920 (0.0007)
+[2023-07-06 13:12:43,885][98493] Updated weights for policy 0, policy_version 489973 (0.0007)
+[2023-07-06 13:12:44,454][98493] Updated weights for policy 0, policy_version 490043 (0.0010)
+[2023-07-06 13:12:44,764][98243] Fps is (10 sec: 111409.8, 60 sec: 113595.6, 300 sec: 111633.4). Total num frames: 1003618304. Throughput: 0: 27773.1. Samples: 250928128. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:12:44,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:12:46,398][98493] Updated weights for policy 0, policy_version 490086 (0.0008)
+[2023-07-06 13:12:47,960][98493] Updated weights for policy 0, policy_version 490146 (0.0006)
+[2023-07-06 13:12:48,587][98493] Updated weights for policy 0, policy_version 490224 (0.0007)
+[2023-07-06 13:12:49,120][98493] Updated weights for policy 0, policy_version 490280 (0.0007)
+[2023-07-06 13:12:49,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113049.6, 300 sec: 111411.3). Total num frames: 1004142592. Throughput: 0: 27659.4. Samples: 251089408. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:12:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:12:51,231][98493] Updated weights for policy 0, policy_version 490339 (0.0007)
+[2023-07-06 13:12:52,542][98493] Updated weights for policy 0, policy_version 490400 (0.0007)
+[2023-07-06 13:12:53,408][98493] Updated weights for policy 0, policy_version 490464 (0.0007)
+[2023-07-06 13:12:53,948][98493] Updated weights for policy 0, policy_version 490523 (0.0007)
+[2023-07-06 13:12:54,230][98493] Updated weights for policy 0, policy_version 490560 (0.0008)
+[2023-07-06 13:12:54,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 1004666880. Throughput: 0: 27818.6. Samples: 251176960. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:12:54,773][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:12:56,002][98493] Updated weights for policy 0, policy_version 490624 (0.0008)
+[2023-07-06 13:12:57,779][98493] Updated weights for policy 0, policy_version 490690 (0.0007)
+[2023-07-06 13:12:57,909][98449] Signal inference workers to stop experience collection... (25400 times)
+[2023-07-06 13:12:57,943][98493] InferenceWorker_p0-w0: stopping experience collection (25400 times)
+[2023-07-06 13:12:57,989][98449] Signal inference workers to resume experience collection... (25400 times)
+[2023-07-06 13:12:57,989][98493] InferenceWorker_p0-w0: resuming experience collection (25400 times)
+[2023-07-06 13:12:58,248][98493] Updated weights for policy 0, policy_version 490744 (0.0007)
+[2023-07-06 13:12:58,705][98493] Updated weights for policy 0, policy_version 490800 (0.0008)
+[2023-07-06 13:12:59,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111410.9, 300 sec: 111078.1). Total num frames: 1005191168. Throughput: 0: 27647.9. Samples: 251337728. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:12:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:13:00,438][98493] Updated weights for policy 0, policy_version 490832 (0.0006)
+[2023-07-06 13:13:02,023][98493] Updated weights for policy 0, policy_version 490896 (0.0007)
+[2023-07-06 13:13:02,545][98493] Updated weights for policy 0, policy_version 490951 (0.0006)
+[2023-07-06 13:13:02,994][98493] Updated weights for policy 0, policy_version 491008 (0.0008)
+[2023-07-06 13:13:03,523][98493] Updated weights for policy 0, policy_version 491067 (0.0009)
+[2023-07-06 13:13:04,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.1, 300 sec: 110855.8). Total num frames: 1005715456. Throughput: 0: 27784.5. Samples: 251509248. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:13:05,349][98493] Updated weights for policy 0, policy_version 491129 (0.0007)
+[2023-07-06 13:13:06,831][98493] Updated weights for policy 0, policy_version 491157 (0.0006)
+[2023-07-06 13:13:07,441][98493] Updated weights for policy 0, policy_version 491222 (0.0008)
+[2023-07-06 13:13:08,104][98493] Updated weights for policy 0, policy_version 491302 (0.0007)
+[2023-07-06 13:13:09,667][98493] Updated weights for policy 0, policy_version 491352 (0.0007)
+[2023-07-06 13:13:09,764][98243] Fps is (10 sec: 111413.0, 60 sec: 112503.5, 300 sec: 110966.9). Total num frames: 1006305280. Throughput: 0: 27636.6. Samples: 251590144. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:09,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:13:11,804][98493] Updated weights for policy 0, policy_version 491417 (0.0007)
+[2023-07-06 13:13:12,359][98493] Updated weights for policy 0, policy_version 491477 (0.0008)
+[2023-07-06 13:13:12,787][98493] Updated weights for policy 0, policy_version 491528 (0.0006)
+[2023-07-06 13:13:13,160][98493] Updated weights for policy 0, policy_version 491569 (0.0007)
+[2023-07-06 13:13:14,422][98449] Signal inference workers to stop experience collection... (25450 times)
+[2023-07-06 13:13:14,445][98493] InferenceWorker_p0-w0: stopping experience collection (25450 times)
+[2023-07-06 13:13:14,494][98449] Signal inference workers to resume experience collection... (25450 times)
+[2023-07-06 13:13:14,494][98493] InferenceWorker_p0-w0: resuming experience collection (25450 times)
+[2023-07-06 13:13:14,495][98493] Updated weights for policy 0, policy_version 491632 (0.0007)
+[2023-07-06 13:13:14,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113595.4, 300 sec: 111077.9). Total num frames: 1006895104. Throughput: 0: 27693.4. Samples: 251758592. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:13:16,641][98493] Updated weights for policy 0, policy_version 491680 (0.0007)
+[2023-07-06 13:13:17,319][98493] Updated weights for policy 0, policy_version 491760 (0.0009)
+[2023-07-06 13:13:17,882][98493] Updated weights for policy 0, policy_version 491824 (0.0007)
+[2023-07-06 13:13:19,270][98493] Updated weights for policy 0, policy_version 491881 (0.0007)
+[2023-07-06 13:13:19,764][98243] Fps is (10 sec: 111411.6, 60 sec: 111411.4, 300 sec: 111078.0). Total num frames: 1007419392. Throughput: 0: 27750.4. Samples: 251923968. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:19,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:13:21,445][98493] Updated weights for policy 0, policy_version 491927 (0.0014)
+[2023-07-06 13:13:22,032][98493] Updated weights for policy 0, policy_version 492000 (0.0008)
+[2023-07-06 13:13:22,460][98493] Updated weights for policy 0, policy_version 492048 (0.0007)
+[2023-07-06 13:13:22,888][98493] Updated weights for policy 0, policy_version 492096 (0.0007)
+[2023-07-06 13:13:23,991][98493] Updated weights for policy 0, policy_version 492151 (0.0007)
+[2023-07-06 13:13:24,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111411.1, 300 sec: 110966.9). Total num frames: 1007943680. Throughput: 0: 27636.6. Samples: 252006400. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:13:26,158][98493] Updated weights for policy 0, policy_version 492201 (0.0006)
+[2023-07-06 13:13:26,635][98493] Updated weights for policy 0, policy_version 492256 (0.0007)
+[2023-07-06 13:13:27,166][98493] Updated weights for policy 0, policy_version 492311 (0.0007)
+[2023-07-06 13:13:28,430][98493] Updated weights for policy 0, policy_version 492358 (0.0007)
+[2023-07-06 13:13:28,876][98493] Updated weights for policy 0, policy_version 492411 (0.0030)
+[2023-07-06 13:13:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 110319.0, 300 sec: 110633.9). Total num frames: 1008467968. Throughput: 0: 27682.2. Samples: 252173824. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:29,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:13:31,068][98493] Updated weights for policy 0, policy_version 492471 (0.0007)
+[2023-07-06 13:13:31,562][98449] Signal inference workers to stop experience collection... (25500 times)
+[2023-07-06 13:13:31,602][98493] InferenceWorker_p0-w0: stopping experience collection (25500 times)
+[2023-07-06 13:13:31,649][98449] Signal inference workers to resume experience collection... (25500 times)
+[2023-07-06 13:13:31,649][98493] InferenceWorker_p0-w0: resuming experience collection (25500 times)
+[2023-07-06 13:13:31,724][98493] Updated weights for policy 0, policy_version 492547 (0.0009)
+[2023-07-06 13:13:32,167][98493] Updated weights for policy 0, policy_version 492601 (0.0007)
+[2023-07-06 13:13:33,272][98493] Updated weights for policy 0, policy_version 492640 (0.0007)
+[2023-07-06 13:13:34,764][98243] Fps is (10 sec: 104857.3, 60 sec: 108134.3, 300 sec: 110633.7). Total num frames: 1008992256. Throughput: 0: 27909.7. Samples: 252345344. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:34,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:13:35,446][98493] Updated weights for policy 0, policy_version 492696 (0.0007)
+[2023-07-06 13:13:36,064][98493] Updated weights for policy 0, policy_version 492768 (0.0008)
+[2023-07-06 13:13:36,629][98493] Updated weights for policy 0, policy_version 492832 (0.0007)
+[2023-07-06 13:13:37,950][98493] Updated weights for policy 0, policy_version 492880 (0.0008)
+[2023-07-06 13:13:38,367][98493] Updated weights for policy 0, policy_version 492928 (0.0007)
+[2023-07-06 13:13:39,765][98243] Fps is (10 sec: 104853.9, 60 sec: 107041.5, 300 sec: 110633.5). Total num frames: 1009516544. Throughput: 0: 27670.6. Samples: 252422144. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:13:40,502][98493] Updated weights for policy 0, policy_version 492982 (0.0007)
+[2023-07-06 13:13:41,132][98493] Updated weights for policy 0, policy_version 493056 (0.0007)
+[2023-07-06 13:13:41,625][98493] Updated weights for policy 0, policy_version 493113 (0.0007)
+[2023-07-06 13:13:42,759][98493] Updated weights for policy 0, policy_version 493155 (0.0006)
+[2023-07-06 13:13:44,764][98243] Fps is (10 sec: 104855.8, 60 sec: 107042.0, 300 sec: 110411.4). Total num frames: 1010040832. Throughput: 0: 27841.4. Samples: 252590592. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:13:44,996][98493] Updated weights for policy 0, policy_version 493208 (0.0010)
+[2023-07-06 13:13:45,678][98493] Updated weights for policy 0, policy_version 493287 (0.0008)
+[2023-07-06 13:13:46,294][98493] Updated weights for policy 0, policy_version 493360 (0.0007)
+[2023-07-06 13:13:47,486][98493] Updated weights for policy 0, policy_version 493409 (0.0007)
+[2023-07-06 13:13:49,763][98449] Signal inference workers to stop experience collection... (25550 times)
+[2023-07-06 13:13:49,764][98243] Fps is (10 sec: 108138.1, 60 sec: 107588.3, 300 sec: 110300.4). Total num frames: 1010597888. Throughput: 0: 27818.7. Samples: 252761088. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:49,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:13:49,795][98493] InferenceWorker_p0-w0: stopping experience collection (25550 times)
+[2023-07-06 13:13:49,795][98493] Updated weights for policy 0, policy_version 493459 (0.0017)
+[2023-07-06 13:13:49,868][98449] Signal inference workers to resume experience collection... (25550 times)
+[2023-07-06 13:13:49,868][98493] InferenceWorker_p0-w0: resuming experience collection (25550 times)
+[2023-07-06 13:13:50,395][98493] Updated weights for policy 0, policy_version 493526 (0.0007)
+[2023-07-06 13:13:50,893][98493] Updated weights for policy 0, policy_version 493584 (0.0007)
+[2023-07-06 13:13:51,948][98493] Updated weights for policy 0, policy_version 493633 (0.0007)
+[2023-07-06 13:13:52,458][98493] Updated weights for policy 0, policy_version 493696 (0.0007)
+[2023-07-06 13:13:54,764][98243] Fps is (10 sec: 114690.7, 60 sec: 108680.8, 300 sec: 110522.6). Total num frames: 1011187712. Throughput: 0: 27704.9. Samples: 252836864. Policy #0 lag: (min: 125.0, avg: 234.6, max: 383.0)
+[2023-07-06 13:13:54,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:13:54,808][98493] Updated weights for policy 0, policy_version 493760 (0.0007)
+[2023-07-06 13:13:55,353][98493] Updated weights for policy 0, policy_version 493820 (0.0006)
+[2023-07-06 13:13:55,897][98493] Updated weights for policy 0, policy_version 493883 (0.0008)
+[2023-07-06 13:13:56,942][98493] Updated weights for policy 0, policy_version 493923 (0.0007)
+[2023-07-06 13:13:59,094][98493] Updated weights for policy 0, policy_version 493984 (0.0006)
+[2023-07-06 13:13:59,760][98493] Updated weights for policy 0, policy_version 494055 (0.0008)
+[2023-07-06 13:13:59,764][98243] Fps is (10 sec: 121240.7, 60 sec: 110319.1, 300 sec: 110855.9). Total num frames: 1011810304. Throughput: 0: 27818.7. Samples: 253010432. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:13:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:14:00,246][98493] Updated weights for policy 0, policy_version 494112 (0.0007)
+[2023-07-06 13:14:01,738][98493] Updated weights for policy 0, policy_version 494168 (0.0007)
+[2023-07-06 13:14:03,485][98493] Updated weights for policy 0, policy_version 494211 (0.0006)
+[2023-07-06 13:14:03,928][98493] Updated weights for policy 0, policy_version 494268 (0.0007)
+[2023-07-06 13:14:04,612][98493] Updated weights for policy 0, policy_version 494336 (0.0008)
+[2023-07-06 13:14:04,765][98243] Fps is (10 sec: 124514.4, 60 sec: 111956.9, 300 sec: 111188.9). Total num frames: 1012432896. Throughput: 0: 27590.9. Samples: 253165568. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:04,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:14:04,928][98449] Signal inference workers to stop experience collection... (25600 times)
+[2023-07-06 13:14:04,969][98493] InferenceWorker_p0-w0: stopping experience collection (25600 times)
+[2023-07-06 13:14:05,025][98449] Signal inference workers to resume experience collection... (25600 times)
+[2023-07-06 13:14:05,026][98493] InferenceWorker_p0-w0: resuming experience collection (25600 times)
+[2023-07-06 13:14:05,093][98493] Updated weights for policy 0, policy_version 494392 (0.0007)
+[2023-07-06 13:14:06,805][98493] Updated weights for policy 0, policy_version 494457 (0.0006)
+[2023-07-06 13:14:08,666][98493] Updated weights for policy 0, policy_version 494515 (0.0007)
+[2023-07-06 13:14:09,226][98493] Updated weights for policy 0, policy_version 494588 (0.0008)
+[2023-07-06 13:14:09,764][98243] Fps is (10 sec: 117965.5, 60 sec: 111411.2, 300 sec: 110855.8). Total num frames: 1012989952. Throughput: 0: 27716.3. Samples: 253253632. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:09,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:14:09,872][98493] Updated weights for policy 0, policy_version 494649 (0.0007)
+[2023-07-06 13:14:11,553][98493] Updated weights for policy 0, policy_version 494704 (0.0007)
+[2023-07-06 13:14:13,116][98493] Updated weights for policy 0, policy_version 494755 (0.0007)
+[2023-07-06 13:14:13,669][98493] Updated weights for policy 0, policy_version 494807 (0.0007)
+[2023-07-06 13:14:14,317][98493] Updated weights for policy 0, policy_version 494883 (0.0007)
+[2023-07-06 13:14:14,764][98243] Fps is (10 sec: 114691.8, 60 sec: 111411.5, 300 sec: 111078.0). Total num frames: 1013579776. Throughput: 0: 27704.9. Samples: 253420544. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:14:16,098][98493] Updated weights for policy 0, policy_version 494934 (0.0006)
+[2023-07-06 13:14:17,438][98493] Updated weights for policy 0, policy_version 494977 (0.0008)
+[2023-07-06 13:14:17,934][98493] Updated weights for policy 0, policy_version 495040 (0.0007)
+[2023-07-06 13:14:18,812][98493] Updated weights for policy 0, policy_version 495108 (0.0008)
+[2023-07-06 13:14:19,270][98493] Updated weights for policy 0, policy_version 495160 (0.0006)
+[2023-07-06 13:14:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.1, 300 sec: 110633.7). Total num frames: 1014104064. Throughput: 0: 27534.2. Samples: 253584384. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:14:20,820][98493] Updated weights for policy 0, policy_version 495202 (0.0007)
+[2023-07-06 13:14:22,266][98493] Updated weights for policy 0, policy_version 495264 (0.0007)
+[2023-07-06 13:14:23,024][98493] Updated weights for policy 0, policy_version 495302 (0.0006)
+[2023-07-06 13:14:23,551][98493] Updated weights for policy 0, policy_version 495360 (0.0028)
+[2023-07-06 13:14:23,596][98449] Signal inference workers to stop experience collection... (25650 times)
+[2023-07-06 13:14:23,639][98493] InferenceWorker_p0-w0: stopping experience collection (25650 times)
+[2023-07-06 13:14:23,709][98449] Signal inference workers to resume experience collection... (25650 times)
+[2023-07-06 13:14:23,710][98493] InferenceWorker_p0-w0: resuming experience collection (25650 times)
+[2023-07-06 13:14:24,076][98493] Updated weights for policy 0, policy_version 495416 (0.0007)
+[2023-07-06 13:14:24,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.2, 300 sec: 110633.7). Total num frames: 1014628352. Throughput: 0: 27739.2. Samples: 253670400. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:24,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:14:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000495424_1014628352.pth...
+[2023-07-06 13:14:24,796][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000482448_988053504.pth
+[2023-07-06 13:14:25,413][98493] Updated weights for policy 0, policy_version 495461 (0.0007)
+[2023-07-06 13:14:27,308][98493] Updated weights for policy 0, policy_version 495520 (0.0007)
+[2023-07-06 13:14:27,968][98493] Updated weights for policy 0, policy_version 495589 (0.0007)
+[2023-07-06 13:14:28,576][98493] Updated weights for policy 0, policy_version 495635 (0.0008)
+[2023-07-06 13:14:29,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.2, 300 sec: 110633.7). Total num frames: 1015152640. Throughput: 0: 27591.3. Samples: 253832192. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:29,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:14:29,884][98493] Updated weights for policy 0, policy_version 495703 (0.0007)
+[2023-07-06 13:14:31,806][98493] Updated weights for policy 0, policy_version 495760 (0.0008)
+[2023-07-06 13:14:32,475][98493] Updated weights for policy 0, policy_version 495809 (0.0007)
+[2023-07-06 13:14:32,927][98493] Updated weights for policy 0, policy_version 495870 (0.0007)
+[2023-07-06 13:14:33,790][98493] Updated weights for policy 0, policy_version 495926 (0.0007)
+[2023-07-06 13:14:34,527][98493] Updated weights for policy 0, policy_version 495971 (0.0007)
+[2023-07-06 13:14:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 113595.9, 300 sec: 111078.0). Total num frames: 1015808000. Throughput: 0: 27477.3. Samples: 253997568. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:34,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:14:36,610][98493] Updated weights for policy 0, policy_version 496023 (0.0007)
+[2023-07-06 13:14:37,239][98493] Updated weights for policy 0, policy_version 496070 (0.0007)
+[2023-07-06 13:14:37,659][98493] Updated weights for policy 0, policy_version 496127 (0.0006)
+[2023-07-06 13:14:38,503][98493] Updated weights for policy 0, policy_version 496186 (0.0006)
+[2023-07-06 13:14:39,076][98493] Updated weights for policy 0, policy_version 496250 (0.0007)
+[2023-07-06 13:14:39,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113596.3, 300 sec: 111078.0). Total num frames: 1016332288. Throughput: 0: 27773.1. Samples: 254086656. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:39,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:14:41,636][98493] Updated weights for policy 0, policy_version 496294 (0.0006)
+[2023-07-06 13:14:42,092][98493] Updated weights for policy 0, policy_version 496343 (0.0007)
+[2023-07-06 13:14:42,199][98449] Signal inference workers to stop experience collection... (25700 times)
+[2023-07-06 13:14:42,237][98493] InferenceWorker_p0-w0: stopping experience collection (25700 times)
+[2023-07-06 13:14:42,317][98449] Signal inference workers to resume experience collection... (25700 times)
+[2023-07-06 13:14:42,317][98493] InferenceWorker_p0-w0: resuming experience collection (25700 times)
+[2023-07-06 13:14:42,980][98493] Updated weights for policy 0, policy_version 496400 (0.0006)
+[2023-07-06 13:14:43,484][98493] Updated weights for policy 0, policy_version 496453 (0.0007)
+[2023-07-06 13:14:44,764][98243] Fps is (10 sec: 104857.1, 60 sec: 113596.1, 300 sec: 110966.9). Total num frames: 1016856576. Throughput: 0: 27534.2. Samples: 254249472. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:14:46,337][98493] Updated weights for policy 0, policy_version 496514 (0.0008)
+[2023-07-06 13:14:46,899][98493] Updated weights for policy 0, policy_version 496581 (0.0008)
+[2023-07-06 13:14:47,407][98493] Updated weights for policy 0, policy_version 496640 (0.0007)
+[2023-07-06 13:14:47,994][98493] Updated weights for policy 0, policy_version 496696 (0.0007)
+[2023-07-06 13:14:48,519][98493] Updated weights for policy 0, policy_version 496764 (0.0008)
+[2023-07-06 13:14:49,764][98243] Fps is (10 sec: 104855.9, 60 sec: 113049.3, 300 sec: 110633.7). Total num frames: 1017380864. Throughput: 0: 27830.1. Samples: 254417920. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:14:51,334][98493] Updated weights for policy 0, policy_version 496822 (0.0007)
+[2023-07-06 13:14:51,821][98493] Updated weights for policy 0, policy_version 496880 (0.0008)
+[2023-07-06 13:14:52,574][98493] Updated weights for policy 0, policy_version 496916 (0.0006)
+[2023-07-06 13:14:53,071][98493] Updated weights for policy 0, policy_version 496976 (0.0007)
+[2023-07-06 13:14:53,482][98493] Updated weights for policy 0, policy_version 497024 (0.0008)
+[2023-07-06 13:14:54,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111957.3, 300 sec: 110633.7). Total num frames: 1017905152. Throughput: 0: 27727.6. Samples: 254501376. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:14:56,035][98493] Updated weights for policy 0, policy_version 497078 (0.0007)
+[2023-07-06 13:14:56,588][98493] Updated weights for policy 0, policy_version 497145 (0.0007)
+[2023-07-06 13:14:57,400][98493] Updated weights for policy 0, policy_version 497211 (0.0007)
+[2023-07-06 13:14:58,118][98493] Updated weights for policy 0, policy_version 497272 (0.0007)
+[2023-07-06 13:14:59,764][98243] Fps is (10 sec: 104858.9, 60 sec: 110319.0, 300 sec: 110413.6). Total num frames: 1018429440. Throughput: 0: 27670.7. Samples: 254665728. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:14:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:15:00,438][98449] Signal inference workers to stop experience collection... (25750 times)
+[2023-07-06 13:15:00,477][98493] InferenceWorker_p0-w0: stopping experience collection (25750 times)
+[2023-07-06 13:15:00,520][98449] Signal inference workers to resume experience collection... (25750 times)
+[2023-07-06 13:15:00,520][98493] InferenceWorker_p0-w0: resuming experience collection (25750 times)
+[2023-07-06 13:15:00,586][98493] Updated weights for policy 0, policy_version 497314 (0.0007)
+[2023-07-06 13:15:01,294][98493] Updated weights for policy 0, policy_version 497380 (0.0008)
+[2023-07-06 13:15:01,755][98493] Updated weights for policy 0, policy_version 497410 (0.0008)
+[2023-07-06 13:15:02,363][98493] Updated weights for policy 0, policy_version 497473 (0.0008)
+[2023-07-06 13:15:04,764][98243] Fps is (10 sec: 104857.0, 60 sec: 108681.0, 300 sec: 110300.4). Total num frames: 1018953728. Throughput: 0: 27818.6. Samples: 254836224. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:15:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:15:05,086][98493] Updated weights for policy 0, policy_version 497541 (0.0007)
+[2023-07-06 13:15:05,694][98493] Updated weights for policy 0, policy_version 497616 (0.0007)
+[2023-07-06 13:15:06,106][98493] Updated weights for policy 0, policy_version 497664 (0.0007)
+[2023-07-06 13:15:07,247][98493] Updated weights for policy 0, policy_version 497732 (0.0008)
+[2023-07-06 13:15:07,674][98493] Updated weights for policy 0, policy_version 497787 (0.0008)
+[2023-07-06 13:15:09,764][98243] Fps is (10 sec: 104856.3, 60 sec: 108134.1, 300 sec: 110189.3). Total num frames: 1019478016. Throughput: 0: 27568.3. Samples: 254910976. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:15:09,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:15:10,200][98493] Updated weights for policy 0, policy_version 497844 (0.0007)
+[2023-07-06 13:15:10,750][98493] Updated weights for policy 0, policy_version 497914 (0.0007)
+[2023-07-06 13:15:11,783][98493] Updated weights for policy 0, policy_version 497968 (0.0007)
+[2023-07-06 13:15:12,419][98493] Updated weights for policy 0, policy_version 498043 (0.0006)
+[2023-07-06 13:15:14,764][98243] Fps is (10 sec: 108135.9, 60 sec: 107588.4, 300 sec: 110300.4). Total num frames: 1020035072. Throughput: 0: 27750.4. Samples: 255080960. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:15:14,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:15:14,906][98493] Updated weights for policy 0, policy_version 498096 (0.0019)
+[2023-07-06 13:15:15,453][98493] Updated weights for policy 0, policy_version 498146 (0.0007)
+[2023-07-06 13:15:16,286][98493] Updated weights for policy 0, policy_version 498192 (0.0007)
+[2023-07-06 13:15:16,602][98449] Signal inference workers to stop experience collection... (25800 times)
+[2023-07-06 13:15:16,646][98493] InferenceWorker_p0-w0: stopping experience collection (25800 times)
+[2023-07-06 13:15:16,701][98449] Signal inference workers to resume experience collection... (25800 times)
+[2023-07-06 13:15:16,701][98493] InferenceWorker_p0-w0: resuming experience collection (25800 times)
+[2023-07-06 13:15:16,919][98493] Updated weights for policy 0, policy_version 498261 (0.0008)
+[2023-07-06 13:15:19,366][98493] Updated weights for policy 0, policy_version 498320 (0.0007)
+[2023-07-06 13:15:19,764][98243] Fps is (10 sec: 117967.5, 60 sec: 109226.8, 300 sec: 110633.7). Total num frames: 1020657664. Throughput: 0: 27727.7. Samples: 255245312. Policy #0 lag: (min: 17.0, avg: 162.1, max: 273.0)
+[2023-07-06 13:15:19,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:15:20,041][98493] Updated weights for policy 0, policy_version 498372 (0.0007)
+[2023-07-06 13:15:20,492][98493] Updated weights for policy 0, policy_version 498424 (0.0008)
+[2023-07-06 13:15:21,228][98493] Updated weights for policy 0, policy_version 498472 (0.0007)
+[2023-07-06 13:15:21,653][98493] Updated weights for policy 0, policy_version 498517 (0.0008)
+[2023-07-06 13:15:24,055][98493] Updated weights for policy 0, policy_version 498576 (0.0007)
+[2023-07-06 13:15:24,588][98493] Updated weights for policy 0, policy_version 498632 (0.0007)
+[2023-07-06 13:15:24,764][98243] Fps is (10 sec: 117962.7, 60 sec: 109772.7, 300 sec: 110633.6). Total num frames: 1021214720. Throughput: 0: 27613.8. Samples: 255329280. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:15:25,080][98493] Updated weights for policy 0, policy_version 498688 (0.0013)
+[2023-07-06 13:15:26,155][98493] Updated weights for policy 0, policy_version 498755 (0.0008)
+[2023-07-06 13:15:26,612][98493] Updated weights for policy 0, policy_version 498816 (0.0007)
+[2023-07-06 13:15:29,109][98493] Updated weights for policy 0, policy_version 498878 (0.0007)
+[2023-07-06 13:15:29,764][98243] Fps is (10 sec: 111410.6, 60 sec: 110318.9, 300 sec: 110855.9). Total num frames: 1021771776. Throughput: 0: 27807.3. Samples: 255500800. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:29,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:15:29,820][98493] Updated weights for policy 0, policy_version 498928 (0.0007)
+[2023-07-06 13:15:30,485][98493] Updated weights for policy 0, policy_version 498962 (0.0007)
+[2023-07-06 13:15:30,986][98493] Updated weights for policy 0, policy_version 499024 (0.0007)
+[2023-07-06 13:15:31,414][98493] Updated weights for policy 0, policy_version 499072 (0.0007)
+[2023-07-06 13:15:33,598][98493] Updated weights for policy 0, policy_version 499136 (0.0007)
+[2023-07-06 13:15:34,536][98493] Updated weights for policy 0, policy_version 499195 (0.0007)
+[2023-07-06 13:15:34,764][98243] Fps is (10 sec: 114688.9, 60 sec: 109226.6, 300 sec: 110966.8). Total num frames: 1022361600. Throughput: 0: 27693.6. Samples: 255664128. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:34,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:15:35,098][98449] Signal inference workers to stop experience collection... (25850 times)
+[2023-07-06 13:15:35,131][98493] InferenceWorker_p0-w0: stopping experience collection (25850 times)
+[2023-07-06 13:15:35,202][98449] Signal inference workers to resume experience collection... (25850 times)
+[2023-07-06 13:15:35,202][98493] InferenceWorker_p0-w0: resuming experience collection (25850 times)
+[2023-07-06 13:15:35,569][98493] Updated weights for policy 0, policy_version 499257 (0.0007)
+[2023-07-06 13:15:36,140][98493] Updated weights for policy 0, policy_version 499321 (0.0007)
+[2023-07-06 13:15:38,175][98493] Updated weights for policy 0, policy_version 499360 (0.0007)
+[2023-07-06 13:15:38,825][98493] Updated weights for policy 0, policy_version 499394 (0.0007)
+[2023-07-06 13:15:39,547][98493] Updated weights for policy 0, policy_version 499459 (0.0007)
+[2023-07-06 13:15:39,764][98243] Fps is (10 sec: 117964.2, 60 sec: 110318.8, 300 sec: 110966.9). Total num frames: 1022951424. Throughput: 0: 27727.6. Samples: 255749120. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:15:39,994][98493] Updated weights for policy 0, policy_version 499517 (0.0006)
+[2023-07-06 13:15:40,731][98493] Updated weights for policy 0, policy_version 499568 (0.0007)
+[2023-07-06 13:15:42,942][98493] Updated weights for policy 0, policy_version 499624 (0.0009)
+[2023-07-06 13:15:43,855][98493] Updated weights for policy 0, policy_version 499655 (0.0007)
+[2023-07-06 13:15:44,404][98493] Updated weights for policy 0, policy_version 499714 (0.0006)
+[2023-07-06 13:15:44,764][98243] Fps is (10 sec: 114689.0, 60 sec: 110865.2, 300 sec: 110856.0). Total num frames: 1023508480. Throughput: 0: 27807.4. Samples: 255917056. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:44,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:15:44,873][98493] Updated weights for policy 0, policy_version 499774 (0.0007)
+[2023-07-06 13:15:45,462][98493] Updated weights for policy 0, policy_version 499835 (0.0007)
+[2023-07-06 13:15:47,768][98493] Updated weights for policy 0, policy_version 499900 (0.0007)
+[2023-07-06 13:15:48,814][98493] Updated weights for policy 0, policy_version 499943 (0.0007)
+[2023-07-06 13:15:49,421][98493] Updated weights for policy 0, policy_version 500016 (0.0007)
+[2023-07-06 13:15:49,764][98243] Fps is (10 sec: 111411.8, 60 sec: 111411.5, 300 sec: 110855.8). Total num frames: 1024065536. Throughput: 0: 27625.3. Samples: 256079360. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:49,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:15:50,048][98493] Updated weights for policy 0, policy_version 500069 (0.0006)
+[2023-07-06 13:15:52,338][98493] Updated weights for policy 0, policy_version 500134 (0.0007)
+[2023-07-06 13:15:53,263][98493] Updated weights for policy 0, policy_version 500167 (0.0008)
+[2023-07-06 13:15:53,496][98449] Signal inference workers to stop experience collection... (25900 times)
+[2023-07-06 13:15:53,522][98493] InferenceWorker_p0-w0: stopping experience collection (25900 times)
+[2023-07-06 13:15:53,577][98449] Signal inference workers to resume experience collection... (25900 times)
+[2023-07-06 13:15:53,578][98493] InferenceWorker_p0-w0: resuming experience collection (25900 times)
+[2023-07-06 13:15:53,952][98493] Updated weights for policy 0, policy_version 500250 (0.0008)
+[2023-07-06 13:15:54,257][98493] Updated weights for policy 0, policy_version 500288 (0.0006)
+[2023-07-06 13:15:54,764][98243] Fps is (10 sec: 111410.7, 60 sec: 111957.4, 300 sec: 110746.9). Total num frames: 1024622592. Throughput: 0: 27887.0. Samples: 256165888. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:54,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:15:55,085][98493] Updated weights for policy 0, policy_version 500347 (0.0007)
+[2023-07-06 13:15:57,026][98493] Updated weights for policy 0, policy_version 500413 (0.0007)
+[2023-07-06 13:15:58,516][98493] Updated weights for policy 0, policy_version 500480 (0.0007)
+[2023-07-06 13:15:59,046][98493] Updated weights for policy 0, policy_version 500540 (0.0008)
+[2023-07-06 13:15:59,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112503.6, 300 sec: 110855.9). Total num frames: 1025179648. Throughput: 0: 27739.0. Samples: 256329216. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:15:59,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:15:59,937][98493] Updated weights for policy 0, policy_version 500594 (0.0007)
+[2023-07-06 13:16:01,388][98493] Updated weights for policy 0, policy_version 500628 (0.0006)
+[2023-07-06 13:16:02,800][98493] Updated weights for policy 0, policy_version 500696 (0.0007)
+[2023-07-06 13:16:03,134][98493] Updated weights for policy 0, policy_version 500736 (0.0030)
+[2023-07-06 13:16:03,684][98493] Updated weights for policy 0, policy_version 500800 (0.0007)
+[2023-07-06 13:16:04,647][98493] Updated weights for policy 0, policy_version 500858 (0.0007)
+[2023-07-06 13:16:04,764][98243] Fps is (10 sec: 114688.0, 60 sec: 113595.9, 300 sec: 110966.9). Total num frames: 1025769472. Throughput: 0: 27761.8. Samples: 256494592. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:04,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 13:16:06,226][98493] Updated weights for policy 0, policy_version 500912 (0.0007)
+[2023-07-06 13:16:07,678][98493] Updated weights for policy 0, policy_version 500986 (0.0007)
+[2023-07-06 13:16:08,403][98493] Updated weights for policy 0, policy_version 501040 (0.0006)
+[2023-07-06 13:16:09,272][98493] Updated weights for policy 0, policy_version 501093 (0.0007)
+[2023-07-06 13:16:09,764][98243] Fps is (10 sec: 111410.0, 60 sec: 113595.9, 300 sec: 110633.6). Total num frames: 1026293760. Throughput: 0: 27807.3. Samples: 256580608. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:09,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 13:16:10,656][98493] Updated weights for policy 0, policy_version 501136 (0.0006)
+[2023-07-06 13:16:11,996][98493] Updated weights for policy 0, policy_version 501187 (0.0007)
+[2023-07-06 13:16:12,126][98449] Signal inference workers to stop experience collection... (25950 times)
+[2023-07-06 13:16:12,163][98493] InferenceWorker_p0-w0: stopping experience collection (25950 times)
+[2023-07-06 13:16:12,215][98449] Signal inference workers to resume experience collection... (25950 times)
+[2023-07-06 13:16:12,215][98493] InferenceWorker_p0-w0: resuming experience collection (25950 times)
+[2023-07-06 13:16:12,678][98493] Updated weights for policy 0, policy_version 501264 (0.0008)
+[2023-07-06 13:16:13,948][98493] Updated weights for policy 0, policy_version 501328 (0.0009)
+[2023-07-06 13:16:14,308][98493] Updated weights for policy 0, policy_version 501371 (0.0007)
+[2023-07-06 13:16:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113049.5, 300 sec: 110633.7). Total num frames: 1026818048. Throughput: 0: 27670.8. Samples: 256745984. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:14,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 13:16:15,546][98493] Updated weights for policy 0, policy_version 501399 (0.0006)
+[2023-07-06 13:16:16,728][98493] Updated weights for policy 0, policy_version 501456 (0.0007)
+[2023-07-06 13:16:17,331][98493] Updated weights for policy 0, policy_version 501510 (0.0007)
+[2023-07-06 13:16:18,553][98493] Updated weights for policy 0, policy_version 501569 (0.0007)
+[2023-07-06 13:16:18,992][98493] Updated weights for policy 0, policy_version 501625 (0.0008)
+[2023-07-06 13:16:19,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.0, 300 sec: 110633.7). Total num frames: 1027342336. Throughput: 0: 27807.3. Samples: 256915456. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:19,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:16:20,457][98493] Updated weights for policy 0, policy_version 501690 (0.0008)
+[2023-07-06 13:16:21,573][98493] Updated weights for policy 0, policy_version 501744 (0.0007)
+[2023-07-06 13:16:22,121][98493] Updated weights for policy 0, policy_version 501792 (0.0008)
+[2023-07-06 13:16:23,520][98493] Updated weights for policy 0, policy_version 501830 (0.0006)
+[2023-07-06 13:16:24,764][98243] Fps is (10 sec: 104857.0, 60 sec: 110865.2, 300 sec: 110633.6). Total num frames: 1027866624. Throughput: 0: 27704.9. Samples: 256995840. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:24,765][98243] Avg episode reward: [(0, '9.440')]
+[2023-07-06 13:16:24,772][98493] Updated weights for policy 0, policy_version 501891 (0.0007)
+[2023-07-06 13:16:24,964][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000501920_1027932160.pth...
+[2023-07-06 13:16:25,043][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000488928_1001324544.pth
+[2023-07-06 13:16:26,175][98493] Updated weights for policy 0, policy_version 501984 (0.0007)
+[2023-07-06 13:16:26,756][98493] Updated weights for policy 0, policy_version 502038 (0.0007)
+[2023-07-06 13:16:28,294][98493] Updated weights for policy 0, policy_version 502086 (0.0007)
+[2023-07-06 13:16:28,719][98493] Updated weights for policy 0, policy_version 502135 (0.0006)
+[2023-07-06 13:16:29,697][98493] Updated weights for policy 0, policy_version 502176 (0.0008)
+[2023-07-06 13:16:29,764][98243] Fps is (10 sec: 111411.6, 60 sec: 111411.2, 300 sec: 110855.8). Total num frames: 1028456448. Throughput: 0: 27670.7. Samples: 257162240. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:29,765][98243] Avg episode reward: [(0, '9.400')]
+[2023-07-06 13:16:30,909][98493] Updated weights for policy 0, policy_version 502224 (0.0007)
+[2023-07-06 13:16:31,231][98449] Signal inference workers to stop experience collection... (26000 times)
+[2023-07-06 13:16:31,277][98493] InferenceWorker_p0-w0: stopping experience collection (26000 times)
+[2023-07-06 13:16:31,324][98449] Signal inference workers to resume experience collection... (26000 times)
+[2023-07-06 13:16:31,325][98493] InferenceWorker_p0-w0: resuming experience collection (26000 times)
+[2023-07-06 13:16:31,546][98493] Updated weights for policy 0, policy_version 502292 (0.0030)
+[2023-07-06 13:16:32,764][98493] Updated weights for policy 0, policy_version 502338 (0.0006)
+[2023-07-06 13:16:34,194][98493] Updated weights for policy 0, policy_version 502403 (0.0007)
+[2023-07-06 13:16:34,606][98493] Updated weights for policy 0, policy_version 502456 (0.0007)
+[2023-07-06 13:16:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1029046272. Throughput: 0: 27818.7. Samples: 257331200. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:34,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:16:35,861][98493] Updated weights for policy 0, policy_version 502502 (0.0007)
+[2023-07-06 13:16:36,432][98493] Updated weights for policy 0, policy_version 502563 (0.0007)
+[2023-07-06 13:16:37,592][98493] Updated weights for policy 0, policy_version 502615 (0.0007)
+[2023-07-06 13:16:39,266][98493] Updated weights for policy 0, policy_version 502680 (0.0008)
+[2023-07-06 13:16:39,764][98243] Fps is (10 sec: 111410.2, 60 sec: 110318.9, 300 sec: 111078.0). Total num frames: 1029570560. Throughput: 0: 27727.6. Samples: 257413632. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:39,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:16:40,168][98493] Updated weights for policy 0, policy_version 502752 (0.0007)
+[2023-07-06 13:16:40,809][98493] Updated weights for policy 0, policy_version 502808 (0.0007)
+[2023-07-06 13:16:42,539][98493] Updated weights for policy 0, policy_version 502874 (0.0007)
+[2023-07-06 13:16:42,863][98493] Updated weights for policy 0, policy_version 502912 (0.0006)
+[2023-07-06 13:16:44,170][98493] Updated weights for policy 0, policy_version 502971 (0.0007)
+[2023-07-06 13:16:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109772.7, 300 sec: 110966.9). Total num frames: 1030094848. Throughput: 0: 27909.7. Samples: 257585152. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:44,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:16:45,203][98493] Updated weights for policy 0, policy_version 503030 (0.0008)
+[2023-07-06 13:16:45,769][98493] Updated weights for policy 0, policy_version 503104 (0.0007)
+[2023-07-06 13:16:47,603][98493] Updated weights for policy 0, policy_version 503162 (0.0008)
+[2023-07-06 13:16:48,789][98493] Updated weights for policy 0, policy_version 503216 (0.0008)
+[2023-07-06 13:16:49,670][98493] Updated weights for policy 0, policy_version 503250 (0.0008)
+[2023-07-06 13:16:49,764][98243] Fps is (10 sec: 111412.8, 60 sec: 110319.0, 300 sec: 110855.8). Total num frames: 1030684672. Throughput: 0: 27921.1. Samples: 257751040. Policy #0 lag: (min: 15.0, avg: 88.0, max: 271.0)
+[2023-07-06 13:16:49,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:16:49,794][98449] Signal inference workers to stop experience collection... (26050 times)
+[2023-07-06 13:16:49,832][98493] InferenceWorker_p0-w0: stopping experience collection (26050 times)
+[2023-07-06 13:16:49,875][98449] Signal inference workers to resume experience collection... (26050 times)
+[2023-07-06 13:16:49,876][98493] InferenceWorker_p0-w0: resuming experience collection (26050 times)
+[2023-07-06 13:16:50,174][98493] Updated weights for policy 0, policy_version 503312 (0.0007)
+[2023-07-06 13:16:50,595][98493] Updated weights for policy 0, policy_version 503360 (0.0007)
+[2023-07-06 13:16:52,477][98493] Updated weights for policy 0, policy_version 503420 (0.0007)
+[2023-07-06 13:16:53,455][98493] Updated weights for policy 0, policy_version 503462 (0.0007)
+[2023-07-06 13:16:54,460][98493] Updated weights for policy 0, policy_version 503525 (0.0007)
+[2023-07-06 13:16:54,764][98243] Fps is (10 sec: 117965.2, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 1031274496. Throughput: 0: 27830.1. Samples: 257832960. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:16:54,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:16:55,001][98493] Updated weights for policy 0, policy_version 503593 (0.0007)
+[2023-07-06 13:16:56,921][98493] Updated weights for policy 0, policy_version 503657 (0.0007)
+[2023-07-06 13:16:58,195][98493] Updated weights for policy 0, policy_version 503720 (0.0007)
+[2023-07-06 13:16:59,276][98493] Updated weights for policy 0, policy_version 503792 (0.0008)
+[2023-07-06 13:16:59,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111411.3, 300 sec: 111300.1). Total num frames: 1031864320. Throughput: 0: 27864.2. Samples: 257999872. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:16:59,764][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:16:59,853][98493] Updated weights for policy 0, policy_version 503856 (0.0007)
+[2023-07-06 13:17:01,679][98493] Updated weights for policy 0, policy_version 503909 (0.0007)
+[2023-07-06 13:17:02,791][98493] Updated weights for policy 0, policy_version 503976 (0.0007)
+[2023-07-06 13:17:03,799][98493] Updated weights for policy 0, policy_version 504023 (0.0007)
+[2023-07-06 13:17:04,282][98493] Updated weights for policy 0, policy_version 504080 (0.0007)
+[2023-07-06 13:17:04,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1032454144. Throughput: 0: 27682.2. Samples: 258161152. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:04,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:17:06,067][98493] Updated weights for policy 0, policy_version 504132 (0.0007)
+[2023-07-06 13:17:06,527][98493] Updated weights for policy 0, policy_version 504192 (0.0006)
+[2023-07-06 13:17:07,783][98493] Updated weights for policy 0, policy_version 504249 (0.0006)
+[2023-07-06 13:17:08,304][98449] Signal inference workers to stop experience collection... (26100 times)
+[2023-07-06 13:17:08,345][98493] InferenceWorker_p0-w0: stopping experience collection (26100 times)
+[2023-07-06 13:17:08,405][98449] Signal inference workers to resume experience collection... (26100 times)
+[2023-07-06 13:17:08,405][98493] InferenceWorker_p0-w0: resuming experience collection (26100 times)
+[2023-07-06 13:17:08,633][98493] Updated weights for policy 0, policy_version 504291 (0.0006)
+[2023-07-06 13:17:09,192][98493] Updated weights for policy 0, policy_version 504354 (0.0007)
+[2023-07-06 13:17:09,765][98243] Fps is (10 sec: 111406.6, 60 sec: 111410.7, 300 sec: 111522.1). Total num frames: 1032978432. Throughput: 0: 27909.5. Samples: 258251776. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:17:10,926][98493] Updated weights for policy 0, policy_version 504416 (0.0007)
+[2023-07-06 13:17:12,088][98493] Updated weights for policy 0, policy_version 504464 (0.0006)
+[2023-07-06 13:17:13,013][98493] Updated weights for policy 0, policy_version 504528 (0.0007)
+[2023-07-06 13:17:13,511][98493] Updated weights for policy 0, policy_version 504582 (0.0006)
+[2023-07-06 13:17:14,764][98243] Fps is (10 sec: 104856.1, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 1033502720. Throughput: 0: 27818.6. Samples: 258414080. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:14,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:17:15,552][98493] Updated weights for policy 0, policy_version 504646 (0.0008)
+[2023-07-06 13:17:15,970][98493] Updated weights for policy 0, policy_version 504698 (0.0007)
+[2023-07-06 13:17:16,921][98493] Updated weights for policy 0, policy_version 504739 (0.0008)
+[2023-07-06 13:17:17,728][98493] Updated weights for policy 0, policy_version 504790 (0.0008)
+[2023-07-06 13:17:18,262][98493] Updated weights for policy 0, policy_version 504851 (0.0007)
+[2023-07-06 13:17:19,764][98243] Fps is (10 sec: 104861.4, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 1034027008. Throughput: 0: 27909.7. Samples: 258587136. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:19,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:17:20,400][98493] Updated weights for policy 0, policy_version 504901 (0.0006)
+[2023-07-06 13:17:21,262][98493] Updated weights for policy 0, policy_version 504965 (0.0007)
+[2023-07-06 13:17:21,973][98493] Updated weights for policy 0, policy_version 505026 (0.0007)
+[2023-07-06 13:17:22,393][98493] Updated weights for policy 0, policy_version 505081 (0.0007)
+[2023-07-06 13:17:23,091][98493] Updated weights for policy 0, policy_version 505124 (0.0006)
+[2023-07-06 13:17:24,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.0, 300 sec: 110855.8). Total num frames: 1034551296. Throughput: 0: 27898.3. Samples: 258669056. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:24,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:17:25,230][98493] Updated weights for policy 0, policy_version 505171 (0.0015)
+[2023-07-06 13:17:25,817][98493] Updated weights for policy 0, policy_version 505219 (0.0007)
+[2023-07-06 13:17:26,055][98449] Signal inference workers to stop experience collection... (26150 times)
+[2023-07-06 13:17:26,092][98493] InferenceWorker_p0-w0: stopping experience collection (26150 times)
+[2023-07-06 13:17:26,155][98449] Signal inference workers to resume experience collection... (26150 times)
+[2023-07-06 13:17:26,156][98493] InferenceWorker_p0-w0: resuming experience collection (26150 times)
+[2023-07-06 13:17:26,290][98493] Updated weights for policy 0, policy_version 505280 (0.0006)
+[2023-07-06 13:17:27,075][98493] Updated weights for policy 0, policy_version 505317 (0.0007)
+[2023-07-06 13:17:27,644][98493] Updated weights for policy 0, policy_version 505377 (0.0011)
+[2023-07-06 13:17:29,764][98243] Fps is (10 sec: 104857.2, 60 sec: 110318.9, 300 sec: 110411.5). Total num frames: 1035075584. Throughput: 0: 27852.8. Samples: 258838528. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:29,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:17:29,944][98493] Updated weights for policy 0, policy_version 505440 (0.0006)
+[2023-07-06 13:17:30,726][98493] Updated weights for policy 0, policy_version 505504 (0.0008)
+[2023-07-06 13:17:31,617][98493] Updated weights for policy 0, policy_version 505552 (0.0008)
+[2023-07-06 13:17:32,162][98493] Updated weights for policy 0, policy_version 505616 (0.0007)
+[2023-07-06 13:17:34,243][98493] Updated weights for policy 0, policy_version 505665 (0.0008)
+[2023-07-06 13:17:34,764][98243] Fps is (10 sec: 117966.4, 60 sec: 111411.1, 300 sec: 110633.6). Total num frames: 1035730944. Throughput: 0: 27875.5. Samples: 259005440. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:34,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:17:35,250][98493] Updated weights for policy 0, policy_version 505729 (0.0006)
+[2023-07-06 13:17:36,526][98493] Updated weights for policy 0, policy_version 505793 (0.0007)
+[2023-07-06 13:17:37,022][98493] Updated weights for policy 0, policy_version 505856 (0.0006)
+[2023-07-06 13:17:37,516][98493] Updated weights for policy 0, policy_version 505912 (0.0006)
+[2023-07-06 13:17:39,104][98493] Updated weights for policy 0, policy_version 505952 (0.0007)
+[2023-07-06 13:17:39,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111411.4, 300 sec: 110633.7). Total num frames: 1036255232. Throughput: 0: 27852.8. Samples: 259086336. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:39,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:17:40,117][98493] Updated weights for policy 0, policy_version 506000 (0.0007)
+[2023-07-06 13:17:40,554][98493] Updated weights for policy 0, policy_version 506048 (0.0007)
+[2023-07-06 13:17:41,612][98493] Updated weights for policy 0, policy_version 506099 (0.0007)
+[2023-07-06 13:17:42,053][98493] Updated weights for policy 0, policy_version 506150 (0.0007)
+[2023-07-06 13:17:43,900][98493] Updated weights for policy 0, policy_version 506199 (0.0007)
+[2023-07-06 13:17:44,616][98449] Signal inference workers to stop experience collection... (26200 times)
+[2023-07-06 13:17:44,646][98493] InferenceWorker_p0-w0: stopping experience collection (26200 times)
+[2023-07-06 13:17:44,668][98493] Updated weights for policy 0, policy_version 506246 (0.0007)
+[2023-07-06 13:17:44,715][98449] Signal inference workers to resume experience collection... (26200 times)
+[2023-07-06 13:17:44,715][98493] InferenceWorker_p0-w0: resuming experience collection (26200 times)
+[2023-07-06 13:17:44,764][98243] Fps is (10 sec: 108135.3, 60 sec: 111957.5, 300 sec: 110744.8). Total num frames: 1036812288. Throughput: 0: 27989.3. Samples: 259259392. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:44,764][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 13:17:45,141][98493] Updated weights for policy 0, policy_version 506302 (0.0007)
+[2023-07-06 13:17:46,349][98493] Updated weights for policy 0, policy_version 506368 (0.0007)
+[2023-07-06 13:17:46,906][98493] Updated weights for policy 0, policy_version 506426 (0.0006)
+[2023-07-06 13:17:48,843][98493] Updated weights for policy 0, policy_version 506489 (0.0007)
+[2023-07-06 13:17:49,588][98493] Updated weights for policy 0, policy_version 506528 (0.0007)
+[2023-07-06 13:17:49,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111957.2, 300 sec: 110966.9). Total num frames: 1037402112. Throughput: 0: 28069.0. Samples: 259424256. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:49,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:17:50,617][98493] Updated weights for policy 0, policy_version 506564 (0.0007)
+[2023-07-06 13:17:51,084][98493] Updated weights for policy 0, policy_version 506612 (0.0007)
+[2023-07-06 13:17:51,630][98493] Updated weights for policy 0, policy_version 506679 (0.0007)
+[2023-07-06 13:17:53,130][98493] Updated weights for policy 0, policy_version 506720 (0.0006)
+[2023-07-06 13:17:53,846][98493] Updated weights for policy 0, policy_version 506756 (0.0006)
+[2023-07-06 13:17:54,276][98493] Updated weights for policy 0, policy_version 506810 (0.0007)
+[2023-07-06 13:17:54,764][98243] Fps is (10 sec: 114685.9, 60 sec: 111410.9, 300 sec: 111078.0). Total num frames: 1037959168. Throughput: 0: 27955.3. Samples: 259509760. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:17:55,615][98493] Updated weights for policy 0, policy_version 506852 (0.0007)
+[2023-07-06 13:17:56,074][98493] Updated weights for policy 0, policy_version 506906 (0.0006)
+[2023-07-06 13:17:57,247][98493] Updated weights for policy 0, policy_version 506946 (0.0008)
+[2023-07-06 13:17:57,684][98493] Updated weights for policy 0, policy_version 507004 (0.0006)
+[2023-07-06 13:17:58,939][98493] Updated weights for policy 0, policy_version 507066 (0.0006)
+[2023-07-06 13:17:59,764][98243] Fps is (10 sec: 108134.3, 60 sec: 110318.8, 300 sec: 111078.0). Total num frames: 1038483456. Throughput: 0: 28125.9. Samples: 259679744. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:17:59,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:18:00,593][98493] Updated weights for policy 0, policy_version 507121 (0.0007)
+[2023-07-06 13:18:01,136][98493] Updated weights for policy 0, policy_version 507195 (0.0008)
+[2023-07-06 13:18:01,975][98449] Signal inference workers to stop experience collection... (26250 times)
+[2023-07-06 13:18:02,007][98493] InferenceWorker_p0-w0: stopping experience collection (26250 times)
+[2023-07-06 13:18:02,051][98449] Signal inference workers to resume experience collection... (26250 times)
+[2023-07-06 13:18:02,052][98493] InferenceWorker_p0-w0: resuming experience collection (26250 times)
+[2023-07-06 13:18:02,278][98493] Updated weights for policy 0, policy_version 507260 (0.0006)
+[2023-07-06 13:18:03,684][98493] Updated weights for policy 0, policy_version 507314 (0.0007)
+[2023-07-06 13:18:04,765][98243] Fps is (10 sec: 104855.1, 60 sec: 109226.0, 300 sec: 110855.7). Total num frames: 1039007744. Throughput: 0: 28011.9. Samples: 259847680. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:18:04,766][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:18:05,042][98493] Updated weights for policy 0, policy_version 507360 (0.0007)
+[2023-07-06 13:18:05,544][98493] Updated weights for policy 0, policy_version 507413 (0.0007)
+[2023-07-06 13:18:06,578][98493] Updated weights for policy 0, policy_version 507472 (0.0007)
+[2023-07-06 13:18:08,165][98493] Updated weights for policy 0, policy_version 507523 (0.0006)
+[2023-07-06 13:18:08,542][98493] Updated weights for policy 0, policy_version 507569 (0.0007)
+[2023-07-06 13:18:09,699][98493] Updated weights for policy 0, policy_version 507623 (0.0007)
+[2023-07-06 13:18:09,764][98243] Fps is (10 sec: 114689.0, 60 sec: 110865.9, 300 sec: 110967.0). Total num frames: 1039630336. Throughput: 0: 27989.5. Samples: 259928576. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:18:09,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:18:10,133][98493] Updated weights for policy 0, policy_version 507672 (0.0007)
+[2023-07-06 13:18:11,313][98493] Updated weights for policy 0, policy_version 507719 (0.0006)
+[2023-07-06 13:18:12,788][98493] Updated weights for policy 0, policy_version 507778 (0.0006)
+[2023-07-06 13:18:13,249][98493] Updated weights for policy 0, policy_version 507835 (0.0008)
+[2023-07-06 13:18:14,373][98493] Updated weights for policy 0, policy_version 507877 (0.0007)
+[2023-07-06 13:18:14,764][98243] Fps is (10 sec: 121246.2, 60 sec: 111957.6, 300 sec: 111189.0). Total num frames: 1040220160. Throughput: 0: 27978.0. Samples: 260097536. Policy #0 lag: (min: 15.0, avg: 119.3, max: 271.0)
+[2023-07-06 13:18:14,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:18:14,998][98493] Updated weights for policy 0, policy_version 507952 (0.0009)
+[2023-07-06 13:18:16,392][98493] Updated weights for policy 0, policy_version 508016 (0.0007)
+[2023-07-06 13:18:17,768][98493] Updated weights for policy 0, policy_version 508064 (0.0006)
+[2023-07-06 13:18:19,037][98493] Updated weights for policy 0, policy_version 508128 (0.0007)
+[2023-07-06 13:18:19,581][98493] Updated weights for policy 0, policy_version 508185 (0.0008)
+[2023-07-06 13:18:19,646][98449] Signal inference workers to stop experience collection... (26300 times)
+[2023-07-06 13:18:19,695][98493] InferenceWorker_p0-w0: stopping experience collection (26300 times)
+[2023-07-06 13:18:19,744][98449] Signal inference workers to resume experience collection... (26300 times)
+[2023-07-06 13:18:19,744][98493] InferenceWorker_p0-w0: resuming experience collection (26300 times)
+[2023-07-06 13:18:19,764][98243] Fps is (10 sec: 117965.3, 60 sec: 113049.8, 300 sec: 111411.2). Total num frames: 1040809984. Throughput: 0: 27841.5. Samples: 260258304. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:19,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:18:20,850][98493] Updated weights for policy 0, policy_version 508244 (0.0007)
+[2023-07-06 13:18:22,325][98493] Updated weights for policy 0, policy_version 508292 (0.0006)
+[2023-07-06 13:18:22,752][98493] Updated weights for policy 0, policy_version 508346 (0.0007)
+[2023-07-06 13:18:23,621][98493] Updated weights for policy 0, policy_version 508411 (0.0007)
+[2023-07-06 13:18:24,528][98493] Updated weights for policy 0, policy_version 508475 (0.0025)
+[2023-07-06 13:18:24,764][98243] Fps is (10 sec: 114686.2, 60 sec: 113595.8, 300 sec: 111522.2). Total num frames: 1041367040. Throughput: 0: 28000.6. Samples: 260346368. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:24,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:18:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000508480_1041367040.pth...
+[2023-07-06 13:18:24,808][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000495424_1014628352.pth
+[2023-07-06 13:18:25,627][98493] Updated weights for policy 0, policy_version 508515 (0.0007)
+[2023-07-06 13:18:27,104][98493] Updated weights for policy 0, policy_version 508546 (0.0006)
+[2023-07-06 13:18:27,561][98493] Updated weights for policy 0, policy_version 508602 (0.0007)
+[2023-07-06 13:18:28,163][98493] Updated weights for policy 0, policy_version 508648 (0.0007)
+[2023-07-06 13:18:29,051][98493] Updated weights for policy 0, policy_version 508704 (0.0007)
+[2023-07-06 13:18:29,764][98243] Fps is (10 sec: 108132.9, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 1041891328. Throughput: 0: 27909.6. Samples: 260515328. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:29,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:18:30,003][98493] Updated weights for policy 0, policy_version 508752 (0.0008)
+[2023-07-06 13:18:30,377][98493] Updated weights for policy 0, policy_version 508791 (0.0008)
+[2023-07-06 13:18:31,805][98493] Updated weights for policy 0, policy_version 508848 (0.0007)
+[2023-07-06 13:18:32,812][98493] Updated weights for policy 0, policy_version 508896 (0.0007)
+[2023-07-06 13:18:33,792][98493] Updated weights for policy 0, policy_version 508950 (0.0007)
+[2023-07-06 13:18:34,764][98243] Fps is (10 sec: 108134.3, 60 sec: 111957.1, 300 sec: 111633.4). Total num frames: 1042448384. Throughput: 0: 27977.9. Samples: 260683264. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:34,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 13:18:34,876][98493] Updated weights for policy 0, policy_version 509024 (0.0007)
+[2023-07-06 13:18:36,123][98493] Updated weights for policy 0, policy_version 509059 (0.0008)
+[2023-07-06 13:18:36,564][98493] Updated weights for policy 0, policy_version 509116 (0.0008)
+[2023-07-06 13:18:37,447][98493] Updated weights for policy 0, policy_version 509168 (0.0007)
+[2023-07-06 13:18:38,814][98493] Updated weights for policy 0, policy_version 509222 (0.0008)
+[2023-07-06 13:18:39,475][98449] Signal inference workers to stop experience collection... (26350 times)
+[2023-07-06 13:18:39,519][98493] InferenceWorker_p0-w0: stopping experience collection (26350 times)
+[2023-07-06 13:18:39,570][98449] Signal inference workers to resume experience collection... (26350 times)
+[2023-07-06 13:18:39,570][98493] InferenceWorker_p0-w0: resuming experience collection (26350 times)
+[2023-07-06 13:18:39,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113049.6, 300 sec: 111855.6). Total num frames: 1043038208. Throughput: 0: 27932.5. Samples: 260766720. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:39,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 13:18:39,782][98493] Updated weights for policy 0, policy_version 509306 (0.0007)
+[2023-07-06 13:18:41,029][98493] Updated weights for policy 0, policy_version 509360 (0.0007)
+[2023-07-06 13:18:42,047][98493] Updated weights for policy 0, policy_version 509424 (0.0007)
+[2023-07-06 13:18:43,761][98493] Updated weights for policy 0, policy_version 509473 (0.0007)
+[2023-07-06 13:18:44,428][98493] Updated weights for policy 0, policy_version 509520 (0.0007)
+[2023-07-06 13:18:44,764][98243] Fps is (10 sec: 111413.1, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 1043562496. Throughput: 0: 27875.6. Samples: 260934144. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:44,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 13:18:45,383][98493] Updated weights for policy 0, policy_version 509569 (0.0007)
+[2023-07-06 13:18:45,848][98493] Updated weights for policy 0, policy_version 509625 (0.0008)
+[2023-07-06 13:18:46,367][98493] Updated weights for policy 0, policy_version 509669 (0.0006)
+[2023-07-06 13:18:48,523][98493] Updated weights for policy 0, policy_version 509717 (0.0007)
+[2023-07-06 13:18:48,854][98493] Updated weights for policy 0, policy_version 509759 (0.0007)
+[2023-07-06 13:18:49,391][98493] Updated weights for policy 0, policy_version 509821 (0.0040)
+[2023-07-06 13:18:49,765][98243] Fps is (10 sec: 108129.0, 60 sec: 111956.4, 300 sec: 111633.2). Total num frames: 1044119552. Throughput: 0: 27864.1. Samples: 261101568. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:49,766][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:18:50,243][98493] Updated weights for policy 0, policy_version 509872 (0.0007)
+[2023-07-06 13:18:50,843][98493] Updated weights for policy 0, policy_version 509924 (0.0006)
+[2023-07-06 13:18:53,399][98493] Updated weights for policy 0, policy_version 510000 (0.0007)
+[2023-07-06 13:18:54,035][98493] Updated weights for policy 0, policy_version 510053 (0.0007)
+[2023-07-06 13:18:54,692][98493] Updated weights for policy 0, policy_version 510105 (0.0009)
+[2023-07-06 13:18:54,764][98243] Fps is (10 sec: 114685.8, 60 sec: 112503.4, 300 sec: 111522.2). Total num frames: 1044709376. Throughput: 0: 28011.9. Samples: 261189120. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:18:55,305][98493] Updated weights for policy 0, policy_version 510151 (0.0007)
+[2023-07-06 13:18:55,751][98493] Updated weights for policy 0, policy_version 510202 (0.0006)
+[2023-07-06 13:18:58,104][98493] Updated weights for policy 0, policy_version 510256 (0.0008)
+[2023-07-06 13:18:58,742][98449] Signal inference workers to stop experience collection... (26400 times)
+[2023-07-06 13:18:58,773][98493] InferenceWorker_p0-w0: stopping experience collection (26400 times)
+[2023-07-06 13:18:58,829][98449] Signal inference workers to resume experience collection... (26400 times)
+[2023-07-06 13:18:58,830][98493] InferenceWorker_p0-w0: resuming experience collection (26400 times)
+[2023-07-06 13:18:58,831][98493] Updated weights for policy 0, policy_version 510320 (0.0006)
+[2023-07-06 13:18:59,534][98493] Updated weights for policy 0, policy_version 510384 (0.0007)
+[2023-07-06 13:18:59,765][98243] Fps is (10 sec: 117967.5, 60 sec: 113595.2, 300 sec: 111411.2). Total num frames: 1045299200. Throughput: 0: 27966.4. Samples: 261356032. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:18:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:19:00,120][98493] Updated weights for policy 0, policy_version 510422 (0.0007)
+[2023-07-06 13:19:02,659][98493] Updated weights for policy 0, policy_version 510480 (0.0007)
+[2023-07-06 13:19:03,327][98493] Updated weights for policy 0, policy_version 510552 (0.0007)
+[2023-07-06 13:19:03,658][98493] Updated weights for policy 0, policy_version 510592 (0.0006)
+[2023-07-06 13:19:04,347][98493] Updated weights for policy 0, policy_version 510654 (0.0007)
+[2023-07-06 13:19:04,764][98243] Fps is (10 sec: 114689.1, 60 sec: 114142.4, 300 sec: 111411.2). Total num frames: 1045856256. Throughput: 0: 28034.7. Samples: 261519872. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:04,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:19:05,021][98493] Updated weights for policy 0, policy_version 510713 (0.0008)
+[2023-07-06 13:19:07,728][98493] Updated weights for policy 0, policy_version 510757 (0.0007)
+[2023-07-06 13:19:08,360][98493] Updated weights for policy 0, policy_version 510832 (0.0007)
+[2023-07-06 13:19:08,932][98493] Updated weights for policy 0, policy_version 510885 (0.0007)
+[2023-07-06 13:19:09,542][98493] Updated weights for policy 0, policy_version 510936 (0.0007)
+[2023-07-06 13:19:09,764][98243] Fps is (10 sec: 114690.9, 60 sec: 113595.6, 300 sec: 111411.2). Total num frames: 1046446080. Throughput: 0: 28080.4. Samples: 261609984. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:09,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 13:19:11,949][98493] Updated weights for policy 0, policy_version 510979 (0.0008)
+[2023-07-06 13:19:12,519][98493] Updated weights for policy 0, policy_version 511045 (0.0007)
+[2023-07-06 13:19:12,945][98493] Updated weights for policy 0, policy_version 511098 (0.0007)
+[2023-07-06 13:19:13,685][98493] Updated weights for policy 0, policy_version 511136 (0.0007)
+[2023-07-06 13:19:14,216][98493] Updated weights for policy 0, policy_version 511190 (0.0008)
+[2023-07-06 13:19:14,764][98243] Fps is (10 sec: 114688.9, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 1047003136. Throughput: 0: 28000.7. Samples: 261775360. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:14,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:19:16,924][98493] Updated weights for policy 0, policy_version 511264 (0.0007)
+[2023-07-06 13:19:17,112][98449] Signal inference workers to stop experience collection... (26450 times)
+[2023-07-06 13:19:17,149][98493] InferenceWorker_p0-w0: stopping experience collection (26450 times)
+[2023-07-06 13:19:17,205][98449] Signal inference workers to resume experience collection... (26450 times)
+[2023-07-06 13:19:17,206][98493] InferenceWorker_p0-w0: resuming experience collection (26450 times)
+[2023-07-06 13:19:17,358][98493] Updated weights for policy 0, policy_version 511312 (0.0007)
+[2023-07-06 13:19:17,728][98493] Updated weights for policy 0, policy_version 511357 (0.0007)
+[2023-07-06 13:19:18,443][98493] Updated weights for policy 0, policy_version 511395 (0.0007)
+[2023-07-06 13:19:18,982][98493] Updated weights for policy 0, policy_version 511459 (0.0007)
+[2023-07-06 13:19:19,764][98243] Fps is (10 sec: 108134.9, 60 sec: 111957.2, 300 sec: 111522.3). Total num frames: 1047527424. Throughput: 0: 27978.1. Samples: 261942272. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:19,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:19:21,476][98493] Updated weights for policy 0, policy_version 511493 (0.0006)
+[2023-07-06 13:19:21,901][98493] Updated weights for policy 0, policy_version 511542 (0.0006)
+[2023-07-06 13:19:22,462][98493] Updated weights for policy 0, policy_version 511611 (0.0031)
+[2023-07-06 13:19:22,956][98493] Updated weights for policy 0, policy_version 511667 (0.0008)
+[2023-07-06 13:19:23,386][98493] Updated weights for policy 0, policy_version 511716 (0.0010)
+[2023-07-06 13:19:24,764][98243] Fps is (10 sec: 104856.5, 60 sec: 111411.3, 300 sec: 111522.2). Total num frames: 1048051712. Throughput: 0: 28000.6. Samples: 262026752. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:24,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:19:26,508][98493] Updated weights for policy 0, policy_version 511770 (0.0009)
+[2023-07-06 13:19:26,950][98493] Updated weights for policy 0, policy_version 511814 (0.0007)
+[2023-07-06 13:19:27,389][98493] Updated weights for policy 0, policy_version 511865 (0.0008)
+[2023-07-06 13:19:28,005][98493] Updated weights for policy 0, policy_version 511936 (0.0007)
+[2023-07-06 13:19:28,425][98493] Updated weights for policy 0, policy_version 511984 (0.0007)
+[2023-07-06 13:19:29,765][98243] Fps is (10 sec: 104854.7, 60 sec: 111410.8, 300 sec: 111077.9). Total num frames: 1048576000. Throughput: 0: 27977.8. Samples: 262193152. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:29,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 13:19:31,507][98493] Updated weights for policy 0, policy_version 512037 (0.0007)
+[2023-07-06 13:19:32,079][98493] Updated weights for policy 0, policy_version 512103 (0.0007)
+[2023-07-06 13:19:32,494][98449] Signal inference workers to stop experience collection... (26500 times)
+[2023-07-06 13:19:32,519][98493] InferenceWorker_p0-w0: stopping experience collection (26500 times)
+[2023-07-06 13:19:32,585][98449] Signal inference workers to resume experience collection... (26500 times)
+[2023-07-06 13:19:32,585][98493] InferenceWorker_p0-w0: resuming experience collection (26500 times)
+[2023-07-06 13:19:32,587][98493] Updated weights for policy 0, policy_version 512160 (0.0007)
+[2023-07-06 13:19:33,086][98493] Updated weights for policy 0, policy_version 512213 (0.0008)
+[2023-07-06 13:19:34,764][98243] Fps is (10 sec: 104858.6, 60 sec: 110865.3, 300 sec: 111078.0). Total num frames: 1049100288. Throughput: 0: 28069.3. Samples: 262364672. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:34,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:19:36,006][98493] Updated weights for policy 0, policy_version 512272 (0.0007)
+[2023-07-06 13:19:36,570][98493] Updated weights for policy 0, policy_version 512336 (0.0007)
+[2023-07-06 13:19:37,107][98493] Updated weights for policy 0, policy_version 512400 (0.0007)
+[2023-07-06 13:19:37,542][98493] Updated weights for policy 0, policy_version 512448 (0.0007)
+[2023-07-06 13:19:38,069][98493] Updated weights for policy 0, policy_version 512509 (0.0008)
+[2023-07-06 13:19:39,764][98243] Fps is (10 sec: 104859.9, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 1049624576. Throughput: 0: 27807.4. Samples: 262440448. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:39,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:19:41,309][98493] Updated weights for policy 0, policy_version 512564 (0.0008)
+[2023-07-06 13:19:41,906][98493] Updated weights for policy 0, policy_version 512630 (0.0009)
+[2023-07-06 13:19:42,673][98493] Updated weights for policy 0, policy_version 512711 (0.0008)
+[2023-07-06 13:19:43,127][98493] Updated weights for policy 0, policy_version 512768 (0.0007)
+[2023-07-06 13:19:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109772.7, 300 sec: 111078.0). Total num frames: 1050148864. Throughput: 0: 27579.9. Samples: 262597120. Policy #0 lag: (min: 31.0, avg: 150.9, max: 300.0)
+[2023-07-06 13:19:44,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:19:46,011][98493] Updated weights for policy 0, policy_version 512821 (0.0007)
+[2023-07-06 13:19:46,568][98493] Updated weights for policy 0, policy_version 512880 (0.0007)
+[2023-07-06 13:19:47,099][98493] Updated weights for policy 0, policy_version 512933 (0.0008)
+[2023-07-06 13:19:47,694][98493] Updated weights for policy 0, policy_version 512994 (0.0008)
+[2023-07-06 13:19:49,764][98243] Fps is (10 sec: 104855.6, 60 sec: 109227.2, 300 sec: 111077.9). Total num frames: 1050673152. Throughput: 0: 27704.8. Samples: 262766592. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:19:49,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:19:50,475][98449] Signal inference workers to stop experience collection... (26550 times)
+[2023-07-06 13:19:50,485][98493] InferenceWorker_p0-w0: stopping experience collection (26550 times)
+[2023-07-06 13:19:50,565][98449] Signal inference workers to resume experience collection... (26550 times)
+[2023-07-06 13:19:50,566][98493] InferenceWorker_p0-w0: resuming experience collection (26550 times)
+[2023-07-06 13:19:50,700][98493] Updated weights for policy 0, policy_version 513056 (0.0006)
+[2023-07-06 13:19:51,212][98493] Updated weights for policy 0, policy_version 513111 (0.0007)
+[2023-07-06 13:19:51,762][98493] Updated weights for policy 0, policy_version 513176 (0.0006)
+[2023-07-06 13:19:52,315][98493] Updated weights for policy 0, policy_version 513237 (0.0008)
+[2023-07-06 13:19:54,764][98243] Fps is (10 sec: 104857.9, 60 sec: 108134.7, 300 sec: 111078.0). Total num frames: 1051197440. Throughput: 0: 27352.2. Samples: 262840832. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:19:54,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:19:55,528][98493] Updated weights for policy 0, policy_version 513300 (0.0008)
+[2023-07-06 13:19:56,212][98493] Updated weights for policy 0, policy_version 513377 (0.0008)
+[2023-07-06 13:19:56,681][98493] Updated weights for policy 0, policy_version 513425 (0.0007)
+[2023-07-06 13:19:57,067][98493] Updated weights for policy 0, policy_version 513472 (0.0009)
+[2023-07-06 13:19:57,555][98493] Updated weights for policy 0, policy_version 513530 (0.0008)
+[2023-07-06 13:19:59,764][98243] Fps is (10 sec: 104859.9, 60 sec: 107042.6, 300 sec: 111078.0). Total num frames: 1051721728. Throughput: 0: 27397.7. Samples: 263008256. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:19:59,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:20:00,522][98493] Updated weights for policy 0, policy_version 513571 (0.0007)
+[2023-07-06 13:20:00,955][98493] Updated weights for policy 0, policy_version 513621 (0.0007)
+[2023-07-06 13:20:01,547][98493] Updated weights for policy 0, policy_version 513688 (0.0008)
+[2023-07-06 13:20:02,071][98493] Updated weights for policy 0, policy_version 513748 (0.0007)
+[2023-07-06 13:20:04,764][98243] Fps is (10 sec: 104857.5, 60 sec: 106496.1, 300 sec: 111078.0). Total num frames: 1052246016. Throughput: 0: 27511.4. Samples: 263180288. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:04,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:20:05,093][98493] Updated weights for policy 0, policy_version 513808 (0.0006)
+[2023-07-06 13:20:05,646][98493] Updated weights for policy 0, policy_version 513872 (0.0008)
+[2023-07-06 13:20:05,699][98449] Signal inference workers to stop experience collection... (26600 times)
+[2023-07-06 13:20:05,735][98493] InferenceWorker_p0-w0: stopping experience collection (26600 times)
+[2023-07-06 13:20:05,807][98449] Signal inference workers to resume experience collection... (26600 times)
+[2023-07-06 13:20:05,808][98493] InferenceWorker_p0-w0: resuming experience collection (26600 times)
+[2023-07-06 13:20:06,232][98493] Updated weights for policy 0, policy_version 513936 (0.0007)
+[2023-07-06 13:20:06,729][98493] Updated weights for policy 0, policy_version 513989 (0.0006)
+[2023-07-06 13:20:07,153][98493] Updated weights for policy 0, policy_version 514043 (0.0007)
+[2023-07-06 13:20:09,765][98243] Fps is (10 sec: 104851.6, 60 sec: 105402.8, 300 sec: 110966.6). Total num frames: 1052770304. Throughput: 0: 27295.0. Samples: 263255040. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:09,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:20:10,189][98493] Updated weights for policy 0, policy_version 514103 (0.0007)
+[2023-07-06 13:20:10,738][98493] Updated weights for policy 0, policy_version 514162 (0.0007)
+[2023-07-06 13:20:11,341][98493] Updated weights for policy 0, policy_version 514240 (0.0007)
+[2023-07-06 13:20:11,856][98493] Updated weights for policy 0, policy_version 514300 (0.0008)
+[2023-07-06 13:20:14,674][98493] Updated weights for policy 0, policy_version 514336 (0.0006)
+[2023-07-06 13:20:14,764][98243] Fps is (10 sec: 111411.2, 60 sec: 105949.9, 300 sec: 110855.8). Total num frames: 1053360128. Throughput: 0: 27409.2. Samples: 263426560. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:14,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:20:15,331][98493] Updated weights for policy 0, policy_version 514409 (0.0007)
+[2023-07-06 13:20:15,793][98493] Updated weights for policy 0, policy_version 514464 (0.0007)
+[2023-07-06 13:20:16,369][98493] Updated weights for policy 0, policy_version 514528 (0.0010)
+[2023-07-06 13:20:19,193][98493] Updated weights for policy 0, policy_version 514576 (0.0006)
+[2023-07-06 13:20:19,739][98493] Updated weights for policy 0, policy_version 514627 (0.0009)
+[2023-07-06 13:20:19,764][98243] Fps is (10 sec: 117971.7, 60 sec: 107042.1, 300 sec: 110966.9). Total num frames: 1053949952. Throughput: 0: 27227.0. Samples: 263589888. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:19,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:20:20,303][98493] Updated weights for policy 0, policy_version 514691 (0.0008)
+[2023-07-06 13:20:20,553][98449] Signal inference workers to stop experience collection... (26650 times)
+[2023-07-06 13:20:20,598][98493] InferenceWorker_p0-w0: stopping experience collection (26650 times)
+[2023-07-06 13:20:20,640][98449] Signal inference workers to resume experience collection... (26650 times)
+[2023-07-06 13:20:20,641][98493] InferenceWorker_p0-w0: resuming experience collection (26650 times)
+[2023-07-06 13:20:20,852][98493] Updated weights for policy 0, policy_version 514754 (0.0007)
+[2023-07-06 13:20:21,333][98493] Updated weights for policy 0, policy_version 514816 (0.0007)
+[2023-07-06 13:20:24,469][98493] Updated weights for policy 0, policy_version 514866 (0.0007)
+[2023-07-06 13:20:24,764][98243] Fps is (10 sec: 114686.4, 60 sec: 107588.2, 300 sec: 110966.8). Total num frames: 1054507008. Throughput: 0: 27329.4. Samples: 263670272. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:20:24,968][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000514928_1054572544.pth...
+[2023-07-06 13:20:24,968][98493] Updated weights for policy 0, policy_version 514928 (0.0007)
+[2023-07-06 13:20:25,043][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000501920_1027932160.pth
+[2023-07-06 13:20:25,579][98493] Updated weights for policy 0, policy_version 514992 (0.0007)
+[2023-07-06 13:20:26,137][98493] Updated weights for policy 0, policy_version 515056 (0.0007)
+[2023-07-06 13:20:28,940][98493] Updated weights for policy 0, policy_version 515110 (0.0007)
+[2023-07-06 13:20:29,448][98493] Updated weights for policy 0, policy_version 515168 (0.0008)
+[2023-07-06 13:20:29,764][98243] Fps is (10 sec: 117965.8, 60 sec: 109227.3, 300 sec: 111078.0). Total num frames: 1055129600. Throughput: 0: 27682.2. Samples: 263842816. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:29,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:20:29,980][98493] Updated weights for policy 0, policy_version 515218 (0.0007)
+[2023-07-06 13:20:30,576][98493] Updated weights for policy 0, policy_version 515284 (0.0007)
+[2023-07-06 13:20:33,351][98493] Updated weights for policy 0, policy_version 515331 (0.0007)
+[2023-07-06 13:20:33,938][98493] Updated weights for policy 0, policy_version 515395 (0.0007)
+[2023-07-06 13:20:34,420][98493] Updated weights for policy 0, policy_version 515456 (0.0007)
+[2023-07-06 13:20:34,764][98243] Fps is (10 sec: 121243.3, 60 sec: 110318.9, 300 sec: 111078.0). Total num frames: 1055719424. Throughput: 0: 27409.2. Samples: 264000000. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:34,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:20:34,912][98493] Updated weights for policy 0, policy_version 515508 (0.0007)
+[2023-07-06 13:20:35,465][98493] Updated weights for policy 0, policy_version 515581 (0.0007)
+[2023-07-06 13:20:38,026][98449] Signal inference workers to stop experience collection... (26700 times)
+[2023-07-06 13:20:38,051][98493] InferenceWorker_p0-w0: stopping experience collection (26700 times)
+[2023-07-06 13:20:38,105][98449] Signal inference workers to resume experience collection... (26700 times)
+[2023-07-06 13:20:38,105][98493] InferenceWorker_p0-w0: resuming experience collection (26700 times)
+[2023-07-06 13:20:38,385][98493] Updated weights for policy 0, policy_version 515632 (0.0008)
+[2023-07-06 13:20:38,934][98493] Updated weights for policy 0, policy_version 515685 (0.0008)
+[2023-07-06 13:20:39,374][98493] Updated weights for policy 0, policy_version 515732 (0.0007)
+[2023-07-06 13:20:39,764][98243] Fps is (10 sec: 117963.4, 60 sec: 111411.2, 300 sec: 111189.0). Total num frames: 1056309248. Throughput: 0: 27704.9. Samples: 264087552. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:39,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:20:39,918][98493] Updated weights for policy 0, policy_version 515794 (0.0008)
+[2023-07-06 13:20:42,738][98493] Updated weights for policy 0, policy_version 515841 (0.0007)
+[2023-07-06 13:20:43,223][98493] Updated weights for policy 0, policy_version 515900 (0.0027)
+[2023-07-06 13:20:43,809][98493] Updated weights for policy 0, policy_version 515968 (0.0008)
+[2023-07-06 13:20:44,242][98493] Updated weights for policy 0, policy_version 516016 (0.0007)
+[2023-07-06 13:20:44,764][98243] Fps is (10 sec: 117963.1, 60 sec: 112503.2, 300 sec: 111300.1). Total num frames: 1056899072. Throughput: 0: 27602.4. Samples: 264250368. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:44,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 13:20:44,785][98493] Updated weights for policy 0, policy_version 516068 (0.0007)
+[2023-07-06 13:20:47,660][98493] Updated weights for policy 0, policy_version 516120 (0.0007)
+[2023-07-06 13:20:48,156][98493] Updated weights for policy 0, policy_version 516176 (0.0009)
+[2023-07-06 13:20:48,698][98493] Updated weights for policy 0, policy_version 516231 (0.0008)
+[2023-07-06 13:20:49,382][98493] Updated weights for policy 0, policy_version 516310 (0.0008)
+[2023-07-06 13:20:49,764][98243] Fps is (10 sec: 117964.8, 60 sec: 113596.1, 300 sec: 111411.2). Total num frames: 1057488896. Throughput: 0: 27318.0. Samples: 264409600. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:20:52,168][98493] Updated weights for policy 0, policy_version 516368 (0.0007)
+[2023-07-06 13:20:52,841][98493] Updated weights for policy 0, policy_version 516417 (0.0007)
+[2023-07-06 13:20:53,102][98449] Signal inference workers to stop experience collection... (26750 times)
+[2023-07-06 13:20:53,136][98493] InferenceWorker_p0-w0: stopping experience collection (26750 times)
+[2023-07-06 13:20:53,176][98449] Signal inference workers to resume experience collection... (26750 times)
+[2023-07-06 13:20:53,176][98493] InferenceWorker_p0-w0: resuming experience collection (26750 times)
+[2023-07-06 13:20:53,340][98493] Updated weights for policy 0, policy_version 516480 (0.0008)
+[2023-07-06 13:20:53,890][98493] Updated weights for policy 0, policy_version 516544 (0.0008)
+[2023-07-06 13:20:54,371][98493] Updated weights for policy 0, policy_version 516599 (0.0008)
+[2023-07-06 13:20:54,764][98243] Fps is (10 sec: 111411.5, 60 sec: 113595.5, 300 sec: 111300.1). Total num frames: 1058013184. Throughput: 0: 27727.9. Samples: 264502784. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:20:56,969][98493] Updated weights for policy 0, policy_version 516644 (0.0007)
+[2023-07-06 13:20:57,863][98493] Updated weights for policy 0, policy_version 516704 (0.0007)
+[2023-07-06 13:20:58,416][98493] Updated weights for policy 0, policy_version 516768 (0.0008)
+[2023-07-06 13:20:58,923][98493] Updated weights for policy 0, policy_version 516820 (0.0006)
+[2023-07-06 13:20:59,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113595.7, 300 sec: 111078.0). Total num frames: 1058537472. Throughput: 0: 27488.7. Samples: 264663552. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:20:59,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:21:01,518][98493] Updated weights for policy 0, policy_version 516880 (0.0006)
+[2023-07-06 13:21:02,285][98493] Updated weights for policy 0, policy_version 516930 (0.0007)
+[2023-07-06 13:21:02,739][98493] Updated weights for policy 0, policy_version 516982 (0.0008)
+[2023-07-06 13:21:03,416][98493] Updated weights for policy 0, policy_version 517062 (0.0008)
+[2023-07-06 13:21:03,842][98493] Updated weights for policy 0, policy_version 517113 (0.0006)
+[2023-07-06 13:21:04,764][98243] Fps is (10 sec: 104858.8, 60 sec: 113595.7, 300 sec: 111078.0). Total num frames: 1059061760. Throughput: 0: 27557.0. Samples: 264829952. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:21:04,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:21:06,452][98493] Updated weights for policy 0, policy_version 517175 (0.0007)
+[2023-07-06 13:21:07,430][98493] Updated weights for policy 0, policy_version 517239 (0.0007)
+[2023-07-06 13:21:07,854][98493] Updated weights for policy 0, policy_version 517283 (0.0007)
+[2023-07-06 13:21:08,383][98449] Signal inference workers to stop experience collection... (26800 times)
+[2023-07-06 13:21:08,406][98493] Updated weights for policy 0, policy_version 517348 (0.0007)
+[2023-07-06 13:21:08,413][98493] InferenceWorker_p0-w0: stopping experience collection (26800 times)
+[2023-07-06 13:21:08,466][98449] Signal inference workers to resume experience collection... (26800 times)
+[2023-07-06 13:21:08,467][98493] InferenceWorker_p0-w0: resuming experience collection (26800 times)
+[2023-07-06 13:21:09,764][98243] Fps is (10 sec: 104857.4, 60 sec: 113596.8, 300 sec: 111078.0). Total num frames: 1059586048. Throughput: 0: 27613.9. Samples: 264912896. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:21:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:21:10,914][98493] Updated weights for policy 0, policy_version 517402 (0.0007)
+[2023-07-06 13:21:12,000][98493] Updated weights for policy 0, policy_version 517472 (0.0007)
+[2023-07-06 13:21:12,693][98493] Updated weights for policy 0, policy_version 517552 (0.0008)
+[2023-07-06 13:21:13,242][98493] Updated weights for policy 0, policy_version 517616 (0.0007)
+[2023-07-06 13:21:14,764][98243] Fps is (10 sec: 104856.9, 60 sec: 112503.3, 300 sec: 111078.0). Total num frames: 1060110336. Throughput: 0: 27340.7. Samples: 265073152. Policy #0 lag: (min: 79.0, avg: 188.6, max: 351.0)
+[2023-07-06 13:21:14,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:21:15,825][98493] Updated weights for policy 0, policy_version 517688 (0.0008)
+[2023-07-06 13:21:17,105][98493] Updated weights for policy 0, policy_version 517744 (0.0008)
+[2023-07-06 13:21:17,559][98493] Updated weights for policy 0, policy_version 517792 (0.0008)
+[2023-07-06 13:21:18,132][98493] Updated weights for policy 0, policy_version 517856 (0.0008)
+[2023-07-06 13:21:19,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1060634624. Throughput: 0: 27704.9. Samples: 265246720. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:19,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:21:20,170][98493] Updated weights for policy 0, policy_version 517904 (0.0008)
+[2023-07-06 13:21:20,537][98493] Updated weights for policy 0, policy_version 517952 (0.0006)
+[2023-07-06 13:21:21,738][98493] Updated weights for policy 0, policy_version 518008 (0.0007)
+[2023-07-06 13:21:22,231][98493] Updated weights for policy 0, policy_version 518064 (0.0007)
+[2023-07-06 13:21:22,743][98493] Updated weights for policy 0, policy_version 518115 (0.0007)
+[2023-07-06 13:21:24,764][98243] Fps is (10 sec: 104856.1, 60 sec: 110864.9, 300 sec: 110855.7). Total num frames: 1061158912. Throughput: 0: 27534.1. Samples: 265326592. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:24,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:21:25,038][98493] Updated weights for policy 0, policy_version 518168 (0.0011)
+[2023-07-06 13:21:25,954][98493] Updated weights for policy 0, policy_version 518240 (0.0008)
+[2023-07-06 13:21:26,477][98493] Updated weights for policy 0, policy_version 518277 (0.0007)
+[2023-07-06 13:21:26,583][98449] Signal inference workers to stop experience collection... (26850 times)
+[2023-07-06 13:21:26,625][98493] InferenceWorker_p0-w0: stopping experience collection (26850 times)
+[2023-07-06 13:21:26,686][98449] Signal inference workers to resume experience collection... (26850 times)
+[2023-07-06 13:21:26,687][98493] InferenceWorker_p0-w0: resuming experience collection (26850 times)
+[2023-07-06 13:21:26,898][98493] Updated weights for policy 0, policy_version 518331 (0.0008)
+[2023-07-06 13:21:27,528][98493] Updated weights for policy 0, policy_version 518384 (0.0008)
+[2023-07-06 13:21:29,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110318.8, 300 sec: 110855.8). Total num frames: 1061748736. Throughput: 0: 27716.4. Samples: 265497600. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:29,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:21:29,779][98493] Updated weights for policy 0, policy_version 518437 (0.0008)
+[2023-07-06 13:21:30,725][98493] Updated weights for policy 0, policy_version 518486 (0.0006)
+[2023-07-06 13:21:31,182][98493] Updated weights for policy 0, policy_version 518531 (0.0007)
+[2023-07-06 13:21:31,737][98493] Updated weights for policy 0, policy_version 518601 (0.0007)
+[2023-07-06 13:21:32,177][98493] Updated weights for policy 0, policy_version 518651 (0.0007)
+[2023-07-06 13:21:34,557][98493] Updated weights for policy 0, policy_version 518716 (0.0006)
+[2023-07-06 13:21:34,764][98243] Fps is (10 sec: 117966.1, 60 sec: 110318.7, 300 sec: 111078.0). Total num frames: 1062338560. Throughput: 0: 27943.8. Samples: 265667072. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:34,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:21:35,738][98493] Updated weights for policy 0, policy_version 518784 (0.0008)
+[2023-07-06 13:21:36,254][98493] Updated weights for policy 0, policy_version 518837 (0.0008)
+[2023-07-06 13:21:36,755][98493] Updated weights for policy 0, policy_version 518897 (0.0007)
+[2023-07-06 13:21:39,014][98493] Updated weights for policy 0, policy_version 518928 (0.0007)
+[2023-07-06 13:21:39,764][98243] Fps is (10 sec: 111410.0, 60 sec: 109226.5, 300 sec: 111077.9). Total num frames: 1062862848. Throughput: 0: 27648.0. Samples: 265746944. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:21:40,038][98493] Updated weights for policy 0, policy_version 518983 (0.0007)
+[2023-07-06 13:21:40,452][98493] Updated weights for policy 0, policy_version 519036 (0.0006)
+[2023-07-06 13:21:41,094][98493] Updated weights for policy 0, policy_version 519096 (0.0008)
+[2023-07-06 13:21:41,571][98493] Updated weights for policy 0, policy_version 519154 (0.0007)
+[2023-07-06 13:21:44,041][98493] Updated weights for policy 0, policy_version 519200 (0.0006)
+[2023-07-06 13:21:44,764][98243] Fps is (10 sec: 108135.3, 60 sec: 108680.8, 300 sec: 110966.9). Total num frames: 1063419904. Throughput: 0: 27875.5. Samples: 265917952. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:21:44,780][98449] Signal inference workers to stop experience collection... (26900 times)
+[2023-07-06 13:21:44,814][98493] Updated weights for policy 0, policy_version 519254 (0.0007)
+[2023-07-06 13:21:44,821][98493] InferenceWorker_p0-w0: stopping experience collection (26900 times)
+[2023-07-06 13:21:44,880][98449] Signal inference workers to resume experience collection... (26900 times)
+[2023-07-06 13:21:44,881][98493] InferenceWorker_p0-w0: resuming experience collection (26900 times)
+[2023-07-06 13:21:45,150][98493] Updated weights for policy 0, policy_version 519293 (0.0006)
+[2023-07-06 13:21:45,776][98493] Updated weights for policy 0, policy_version 519360 (0.0007)
+[2023-07-06 13:21:46,267][98493] Updated weights for policy 0, policy_version 519421 (0.0008)
+[2023-07-06 13:21:49,085][98493] Updated weights for policy 0, policy_version 519483 (0.0007)
+[2023-07-06 13:21:49,692][98493] Updated weights for policy 0, policy_version 519546 (0.0009)
+[2023-07-06 13:21:49,764][98243] Fps is (10 sec: 117966.0, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1064042496. Throughput: 0: 27727.6. Samples: 266077696. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:21:50,361][98493] Updated weights for policy 0, policy_version 519584 (0.0007)
+[2023-07-06 13:21:50,870][98493] Updated weights for policy 0, policy_version 519637 (0.0007)
+[2023-07-06 13:21:53,332][98493] Updated weights for policy 0, policy_version 519683 (0.0007)
+[2023-07-06 13:21:53,802][98493] Updated weights for policy 0, policy_version 519744 (0.0007)
+[2023-07-06 13:21:54,351][98493] Updated weights for policy 0, policy_version 519792 (0.0007)
+[2023-07-06 13:21:54,764][98243] Fps is (10 sec: 114687.5, 60 sec: 109226.8, 300 sec: 110855.8). Total num frames: 1064566784. Throughput: 0: 27830.0. Samples: 266165248. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:21:54,939][98493] Updated weights for policy 0, policy_version 519840 (0.0007)
+[2023-07-06 13:21:55,464][98493] Updated weights for policy 0, policy_version 519892 (0.0007)
+[2023-07-06 13:21:58,115][98493] Updated weights for policy 0, policy_version 519952 (0.0008)
+[2023-07-06 13:21:58,643][98493] Updated weights for policy 0, policy_version 520001 (0.0008)
+[2023-07-06 13:21:59,017][98493] Updated weights for policy 0, policy_version 520048 (0.0007)
+[2023-07-06 13:21:59,403][98493] Updated weights for policy 0, policy_version 520084 (0.0008)
+[2023-07-06 13:21:59,764][98243] Fps is (10 sec: 114688.7, 60 sec: 110865.2, 300 sec: 110966.9). Total num frames: 1065189376. Throughput: 0: 28114.6. Samples: 266338304. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:21:59,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:21:59,997][98493] Updated weights for policy 0, policy_version 520149 (0.0009)
+[2023-07-06 13:22:02,537][98449] Signal inference workers to stop experience collection... (26950 times)
+[2023-07-06 13:22:02,571][98493] Updated weights for policy 0, policy_version 520198 (0.0007)
+[2023-07-06 13:22:02,581][98493] InferenceWorker_p0-w0: stopping experience collection (26950 times)
+[2023-07-06 13:22:02,625][98449] Signal inference workers to resume experience collection... (26950 times)
+[2023-07-06 13:22:02,625][98493] InferenceWorker_p0-w0: resuming experience collection (26950 times)
+[2023-07-06 13:22:03,019][98493] Updated weights for policy 0, policy_version 520252 (0.0009)
+[2023-07-06 13:22:03,588][98493] Updated weights for policy 0, policy_version 520304 (0.0008)
+[2023-07-06 13:22:04,091][98493] Updated weights for policy 0, policy_version 520354 (0.0007)
+[2023-07-06 13:22:04,603][98493] Updated weights for policy 0, policy_version 520409 (0.0007)
+[2023-07-06 13:22:04,764][98243] Fps is (10 sec: 124519.7, 60 sec: 112503.6, 300 sec: 111300.3). Total num frames: 1065811968. Throughput: 0: 27887.0. Samples: 266501632. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:04,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:22:07,319][98493] Updated weights for policy 0, policy_version 520453 (0.0007)
+[2023-07-06 13:22:07,776][98493] Updated weights for policy 0, policy_version 520500 (0.0007)
+[2023-07-06 13:22:08,195][98493] Updated weights for policy 0, policy_version 520544 (0.0007)
+[2023-07-06 13:22:08,705][98493] Updated weights for policy 0, policy_version 520597 (0.0006)
+[2023-07-06 13:22:09,307][98493] Updated weights for policy 0, policy_version 520664 (0.0007)
+[2023-07-06 13:22:09,764][98243] Fps is (10 sec: 121239.3, 60 sec: 113595.5, 300 sec: 111522.3). Total num frames: 1066401792. Throughput: 0: 28194.2. Samples: 266595328. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:22:12,033][98493] Updated weights for policy 0, policy_version 520708 (0.0007)
+[2023-07-06 13:22:12,477][98493] Updated weights for policy 0, policy_version 520763 (0.0007)
+[2023-07-06 13:22:12,919][98493] Updated weights for policy 0, policy_version 520804 (0.0007)
+[2023-07-06 13:22:13,372][98493] Updated weights for policy 0, policy_version 520853 (0.0007)
+[2023-07-06 13:22:13,832][98493] Updated weights for policy 0, policy_version 520901 (0.0007)
+[2023-07-06 13:22:14,270][98493] Updated weights for policy 0, policy_version 520960 (0.0006)
+[2023-07-06 13:22:14,764][98243] Fps is (10 sec: 111411.0, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 1066926080. Throughput: 0: 28023.5. Samples: 266758656. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:22:17,310][98493] Updated weights for policy 0, policy_version 521013 (0.0007)
+[2023-07-06 13:22:17,689][98449] Signal inference workers to stop experience collection... (27000 times)
+[2023-07-06 13:22:17,724][98493] InferenceWorker_p0-w0: stopping experience collection (27000 times)
+[2023-07-06 13:22:17,790][98449] Signal inference workers to resume experience collection... (27000 times)
+[2023-07-06 13:22:17,790][98493] InferenceWorker_p0-w0: resuming experience collection (27000 times)
+[2023-07-06 13:22:17,791][98493] Updated weights for policy 0, policy_version 521072 (0.0007)
+[2023-07-06 13:22:18,402][98493] Updated weights for policy 0, policy_version 521146 (0.0007)
+[2023-07-06 13:22:18,910][98493] Updated weights for policy 0, policy_version 521189 (0.0006)
+[2023-07-06 13:22:19,764][98243] Fps is (10 sec: 104858.9, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1067450368. Throughput: 0: 27921.1. Samples: 266923520. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:19,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:22:21,497][98493] Updated weights for policy 0, policy_version 521232 (0.0008)
+[2023-07-06 13:22:22,161][98493] Updated weights for policy 0, policy_version 521302 (0.0008)
+[2023-07-06 13:22:22,606][98493] Updated weights for policy 0, policy_version 521350 (0.0007)
+[2023-07-06 13:22:23,057][98493] Updated weights for policy 0, policy_version 521408 (0.0007)
+[2023-07-06 13:22:23,803][98493] Updated weights for policy 0, policy_version 521458 (0.0007)
+[2023-07-06 13:22:24,764][98243] Fps is (10 sec: 104856.9, 60 sec: 113596.1, 300 sec: 111522.3). Total num frames: 1067974656. Throughput: 0: 28012.1. Samples: 267007488. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:22:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000521472_1067974656.pth...
+[2023-07-06 13:22:24,809][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000508480_1041367040.pth
+[2023-07-06 13:22:24,812][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000521472_1067974656.pth
+[2023-07-06 13:22:26,180][98493] Updated weights for policy 0, policy_version 521504 (0.0007)
+[2023-07-06 13:22:26,713][98493] Updated weights for policy 0, policy_version 521556 (0.0007)
+[2023-07-06 13:22:27,134][98493] Updated weights for policy 0, policy_version 521601 (0.0006)
+[2023-07-06 13:22:28,042][98493] Updated weights for policy 0, policy_version 521665 (0.0007)
+[2023-07-06 13:22:28,501][98493] Updated weights for policy 0, policy_version 521723 (0.0007)
+[2023-07-06 13:22:29,764][98243] Fps is (10 sec: 104857.5, 60 sec: 112503.4, 300 sec: 111078.0). Total num frames: 1068498944. Throughput: 0: 27864.2. Samples: 267171840. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:29,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:22:31,233][98493] Updated weights for policy 0, policy_version 521781 (0.0007)
+[2023-07-06 13:22:31,820][98493] Updated weights for policy 0, policy_version 521847 (0.0007)
+[2023-07-06 13:22:32,313][98493] Updated weights for policy 0, policy_version 521904 (0.0009)
+[2023-07-06 13:22:32,978][98493] Updated weights for policy 0, policy_version 521952 (0.0009)
+[2023-07-06 13:22:34,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.4, 300 sec: 111078.0). Total num frames: 1069023232. Throughput: 0: 28137.2. Samples: 267343872. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:34,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:22:35,582][98449] Signal inference workers to stop experience collection... (27050 times)
+[2023-07-06 13:22:35,620][98493] InferenceWorker_p0-w0: stopping experience collection (27050 times)
+[2023-07-06 13:22:35,676][98449] Signal inference workers to resume experience collection... (27050 times)
+[2023-07-06 13:22:35,676][98493] InferenceWorker_p0-w0: resuming experience collection (27050 times)
+[2023-07-06 13:22:35,800][98493] Updated weights for policy 0, policy_version 522016 (0.0007)
+[2023-07-06 13:22:36,296][98493] Updated weights for policy 0, policy_version 522072 (0.0008)
+[2023-07-06 13:22:36,853][98493] Updated weights for policy 0, policy_version 522135 (0.0007)
+[2023-07-06 13:22:37,611][98493] Updated weights for policy 0, policy_version 522192 (0.0008)
+[2023-07-06 13:22:37,998][98493] Updated weights for policy 0, policy_version 522237 (0.0007)
+[2023-07-06 13:22:39,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.3, 300 sec: 110966.9). Total num frames: 1069547520. Throughput: 0: 27932.5. Samples: 267422208. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:22:40,615][98493] Updated weights for policy 0, policy_version 522280 (0.0007)
+[2023-07-06 13:22:41,007][98493] Updated weights for policy 0, policy_version 522322 (0.0007)
+[2023-07-06 13:22:41,430][98493] Updated weights for policy 0, policy_version 522373 (0.0007)
+[2023-07-06 13:22:42,362][98493] Updated weights for policy 0, policy_version 522433 (0.0007)
+[2023-07-06 13:22:42,820][98493] Updated weights for policy 0, policy_version 522493 (0.0006)
+[2023-07-06 13:22:44,764][98243] Fps is (10 sec: 104857.2, 60 sec: 110865.0, 300 sec: 110744.7). Total num frames: 1070071808. Throughput: 0: 27898.3. Samples: 267593728. Policy #0 lag: (min: 7.0, avg: 83.6, max: 263.0)
+[2023-07-06 13:22:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:22:45,433][98493] Updated weights for policy 0, policy_version 522547 (0.0007)
+[2023-07-06 13:22:45,994][98493] Updated weights for policy 0, policy_version 522613 (0.0007)
+[2023-07-06 13:22:46,553][98493] Updated weights for policy 0, policy_version 522680 (0.0007)
+[2023-07-06 13:22:47,520][98493] Updated weights for policy 0, policy_version 522746 (0.0007)
+[2023-07-06 13:22:49,764][98243] Fps is (10 sec: 104858.3, 60 sec: 109226.7, 300 sec: 110633.7). Total num frames: 1070596096. Throughput: 0: 28080.3. Samples: 267765248. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:22:49,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:22:50,080][98493] Updated weights for policy 0, policy_version 522800 (0.0007)
+[2023-07-06 13:22:50,734][98493] Updated weights for policy 0, policy_version 522873 (0.0007)
+[2023-07-06 13:22:50,817][98449] Signal inference workers to stop experience collection... (27100 times)
+[2023-07-06 13:22:50,851][98493] InferenceWorker_p0-w0: stopping experience collection (27100 times)
+[2023-07-06 13:22:50,900][98449] Signal inference workers to resume experience collection... (27100 times)
+[2023-07-06 13:22:50,900][98493] InferenceWorker_p0-w0: resuming experience collection (27100 times)
+[2023-07-06 13:22:51,254][98493] Updated weights for policy 0, policy_version 522937 (0.0007)
+[2023-07-06 13:22:52,279][98493] Updated weights for policy 0, policy_version 522992 (0.0007)
+[2023-07-06 13:22:54,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110319.0, 300 sec: 110855.8). Total num frames: 1071185920. Throughput: 0: 27591.2. Samples: 267836928. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:22:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:22:54,780][98493] Updated weights for policy 0, policy_version 523046 (0.0007)
+[2023-07-06 13:22:55,317][98493] Updated weights for policy 0, policy_version 523111 (0.0007)
+[2023-07-06 13:22:55,783][98493] Updated weights for policy 0, policy_version 523152 (0.0009)
+[2023-07-06 13:22:56,769][98493] Updated weights for policy 0, policy_version 523202 (0.0007)
+[2023-07-06 13:22:57,199][98493] Updated weights for policy 0, policy_version 523257 (0.0007)
+[2023-07-06 13:22:59,544][98493] Updated weights for policy 0, policy_version 523312 (0.0007)
+[2023-07-06 13:22:59,764][98243] Fps is (10 sec: 117963.9, 60 sec: 109772.6, 300 sec: 111078.1). Total num frames: 1071775744. Throughput: 0: 27807.2. Samples: 268009984. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:22:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:23:00,034][98493] Updated weights for policy 0, policy_version 523364 (0.0007)
+[2023-07-06 13:23:00,691][98493] Updated weights for policy 0, policy_version 523434 (0.0007)
+[2023-07-06 13:23:01,561][98493] Updated weights for policy 0, policy_version 523488 (0.0007)
+[2023-07-06 13:23:04,020][98493] Updated weights for policy 0, policy_version 523552 (0.0008)
+[2023-07-06 13:23:04,720][98493] Updated weights for policy 0, policy_version 523608 (0.0007)
+[2023-07-06 13:23:04,764][98243] Fps is (10 sec: 117964.2, 60 sec: 109226.4, 300 sec: 110966.8). Total num frames: 1072365568. Throughput: 0: 27761.7. Samples: 268172800. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:23:05,154][98493] Updated weights for policy 0, policy_version 523651 (0.0006)
+[2023-07-06 13:23:05,587][98493] Updated weights for policy 0, policy_version 523706 (0.0007)
+[2023-07-06 13:23:06,168][98493] Updated weights for policy 0, policy_version 523745 (0.0008)
+[2023-07-06 13:23:08,466][98493] Updated weights for policy 0, policy_version 523780 (0.0006)
+[2023-07-06 13:23:08,846][98493] Updated weights for policy 0, policy_version 523824 (0.0007)
+[2023-07-06 13:23:09,393][98449] Signal inference workers to stop experience collection... (27150 times)
+[2023-07-06 13:23:09,435][98493] Updated weights for policy 0, policy_version 523873 (0.0007)
+[2023-07-06 13:23:09,445][98493] InferenceWorker_p0-w0: stopping experience collection (27150 times)
+[2023-07-06 13:23:09,523][98449] Signal inference workers to resume experience collection... (27150 times)
+[2023-07-06 13:23:09,523][98493] InferenceWorker_p0-w0: resuming experience collection (27150 times)
+[2023-07-06 13:23:09,764][98243] Fps is (10 sec: 117965.9, 60 sec: 109227.0, 300 sec: 110966.9). Total num frames: 1072955392. Throughput: 0: 27750.5. Samples: 268256256. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:09,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:23:09,876][98493] Updated weights for policy 0, policy_version 523925 (0.0006)
+[2023-07-06 13:23:10,641][98493] Updated weights for policy 0, policy_version 523973 (0.0007)
+[2023-07-06 13:23:11,120][98493] Updated weights for policy 0, policy_version 524032 (0.0007)
+[2023-07-06 13:23:13,367][98493] Updated weights for policy 0, policy_version 524081 (0.0008)
+[2023-07-06 13:23:13,885][98493] Updated weights for policy 0, policy_version 524128 (0.0007)
+[2023-07-06 13:23:14,202][98493] Updated weights for policy 0, policy_version 524155 (0.0006)
+[2023-07-06 13:23:14,681][98493] Updated weights for policy 0, policy_version 524208 (0.0007)
+[2023-07-06 13:23:14,764][98243] Fps is (10 sec: 121241.1, 60 sec: 110864.8, 300 sec: 111077.9). Total num frames: 1073577984. Throughput: 0: 27909.6. Samples: 268427776. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:14,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:23:15,628][98493] Updated weights for policy 0, policy_version 524262 (0.0008)
+[2023-07-06 13:23:17,894][98493] Updated weights for policy 0, policy_version 524307 (0.0007)
+[2023-07-06 13:23:18,566][98493] Updated weights for policy 0, policy_version 524376 (0.0007)
+[2023-07-06 13:23:18,988][98493] Updated weights for policy 0, policy_version 524418 (0.0008)
+[2023-07-06 13:23:19,467][98493] Updated weights for policy 0, policy_version 524480 (0.0006)
+[2023-07-06 13:23:19,764][98243] Fps is (10 sec: 117962.2, 60 sec: 111410.9, 300 sec: 111078.0). Total num frames: 1074135040. Throughput: 0: 27716.2. Samples: 268591104. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:19,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:23:20,489][98493] Updated weights for policy 0, policy_version 524544 (0.0007)
+[2023-07-06 13:23:22,800][98493] Updated weights for policy 0, policy_version 524592 (0.0007)
+[2023-07-06 13:23:23,466][98493] Updated weights for policy 0, policy_version 524640 (0.0007)
+[2023-07-06 13:23:24,134][98493] Updated weights for policy 0, policy_version 524713 (0.0007)
+[2023-07-06 13:23:24,765][98243] Fps is (10 sec: 108130.1, 60 sec: 111410.3, 300 sec: 111077.8). Total num frames: 1074659328. Throughput: 0: 27909.4. Samples: 268678144. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:23:25,156][98493] Updated weights for policy 0, policy_version 524759 (0.0007)
+[2023-07-06 13:23:27,398][98493] Updated weights for policy 0, policy_version 524807 (0.0007)
+[2023-07-06 13:23:27,761][98449] Signal inference workers to stop experience collection... (27200 times)
+[2023-07-06 13:23:27,794][98493] InferenceWorker_p0-w0: stopping experience collection (27200 times)
+[2023-07-06 13:23:27,864][98449] Signal inference workers to resume experience collection... (27200 times)
+[2023-07-06 13:23:27,865][98493] InferenceWorker_p0-w0: resuming experience collection (27200 times)
+[2023-07-06 13:23:27,991][98493] Updated weights for policy 0, policy_version 524880 (0.0008)
+[2023-07-06 13:23:28,552][98493] Updated weights for policy 0, policy_version 524944 (0.0007)
+[2023-07-06 13:23:29,627][98493] Updated weights for policy 0, policy_version 524994 (0.0007)
+[2023-07-06 13:23:29,764][98243] Fps is (10 sec: 108136.1, 60 sec: 111957.3, 300 sec: 111078.0). Total num frames: 1075216384. Throughput: 0: 27693.5. Samples: 268839936. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:23:30,073][98493] Updated weights for policy 0, policy_version 525044 (0.0006)
+[2023-07-06 13:23:32,457][98493] Updated weights for policy 0, policy_version 525088 (0.0008)
+[2023-07-06 13:23:33,074][98493] Updated weights for policy 0, policy_version 525156 (0.0007)
+[2023-07-06 13:23:33,516][98493] Updated weights for policy 0, policy_version 525201 (0.0007)
+[2023-07-06 13:23:34,357][98493] Updated weights for policy 0, policy_version 525252 (0.0007)
+[2023-07-06 13:23:34,764][98243] Fps is (10 sec: 114693.9, 60 sec: 113049.6, 300 sec: 111078.0). Total num frames: 1075806208. Throughput: 0: 27568.3. Samples: 269005824. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:23:34,810][98493] Updated weights for policy 0, policy_version 525304 (0.0007)
+[2023-07-06 13:23:37,003][98493] Updated weights for policy 0, policy_version 525349 (0.0006)
+[2023-07-06 13:23:37,575][98493] Updated weights for policy 0, policy_version 525412 (0.0008)
+[2023-07-06 13:23:38,149][98493] Updated weights for policy 0, policy_version 525472 (0.0007)
+[2023-07-06 13:23:38,969][98493] Updated weights for policy 0, policy_version 525507 (0.0007)
+[2023-07-06 13:23:39,764][98243] Fps is (10 sec: 114688.1, 60 sec: 113595.8, 300 sec: 111189.0). Total num frames: 1076363264. Throughput: 0: 27830.1. Samples: 269089280. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:23:41,546][98493] Updated weights for policy 0, policy_version 525571 (0.0007)
+[2023-07-06 13:23:42,121][98493] Updated weights for policy 0, policy_version 525637 (0.0008)
+[2023-07-06 13:23:42,631][98493] Updated weights for policy 0, policy_version 525696 (0.0008)
+[2023-07-06 13:23:43,115][98493] Updated weights for policy 0, policy_version 525754 (0.0006)
+[2023-07-06 13:23:43,836][98449] Signal inference workers to stop experience collection... (27250 times)
+[2023-07-06 13:23:43,882][98493] InferenceWorker_p0-w0: stopping experience collection (27250 times)
+[2023-07-06 13:23:43,921][98449] Signal inference workers to resume experience collection... (27250 times)
+[2023-07-06 13:23:43,922][98493] InferenceWorker_p0-w0: resuming experience collection (27250 times)
+[2023-07-06 13:23:44,011][98493] Updated weights for policy 0, policy_version 525798 (0.0007)
+[2023-07-06 13:23:44,764][98243] Fps is (10 sec: 108131.7, 60 sec: 113595.3, 300 sec: 111078.1). Total num frames: 1076887552. Throughput: 0: 27727.5. Samples: 269257728. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:44,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:23:46,334][98493] Updated weights for policy 0, policy_version 525840 (0.0007)
+[2023-07-06 13:23:46,883][98493] Updated weights for policy 0, policy_version 525894 (0.0008)
+[2023-07-06 13:23:47,318][98493] Updated weights for policy 0, policy_version 525940 (0.0007)
+[2023-07-06 13:23:47,887][98493] Updated weights for policy 0, policy_version 526010 (0.0008)
+[2023-07-06 13:23:48,863][98493] Updated weights for policy 0, policy_version 526073 (0.0006)
+[2023-07-06 13:23:49,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113595.7, 300 sec: 110855.9). Total num frames: 1077411840. Throughput: 0: 27841.5. Samples: 269425664. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:23:51,281][98493] Updated weights for policy 0, policy_version 526119 (0.0007)
+[2023-07-06 13:23:51,712][98493] Updated weights for policy 0, policy_version 526167 (0.0007)
+[2023-07-06 13:23:52,203][98493] Updated weights for policy 0, policy_version 526224 (0.0007)
+[2023-07-06 13:23:52,628][98493] Updated weights for policy 0, policy_version 526272 (0.0008)
+[2023-07-06 13:23:53,556][98493] Updated weights for policy 0, policy_version 526332 (0.0007)
+[2023-07-06 13:23:54,765][98243] Fps is (10 sec: 104856.5, 60 sec: 112502.8, 300 sec: 110633.6). Total num frames: 1077936128. Throughput: 0: 27875.3. Samples: 269510656. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:23:56,024][98493] Updated weights for policy 0, policy_version 526400 (0.0007)
+[2023-07-06 13:23:56,568][98493] Updated weights for policy 0, policy_version 526458 (0.0008)
+[2023-07-06 13:23:56,976][98493] Updated weights for policy 0, policy_version 526502 (0.0006)
+[2023-07-06 13:23:58,136][98493] Updated weights for policy 0, policy_version 526560 (0.0007)
+[2023-07-06 13:23:59,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.2, 300 sec: 110522.6). Total num frames: 1078460416. Throughput: 0: 27750.4. Samples: 269676544. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:23:59,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:24:00,556][98493] Updated weights for policy 0, policy_version 526617 (0.0007)
+[2023-07-06 13:24:01,074][98493] Updated weights for policy 0, policy_version 526678 (0.0007)
+[2023-07-06 13:24:01,180][98449] Signal inference workers to stop experience collection... (27300 times)
+[2023-07-06 13:24:01,209][98493] InferenceWorker_p0-w0: stopping experience collection (27300 times)
+[2023-07-06 13:24:01,257][98449] Signal inference workers to resume experience collection... (27300 times)
+[2023-07-06 13:24:01,257][98493] InferenceWorker_p0-w0: resuming experience collection (27300 times)
+[2023-07-06 13:24:01,721][98493] Updated weights for policy 0, policy_version 526744 (0.0006)
+[2023-07-06 13:24:02,601][98493] Updated weights for policy 0, policy_version 526785 (0.0007)
+[2023-07-06 13:24:03,080][98493] Updated weights for policy 0, policy_version 526842 (0.0007)
+[2023-07-06 13:24:04,764][98243] Fps is (10 sec: 104860.7, 60 sec: 110318.9, 300 sec: 110300.4). Total num frames: 1078984704. Throughput: 0: 27921.1. Samples: 269847552. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:24:04,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:24:05,642][98493] Updated weights for policy 0, policy_version 526912 (0.0008)
+[2023-07-06 13:24:06,188][98493] Updated weights for policy 0, policy_version 526970 (0.0007)
+[2023-07-06 13:24:06,583][98493] Updated weights for policy 0, policy_version 527015 (0.0006)
+[2023-07-06 13:24:07,477][98493] Updated weights for policy 0, policy_version 527062 (0.0007)
+[2023-07-06 13:24:09,764][98243] Fps is (10 sec: 104858.3, 60 sec: 109226.6, 300 sec: 110189.3). Total num frames: 1079508992. Throughput: 0: 27671.1. Samples: 269923328. Policy #0 lag: (min: 15.0, avg: 81.2, max: 271.0)
+[2023-07-06 13:24:09,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:24:09,844][98493] Updated weights for policy 0, policy_version 527120 (0.0007)
+[2023-07-06 13:24:10,385][98493] Updated weights for policy 0, policy_version 527184 (0.0007)
+[2023-07-06 13:24:10,920][98493] Updated weights for policy 0, policy_version 527239 (0.0007)
+[2023-07-06 13:24:11,333][98493] Updated weights for policy 0, policy_version 527291 (0.0007)
+[2023-07-06 13:24:12,492][98493] Updated weights for policy 0, policy_version 527344 (0.0008)
+[2023-07-06 13:24:14,517][98493] Updated weights for policy 0, policy_version 527392 (0.0007)
+[2023-07-06 13:24:14,764][98243] Fps is (10 sec: 114687.9, 60 sec: 109226.7, 300 sec: 110522.5). Total num frames: 1080131584. Throughput: 0: 27943.8. Samples: 270097408. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:24:15,168][98493] Updated weights for policy 0, policy_version 527461 (0.0009)
+[2023-07-06 13:24:15,654][98493] Updated weights for policy 0, policy_version 527512 (0.0008)
+[2023-07-06 13:24:15,970][98493] Updated weights for policy 0, policy_version 527552 (0.0006)
+[2023-07-06 13:24:17,136][98493] Updated weights for policy 0, policy_version 527610 (0.0007)
+[2023-07-06 13:24:19,344][98449] Signal inference workers to stop experience collection... (27350 times)
+[2023-07-06 13:24:19,397][98493] InferenceWorker_p0-w0: stopping experience collection (27350 times)
+[2023-07-06 13:24:19,465][98449] Signal inference workers to resume experience collection... (27350 times)
+[2023-07-06 13:24:19,465][98493] InferenceWorker_p0-w0: resuming experience collection (27350 times)
+[2023-07-06 13:24:19,601][98493] Updated weights for policy 0, policy_version 527664 (0.0008)
+[2023-07-06 13:24:19,764][98243] Fps is (10 sec: 117965.5, 60 sec: 109227.1, 300 sec: 110633.7). Total num frames: 1080688640. Throughput: 0: 27989.4. Samples: 270265344. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:19,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:24:20,110][98493] Updated weights for policy 0, policy_version 527715 (0.0028)
+[2023-07-06 13:24:20,733][98493] Updated weights for policy 0, policy_version 527792 (0.0007)
+[2023-07-06 13:24:21,649][98493] Updated weights for policy 0, policy_version 527841 (0.0008)
+[2023-07-06 13:24:24,262][98493] Updated weights for policy 0, policy_version 527904 (0.0009)
+[2023-07-06 13:24:24,764][98243] Fps is (10 sec: 111411.7, 60 sec: 109773.7, 300 sec: 110744.8). Total num frames: 1081245696. Throughput: 0: 27909.7. Samples: 270345216. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:24,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:24:24,837][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000527968_1081278464.pth...
+[2023-07-06 13:24:24,838][98493] Updated weights for policy 0, policy_version 527968 (0.0007)
+[2023-07-06 13:24:24,928][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000514928_1054572544.pth
+[2023-07-06 13:24:25,466][98493] Updated weights for policy 0, policy_version 528032 (0.0007)
+[2023-07-06 13:24:26,206][98493] Updated weights for policy 0, policy_version 528080 (0.0007)
+[2023-07-06 13:24:26,650][98493] Updated weights for policy 0, policy_version 528128 (0.0007)
+[2023-07-06 13:24:29,275][98493] Updated weights for policy 0, policy_version 528185 (0.0007)
+[2023-07-06 13:24:29,714][98493] Updated weights for policy 0, policy_version 528240 (0.0008)
+[2023-07-06 13:24:29,764][98243] Fps is (10 sec: 114687.1, 60 sec: 110318.9, 300 sec: 110966.9). Total num frames: 1081835520. Throughput: 0: 27944.0. Samples: 270515200. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:24:30,222][98493] Updated weights for policy 0, policy_version 528293 (0.0008)
+[2023-07-06 13:24:31,192][98493] Updated weights for policy 0, policy_version 528352 (0.0007)
+[2023-07-06 13:24:33,694][98493] Updated weights for policy 0, policy_version 528416 (0.0007)
+[2023-07-06 13:24:34,270][98493] Updated weights for policy 0, policy_version 528480 (0.0007)
+[2023-07-06 13:24:34,758][98449] Signal inference workers to stop experience collection... (27400 times)
+[2023-07-06 13:24:34,764][98243] Fps is (10 sec: 117965.2, 60 sec: 110318.9, 300 sec: 111189.1). Total num frames: 1082425344. Throughput: 0: 27682.1. Samples: 270671360. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:34,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:24:34,789][98493] InferenceWorker_p0-w0: stopping experience collection (27400 times)
+[2023-07-06 13:24:34,859][98449] Signal inference workers to resume experience collection... (27400 times)
+[2023-07-06 13:24:34,859][98493] InferenceWorker_p0-w0: resuming experience collection (27400 times)
+[2023-07-06 13:24:34,960][98493] Updated weights for policy 0, policy_version 528554 (0.0007)
+[2023-07-06 13:24:35,967][98493] Updated weights for policy 0, policy_version 528592 (0.0006)
+[2023-07-06 13:24:36,348][98493] Updated weights for policy 0, policy_version 528637 (0.0006)
+[2023-07-06 13:24:38,764][98493] Updated weights for policy 0, policy_version 528704 (0.0007)
+[2023-07-06 13:24:39,299][98493] Updated weights for policy 0, policy_version 528758 (0.0008)
+[2023-07-06 13:24:39,764][98243] Fps is (10 sec: 114688.8, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 1082982400. Throughput: 0: 27762.0. Samples: 270759936. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:39,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 13:24:39,854][98493] Updated weights for policy 0, policy_version 528825 (0.0007)
+[2023-07-06 13:24:41,292][98493] Updated weights for policy 0, policy_version 528890 (0.0007)
+[2023-07-06 13:24:43,107][98493] Updated weights for policy 0, policy_version 528931 (0.0006)
+[2023-07-06 13:24:43,578][98493] Updated weights for policy 0, policy_version 528992 (0.0009)
+[2023-07-06 13:24:44,121][98493] Updated weights for policy 0, policy_version 529026 (0.0007)
+[2023-07-06 13:24:44,565][98493] Updated weights for policy 0, policy_version 529084 (0.0007)
+[2023-07-06 13:24:44,764][98243] Fps is (10 sec: 114686.2, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1083572224. Throughput: 0: 27682.1. Samples: 270922240. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:24:45,788][98493] Updated weights for policy 0, policy_version 529136 (0.0007)
+[2023-07-06 13:24:47,500][98493] Updated weights for policy 0, policy_version 529173 (0.0006)
+[2023-07-06 13:24:47,805][98493] Updated weights for policy 0, policy_version 529212 (0.0007)
+[2023-07-06 13:24:48,394][98493] Updated weights for policy 0, policy_version 529273 (0.0007)
+[2023-07-06 13:24:48,851][98493] Updated weights for policy 0, policy_version 529318 (0.0008)
+[2023-07-06 13:24:49,764][98243] Fps is (10 sec: 111410.5, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1084096512. Throughput: 0: 27625.3. Samples: 271090688. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:24:50,330][98493] Updated weights for policy 0, policy_version 529360 (0.0006)
+[2023-07-06 13:24:51,956][98493] Updated weights for policy 0, policy_version 529414 (0.0007)
+[2023-07-06 13:24:52,411][98493] Updated weights for policy 0, policy_version 529472 (0.0008)
+[2023-07-06 13:24:53,037][98449] Signal inference workers to stop experience collection... (27450 times)
+[2023-07-06 13:24:53,090][98493] InferenceWorker_p0-w0: stopping experience collection (27450 times)
+[2023-07-06 13:24:53,139][98449] Signal inference workers to resume experience collection... (27450 times)
+[2023-07-06 13:24:53,139][98493] InferenceWorker_p0-w0: resuming experience collection (27450 times)
+[2023-07-06 13:24:53,234][98493] Updated weights for policy 0, policy_version 529533 (0.0007)
+[2023-07-06 13:24:53,716][98493] Updated weights for policy 0, policy_version 529584 (0.0007)
+[2023-07-06 13:24:54,657][98493] Updated weights for policy 0, policy_version 529616 (0.0006)
+[2023-07-06 13:24:54,764][98243] Fps is (10 sec: 108136.6, 60 sec: 111958.1, 300 sec: 111633.4). Total num frames: 1084653568. Throughput: 0: 27841.4. Samples: 271176192. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:54,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:24:56,661][98493] Updated weights for policy 0, policy_version 529666 (0.0008)
+[2023-07-06 13:24:57,090][98493] Updated weights for policy 0, policy_version 529723 (0.0007)
+[2023-07-06 13:24:57,897][98493] Updated weights for policy 0, policy_version 529766 (0.0006)
+[2023-07-06 13:24:58,461][98493] Updated weights for policy 0, policy_version 529832 (0.0007)
+[2023-07-06 13:24:59,412][98493] Updated weights for policy 0, policy_version 529881 (0.0006)
+[2023-07-06 13:24:59,764][98243] Fps is (10 sec: 117965.4, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 1085276160. Throughput: 0: 27659.4. Samples: 271342080. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:24:59,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:25:01,367][98493] Updated weights for policy 0, policy_version 529936 (0.0007)
+[2023-07-06 13:25:01,804][98493] Updated weights for policy 0, policy_version 529984 (0.0007)
+[2023-07-06 13:25:02,346][98493] Updated weights for policy 0, policy_version 530033 (0.0008)
+[2023-07-06 13:25:02,983][98493] Updated weights for policy 0, policy_version 530081 (0.0007)
+[2023-07-06 13:25:04,376][98493] Updated weights for policy 0, policy_version 530146 (0.0007)
+[2023-07-06 13:25:04,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.9, 300 sec: 111966.8). Total num frames: 1085800448. Throughput: 0: 27659.3. Samples: 271510016. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:25:06,384][98493] Updated weights for policy 0, policy_version 530201 (0.0022)
+[2023-07-06 13:25:06,850][98493] Updated weights for policy 0, policy_version 530256 (0.0007)
+[2023-07-06 13:25:07,226][98493] Updated weights for policy 0, policy_version 530291 (0.0007)
+[2023-07-06 13:25:07,679][98493] Updated weights for policy 0, policy_version 530343 (0.0008)
+[2023-07-06 13:25:08,983][98493] Updated weights for policy 0, policy_version 530407 (0.0007)
+[2023-07-06 13:25:09,764][98243] Fps is (10 sec: 104855.3, 60 sec: 113595.4, 300 sec: 111744.4). Total num frames: 1086324736. Throughput: 0: 27750.3. Samples: 271593984. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:25:10,931][98493] Updated weights for policy 0, policy_version 530451 (0.0007)
+[2023-07-06 13:25:11,399][98449] Signal inference workers to stop experience collection... (27500 times)
+[2023-07-06 13:25:11,417][98493] InferenceWorker_p0-w0: stopping experience collection (27500 times)
+[2023-07-06 13:25:11,495][98449] Signal inference workers to resume experience collection... (27500 times)
+[2023-07-06 13:25:11,495][98493] InferenceWorker_p0-w0: resuming experience collection (27500 times)
+[2023-07-06 13:25:11,497][98493] Updated weights for policy 0, policy_version 530512 (0.0007)
+[2023-07-06 13:25:11,878][98493] Updated weights for policy 0, policy_version 530559 (0.0008)
+[2023-07-06 13:25:12,442][98493] Updated weights for policy 0, policy_version 530597 (0.0006)
+[2023-07-06 13:25:13,390][98493] Updated weights for policy 0, policy_version 530650 (0.0007)
+[2023-07-06 13:25:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111957.5, 300 sec: 111522.3). Total num frames: 1086849024. Throughput: 0: 27682.1. Samples: 271760896. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:14,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:25:15,521][98493] Updated weights for policy 0, policy_version 530692 (0.0007)
+[2023-07-06 13:25:15,943][98493] Updated weights for policy 0, policy_version 530745 (0.0007)
+[2023-07-06 13:25:16,560][98493] Updated weights for policy 0, policy_version 530814 (0.0007)
+[2023-07-06 13:25:17,229][98493] Updated weights for policy 0, policy_version 530875 (0.0008)
+[2023-07-06 13:25:18,306][98493] Updated weights for policy 0, policy_version 530928 (0.0007)
+[2023-07-06 13:25:19,764][98243] Fps is (10 sec: 104859.8, 60 sec: 111411.1, 300 sec: 111411.3). Total num frames: 1087373312. Throughput: 0: 28057.6. Samples: 271933952. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:25:20,537][98493] Updated weights for policy 0, policy_version 530992 (0.0007)
+[2023-07-06 13:25:21,331][98493] Updated weights for policy 0, policy_version 531056 (0.0008)
+[2023-07-06 13:25:21,852][98493] Updated weights for policy 0, policy_version 531108 (0.0008)
+[2023-07-06 13:25:22,807][98493] Updated weights for policy 0, policy_version 531168 (0.0007)
+[2023-07-06 13:25:24,765][98243] Fps is (10 sec: 104855.0, 60 sec: 110864.7, 300 sec: 111077.8). Total num frames: 1087897600. Throughput: 0: 27852.6. Samples: 272013312. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:25:24,805][98493] Updated weights for policy 0, policy_version 531205 (0.0007)
+[2023-07-06 13:25:25,734][98493] Updated weights for policy 0, policy_version 531271 (0.0007)
+[2023-07-06 13:25:26,188][98493] Updated weights for policy 0, policy_version 531328 (0.0007)
+[2023-07-06 13:25:26,818][98493] Updated weights for policy 0, policy_version 531387 (0.0006)
+[2023-07-06 13:25:27,480][98493] Updated weights for policy 0, policy_version 531428 (0.0008)
+[2023-07-06 13:25:29,694][98493] Updated weights for policy 0, policy_version 531488 (0.0007)
+[2023-07-06 13:25:29,764][98243] Fps is (10 sec: 111411.2, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 1088487424. Throughput: 0: 27989.4. Samples: 272181760. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:25:30,465][98449] Signal inference workers to stop experience collection... (27550 times)
+[2023-07-06 13:25:30,514][98493] InferenceWorker_p0-w0: stopping experience collection (27550 times)
+[2023-07-06 13:25:30,518][98493] Updated weights for policy 0, policy_version 531543 (0.0007)
+[2023-07-06 13:25:30,560][98449] Signal inference workers to resume experience collection... (27550 times)
+[2023-07-06 13:25:30,560][98493] InferenceWorker_p0-w0: resuming experience collection (27550 times)
+[2023-07-06 13:25:30,955][98493] Updated weights for policy 0, policy_version 531587 (0.0036)
+[2023-07-06 13:25:31,383][98493] Updated weights for policy 0, policy_version 531642 (0.0007)
+[2023-07-06 13:25:32,393][98493] Updated weights for policy 0, policy_version 531696 (0.0006)
+[2023-07-06 13:25:34,764][98243] Fps is (10 sec: 111414.4, 60 sec: 109772.9, 300 sec: 110855.8). Total num frames: 1089011712. Throughput: 0: 27989.4. Samples: 272350208. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:34,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:25:34,859][98493] Updated weights for policy 0, policy_version 531770 (0.0008)
+[2023-07-06 13:25:35,451][98493] Updated weights for policy 0, policy_version 531824 (0.0008)
+[2023-07-06 13:25:36,034][98493] Updated weights for policy 0, policy_version 531888 (0.0008)
+[2023-07-06 13:25:37,265][98493] Updated weights for policy 0, policy_version 531952 (0.0008)
+[2023-07-06 13:25:39,333][98493] Updated weights for policy 0, policy_version 531993 (0.0022)
+[2023-07-06 13:25:39,764][98243] Fps is (10 sec: 111411.3, 60 sec: 110318.9, 300 sec: 110855.9). Total num frames: 1089601536. Throughput: 0: 27830.0. Samples: 272428544. Policy #0 lag: (min: 15.0, avg: 88.8, max: 271.0)
+[2023-07-06 13:25:39,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:25:39,998][98493] Updated weights for policy 0, policy_version 532066 (0.0008)
+[2023-07-06 13:25:40,578][98493] Updated weights for policy 0, policy_version 532101 (0.0014)
+[2023-07-06 13:25:41,716][98493] Updated weights for policy 0, policy_version 532161 (0.0008)
+[2023-07-06 13:25:42,163][98493] Updated weights for policy 0, policy_version 532219 (0.0006)
+[2023-07-06 13:25:43,998][98493] Updated weights for policy 0, policy_version 532272 (0.0006)
+[2023-07-06 13:25:44,606][98493] Updated weights for policy 0, policy_version 532325 (0.0007)
+[2023-07-06 13:25:44,764][98243] Fps is (10 sec: 121242.2, 60 sec: 110865.5, 300 sec: 110966.9). Total num frames: 1090224128. Throughput: 0: 27978.0. Samples: 272601088. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:25:44,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:25:45,496][98493] Updated weights for policy 0, policy_version 532384 (0.0008)
+[2023-07-06 13:25:46,529][98493] Updated weights for policy 0, policy_version 532441 (0.0008)
+[2023-07-06 13:25:48,448][98493] Updated weights for policy 0, policy_version 532512 (0.0007)
+[2023-07-06 13:25:48,948][98449] Signal inference workers to stop experience collection... (27600 times)
+[2023-07-06 13:25:48,970][98493] InferenceWorker_p0-w0: stopping experience collection (27600 times)
+[2023-07-06 13:25:49,031][98449] Signal inference workers to resume experience collection... (27600 times)
+[2023-07-06 13:25:49,031][98493] InferenceWorker_p0-w0: resuming experience collection (27600 times)
+[2023-07-06 13:25:49,123][98493] Updated weights for policy 0, policy_version 532563 (0.0006)
+[2023-07-06 13:25:49,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 1090781184. Throughput: 0: 27875.6. Samples: 272764416. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:25:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:25:49,974][98493] Updated weights for policy 0, policy_version 532614 (0.0007)
+[2023-07-06 13:25:51,193][98493] Updated weights for policy 0, policy_version 532673 (0.0008)
+[2023-07-06 13:25:51,646][98493] Updated weights for policy 0, policy_version 532730 (0.0007)
+[2023-07-06 13:25:53,224][98493] Updated weights for policy 0, policy_version 532792 (0.0007)
+[2023-07-06 13:25:54,243][98493] Updated weights for policy 0, policy_version 532858 (0.0007)
+[2023-07-06 13:25:54,764][98243] Fps is (10 sec: 108134.0, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 1091305472. Throughput: 0: 27932.6. Samples: 272850944. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:25:54,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:25:55,138][98493] Updated weights for policy 0, policy_version 532920 (0.0007)
+[2023-07-06 13:25:56,054][98493] Updated weights for policy 0, policy_version 532963 (0.0006)
+[2023-07-06 13:25:57,707][98493] Updated weights for policy 0, policy_version 533015 (0.0006)
+[2023-07-06 13:25:58,461][98493] Updated weights for policy 0, policy_version 533057 (0.0006)
+[2023-07-06 13:25:58,962][98493] Updated weights for policy 0, policy_version 533120 (0.0007)
+[2023-07-06 13:25:59,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110865.1, 300 sec: 111411.2). Total num frames: 1091928064. Throughput: 0: 27955.2. Samples: 273018880. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:25:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:25:59,824][98493] Updated weights for policy 0, policy_version 533181 (0.0007)
+[2023-07-06 13:26:00,882][98493] Updated weights for policy 0, policy_version 533240 (0.0007)
+[2023-07-06 13:26:02,568][98493] Updated weights for policy 0, policy_version 533280 (0.0007)
+[2023-07-06 13:26:03,123][98493] Updated weights for policy 0, policy_version 533333 (0.0008)
+[2023-07-06 13:26:04,007][98493] Updated weights for policy 0, policy_version 533378 (0.0007)
+[2023-07-06 13:26:04,472][98493] Updated weights for policy 0, policy_version 533436 (0.0007)
+[2023-07-06 13:26:04,764][98243] Fps is (10 sec: 117962.9, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1092485120. Throughput: 0: 27807.2. Samples: 273185280. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:26:05,463][98493] Updated weights for policy 0, policy_version 533497 (0.0007)
+[2023-07-06 13:26:07,210][98493] Updated weights for policy 0, policy_version 533553 (0.0007)
+[2023-07-06 13:26:07,957][98493] Updated weights for policy 0, policy_version 533600 (0.0006)
+[2023-07-06 13:26:08,017][98449] Signal inference workers to stop experience collection... (27650 times)
+[2023-07-06 13:26:08,064][98493] InferenceWorker_p0-w0: stopping experience collection (27650 times)
+[2023-07-06 13:26:08,102][98449] Signal inference workers to resume experience collection... (27650 times)
+[2023-07-06 13:26:08,102][98493] InferenceWorker_p0-w0: resuming experience collection (27650 times)
+[2023-07-06 13:26:08,469][98493] Updated weights for policy 0, policy_version 533633 (0.0007)
+[2023-07-06 13:26:08,901][98493] Updated weights for policy 0, policy_version 533688 (0.0007)
+[2023-07-06 13:26:09,764][98243] Fps is (10 sec: 111410.5, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 1093042176. Throughput: 0: 28023.6. Samples: 273274368. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:26:09,799][98493] Updated weights for policy 0, policy_version 533717 (0.0007)
+[2023-07-06 13:26:11,606][98493] Updated weights for policy 0, policy_version 533762 (0.0007)
+[2023-07-06 13:26:12,462][98493] Updated weights for policy 0, policy_version 533825 (0.0008)
+[2023-07-06 13:26:12,908][98493] Updated weights for policy 0, policy_version 533876 (0.0007)
+[2023-07-06 13:26:13,497][98493] Updated weights for policy 0, policy_version 533946 (0.0007)
+[2023-07-06 13:26:14,764][98243] Fps is (10 sec: 111413.5, 60 sec: 112503.7, 300 sec: 111744.5). Total num frames: 1093599232. Throughput: 0: 27966.6. Samples: 273440256. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:14,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:26:14,863][98493] Updated weights for policy 0, policy_version 534009 (0.0007)
+[2023-07-06 13:26:16,687][98493] Updated weights for policy 0, policy_version 534075 (0.0007)
+[2023-07-06 13:26:17,355][98493] Updated weights for policy 0, policy_version 534114 (0.0008)
+[2023-07-06 13:26:17,920][98493] Updated weights for policy 0, policy_version 534181 (0.0008)
+[2023-07-06 13:26:19,520][98493] Updated weights for policy 0, policy_version 534246 (0.0007)
+[2023-07-06 13:26:19,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113595.7, 300 sec: 111966.7). Total num frames: 1094189056. Throughput: 0: 27909.7. Samples: 273606144. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:19,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:26:21,485][98493] Updated weights for policy 0, policy_version 534320 (0.0008)
+[2023-07-06 13:26:22,020][98493] Updated weights for policy 0, policy_version 534374 (0.0008)
+[2023-07-06 13:26:22,588][98493] Updated weights for policy 0, policy_version 534432 (0.0007)
+[2023-07-06 13:26:24,132][98493] Updated weights for policy 0, policy_version 534486 (0.0007)
+[2023-07-06 13:26:24,764][98243] Fps is (10 sec: 111409.9, 60 sec: 113596.2, 300 sec: 111744.4). Total num frames: 1094713344. Throughput: 0: 27989.3. Samples: 273688064. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:24,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:26:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000534528_1094713344.pth...
+[2023-07-06 13:26:24,803][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000521472_1067974656.pth
+[2023-07-06 13:26:26,021][98493] Updated weights for policy 0, policy_version 534548 (0.0007)
+[2023-07-06 13:26:26,754][98449] Signal inference workers to stop experience collection... (27700 times)
+[2023-07-06 13:26:26,796][98493] InferenceWorker_p0-w0: stopping experience collection (27700 times)
+[2023-07-06 13:26:26,804][98493] Updated weights for policy 0, policy_version 534617 (0.0007)
+[2023-07-06 13:26:26,833][98449] Signal inference workers to resume experience collection... (27700 times)
+[2023-07-06 13:26:26,833][98493] InferenceWorker_p0-w0: resuming experience collection (27700 times)
+[2023-07-06 13:26:27,065][98493] Updated weights for policy 0, policy_version 534653 (0.0006)
+[2023-07-06 13:26:27,669][98493] Updated weights for policy 0, policy_version 534704 (0.0009)
+[2023-07-06 13:26:28,904][98493] Updated weights for policy 0, policy_version 534758 (0.0007)
+[2023-07-06 13:26:29,764][98243] Fps is (10 sec: 104857.6, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 1095237632. Throughput: 0: 27909.6. Samples: 273857024. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:26:30,282][98493] Updated weights for policy 0, policy_version 534785 (0.0006)
+[2023-07-06 13:26:30,747][98493] Updated weights for policy 0, policy_version 534848 (0.0007)
+[2023-07-06 13:26:31,701][98493] Updated weights for policy 0, policy_version 534902 (0.0007)
+[2023-07-06 13:26:32,237][98493] Updated weights for policy 0, policy_version 534948 (0.0007)
+[2023-07-06 13:26:33,503][98493] Updated weights for policy 0, policy_version 535017 (0.0007)
+[2023-07-06 13:26:34,764][98243] Fps is (10 sec: 104857.5, 60 sec: 112503.3, 300 sec: 111522.3). Total num frames: 1095761920. Throughput: 0: 28057.6. Samples: 274027008. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:26:34,946][98493] Updated weights for policy 0, policy_version 535065 (0.0006)
+[2023-07-06 13:26:35,291][98493] Updated weights for policy 0, policy_version 535104 (0.0007)
+[2023-07-06 13:26:36,414][98493] Updated weights for policy 0, policy_version 535166 (0.0007)
+[2023-07-06 13:26:37,175][98493] Updated weights for policy 0, policy_version 535224 (0.0007)
+[2023-07-06 13:26:38,230][98493] Updated weights for policy 0, policy_version 535280 (0.0007)
+[2023-07-06 13:26:39,764][98243] Fps is (10 sec: 108135.4, 60 sec: 111957.5, 300 sec: 111522.3). Total num frames: 1096318976. Throughput: 0: 27978.0. Samples: 274109952. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:39,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:26:39,788][98493] Updated weights for policy 0, policy_version 535328 (0.0007)
+[2023-07-06 13:26:41,005][98493] Updated weights for policy 0, policy_version 535382 (0.0008)
+[2023-07-06 13:26:41,461][98493] Updated weights for policy 0, policy_version 535426 (0.0007)
+[2023-07-06 13:26:41,937][98493] Updated weights for policy 0, policy_version 535488 (0.0009)
+[2023-07-06 13:26:42,989][98493] Updated weights for policy 0, policy_version 535536 (0.0007)
+[2023-07-06 13:26:44,550][98493] Updated weights for policy 0, policy_version 535590 (0.0008)
+[2023-07-06 13:26:44,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111957.1, 300 sec: 111522.3). Total num frames: 1096941568. Throughput: 0: 27943.8. Samples: 274276352. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:26:45,834][98449] Signal inference workers to stop experience collection... (27750 times)
+[2023-07-06 13:26:45,877][98493] InferenceWorker_p0-w0: stopping experience collection (27750 times)
+[2023-07-06 13:26:45,884][98493] Updated weights for policy 0, policy_version 535655 (0.0007)
+[2023-07-06 13:26:45,929][98449] Signal inference workers to resume experience collection... (27750 times)
+[2023-07-06 13:26:45,929][98493] InferenceWorker_p0-w0: resuming experience collection (27750 times)
+[2023-07-06 13:26:46,645][98493] Updated weights for policy 0, policy_version 535703 (0.0007)
+[2023-07-06 13:26:47,324][98493] Updated weights for policy 0, policy_version 535776 (0.0007)
+[2023-07-06 13:26:49,262][98493] Updated weights for policy 0, policy_version 535843 (0.0007)
+[2023-07-06 13:26:49,764][98243] Fps is (10 sec: 114685.9, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1097465856. Throughput: 0: 27875.6. Samples: 274439680. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:26:50,430][98493] Updated weights for policy 0, policy_version 535891 (0.0007)
+[2023-07-06 13:26:51,138][98493] Updated weights for policy 0, policy_version 535942 (0.0007)
+[2023-07-06 13:26:51,547][98493] Updated weights for policy 0, policy_version 535992 (0.0007)
+[2023-07-06 13:26:52,436][98493] Updated weights for policy 0, policy_version 536054 (0.0007)
+[2023-07-06 13:26:53,997][98493] Updated weights for policy 0, policy_version 536100 (0.0007)
+[2023-07-06 13:26:54,764][98243] Fps is (10 sec: 104855.4, 60 sec: 111410.6, 300 sec: 111188.9). Total num frames: 1097990144. Throughput: 0: 27750.3. Samples: 274523136. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:26:55,062][98493] Updated weights for policy 0, policy_version 536154 (0.0007)
+[2023-07-06 13:26:55,352][98493] Updated weights for policy 0, policy_version 536192 (0.0007)
+[2023-07-06 13:26:56,116][98493] Updated weights for policy 0, policy_version 536247 (0.0008)
+[2023-07-06 13:26:56,842][98493] Updated weights for policy 0, policy_version 536304 (0.0006)
+[2023-07-06 13:26:58,409][98493] Updated weights for policy 0, policy_version 536339 (0.0007)
+[2023-07-06 13:26:59,586][98493] Updated weights for policy 0, policy_version 536400 (0.0007)
+[2023-07-06 13:26:59,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110864.9, 300 sec: 111077.9). Total num frames: 1098579968. Throughput: 0: 27943.7. Samples: 274697728. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:26:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:27:00,036][98493] Updated weights for policy 0, policy_version 536448 (0.0007)
+[2023-07-06 13:27:00,825][98493] Updated weights for policy 0, policy_version 536506 (0.0007)
+[2023-07-06 13:27:01,260][98493] Updated weights for policy 0, policy_version 536544 (0.0007)
+[2023-07-06 13:27:03,036][98493] Updated weights for policy 0, policy_version 536602 (0.0008)
+[2023-07-06 13:27:04,228][98493] Updated weights for policy 0, policy_version 536656 (0.0007)
+[2023-07-06 13:27:04,593][98493] Updated weights for policy 0, policy_version 536700 (0.0009)
+[2023-07-06 13:27:04,764][98243] Fps is (10 sec: 117966.3, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1099169792. Throughput: 0: 28034.8. Samples: 274867712. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:27:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:27:05,263][98449] Signal inference workers to stop experience collection... (27800 times)
+[2023-07-06 13:27:05,294][98493] InferenceWorker_p0-w0: stopping experience collection (27800 times)
+[2023-07-06 13:27:05,349][98449] Signal inference workers to resume experience collection... (27800 times)
+[2023-07-06 13:27:05,350][98493] InferenceWorker_p0-w0: resuming experience collection (27800 times)
+[2023-07-06 13:27:05,441][98493] Updated weights for policy 0, policy_version 536741 (0.0007)
+[2023-07-06 13:27:05,980][98493] Updated weights for policy 0, policy_version 536805 (0.0007)
+[2023-07-06 13:27:07,655][98493] Updated weights for policy 0, policy_version 536849 (0.0006)
+[2023-07-06 13:27:08,980][98493] Updated weights for policy 0, policy_version 536912 (0.0008)
+[2023-07-06 13:27:09,381][98493] Updated weights for policy 0, policy_version 536960 (0.0007)
+[2023-07-06 13:27:09,764][98243] Fps is (10 sec: 111410.2, 60 sec: 110864.8, 300 sec: 111077.9). Total num frames: 1099694080. Throughput: 0: 28159.9. Samples: 274955264. Policy #0 lag: (min: 7.0, avg: 86.8, max: 263.0)
+[2023-07-06 13:27:09,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:27:10,386][98493] Updated weights for policy 0, policy_version 537033 (0.0008)
+[2023-07-06 13:27:12,133][98493] Updated weights for policy 0, policy_version 537091 (0.0007)
+[2023-07-06 13:27:12,577][98493] Updated weights for policy 0, policy_version 537146 (0.0007)
+[2023-07-06 13:27:13,958][98493] Updated weights for policy 0, policy_version 537209 (0.0008)
+[2023-07-06 13:27:14,764][98243] Fps is (10 sec: 108136.4, 60 sec: 110865.0, 300 sec: 111189.1). Total num frames: 1100251136. Throughput: 0: 28137.3. Samples: 275123200. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:14,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:27:14,878][98493] Updated weights for policy 0, policy_version 537255 (0.0008)
+[2023-07-06 13:27:15,419][98493] Updated weights for policy 0, policy_version 537314 (0.0007)
+[2023-07-06 13:27:17,100][98493] Updated weights for policy 0, policy_version 537376 (0.0006)
+[2023-07-06 13:27:18,687][98493] Updated weights for policy 0, policy_version 537432 (0.0008)
+[2023-07-06 13:27:19,194][98493] Updated weights for policy 0, policy_version 537477 (0.0008)
+[2023-07-06 13:27:19,764][98243] Fps is (10 sec: 117967.2, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1100873728. Throughput: 0: 27921.1. Samples: 275283456. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:19,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:27:19,854][98493] Updated weights for policy 0, policy_version 537556 (0.0008)
+[2023-07-06 13:27:20,211][98493] Updated weights for policy 0, policy_version 537600 (0.0007)
+[2023-07-06 13:27:21,778][98493] Updated weights for policy 0, policy_version 537661 (0.0007)
+[2023-07-06 13:27:23,420][98449] Signal inference workers to stop experience collection... (27850 times)
+[2023-07-06 13:27:23,452][98493] InferenceWorker_p0-w0: stopping experience collection (27850 times)
+[2023-07-06 13:27:23,497][98449] Signal inference workers to resume experience collection... (27850 times)
+[2023-07-06 13:27:23,498][98493] InferenceWorker_p0-w0: resuming experience collection (27850 times)
+[2023-07-06 13:27:23,766][98493] Updated weights for policy 0, policy_version 537728 (0.0007)
+[2023-07-06 13:27:24,257][98493] Updated weights for policy 0, policy_version 537785 (0.0006)
+[2023-07-06 13:27:24,765][98243] Fps is (10 sec: 121235.7, 60 sec: 112502.7, 300 sec: 111744.3). Total num frames: 1101463552. Throughput: 0: 28034.5. Samples: 275371520. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:24,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:27:24,850][98493] Updated weights for policy 0, policy_version 537829 (0.0006)
+[2023-07-06 13:27:26,174][98493] Updated weights for policy 0, policy_version 537878 (0.0007)
+[2023-07-06 13:27:28,146][98493] Updated weights for policy 0, policy_version 537944 (0.0008)
+[2023-07-06 13:27:28,706][98493] Updated weights for policy 0, policy_version 538002 (0.0008)
+[2023-07-06 13:27:29,364][98493] Updated weights for policy 0, policy_version 538049 (0.0006)
+[2023-07-06 13:27:29,764][98243] Fps is (10 sec: 114688.1, 60 sec: 113049.7, 300 sec: 111855.5). Total num frames: 1102020608. Throughput: 0: 27978.0. Samples: 275535360. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:27:29,834][98493] Updated weights for policy 0, policy_version 538107 (0.0008)
+[2023-07-06 13:27:31,196][98493] Updated weights for policy 0, policy_version 538150 (0.0007)
+[2023-07-06 13:27:32,517][98493] Updated weights for policy 0, policy_version 538178 (0.0007)
+[2023-07-06 13:27:33,023][98493] Updated weights for policy 0, policy_version 538238 (0.0008)
+[2023-07-06 13:27:33,546][98493] Updated weights for policy 0, policy_version 538299 (0.0009)
+[2023-07-06 13:27:34,432][98493] Updated weights for policy 0, policy_version 538352 (0.0006)
+[2023-07-06 13:27:34,764][98243] Fps is (10 sec: 111416.0, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1102577664. Throughput: 0: 28046.3. Samples: 275701760. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:34,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:27:35,901][98493] Updated weights for policy 0, policy_version 538416 (0.0007)
+[2023-07-06 13:27:37,258][98493] Updated weights for policy 0, policy_version 538453 (0.0007)
+[2023-07-06 13:27:37,610][98493] Updated weights for policy 0, policy_version 538496 (0.0008)
+[2023-07-06 13:27:38,279][98493] Updated weights for policy 0, policy_version 538554 (0.0006)
+[2023-07-06 13:27:39,060][98493] Updated weights for policy 0, policy_version 538599 (0.0007)
+[2023-07-06 13:27:39,764][98243] Fps is (10 sec: 108133.8, 60 sec: 113049.4, 300 sec: 111966.6). Total num frames: 1103101952. Throughput: 0: 28114.6. Samples: 275788288. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:39,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:27:40,431][98493] Updated weights for policy 0, policy_version 538649 (0.0007)
+[2023-07-06 13:27:40,719][98493] Updated weights for policy 0, policy_version 538688 (0.0006)
+[2023-07-06 13:27:41,602][98449] Signal inference workers to stop experience collection... (27900 times)
+[2023-07-06 13:27:41,650][98493] InferenceWorker_p0-w0: stopping experience collection (27900 times)
+[2023-07-06 13:27:41,724][98449] Signal inference workers to resume experience collection... (27900 times)
+[2023-07-06 13:27:41,724][98493] InferenceWorker_p0-w0: resuming experience collection (27900 times)
+[2023-07-06 13:27:42,138][98493] Updated weights for policy 0, policy_version 538752 (0.0007)
+[2023-07-06 13:27:43,069][98493] Updated weights for policy 0, policy_version 538811 (0.0007)
+[2023-07-06 13:27:43,982][98493] Updated weights for policy 0, policy_version 538875 (0.0008)
+[2023-07-06 13:27:44,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1103626240. Throughput: 0: 27955.3. Samples: 275955712. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:44,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:27:45,187][98493] Updated weights for policy 0, policy_version 538937 (0.0007)
+[2023-07-06 13:27:46,608][98493] Updated weights for policy 0, policy_version 538976 (0.0007)
+[2023-07-06 13:27:47,768][98493] Updated weights for policy 0, policy_version 539047 (0.0007)
+[2023-07-06 13:27:48,603][98493] Updated weights for policy 0, policy_version 539120 (0.0007)
+[2023-07-06 13:27:49,592][98493] Updated weights for policy 0, policy_version 539161 (0.0007)
+[2023-07-06 13:27:49,764][98243] Fps is (10 sec: 111412.2, 60 sec: 112503.8, 300 sec: 111966.6). Total num frames: 1104216064. Throughput: 0: 27761.9. Samples: 276116992. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:49,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 13:27:51,343][98493] Updated weights for policy 0, policy_version 539201 (0.0009)
+[2023-07-06 13:27:52,117][98493] Updated weights for policy 0, policy_version 539265 (0.0007)
+[2023-07-06 13:27:52,607][98493] Updated weights for policy 0, policy_version 539328 (0.0007)
+[2023-07-06 13:27:53,474][98493] Updated weights for policy 0, policy_version 539386 (0.0008)
+[2023-07-06 13:27:54,623][98493] Updated weights for policy 0, policy_version 539440 (0.0007)
+[2023-07-06 13:27:54,764][98243] Fps is (10 sec: 117963.4, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 1104805888. Throughput: 0: 27727.7. Samples: 276203008. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:27:56,144][98493] Updated weights for policy 0, policy_version 539476 (0.0006)
+[2023-07-06 13:27:56,901][98493] Updated weights for policy 0, policy_version 539524 (0.0007)
+[2023-07-06 13:27:57,289][98493] Updated weights for policy 0, policy_version 539574 (0.0007)
+[2023-07-06 13:27:57,870][98493] Updated weights for policy 0, policy_version 539616 (0.0007)
+[2023-07-06 13:27:59,306][98493] Updated weights for policy 0, policy_version 539682 (0.0008)
+[2023-07-06 13:27:59,764][98243] Fps is (10 sec: 111409.3, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 1105330176. Throughput: 0: 27716.2. Samples: 276370432. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:27:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:28:00,680][98493] Updated weights for policy 0, policy_version 539717 (0.0007)
+[2023-07-06 13:28:00,926][98449] Signal inference workers to stop experience collection... (27950 times)
+[2023-07-06 13:28:00,962][98493] InferenceWorker_p0-w0: stopping experience collection (27950 times)
+[2023-07-06 13:28:01,000][98449] Signal inference workers to resume experience collection... (27950 times)
+[2023-07-06 13:28:01,001][98493] InferenceWorker_p0-w0: resuming experience collection (27950 times)
+[2023-07-06 13:28:01,129][98493] Updated weights for policy 0, policy_version 539776 (0.0008)
+[2023-07-06 13:28:01,959][98493] Updated weights for policy 0, policy_version 539824 (0.0008)
+[2023-07-06 13:28:02,450][98493] Updated weights for policy 0, policy_version 539865 (0.0006)
+[2023-07-06 13:28:03,807][98493] Updated weights for policy 0, policy_version 539907 (0.0008)
+[2023-07-06 13:28:04,225][98493] Updated weights for policy 0, policy_version 539958 (0.0006)
+[2023-07-06 13:28:04,764][98243] Fps is (10 sec: 104858.8, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 1105854464. Throughput: 0: 27932.4. Samples: 276540416. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:28:05,565][98493] Updated weights for policy 0, policy_version 540016 (0.0007)
+[2023-07-06 13:28:06,494][98493] Updated weights for policy 0, policy_version 540069 (0.0007)
+[2023-07-06 13:28:07,084][98493] Updated weights for policy 0, policy_version 540119 (0.0008)
+[2023-07-06 13:28:07,463][98493] Updated weights for policy 0, policy_version 540160 (0.0008)
+[2023-07-06 13:28:08,921][98493] Updated weights for policy 0, policy_version 540220 (0.0006)
+[2023-07-06 13:28:09,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.5, 300 sec: 111189.1). Total num frames: 1106378752. Throughput: 0: 27796.2. Samples: 276622336. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:09,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:28:10,427][98493] Updated weights for policy 0, policy_version 540287 (0.0007)
+[2023-07-06 13:28:11,383][98493] Updated weights for policy 0, policy_version 540336 (0.0008)
+[2023-07-06 13:28:12,004][98493] Updated weights for policy 0, policy_version 540409 (0.0008)
+[2023-07-06 13:28:13,476][98493] Updated weights for policy 0, policy_version 540453 (0.0007)
+[2023-07-06 13:28:14,699][98493] Updated weights for policy 0, policy_version 540502 (0.0007)
+[2023-07-06 13:28:14,764][98243] Fps is (10 sec: 111411.6, 60 sec: 111957.3, 300 sec: 111300.2). Total num frames: 1106968576. Throughput: 0: 27875.6. Samples: 276789760. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:14,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:28:16,220][98493] Updated weights for policy 0, policy_version 540580 (0.0009)
+[2023-07-06 13:28:16,667][98493] Updated weights for policy 0, policy_version 540630 (0.0007)
+[2023-07-06 13:28:17,933][98493] Updated weights for policy 0, policy_version 540688 (0.0007)
+[2023-07-06 13:28:18,287][98493] Updated weights for policy 0, policy_version 540732 (0.0007)
+[2023-07-06 13:28:19,392][98449] Signal inference workers to stop experience collection... (28000 times)
+[2023-07-06 13:28:19,433][98493] InferenceWorker_p0-w0: stopping experience collection (28000 times)
+[2023-07-06 13:28:19,469][98449] Signal inference workers to resume experience collection... (28000 times)
+[2023-07-06 13:28:19,469][98493] InferenceWorker_p0-w0: resuming experience collection (28000 times)
+[2023-07-06 13:28:19,470][98493] Updated weights for policy 0, policy_version 540784 (0.0006)
+[2023-07-06 13:28:19,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111411.2, 300 sec: 111522.5). Total num frames: 1107558400. Throughput: 0: 27886.9. Samples: 276956672. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:19,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:28:20,875][98493] Updated weights for policy 0, policy_version 540832 (0.0007)
+[2023-07-06 13:28:21,410][98493] Updated weights for policy 0, policy_version 540888 (0.0007)
+[2023-07-06 13:28:22,891][98493] Updated weights for policy 0, policy_version 540944 (0.0014)
+[2023-07-06 13:28:23,272][98493] Updated weights for policy 0, policy_version 540987 (0.0007)
+[2023-07-06 13:28:23,772][98493] Updated weights for policy 0, policy_version 541040 (0.0008)
+[2023-07-06 13:28:24,764][98243] Fps is (10 sec: 111410.2, 60 sec: 110319.6, 300 sec: 111411.2). Total num frames: 1108082688. Throughput: 0: 27932.4. Samples: 277045248. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:24,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:28:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000541056_1108082688.pth...
+[2023-07-06 13:28:24,804][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000527968_1081278464.pth
+[2023-07-06 13:28:25,520][98493] Updated weights for policy 0, policy_version 541095 (0.0006)
+[2023-07-06 13:28:26,066][98493] Updated weights for policy 0, policy_version 541157 (0.0007)
+[2023-07-06 13:28:27,923][98493] Updated weights for policy 0, policy_version 541219 (0.0007)
+[2023-07-06 13:28:28,379][98493] Updated weights for policy 0, policy_version 541272 (0.0007)
+[2023-07-06 13:28:28,719][98493] Updated weights for policy 0, policy_version 541312 (0.0007)
+[2023-07-06 13:28:29,765][98243] Fps is (10 sec: 104853.8, 60 sec: 109772.1, 300 sec: 111188.9). Total num frames: 1108606976. Throughput: 0: 27829.8. Samples: 277208064. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:29,766][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:28:30,444][98493] Updated weights for policy 0, policy_version 541376 (0.0008)
+[2023-07-06 13:28:30,970][98493] Updated weights for policy 0, policy_version 541437 (0.0008)
+[2023-07-06 13:28:32,900][98493] Updated weights for policy 0, policy_version 541488 (0.0007)
+[2023-07-06 13:28:33,321][98493] Updated weights for policy 0, policy_version 541536 (0.0007)
+[2023-07-06 13:28:34,629][98493] Updated weights for policy 0, policy_version 541600 (0.0007)
+[2023-07-06 13:28:34,764][98243] Fps is (10 sec: 111412.4, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 1109196800. Throughput: 0: 28000.7. Samples: 277377024. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:34,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:28:35,335][98493] Updated weights for policy 0, policy_version 541657 (0.0006)
+[2023-07-06 13:28:37,066][98493] Updated weights for policy 0, policy_version 541712 (0.0008)
+[2023-07-06 13:28:37,111][98449] Signal inference workers to stop experience collection... (28050 times)
+[2023-07-06 13:28:37,155][98493] InferenceWorker_p0-w0: stopping experience collection (28050 times)
+[2023-07-06 13:28:37,201][98449] Signal inference workers to resume experience collection... (28050 times)
+[2023-07-06 13:28:37,201][98493] InferenceWorker_p0-w0: resuming experience collection (28050 times)
+[2023-07-06 13:28:37,652][98493] Updated weights for policy 0, policy_version 541776 (0.0029)
+[2023-07-06 13:28:38,047][98493] Updated weights for policy 0, policy_version 541820 (0.0006)
+[2023-07-06 13:28:39,473][98493] Updated weights for policy 0, policy_version 541863 (0.0006)
+[2023-07-06 13:28:39,764][98243] Fps is (10 sec: 117966.4, 60 sec: 111410.8, 300 sec: 111522.3). Total num frames: 1109786624. Throughput: 0: 27932.4. Samples: 277459968. Policy #0 lag: (min: 15.0, avg: 111.3, max: 271.0)
+[2023-07-06 13:28:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:28:39,891][98493] Updated weights for policy 0, policy_version 541893 (0.0006)
+[2023-07-06 13:28:40,346][98493] Updated weights for policy 0, policy_version 541952 (0.0007)
+[2023-07-06 13:28:41,957][98493] Updated weights for policy 0, policy_version 542000 (0.0007)
+[2023-07-06 13:28:42,598][98493] Updated weights for policy 0, policy_version 542048 (0.0007)
+[2023-07-06 13:28:43,592][98493] Updated weights for policy 0, policy_version 542096 (0.0007)
+[2023-07-06 13:28:43,999][98493] Updated weights for policy 0, policy_version 542144 (0.0007)
+[2023-07-06 13:28:44,764][98243] Fps is (10 sec: 121239.6, 60 sec: 113049.4, 300 sec: 111855.5). Total num frames: 1110409216. Throughput: 0: 28034.8. Samples: 277632000. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:28:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:28:44,772][98493] Updated weights for policy 0, policy_version 542204 (0.0009)
+[2023-07-06 13:28:46,536][98493] Updated weights for policy 0, policy_version 542247 (0.0007)
+[2023-07-06 13:28:47,234][98493] Updated weights for policy 0, policy_version 542290 (0.0007)
+[2023-07-06 13:28:48,315][98493] Updated weights for policy 0, policy_version 542338 (0.0006)
+[2023-07-06 13:28:48,653][98493] Updated weights for policy 0, policy_version 542374 (0.0007)
+[2023-07-06 13:28:49,207][98493] Updated weights for policy 0, policy_version 542436 (0.0007)
+[2023-07-06 13:28:49,764][98243] Fps is (10 sec: 117967.2, 60 sec: 112503.3, 300 sec: 111966.7). Total num frames: 1110966272. Throughput: 0: 28000.7. Samples: 277800448. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:28:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:28:50,897][98493] Updated weights for policy 0, policy_version 542490 (0.0007)
+[2023-07-06 13:28:51,198][98493] Updated weights for policy 0, policy_version 542528 (0.0006)
+[2023-07-06 13:28:52,075][98493] Updated weights for policy 0, policy_version 542592 (0.0007)
+[2023-07-06 13:28:53,253][98493] Updated weights for policy 0, policy_version 542650 (0.0007)
+[2023-07-06 13:28:54,072][98493] Updated weights for policy 0, policy_version 542713 (0.0008)
+[2023-07-06 13:28:54,764][98243] Fps is (10 sec: 108135.5, 60 sec: 111411.4, 300 sec: 111966.6). Total num frames: 1111490560. Throughput: 0: 28160.0. Samples: 277889536. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:28:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:28:55,644][98449] Signal inference workers to stop experience collection... (28100 times)
+[2023-07-06 13:28:55,682][98493] InferenceWorker_p0-w0: stopping experience collection (28100 times)
+[2023-07-06 13:28:55,716][98449] Signal inference workers to resume experience collection... (28100 times)
+[2023-07-06 13:28:55,716][98493] InferenceWorker_p0-w0: resuming experience collection (28100 times)
+[2023-07-06 13:28:55,803][98493] Updated weights for policy 0, policy_version 542758 (0.0007)
+[2023-07-06 13:28:56,782][98493] Updated weights for policy 0, policy_version 542817 (0.0007)
+[2023-07-06 13:28:57,564][98493] Updated weights for policy 0, policy_version 542872 (0.0006)
+[2023-07-06 13:28:57,909][98493] Updated weights for policy 0, policy_version 542912 (0.0006)
+[2023-07-06 13:28:58,843][98493] Updated weights for policy 0, policy_version 542972 (0.0007)
+[2023-07-06 13:28:59,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.4, 300 sec: 111966.6). Total num frames: 1112014848. Throughput: 0: 28091.7. Samples: 278053888. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:28:59,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:29:00,732][98493] Updated weights for policy 0, policy_version 543035 (0.0007)
+[2023-07-06 13:29:01,282][98493] Updated weights for policy 0, policy_version 543074 (0.0007)
+[2023-07-06 13:29:02,296][98493] Updated weights for policy 0, policy_version 543136 (0.0007)
+[2023-07-06 13:29:03,276][98493] Updated weights for policy 0, policy_version 543192 (0.0006)
+[2023-07-06 13:29:03,571][98493] Updated weights for policy 0, policy_version 543232 (0.0006)
+[2023-07-06 13:29:04,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 1112539136. Throughput: 0: 28182.7. Samples: 278224896. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:29:05,580][98493] Updated weights for policy 0, policy_version 543296 (0.0008)
+[2023-07-06 13:29:06,152][98493] Updated weights for policy 0, policy_version 543360 (0.0007)
+[2023-07-06 13:29:07,073][98493] Updated weights for policy 0, policy_version 543424 (0.0007)
+[2023-07-06 13:29:08,408][98493] Updated weights for policy 0, policy_version 543478 (0.0008)
+[2023-07-06 13:29:09,765][98243] Fps is (10 sec: 104854.5, 60 sec: 111410.7, 300 sec: 111633.3). Total num frames: 1113063424. Throughput: 0: 28000.6. Samples: 278305280. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:09,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:29:10,180][98493] Updated weights for policy 0, policy_version 543526 (0.0007)
+[2023-07-06 13:29:10,757][98493] Updated weights for policy 0, policy_version 543600 (0.0007)
+[2023-07-06 13:29:11,512][98493] Updated weights for policy 0, policy_version 543648 (0.0007)
+[2023-07-06 13:29:12,869][98493] Updated weights for policy 0, policy_version 543696 (0.0008)
+[2023-07-06 13:29:13,311][98493] Updated weights for policy 0, policy_version 543744 (0.0006)
+[2023-07-06 13:29:14,687][98449] Signal inference workers to stop experience collection... (28150 times)
+[2023-07-06 13:29:14,724][98493] InferenceWorker_p0-w0: stopping experience collection (28150 times)
+[2023-07-06 13:29:14,764][98243] Fps is (10 sec: 108135.2, 60 sec: 110865.1, 300 sec: 111633.4). Total num frames: 1113620480. Throughput: 0: 28103.4. Samples: 278472704. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:29:14,768][98449] Signal inference workers to resume experience collection... (28150 times)
+[2023-07-06 13:29:14,768][98493] InferenceWorker_p0-w0: resuming experience collection (28150 times)
+[2023-07-06 13:29:15,002][98493] Updated weights for policy 0, policy_version 543797 (0.0007)
+[2023-07-06 13:29:15,530][98493] Updated weights for policy 0, policy_version 543857 (0.0007)
+[2023-07-06 13:29:15,993][98493] Updated weights for policy 0, policy_version 543888 (0.0007)
+[2023-07-06 13:29:16,395][98493] Updated weights for policy 0, policy_version 543936 (0.0008)
+[2023-07-06 13:29:17,881][98493] Updated weights for policy 0, policy_version 543994 (0.0007)
+[2023-07-06 13:29:19,661][98493] Updated weights for policy 0, policy_version 544048 (0.0007)
+[2023-07-06 13:29:19,764][98243] Fps is (10 sec: 114691.1, 60 sec: 110865.1, 300 sec: 111744.5). Total num frames: 1114210304. Throughput: 0: 28114.5. Samples: 278642176. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:19,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:29:20,186][98493] Updated weights for policy 0, policy_version 544112 (0.0007)
+[2023-07-06 13:29:20,461][98493] Updated weights for policy 0, policy_version 544133 (0.0007)
+[2023-07-06 13:29:20,889][98493] Updated weights for policy 0, policy_version 544190 (0.0006)
+[2023-07-06 13:29:22,618][98493] Updated weights for policy 0, policy_version 544250 (0.0007)
+[2023-07-06 13:29:24,383][98493] Updated weights for policy 0, policy_version 544304 (0.0007)
+[2023-07-06 13:29:24,764][98243] Fps is (10 sec: 117963.9, 60 sec: 111957.4, 300 sec: 111744.4). Total num frames: 1114800128. Throughput: 0: 28069.1. Samples: 278723072. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:29:24,903][98493] Updated weights for policy 0, policy_version 544357 (0.0008)
+[2023-07-06 13:29:25,219][98493] Updated weights for policy 0, policy_version 544387 (0.0006)
+[2023-07-06 13:29:25,665][98493] Updated weights for policy 0, policy_version 544441 (0.0007)
+[2023-07-06 13:29:26,996][98493] Updated weights for policy 0, policy_version 544506 (0.0007)
+[2023-07-06 13:29:29,196][98493] Updated weights for policy 0, policy_version 544562 (0.0007)
+[2023-07-06 13:29:29,729][98493] Updated weights for policy 0, policy_version 544632 (0.0007)
+[2023-07-06 13:29:29,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113050.2, 300 sec: 111744.4). Total num frames: 1115389952. Throughput: 0: 28114.5. Samples: 278897152. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:29:30,177][98493] Updated weights for policy 0, policy_version 544672 (0.0007)
+[2023-07-06 13:29:31,256][98449] Signal inference workers to stop experience collection... (28200 times)
+[2023-07-06 13:29:31,292][98493] InferenceWorker_p0-w0: stopping experience collection (28200 times)
+[2023-07-06 13:29:31,296][98493] Updated weights for policy 0, policy_version 544709 (0.0007)
+[2023-07-06 13:29:31,357][98449] Signal inference workers to resume experience collection... (28200 times)
+[2023-07-06 13:29:31,357][98493] InferenceWorker_p0-w0: resuming experience collection (28200 times)
+[2023-07-06 13:29:31,762][98493] Updated weights for policy 0, policy_version 544768 (0.0006)
+[2023-07-06 13:29:33,652][98493] Updated weights for policy 0, policy_version 544826 (0.0007)
+[2023-07-06 13:29:34,180][98493] Updated weights for policy 0, policy_version 544871 (0.0007)
+[2023-07-06 13:29:34,765][98243] Fps is (10 sec: 117960.7, 60 sec: 113048.8, 300 sec: 111855.4). Total num frames: 1115979776. Throughput: 0: 28057.4. Samples: 279063040. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:29:34,845][98493] Updated weights for policy 0, policy_version 544920 (0.0007)
+[2023-07-06 13:29:35,964][98493] Updated weights for policy 0, policy_version 544965 (0.0007)
+[2023-07-06 13:29:37,724][98493] Updated weights for policy 0, policy_version 545025 (0.0012)
+[2023-07-06 13:29:38,162][98493] Updated weights for policy 0, policy_version 545085 (0.0007)
+[2023-07-06 13:29:38,884][98493] Updated weights for policy 0, policy_version 545136 (0.0014)
+[2023-07-06 13:29:39,702][98493] Updated weights for policy 0, policy_version 545190 (0.0007)
+[2023-07-06 13:29:39,764][98243] Fps is (10 sec: 117963.2, 60 sec: 113049.7, 300 sec: 111855.5). Total num frames: 1116569600. Throughput: 0: 27989.2. Samples: 279149056. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:29:40,999][98493] Updated weights for policy 0, policy_version 545248 (0.0007)
+[2023-07-06 13:29:42,663][98493] Updated weights for policy 0, policy_version 545312 (0.0006)
+[2023-07-06 13:29:43,458][98493] Updated weights for policy 0, policy_version 545376 (0.0008)
+[2023-07-06 13:29:44,105][98493] Updated weights for policy 0, policy_version 545432 (0.0007)
+[2023-07-06 13:29:44,764][98243] Fps is (10 sec: 114692.2, 60 sec: 111957.5, 300 sec: 111966.6). Total num frames: 1117126656. Throughput: 0: 27943.8. Samples: 279311360. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:44,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:29:45,561][98493] Updated weights for policy 0, policy_version 545479 (0.0008)
+[2023-07-06 13:29:45,981][98493] Updated weights for policy 0, policy_version 545533 (0.0007)
+[2023-07-06 13:29:47,507][98493] Updated weights for policy 0, policy_version 545590 (0.0007)
+[2023-07-06 13:29:48,007][98493] Updated weights for policy 0, policy_version 545616 (0.0006)
+[2023-07-06 13:29:48,677][98493] Updated weights for policy 0, policy_version 545668 (0.0007)
+[2023-07-06 13:29:49,133][98493] Updated weights for policy 0, policy_version 545722 (0.0007)
+[2023-07-06 13:29:49,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111410.9, 300 sec: 111855.4). Total num frames: 1117650944. Throughput: 0: 27921.0. Samples: 279481344. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:29:50,564][98449] Signal inference workers to stop experience collection... (28250 times)
+[2023-07-06 13:29:50,596][98493] InferenceWorker_p0-w0: stopping experience collection (28250 times)
+[2023-07-06 13:29:50,638][98449] Signal inference workers to resume experience collection... (28250 times)
+[2023-07-06 13:29:50,638][98493] InferenceWorker_p0-w0: resuming experience collection (28250 times)
+[2023-07-06 13:29:50,711][98493] Updated weights for policy 0, policy_version 545784 (0.0006)
+[2023-07-06 13:29:51,853][98493] Updated weights for policy 0, policy_version 545831 (0.0006)
+[2023-07-06 13:29:52,917][98493] Updated weights for policy 0, policy_version 545888 (0.0007)
+[2023-07-06 13:29:53,446][98493] Updated weights for policy 0, policy_version 545952 (0.0008)
+[2023-07-06 13:29:54,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1118175232. Throughput: 0: 28080.5. Samples: 279568896. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:29:55,353][98493] Updated weights for policy 0, policy_version 546016 (0.0014)
+[2023-07-06 13:29:55,917][98493] Updated weights for policy 0, policy_version 546049 (0.0006)
+[2023-07-06 13:29:57,560][98493] Updated weights for policy 0, policy_version 546113 (0.0007)
+[2023-07-06 13:29:58,016][98493] Updated weights for policy 0, policy_version 546168 (0.0008)
+[2023-07-06 13:29:58,480][98493] Updated weights for policy 0, policy_version 546224 (0.0006)
+[2023-07-06 13:29:59,764][98243] Fps is (10 sec: 104859.2, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1118699520. Throughput: 0: 28046.2. Samples: 279734784. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:29:59,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:29:59,997][98493] Updated weights for policy 0, policy_version 546272 (0.0009)
+[2023-07-06 13:30:00,503][98493] Updated weights for policy 0, policy_version 546320 (0.0007)
+[2023-07-06 13:30:00,935][98493] Updated weights for policy 0, policy_version 546368 (0.0007)
+[2023-07-06 13:30:02,774][98493] Updated weights for policy 0, policy_version 546425 (0.0007)
+[2023-07-06 13:30:03,290][98493] Updated weights for policy 0, policy_version 546488 (0.0007)
+[2023-07-06 13:30:04,658][98493] Updated weights for policy 0, policy_version 546535 (0.0007)
+[2023-07-06 13:30:04,764][98243] Fps is (10 sec: 114688.1, 60 sec: 113049.6, 300 sec: 111855.6). Total num frames: 1119322112. Throughput: 0: 28057.6. Samples: 279904768. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:30:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:30:05,295][98493] Updated weights for policy 0, policy_version 546585 (0.0007)
+[2023-07-06 13:30:06,939][98493] Updated weights for policy 0, policy_version 546626 (0.0006)
+[2023-07-06 13:30:07,536][98493] Updated weights for policy 0, policy_version 546704 (0.0007)
+[2023-07-06 13:30:09,141][98449] Signal inference workers to stop experience collection... (28300 times)
+[2023-07-06 13:30:09,164][98493] InferenceWorker_p0-w0: stopping experience collection (28300 times)
+[2023-07-06 13:30:09,165][98493] Updated weights for policy 0, policy_version 546755 (0.0006)
+[2023-07-06 13:30:09,226][98449] Signal inference workers to resume experience collection... (28300 times)
+[2023-07-06 13:30:09,227][98493] InferenceWorker_p0-w0: resuming experience collection (28300 times)
+[2023-07-06 13:30:09,764][98243] Fps is (10 sec: 117965.0, 60 sec: 113596.2, 300 sec: 111966.6). Total num frames: 1119879168. Throughput: 0: 28114.5. Samples: 279988224. Policy #0 lag: (min: 15.0, avg: 128.4, max: 271.0)
+[2023-07-06 13:30:09,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:30:09,849][98493] Updated weights for policy 0, policy_version 546833 (0.0007)
+[2023-07-06 13:30:11,719][98493] Updated weights for policy 0, policy_version 546888 (0.0007)
+[2023-07-06 13:30:12,215][98493] Updated weights for policy 0, policy_version 546944 (0.0007)
+[2023-07-06 13:30:12,753][98493] Updated weights for policy 0, policy_version 547008 (0.0007)
+[2023-07-06 13:30:14,400][98493] Updated weights for policy 0, policy_version 547072 (0.0008)
+[2023-07-06 13:30:14,764][98243] Fps is (10 sec: 114686.5, 60 sec: 114141.5, 300 sec: 112188.7). Total num frames: 1120468992. Throughput: 0: 27989.3. Samples: 280156672. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:30:14,973][98493] Updated weights for policy 0, policy_version 547136 (0.0007)
+[2023-07-06 13:30:16,858][98493] Updated weights for policy 0, policy_version 547187 (0.0007)
+[2023-07-06 13:30:17,286][98493] Updated weights for policy 0, policy_version 547237 (0.0007)
+[2023-07-06 13:30:18,845][98493] Updated weights for policy 0, policy_version 547287 (0.0006)
+[2023-07-06 13:30:19,316][98493] Updated weights for policy 0, policy_version 547344 (0.0027)
+[2023-07-06 13:30:19,696][98493] Updated weights for policy 0, policy_version 547385 (0.0007)
+[2023-07-06 13:30:19,764][98243] Fps is (10 sec: 117965.0, 60 sec: 114141.9, 300 sec: 112411.0). Total num frames: 1121058816. Throughput: 0: 27887.2. Samples: 280317952. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:30:21,329][98493] Updated weights for policy 0, policy_version 547440 (0.0007)
+[2023-07-06 13:30:21,886][98493] Updated weights for policy 0, policy_version 547504 (0.0008)
+[2023-07-06 13:30:23,444][98493] Updated weights for policy 0, policy_version 547524 (0.0006)
+[2023-07-06 13:30:23,937][98493] Updated weights for policy 0, policy_version 547584 (0.0008)
+[2023-07-06 13:30:24,471][98493] Updated weights for policy 0, policy_version 547642 (0.0007)
+[2023-07-06 13:30:24,764][98243] Fps is (10 sec: 111412.4, 60 sec: 113049.6, 300 sec: 112188.7). Total num frames: 1121583104. Throughput: 0: 27898.4. Samples: 280404480. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:24,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:30:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000547648_1121583104.pth...
+[2023-07-06 13:30:24,801][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000534528_1094713344.pth
+[2023-07-06 13:30:25,722][98449] Signal inference workers to stop experience collection... (28350 times)
+[2023-07-06 13:30:25,762][98493] InferenceWorker_p0-w0: stopping experience collection (28350 times)
+[2023-07-06 13:30:25,806][98449] Signal inference workers to resume experience collection... (28350 times)
+[2023-07-06 13:30:25,806][98493] InferenceWorker_p0-w0: resuming experience collection (28350 times)
+[2023-07-06 13:30:26,021][98493] Updated weights for policy 0, policy_version 547702 (0.0006)
+[2023-07-06 13:30:26,508][98493] Updated weights for policy 0, policy_version 547760 (0.0008)
+[2023-07-06 13:30:28,406][98493] Updated weights for policy 0, policy_version 547816 (0.0009)
+[2023-07-06 13:30:28,927][98493] Updated weights for policy 0, policy_version 547874 (0.0007)
+[2023-07-06 13:30:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111957.3, 300 sec: 112188.7). Total num frames: 1122107392. Throughput: 0: 28046.2. Samples: 280573440. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:29,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:30:30,572][98493] Updated weights for policy 0, policy_version 547922 (0.0007)
+[2023-07-06 13:30:31,171][98493] Updated weights for policy 0, policy_version 547986 (0.0007)
+[2023-07-06 13:30:32,824][98493] Updated weights for policy 0, policy_version 548035 (0.0006)
+[2023-07-06 13:30:33,320][98493] Updated weights for policy 0, policy_version 548096 (0.0009)
+[2023-07-06 13:30:33,823][98493] Updated weights for policy 0, policy_version 548158 (0.0007)
+[2023-07-06 13:30:34,764][98243] Fps is (10 sec: 104856.1, 60 sec: 110865.4, 300 sec: 111966.5). Total num frames: 1122631680. Throughput: 0: 28012.1. Samples: 280741888. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:34,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 13:30:35,612][98493] Updated weights for policy 0, policy_version 548231 (0.0007)
+[2023-07-06 13:30:36,030][98493] Updated weights for policy 0, policy_version 548280 (0.0007)
+[2023-07-06 13:30:37,820][98493] Updated weights for policy 0, policy_version 548320 (0.0006)
+[2023-07-06 13:30:38,353][98493] Updated weights for policy 0, policy_version 548376 (0.0007)
+[2023-07-06 13:30:39,755][98493] Updated weights for policy 0, policy_version 548432 (0.0007)
+[2023-07-06 13:30:39,765][98243] Fps is (10 sec: 108131.9, 60 sec: 110318.8, 300 sec: 111744.3). Total num frames: 1123188736. Throughput: 0: 27966.4. Samples: 280827392. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:39,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:30:40,286][98493] Updated weights for policy 0, policy_version 548483 (0.0008)
+[2023-07-06 13:30:40,756][98493] Updated weights for policy 0, policy_version 548544 (0.0007)
+[2023-07-06 13:30:42,551][98449] Signal inference workers to stop experience collection... (28400 times)
+[2023-07-06 13:30:42,579][98493] InferenceWorker_p0-w0: stopping experience collection (28400 times)
+[2023-07-06 13:30:42,629][98449] Signal inference workers to resume experience collection... (28400 times)
+[2023-07-06 13:30:42,630][98493] InferenceWorker_p0-w0: resuming experience collection (28400 times)
+[2023-07-06 13:30:42,761][98493] Updated weights for policy 0, policy_version 548608 (0.0007)
+[2023-07-06 13:30:43,262][98493] Updated weights for policy 0, policy_version 548668 (0.0007)
+[2023-07-06 13:30:44,764][98243] Fps is (10 sec: 111413.1, 60 sec: 110318.9, 300 sec: 111744.4). Total num frames: 1123745792. Throughput: 0: 27886.9. Samples: 280989696. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:30:44,777][98493] Updated weights for policy 0, policy_version 548709 (0.0008)
+[2023-07-06 13:30:45,172][98493] Updated weights for policy 0, policy_version 548752 (0.0009)
+[2023-07-06 13:30:46,940][98493] Updated weights for policy 0, policy_version 548805 (0.0008)
+[2023-07-06 13:30:47,358][98493] Updated weights for policy 0, policy_version 548853 (0.0006)
+[2023-07-06 13:30:47,903][98493] Updated weights for policy 0, policy_version 548922 (0.0006)
+[2023-07-06 13:30:49,411][98493] Updated weights for policy 0, policy_version 548981 (0.0008)
+[2023-07-06 13:30:49,764][98243] Fps is (10 sec: 117967.8, 60 sec: 111957.7, 300 sec: 112077.7). Total num frames: 1124368384. Throughput: 0: 27909.7. Samples: 281160704. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:49,778][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:30:49,943][98493] Updated weights for policy 0, policy_version 549029 (0.0006)
+[2023-07-06 13:30:51,757][98493] Updated weights for policy 0, policy_version 549072 (0.0008)
+[2023-07-06 13:30:52,271][98493] Updated weights for policy 0, policy_version 549129 (0.0007)
+[2023-07-06 13:30:53,709][98493] Updated weights for policy 0, policy_version 549185 (0.0007)
+[2023-07-06 13:30:54,112][98493] Updated weights for policy 0, policy_version 549235 (0.0006)
+[2023-07-06 13:30:54,647][98493] Updated weights for policy 0, policy_version 549288 (0.0008)
+[2023-07-06 13:30:54,764][98243] Fps is (10 sec: 121238.8, 60 sec: 113049.2, 300 sec: 111966.5). Total num frames: 1124958208. Throughput: 0: 27886.8. Samples: 281243136. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:54,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:30:56,656][98493] Updated weights for policy 0, policy_version 549351 (0.0007)
+[2023-07-06 13:30:57,193][98493] Updated weights for policy 0, policy_version 549412 (0.0009)
+[2023-07-06 13:30:58,718][98493] Updated weights for policy 0, policy_version 549460 (0.0007)
+[2023-07-06 13:30:59,101][98449] Signal inference workers to stop experience collection... (28450 times)
+[2023-07-06 13:30:59,129][98493] InferenceWorker_p0-w0: stopping experience collection (28450 times)
+[2023-07-06 13:30:59,170][98449] Signal inference workers to resume experience collection... (28450 times)
+[2023-07-06 13:30:59,171][98493] InferenceWorker_p0-w0: resuming experience collection (28450 times)
+[2023-07-06 13:30:59,242][98493] Updated weights for policy 0, policy_version 549522 (0.0007)
+[2023-07-06 13:30:59,765][98243] Fps is (10 sec: 114684.3, 60 sec: 113595.2, 300 sec: 111966.5). Total num frames: 1125515264. Throughput: 0: 27932.3. Samples: 281413632. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:30:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:31:01,041][98493] Updated weights for policy 0, policy_version 549569 (0.0007)
+[2023-07-06 13:31:01,501][98493] Updated weights for policy 0, policy_version 549624 (0.0006)
+[2023-07-06 13:31:02,012][98493] Updated weights for policy 0, policy_version 549681 (0.0007)
+[2023-07-06 13:31:03,435][98493] Updated weights for policy 0, policy_version 549717 (0.0006)
+[2023-07-06 13:31:03,975][98493] Updated weights for policy 0, policy_version 549778 (0.0008)
+[2023-07-06 13:31:04,764][98243] Fps is (10 sec: 108136.9, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 1126039552. Throughput: 0: 28000.7. Samples: 281577984. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:31:05,724][98493] Updated weights for policy 0, policy_version 549825 (0.0006)
+[2023-07-06 13:31:06,158][98493] Updated weights for policy 0, policy_version 549876 (0.0008)
+[2023-07-06 13:31:06,716][98493] Updated weights for policy 0, policy_version 549946 (0.0007)
+[2023-07-06 13:31:08,419][98493] Updated weights for policy 0, policy_version 550008 (0.0007)
+[2023-07-06 13:31:08,896][98493] Updated weights for policy 0, policy_version 550064 (0.0007)
+[2023-07-06 13:31:09,764][98243] Fps is (10 sec: 104860.8, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 1126563840. Throughput: 0: 27978.0. Samples: 281663488. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:09,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 13:31:10,557][98493] Updated weights for policy 0, policy_version 550121 (0.0007)
+[2023-07-06 13:31:11,022][98493] Updated weights for policy 0, policy_version 550160 (0.0007)
+[2023-07-06 13:31:12,802][98493] Updated weights for policy 0, policy_version 550210 (0.0007)
+[2023-07-06 13:31:13,428][98493] Updated weights for policy 0, policy_version 550288 (0.0008)
+[2023-07-06 13:31:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110319.2, 300 sec: 111522.3). Total num frames: 1127088128. Throughput: 0: 27818.7. Samples: 281825280. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:14,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:31:14,989][98493] Updated weights for policy 0, policy_version 550341 (0.0007)
+[2023-07-06 13:31:15,622][98493] Updated weights for policy 0, policy_version 550404 (0.0007)
+[2023-07-06 13:31:17,519][98449] Signal inference workers to stop experience collection... (28500 times)
+[2023-07-06 13:31:17,541][98493] InferenceWorker_p0-w0: stopping experience collection (28500 times)
+[2023-07-06 13:31:17,615][98449] Signal inference workers to resume experience collection... (28500 times)
+[2023-07-06 13:31:17,616][98493] InferenceWorker_p0-w0: resuming experience collection (28500 times)
+[2023-07-06 13:31:17,701][98493] Updated weights for policy 0, policy_version 550488 (0.0007)
+[2023-07-06 13:31:18,298][98493] Updated weights for policy 0, policy_version 550547 (0.0007)
+[2023-07-06 13:31:19,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.6, 300 sec: 111522.3). Total num frames: 1127612416. Throughput: 0: 27796.0. Samples: 281992704. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:31:19,955][98493] Updated weights for policy 0, policy_version 550596 (0.0007)
+[2023-07-06 13:31:20,487][98493] Updated weights for policy 0, policy_version 550662 (0.0007)
+[2023-07-06 13:31:20,918][98493] Updated weights for policy 0, policy_version 550717 (0.0006)
+[2023-07-06 13:31:22,834][98493] Updated weights for policy 0, policy_version 550784 (0.0008)
+[2023-07-06 13:31:23,367][98493] Updated weights for policy 0, policy_version 550844 (0.0008)
+[2023-07-06 13:31:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 109226.7, 300 sec: 111522.3). Total num frames: 1128136704. Throughput: 0: 27727.8. Samples: 282075136. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:31:25,050][98493] Updated weights for policy 0, policy_version 550882 (0.0006)
+[2023-07-06 13:31:25,697][98493] Updated weights for policy 0, policy_version 550960 (0.0007)
+[2023-07-06 13:31:27,439][98493] Updated weights for policy 0, policy_version 551008 (0.0007)
+[2023-07-06 13:31:28,016][98493] Updated weights for policy 0, policy_version 551072 (0.0008)
+[2023-07-06 13:31:29,530][98493] Updated weights for policy 0, policy_version 551120 (0.0006)
+[2023-07-06 13:31:29,764][98243] Fps is (10 sec: 111411.7, 60 sec: 110319.0, 300 sec: 111744.5). Total num frames: 1128726528. Throughput: 0: 27750.4. Samples: 282238464. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:29,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:31:30,041][98493] Updated weights for policy 0, policy_version 551173 (0.0007)
+[2023-07-06 13:31:30,521][98493] Updated weights for policy 0, policy_version 551232 (0.0007)
+[2023-07-06 13:31:32,287][98493] Updated weights for policy 0, policy_version 551283 (0.0007)
+[2023-07-06 13:31:32,784][98493] Updated weights for policy 0, policy_version 551344 (0.0007)
+[2023-07-06 13:31:34,361][98449] Signal inference workers to stop experience collection... (28550 times)
+[2023-07-06 13:31:34,387][98493] Updated weights for policy 0, policy_version 551399 (0.0007)
+[2023-07-06 13:31:34,393][98493] InferenceWorker_p0-w0: stopping experience collection (28550 times)
+[2023-07-06 13:31:34,433][98449] Signal inference workers to resume experience collection... (28550 times)
+[2023-07-06 13:31:34,433][98493] InferenceWorker_p0-w0: resuming experience collection (28550 times)
+[2023-07-06 13:31:34,764][98243] Fps is (10 sec: 121241.5, 60 sec: 111957.6, 300 sec: 111966.5). Total num frames: 1129349120. Throughput: 0: 27659.4. Samples: 282405376. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:34,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:31:34,953][98493] Updated weights for policy 0, policy_version 551464 (0.0007)
+[2023-07-06 13:31:36,741][98493] Updated weights for policy 0, policy_version 551510 (0.0007)
+[2023-07-06 13:31:37,257][98493] Updated weights for policy 0, policy_version 551572 (0.0007)
+[2023-07-06 13:31:39,125][98493] Updated weights for policy 0, policy_version 551641 (0.0008)
+[2023-07-06 13:31:39,563][98493] Updated weights for policy 0, policy_version 551696 (0.0008)
+[2023-07-06 13:31:39,764][98243] Fps is (10 sec: 117964.1, 60 sec: 111957.7, 300 sec: 111744.4). Total num frames: 1129906176. Throughput: 0: 27602.6. Samples: 282485248. Policy #0 lag: (min: 3.0, avg: 100.2, max: 259.0)
+[2023-07-06 13:31:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:31:39,937][98493] Updated weights for policy 0, policy_version 551738 (0.0006)
+[2023-07-06 13:31:41,779][98493] Updated weights for policy 0, policy_version 551795 (0.0008)
+[2023-07-06 13:31:42,251][98493] Updated weights for policy 0, policy_version 551856 (0.0006)
+[2023-07-06 13:31:43,513][98493] Updated weights for policy 0, policy_version 551888 (0.0006)
+[2023-07-06 13:31:44,070][98493] Updated weights for policy 0, policy_version 551945 (0.0007)
+[2023-07-06 13:31:44,487][98493] Updated weights for policy 0, policy_version 551995 (0.0006)
+[2023-07-06 13:31:44,764][98243] Fps is (10 sec: 114687.5, 60 sec: 112503.3, 300 sec: 111966.6). Total num frames: 1130496000. Throughput: 0: 27659.5. Samples: 282658304. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:31:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:31:46,475][98493] Updated weights for policy 0, policy_version 552049 (0.0008)
+[2023-07-06 13:31:46,934][98493] Updated weights for policy 0, policy_version 552101 (0.0007)
+[2023-07-06 13:31:48,253][98493] Updated weights for policy 0, policy_version 552168 (0.0014)
+[2023-07-06 13:31:48,612][98493] Updated weights for policy 0, policy_version 552196 (0.0006)
+[2023-07-06 13:31:49,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110865.0, 300 sec: 111966.7). Total num frames: 1131020288. Throughput: 0: 27727.6. Samples: 282825728. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:31:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:31:50,725][98493] Updated weights for policy 0, policy_version 552264 (0.0007)
+[2023-07-06 13:31:51,199][98493] Updated weights for policy 0, policy_version 552320 (0.0011)
+[2023-07-06 13:31:51,245][98449] Signal inference workers to stop experience collection... (28600 times)
+[2023-07-06 13:31:51,285][98493] InferenceWorker_p0-w0: stopping experience collection (28600 times)
+[2023-07-06 13:31:51,340][98449] Signal inference workers to resume experience collection... (28600 times)
+[2023-07-06 13:31:51,340][98493] InferenceWorker_p0-w0: resuming experience collection (28600 times)
+[2023-07-06 13:31:51,704][98493] Updated weights for policy 0, policy_version 552382 (0.0007)
+[2023-07-06 13:31:53,225][98493] Updated weights for policy 0, policy_version 552446 (0.0008)
+[2023-07-06 13:31:53,755][98493] Updated weights for policy 0, policy_version 552496 (0.0006)
+[2023-07-06 13:31:54,764][98243] Fps is (10 sec: 104858.2, 60 sec: 109773.2, 300 sec: 111744.5). Total num frames: 1131544576. Throughput: 0: 27727.6. Samples: 282911232. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:31:54,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:31:55,575][98493] Updated weights for policy 0, policy_version 552550 (0.0007)
+[2023-07-06 13:31:56,200][98493] Updated weights for policy 0, policy_version 552624 (0.0008)
+[2023-07-06 13:31:57,874][98493] Updated weights for policy 0, policy_version 552675 (0.0008)
+[2023-07-06 13:31:58,378][98493] Updated weights for policy 0, policy_version 552727 (0.0008)
+[2023-07-06 13:31:59,765][98243] Fps is (10 sec: 104853.6, 60 sec: 109226.5, 300 sec: 111522.2). Total num frames: 1132068864. Throughput: 0: 27750.2. Samples: 283074048. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:31:59,766][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:31:59,904][98493] Updated weights for policy 0, policy_version 552773 (0.0007)
+[2023-07-06 13:32:00,683][98493] Updated weights for policy 0, policy_version 552848 (0.0007)
+[2023-07-06 13:32:02,367][98493] Updated weights for policy 0, policy_version 552901 (0.0007)
+[2023-07-06 13:32:02,793][98493] Updated weights for policy 0, policy_version 552956 (0.0007)
+[2023-07-06 13:32:03,320][98493] Updated weights for policy 0, policy_version 553008 (0.0006)
+[2023-07-06 13:32:04,711][98493] Updated weights for policy 0, policy_version 553056 (0.0008)
+[2023-07-06 13:32:04,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110318.9, 300 sec: 111744.5). Total num frames: 1132658688. Throughput: 0: 27784.5. Samples: 283243008. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:32:05,466][98493] Updated weights for policy 0, policy_version 553127 (0.0007)
+[2023-07-06 13:32:07,347][98493] Updated weights for policy 0, policy_version 553173 (0.0006)
+[2023-07-06 13:32:07,784][98493] Updated weights for policy 0, policy_version 553217 (0.0006)
+[2023-07-06 13:32:08,239][98493] Updated weights for policy 0, policy_version 553276 (0.0006)
+[2023-07-06 13:32:09,265][98449] Signal inference workers to stop experience collection... (28650 times)
+[2023-07-06 13:32:09,295][98493] InferenceWorker_p0-w0: stopping experience collection (28650 times)
+[2023-07-06 13:32:09,296][98493] Updated weights for policy 0, policy_version 553318 (0.0007)
+[2023-07-06 13:32:09,343][98449] Signal inference workers to resume experience collection... (28650 times)
+[2023-07-06 13:32:09,344][98493] InferenceWorker_p0-w0: resuming experience collection (28650 times)
+[2023-07-06 13:32:09,764][98243] Fps is (10 sec: 117969.3, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1133248512. Throughput: 0: 27795.9. Samples: 283325952. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:32:10,061][98493] Updated weights for policy 0, policy_version 553368 (0.0006)
+[2023-07-06 13:32:10,373][98493] Updated weights for policy 0, policy_version 553404 (0.0006)
+[2023-07-06 13:32:12,338][98493] Updated weights for policy 0, policy_version 553456 (0.0007)
+[2023-07-06 13:32:12,907][98493] Updated weights for policy 0, policy_version 553520 (0.0007)
+[2023-07-06 13:32:13,905][98493] Updated weights for policy 0, policy_version 553568 (0.0007)
+[2023-07-06 13:32:14,680][98493] Updated weights for policy 0, policy_version 553620 (0.0007)
+[2023-07-06 13:32:14,764][98243] Fps is (10 sec: 117965.4, 60 sec: 112503.6, 300 sec: 111744.4). Total num frames: 1133838336. Throughput: 0: 27909.7. Samples: 283494400. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:32:16,830][98493] Updated weights for policy 0, policy_version 553690 (0.0006)
+[2023-07-06 13:32:17,292][98493] Updated weights for policy 0, policy_version 553744 (0.0007)
+[2023-07-06 13:32:17,698][98493] Updated weights for policy 0, policy_version 553792 (0.0007)
+[2023-07-06 13:32:18,871][98493] Updated weights for policy 0, policy_version 553849 (0.0007)
+[2023-07-06 13:32:19,388][98493] Updated weights for policy 0, policy_version 553904 (0.0008)
+[2023-07-06 13:32:19,765][98243] Fps is (10 sec: 117960.1, 60 sec: 113595.0, 300 sec: 111744.4). Total num frames: 1134428160. Throughput: 0: 27852.6. Samples: 283658752. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:19,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:32:21,628][98493] Updated weights for policy 0, policy_version 553952 (0.0008)
+[2023-07-06 13:32:22,147][98493] Updated weights for policy 0, policy_version 554009 (0.0007)
+[2023-07-06 13:32:23,041][98493] Updated weights for policy 0, policy_version 554055 (0.0006)
+[2023-07-06 13:32:23,409][98493] Updated weights for policy 0, policy_version 554102 (0.0006)
+[2023-07-06 13:32:23,957][98493] Updated weights for policy 0, policy_version 554144 (0.0007)
+[2023-07-06 13:32:24,764][98243] Fps is (10 sec: 111410.3, 60 sec: 113595.7, 300 sec: 111633.3). Total num frames: 1134952448. Throughput: 0: 28034.8. Samples: 283746816. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:24,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:32:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000554176_1134952448.pth...
+[2023-07-06 13:32:24,816][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000541056_1108082688.pth
+[2023-07-06 13:32:26,157][98493] Updated weights for policy 0, policy_version 554208 (0.0006)
+[2023-07-06 13:32:26,722][98493] Updated weights for policy 0, policy_version 554272 (0.0007)
+[2023-07-06 13:32:27,658][98449] Signal inference workers to stop experience collection... (28700 times)
+[2023-07-06 13:32:27,679][98493] InferenceWorker_p0-w0: stopping experience collection (28700 times)
+[2023-07-06 13:32:27,679][98493] Updated weights for policy 0, policy_version 554306 (0.0007)
+[2023-07-06 13:32:27,748][98449] Signal inference workers to resume experience collection... (28700 times)
+[2023-07-06 13:32:27,748][98493] InferenceWorker_p0-w0: resuming experience collection (28700 times)
+[2023-07-06 13:32:28,123][98493] Updated weights for policy 0, policy_version 554364 (0.0008)
+[2023-07-06 13:32:28,872][98493] Updated weights for policy 0, policy_version 554427 (0.0006)
+[2023-07-06 13:32:29,764][98243] Fps is (10 sec: 104861.8, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 1135476736. Throughput: 0: 27887.0. Samples: 283913216. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:32:30,975][98493] Updated weights for policy 0, policy_version 554466 (0.0007)
+[2023-07-06 13:32:31,443][98493] Updated weights for policy 0, policy_version 554520 (0.0007)
+[2023-07-06 13:32:32,301][98493] Updated weights for policy 0, policy_version 554567 (0.0007)
+[2023-07-06 13:32:32,731][98493] Updated weights for policy 0, policy_version 554619 (0.0007)
+[2023-07-06 13:32:33,428][98493] Updated weights for policy 0, policy_version 554672 (0.0007)
+[2023-07-06 13:32:34,764][98243] Fps is (10 sec: 104856.2, 60 sec: 110864.8, 300 sec: 111522.2). Total num frames: 1136001024. Throughput: 0: 28023.4. Samples: 284086784. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:34,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:32:35,312][98493] Updated weights for policy 0, policy_version 554713 (0.0006)
+[2023-07-06 13:32:35,944][98493] Updated weights for policy 0, policy_version 554768 (0.0007)
+[2023-07-06 13:32:36,897][98493] Updated weights for policy 0, policy_version 554821 (0.0006)
+[2023-07-06 13:32:37,785][98493] Updated weights for policy 0, policy_version 554884 (0.0006)
+[2023-07-06 13:32:38,210][98493] Updated weights for policy 0, policy_version 554940 (0.0007)
+[2023-07-06 13:32:39,764][98243] Fps is (10 sec: 104857.0, 60 sec: 110318.9, 300 sec: 111522.2). Total num frames: 1136525312. Throughput: 0: 27909.7. Samples: 284167168. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:39,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 13:32:40,285][98493] Updated weights for policy 0, policy_version 555004 (0.0008)
+[2023-07-06 13:32:41,023][98493] Updated weights for policy 0, policy_version 555056 (0.0007)
+[2023-07-06 13:32:41,444][98493] Updated weights for policy 0, policy_version 555090 (0.0008)
+[2023-07-06 13:32:42,622][98493] Updated weights for policy 0, policy_version 555140 (0.0007)
+[2023-07-06 13:32:43,082][98493] Updated weights for policy 0, policy_version 555200 (0.0007)
+[2023-07-06 13:32:44,764][98243] Fps is (10 sec: 108136.2, 60 sec: 109772.9, 300 sec: 111411.2). Total num frames: 1137082368. Throughput: 0: 28080.6. Samples: 284337664. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:44,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 13:32:45,000][98493] Updated weights for policy 0, policy_version 555257 (0.0007)
+[2023-07-06 13:32:45,560][98493] Updated weights for policy 0, policy_version 555305 (0.0006)
+[2023-07-06 13:32:46,023][98449] Signal inference workers to stop experience collection... (28750 times)
+[2023-07-06 13:32:46,047][98493] InferenceWorker_p0-w0: stopping experience collection (28750 times)
+[2023-07-06 13:32:46,124][98449] Signal inference workers to resume experience collection... (28750 times)
+[2023-07-06 13:32:46,125][98493] InferenceWorker_p0-w0: resuming experience collection (28750 times)
+[2023-07-06 13:32:46,253][98493] Updated weights for policy 0, policy_version 555360 (0.0007)
+[2023-07-06 13:32:47,353][98493] Updated weights for policy 0, policy_version 555415 (0.0007)
+[2023-07-06 13:32:47,620][98493] Updated weights for policy 0, policy_version 555455 (0.0006)
+[2023-07-06 13:32:49,504][98493] Updated weights for policy 0, policy_version 555504 (0.0007)
+[2023-07-06 13:32:49,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1137704960. Throughput: 0: 28114.4. Samples: 284508160. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:49,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:32:50,095][98493] Updated weights for policy 0, policy_version 555537 (0.0007)
+[2023-07-06 13:32:50,386][98493] Updated weights for policy 0, policy_version 555574 (0.0007)
+[2023-07-06 13:32:50,875][98493] Updated weights for policy 0, policy_version 555622 (0.0008)
+[2023-07-06 13:32:51,814][98493] Updated weights for policy 0, policy_version 555653 (0.0007)
+[2023-07-06 13:32:53,760][98493] Updated weights for policy 0, policy_version 555715 (0.0007)
+[2023-07-06 13:32:54,624][98493] Updated weights for policy 0, policy_version 555783 (0.0008)
+[2023-07-06 13:32:54,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1138262016. Throughput: 0: 28137.3. Samples: 284592128. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:54,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:32:55,168][98493] Updated weights for policy 0, policy_version 555841 (0.0008)
+[2023-07-06 13:32:56,752][98493] Updated weights for policy 0, policy_version 555908 (0.0007)
+[2023-07-06 13:32:57,194][98493] Updated weights for policy 0, policy_version 555964 (0.0007)
+[2023-07-06 13:32:58,838][98493] Updated weights for policy 0, policy_version 556018 (0.0006)
+[2023-07-06 13:32:59,467][98493] Updated weights for policy 0, policy_version 556064 (0.0008)
+[2023-07-06 13:32:59,764][98243] Fps is (10 sec: 117965.6, 60 sec: 113596.4, 300 sec: 111966.6). Total num frames: 1138884608. Throughput: 0: 28160.0. Samples: 284761600. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:32:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:32:59,964][98493] Updated weights for policy 0, policy_version 556118 (0.0007)
+[2023-07-06 13:33:01,382][98493] Updated weights for policy 0, policy_version 556163 (0.0006)
+[2023-07-06 13:33:01,813][98493] Updated weights for policy 0, policy_version 556218 (0.0007)
+[2023-07-06 13:33:03,616][98493] Updated weights for policy 0, policy_version 556272 (0.0007)
+[2023-07-06 13:33:03,968][98449] Signal inference workers to stop experience collection... (28800 times)
+[2023-07-06 13:33:03,998][98493] InferenceWorker_p0-w0: stopping experience collection (28800 times)
+[2023-07-06 13:33:04,047][98449] Signal inference workers to resume experience collection... (28800 times)
+[2023-07-06 13:33:04,047][98493] InferenceWorker_p0-w0: resuming experience collection (28800 times)
+[2023-07-06 13:33:04,126][98493] Updated weights for policy 0, policy_version 556325 (0.0007)
+[2023-07-06 13:33:04,739][98493] Updated weights for policy 0, policy_version 556384 (0.0007)
+[2023-07-06 13:33:04,764][98243] Fps is (10 sec: 121240.3, 60 sec: 113595.6, 300 sec: 112188.7). Total num frames: 1139474432. Throughput: 0: 28160.2. Samples: 284925952. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:33:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:33:06,412][98493] Updated weights for policy 0, policy_version 556448 (0.0007)
+[2023-07-06 13:33:07,837][98493] Updated weights for policy 0, policy_version 556483 (0.0006)
+[2023-07-06 13:33:08,312][98493] Updated weights for policy 0, policy_version 556544 (0.0007)
+[2023-07-06 13:33:08,831][98493] Updated weights for policy 0, policy_version 556602 (0.0007)
+[2023-07-06 13:33:09,593][98493] Updated weights for policy 0, policy_version 556656 (0.0008)
+[2023-07-06 13:33:09,764][98243] Fps is (10 sec: 117962.4, 60 sec: 113595.3, 300 sec: 112188.6). Total num frames: 1140064256. Throughput: 0: 28171.3. Samples: 285014528. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:33:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:33:11,036][98493] Updated weights for policy 0, policy_version 556705 (0.0007)
+[2023-07-06 13:33:12,792][98493] Updated weights for policy 0, policy_version 556760 (0.0006)
+[2023-07-06 13:33:13,275][98493] Updated weights for policy 0, policy_version 556816 (0.0008)
+[2023-07-06 13:33:13,708][98493] Updated weights for policy 0, policy_version 556864 (0.0006)
+[2023-07-06 13:33:14,764][98243] Fps is (10 sec: 111410.3, 60 sec: 112503.1, 300 sec: 111966.5). Total num frames: 1140588544. Throughput: 0: 28114.4. Samples: 285178368. Policy #0 lag: (min: 75.0, avg: 193.1, max: 351.0)
+[2023-07-06 13:33:14,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:33:15,337][98493] Updated weights for policy 0, policy_version 556929 (0.0007)
+[2023-07-06 13:33:15,787][98493] Updated weights for policy 0, policy_version 556982 (0.0007)
+[2023-07-06 13:33:17,810][98493] Updated weights for policy 0, policy_version 557040 (0.0006)
+[2023-07-06 13:33:18,385][98493] Updated weights for policy 0, policy_version 557104 (0.0007)
+[2023-07-06 13:33:18,804][98493] Updated weights for policy 0, policy_version 557146 (0.0007)
+[2023-07-06 13:33:19,764][98243] Fps is (10 sec: 104859.2, 60 sec: 111411.8, 300 sec: 111966.6). Total num frames: 1141112832. Throughput: 0: 27989.4. Samples: 285346304. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:33:20,075][98493] Updated weights for policy 0, policy_version 557200 (0.0006)
+[2023-07-06 13:33:22,216][98493] Updated weights for policy 0, policy_version 557253 (0.0007)
+[2023-07-06 13:33:22,444][98449] Signal inference workers to stop experience collection... (28850 times)
+[2023-07-06 13:33:22,484][98493] InferenceWorker_p0-w0: stopping experience collection (28850 times)
+[2023-07-06 13:33:22,529][98449] Signal inference workers to resume experience collection... (28850 times)
+[2023-07-06 13:33:22,530][98493] InferenceWorker_p0-w0: resuming experience collection (28850 times)
+[2023-07-06 13:33:22,763][98493] Updated weights for policy 0, policy_version 557313 (0.0007)
+[2023-07-06 13:33:23,253][98493] Updated weights for policy 0, policy_version 557376 (0.0007)
+[2023-07-06 13:33:23,806][98493] Updated weights for policy 0, policy_version 557440 (0.0007)
+[2023-07-06 13:33:24,764][98243] Fps is (10 sec: 108136.3, 60 sec: 111957.4, 300 sec: 112077.8). Total num frames: 1141669888. Throughput: 0: 28125.9. Samples: 285432832. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:24,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:33:25,060][98493] Updated weights for policy 0, policy_version 557498 (0.0007)
+[2023-07-06 13:33:27,198][98493] Updated weights for policy 0, policy_version 557537 (0.0006)
+[2023-07-06 13:33:27,822][98493] Updated weights for policy 0, policy_version 557616 (0.0007)
+[2023-07-06 13:33:28,338][98493] Updated weights for policy 0, policy_version 557672 (0.0006)
+[2023-07-06 13:33:29,628][98493] Updated weights for policy 0, policy_version 557715 (0.0008)
+[2023-07-06 13:33:29,764][98243] Fps is (10 sec: 111412.3, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 1142226944. Throughput: 0: 27864.2. Samples: 285591552. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:33:31,790][98493] Updated weights for policy 0, policy_version 557776 (0.0006)
+[2023-07-06 13:33:32,339][98493] Updated weights for policy 0, policy_version 557840 (0.0012)
+[2023-07-06 13:33:32,914][98493] Updated weights for policy 0, policy_version 557904 (0.0007)
+[2023-07-06 13:33:33,315][98493] Updated weights for policy 0, policy_version 557948 (0.0007)
+[2023-07-06 13:33:34,746][98493] Updated weights for policy 0, policy_version 558012 (0.0007)
+[2023-07-06 13:33:34,764][98243] Fps is (10 sec: 111410.8, 60 sec: 113049.9, 300 sec: 111855.6). Total num frames: 1142784000. Throughput: 0: 27818.7. Samples: 285760000. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:34,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:33:36,856][98493] Updated weights for policy 0, policy_version 558064 (0.0007)
+[2023-07-06 13:33:37,393][98493] Updated weights for policy 0, policy_version 558116 (0.0007)
+[2023-07-06 13:33:37,893][98493] Updated weights for policy 0, policy_version 558176 (0.0009)
+[2023-07-06 13:33:37,957][98449] Signal inference workers to stop experience collection... (28900 times)
+[2023-07-06 13:33:37,986][98493] InferenceWorker_p0-w0: stopping experience collection (28900 times)
+[2023-07-06 13:33:38,033][98449] Signal inference workers to resume experience collection... (28900 times)
+[2023-07-06 13:33:38,033][98493] InferenceWorker_p0-w0: resuming experience collection (28900 times)
+[2023-07-06 13:33:39,220][98493] Updated weights for policy 0, policy_version 558232 (0.0007)
+[2023-07-06 13:33:39,765][98243] Fps is (10 sec: 111406.5, 60 sec: 113595.1, 300 sec: 111633.2). Total num frames: 1143341056. Throughput: 0: 27829.8. Samples: 285844480. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:39,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:33:40,870][98493] Updated weights for policy 0, policy_version 558276 (0.0007)
+[2023-07-06 13:33:41,312][98493] Updated weights for policy 0, policy_version 558331 (0.0008)
+[2023-07-06 13:33:41,971][98493] Updated weights for policy 0, policy_version 558375 (0.0006)
+[2023-07-06 13:33:42,470][98493] Updated weights for policy 0, policy_version 558432 (0.0007)
+[2023-07-06 13:33:43,497][98493] Updated weights for policy 0, policy_version 558496 (0.0007)
+[2023-07-06 13:33:44,764][98243] Fps is (10 sec: 108133.9, 60 sec: 113049.5, 300 sec: 111522.3). Total num frames: 1143865344. Throughput: 0: 27750.4. Samples: 286010368. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:33:45,639][98493] Updated weights for policy 0, policy_version 558544 (0.0007)
+[2023-07-06 13:33:46,300][98493] Updated weights for policy 0, policy_version 558593 (0.0007)
+[2023-07-06 13:33:46,751][98493] Updated weights for policy 0, policy_version 558651 (0.0008)
+[2023-07-06 13:33:47,396][98493] Updated weights for policy 0, policy_version 558704 (0.0007)
+[2023-07-06 13:33:48,304][98493] Updated weights for policy 0, policy_version 558752 (0.0007)
+[2023-07-06 13:33:49,764][98243] Fps is (10 sec: 104861.8, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1144389632. Throughput: 0: 27978.0. Samples: 286184960. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:33:50,351][98493] Updated weights for policy 0, policy_version 558791 (0.0006)
+[2023-07-06 13:33:50,797][98493] Updated weights for policy 0, policy_version 558840 (0.0006)
+[2023-07-06 13:33:51,285][98493] Updated weights for policy 0, policy_version 558896 (0.0008)
+[2023-07-06 13:33:51,678][98493] Updated weights for policy 0, policy_version 558935 (0.0036)
+[2023-07-06 13:33:53,069][98493] Updated weights for policy 0, policy_version 558992 (0.0007)
+[2023-07-06 13:33:53,461][98493] Updated weights for policy 0, policy_version 559040 (0.0006)
+[2023-07-06 13:33:54,765][98243] Fps is (10 sec: 104855.5, 60 sec: 110864.5, 300 sec: 111522.2). Total num frames: 1144913920. Throughput: 0: 27886.9. Samples: 286269440. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:33:55,339][98493] Updated weights for policy 0, policy_version 559104 (0.0008)
+[2023-07-06 13:33:55,843][98493] Updated weights for policy 0, policy_version 559162 (0.0008)
+[2023-07-06 13:33:56,133][98449] Signal inference workers to stop experience collection... (28950 times)
+[2023-07-06 13:33:56,141][98493] InferenceWorker_p0-w0: stopping experience collection (28950 times)
+[2023-07-06 13:33:56,221][98449] Signal inference workers to resume experience collection... (28950 times)
+[2023-07-06 13:33:56,221][98493] InferenceWorker_p0-w0: resuming experience collection (28950 times)
+[2023-07-06 13:33:56,497][98493] Updated weights for policy 0, policy_version 559216 (0.0008)
+[2023-07-06 13:33:57,940][98493] Updated weights for policy 0, policy_version 559280 (0.0007)
+[2023-07-06 13:33:59,765][98243] Fps is (10 sec: 108131.4, 60 sec: 109772.3, 300 sec: 111633.3). Total num frames: 1145470976. Throughput: 0: 27943.7. Samples: 286435840. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:33:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:33:59,902][98493] Updated weights for policy 0, policy_version 559328 (0.0007)
+[2023-07-06 13:34:00,392][98493] Updated weights for policy 0, policy_version 559380 (0.0007)
+[2023-07-06 13:34:01,073][98493] Updated weights for policy 0, policy_version 559440 (0.0007)
+[2023-07-06 13:34:02,215][98493] Updated weights for policy 0, policy_version 559489 (0.0007)
+[2023-07-06 13:34:02,707][98493] Updated weights for policy 0, policy_version 559551 (0.0007)
+[2023-07-06 13:34:04,764][98243] Fps is (10 sec: 114690.8, 60 sec: 109772.9, 300 sec: 111855.6). Total num frames: 1146060800. Throughput: 0: 27943.9. Samples: 286603776. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:34:04,784][98493] Updated weights for policy 0, policy_version 559611 (0.0007)
+[2023-07-06 13:34:05,397][98493] Updated weights for policy 0, policy_version 559674 (0.0008)
+[2023-07-06 13:34:06,128][98493] Updated weights for policy 0, policy_version 559728 (0.0006)
+[2023-07-06 13:34:07,023][98493] Updated weights for policy 0, policy_version 559779 (0.0007)
+[2023-07-06 13:34:08,980][98493] Updated weights for policy 0, policy_version 559824 (0.0006)
+[2023-07-06 13:34:09,751][98493] Updated weights for policy 0, policy_version 559873 (0.0007)
+[2023-07-06 13:34:09,777][98243] Fps is (10 sec: 114543.4, 60 sec: 109203.6, 300 sec: 111850.6). Total num frames: 1146617856. Throughput: 0: 27810.7. Samples: 286684672. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:09,777][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 13:34:10,181][98493] Updated weights for policy 0, policy_version 559928 (0.0006)
+[2023-07-06 13:34:10,812][98493] Updated weights for policy 0, policy_version 559995 (0.0008)
+[2023-07-06 13:34:11,942][98493] Updated weights for policy 0, policy_version 560054 (0.0006)
+[2023-07-06 13:34:13,960][98493] Updated weights for policy 0, policy_version 560100 (0.0008)
+[2023-07-06 13:34:14,555][98493] Updated weights for policy 0, policy_version 560154 (0.0006)
+[2023-07-06 13:34:14,765][98243] Fps is (10 sec: 117959.6, 60 sec: 110864.5, 300 sec: 111966.4). Total num frames: 1147240448. Throughput: 0: 28137.0. Samples: 286857728. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:14,766][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 13:34:14,803][98449] Signal inference workers to stop experience collection... (29000 times)
+[2023-07-06 13:34:14,817][98493] InferenceWorker_p0-w0: stopping experience collection (29000 times)
+[2023-07-06 13:34:14,896][98449] Signal inference workers to resume experience collection... (29000 times)
+[2023-07-06 13:34:14,896][98493] InferenceWorker_p0-w0: resuming experience collection (29000 times)
+[2023-07-06 13:34:15,035][98493] Updated weights for policy 0, policy_version 560208 (0.0007)
+[2023-07-06 13:34:16,324][98493] Updated weights for policy 0, policy_version 560257 (0.0007)
+[2023-07-06 13:34:16,765][98493] Updated weights for policy 0, policy_version 560311 (0.0007)
+[2023-07-06 13:34:18,818][98493] Updated weights for policy 0, policy_version 560359 (0.0007)
+[2023-07-06 13:34:19,405][98493] Updated weights for policy 0, policy_version 560425 (0.0007)
+[2023-07-06 13:34:19,764][98243] Fps is (10 sec: 121399.1, 60 sec: 111957.6, 300 sec: 111966.6). Total num frames: 1147830272. Throughput: 0: 28000.8. Samples: 287020032. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:19,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 13:34:19,900][98493] Updated weights for policy 0, policy_version 560480 (0.0008)
+[2023-07-06 13:34:21,120][98493] Updated weights for policy 0, policy_version 560528 (0.0006)
+[2023-07-06 13:34:23,127][98493] Updated weights for policy 0, policy_version 560580 (0.0006)
+[2023-07-06 13:34:23,750][98493] Updated weights for policy 0, policy_version 560656 (0.0008)
+[2023-07-06 13:34:24,128][98493] Updated weights for policy 0, policy_version 560700 (0.0007)
+[2023-07-06 13:34:24,764][98243] Fps is (10 sec: 114693.1, 60 sec: 111957.3, 300 sec: 111855.5). Total num frames: 1148387328. Throughput: 0: 28057.9. Samples: 287107072. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:34:24,883][98493] Updated weights for policy 0, policy_version 560761 (0.0007)
+[2023-07-06 13:34:24,926][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000560768_1148452864.pth...
+[2023-07-06 13:34:24,967][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000547648_1121583104.pth
+[2023-07-06 13:34:26,206][98493] Updated weights for policy 0, policy_version 560802 (0.0007)
+[2023-07-06 13:34:27,919][98493] Updated weights for policy 0, policy_version 560855 (0.0007)
+[2023-07-06 13:34:28,359][98493] Updated weights for policy 0, policy_version 560903 (0.0008)
+[2023-07-06 13:34:28,799][98493] Updated weights for policy 0, policy_version 560960 (0.0007)
+[2023-07-06 13:34:29,460][98493] Updated weights for policy 0, policy_version 561020 (0.0007)
+[2023-07-06 13:34:29,764][98243] Fps is (10 sec: 114686.8, 60 sec: 112503.4, 300 sec: 111855.6). Total num frames: 1148977152. Throughput: 0: 28023.5. Samples: 287271424. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:34:31,097][98493] Updated weights for policy 0, policy_version 561081 (0.0006)
+[2023-07-06 13:34:32,724][98493] Updated weights for policy 0, policy_version 561146 (0.0007)
+[2023-07-06 13:34:33,062][98449] Signal inference workers to stop experience collection... (29050 times)
+[2023-07-06 13:34:33,093][98493] InferenceWorker_p0-w0: stopping experience collection (29050 times)
+[2023-07-06 13:34:33,159][98449] Signal inference workers to resume experience collection... (29050 times)
+[2023-07-06 13:34:33,159][98493] InferenceWorker_p0-w0: resuming experience collection (29050 times)
+[2023-07-06 13:34:33,370][98493] Updated weights for policy 0, policy_version 561187 (0.0006)
+[2023-07-06 13:34:33,768][98493] Updated weights for policy 0, policy_version 561222 (0.0006)
+[2023-07-06 13:34:34,765][98243] Fps is (10 sec: 111406.6, 60 sec: 111956.6, 300 sec: 111633.3). Total num frames: 1149501440. Throughput: 0: 27898.1. Samples: 287440384. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:34:35,262][98493] Updated weights for policy 0, policy_version 561283 (0.0008)
+[2023-07-06 13:34:35,744][98493] Updated weights for policy 0, policy_version 561344 (0.0007)
+[2023-07-06 13:34:37,257][98493] Updated weights for policy 0, policy_version 561394 (0.0007)
+[2023-07-06 13:34:38,008][98493] Updated weights for policy 0, policy_version 561446 (0.0007)
+[2023-07-06 13:34:38,458][98493] Updated weights for policy 0, policy_version 561488 (0.0007)
+[2023-07-06 13:34:39,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111411.7, 300 sec: 111522.2). Total num frames: 1150025728. Throughput: 0: 27921.1. Samples: 287525888. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:39,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:34:40,078][98493] Updated weights for policy 0, policy_version 561552 (0.0007)
+[2023-07-06 13:34:41,826][98493] Updated weights for policy 0, policy_version 561623 (0.0007)
+[2023-07-06 13:34:42,612][98493] Updated weights for policy 0, policy_version 561696 (0.0007)
+[2023-07-06 13:34:43,252][98493] Updated weights for policy 0, policy_version 561744 (0.0007)
+[2023-07-06 13:34:44,764][98243] Fps is (10 sec: 104860.2, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1150550016. Throughput: 0: 27841.5. Samples: 287688704. Policy #0 lag: (min: 15.0, avg: 142.9, max: 271.0)
+[2023-07-06 13:34:44,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:34:44,770][98493] Updated weights for policy 0, policy_version 561793 (0.0006)
+[2023-07-06 13:34:45,215][98493] Updated weights for policy 0, policy_version 561847 (0.0007)
+[2023-07-06 13:34:46,586][98493] Updated weights for policy 0, policy_version 561896 (0.0008)
+[2023-07-06 13:34:47,393][98493] Updated weights for policy 0, policy_version 561957 (0.0007)
+[2023-07-06 13:34:47,988][98493] Updated weights for policy 0, policy_version 562000 (0.0007)
+[2023-07-06 13:34:48,369][98493] Updated weights for policy 0, policy_version 562046 (0.0006)
+[2023-07-06 13:34:49,623][98493] Updated weights for policy 0, policy_version 562096 (0.0013)
+[2023-07-06 13:34:49,764][98243] Fps is (10 sec: 117967.1, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1151205376. Throughput: 0: 27875.6. Samples: 287858176. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:34:49,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:34:51,228][98493] Updated weights for policy 0, policy_version 562133 (0.0006)
+[2023-07-06 13:34:51,844][98493] Updated weights for policy 0, policy_version 562180 (0.0006)
+[2023-07-06 13:34:52,068][98449] Signal inference workers to stop experience collection... (29100 times)
+[2023-07-06 13:34:52,137][98493] InferenceWorker_p0-w0: stopping experience collection (29100 times)
+[2023-07-06 13:34:52,174][98449] Signal inference workers to resume experience collection... (29100 times)
+[2023-07-06 13:34:52,174][98493] InferenceWorker_p0-w0: resuming experience collection (29100 times)
+[2023-07-06 13:34:52,276][98493] Updated weights for policy 0, policy_version 562235 (0.0006)
+[2023-07-06 13:34:52,948][98493] Updated weights for policy 0, policy_version 562298 (0.0007)
+[2023-07-06 13:34:53,990][98493] Updated weights for policy 0, policy_version 562342 (0.0007)
+[2023-07-06 13:34:54,191][98493] Updated weights for policy 0, policy_version 562368 (0.0010)
+[2023-07-06 13:34:54,764][98243] Fps is (10 sec: 117965.2, 60 sec: 113596.0, 300 sec: 111966.5). Total num frames: 1151729664. Throughput: 0: 28008.7. Samples: 287944704. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:34:54,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:34:56,104][98493] Updated weights for policy 0, policy_version 562421 (0.0006)
+[2023-07-06 13:34:56,808][98493] Updated weights for policy 0, policy_version 562464 (0.0007)
+[2023-07-06 13:34:57,246][98493] Updated weights for policy 0, policy_version 562512 (0.0007)
+[2023-07-06 13:34:57,674][98493] Updated weights for policy 0, policy_version 562560 (0.0007)
+[2023-07-06 13:34:58,618][98493] Updated weights for policy 0, policy_version 562615 (0.0007)
+[2023-07-06 13:34:59,764][98243] Fps is (10 sec: 104855.2, 60 sec: 113049.8, 300 sec: 111633.3). Total num frames: 1152253952. Throughput: 0: 27909.8. Samples: 288113664. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:34:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:35:00,424][98493] Updated weights for policy 0, policy_version 562656 (0.0007)
+[2023-07-06 13:35:01,491][98493] Updated weights for policy 0, policy_version 562712 (0.0007)
+[2023-07-06 13:35:01,970][98493] Updated weights for policy 0, policy_version 562768 (0.0008)
+[2023-07-06 13:35:02,393][98493] Updated weights for policy 0, policy_version 562816 (0.0006)
+[2023-07-06 13:35:03,229][98493] Updated weights for policy 0, policy_version 562873 (0.0007)
+[2023-07-06 13:35:04,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111956.9, 300 sec: 111522.2). Total num frames: 1152778240. Throughput: 0: 28159.8. Samples: 288287232. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:35:05,095][98493] Updated weights for policy 0, policy_version 562912 (0.0008)
+[2023-07-06 13:35:05,391][98493] Updated weights for policy 0, policy_version 562944 (0.0007)
+[2023-07-06 13:35:06,506][98493] Updated weights for policy 0, policy_version 563008 (0.0007)
+[2023-07-06 13:35:07,021][98493] Updated weights for policy 0, policy_version 563064 (0.0007)
+[2023-07-06 13:35:07,614][98493] Updated weights for policy 0, policy_version 563104 (0.0007)
+[2023-07-06 13:35:09,596][98493] Updated weights for policy 0, policy_version 563152 (0.0006)
+[2023-07-06 13:35:09,764][98243] Fps is (10 sec: 111411.4, 60 sec: 112527.3, 300 sec: 111522.3). Total num frames: 1153368064. Throughput: 0: 27977.8. Samples: 288366080. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:35:10,558][98493] Updated weights for policy 0, policy_version 563206 (0.0006)
+[2023-07-06 13:35:10,660][98449] Signal inference workers to stop experience collection... (29150 times)
+[2023-07-06 13:35:10,698][98493] InferenceWorker_p0-w0: stopping experience collection (29150 times)
+[2023-07-06 13:35:10,758][98449] Signal inference workers to resume experience collection... (29150 times)
+[2023-07-06 13:35:10,758][98493] InferenceWorker_p0-w0: resuming experience collection (29150 times)
+[2023-07-06 13:35:11,043][98493] Updated weights for policy 0, policy_version 563264 (0.0007)
+[2023-07-06 13:35:11,611][98493] Updated weights for policy 0, policy_version 563322 (0.0006)
+[2023-07-06 13:35:12,420][98493] Updated weights for policy 0, policy_version 563376 (0.0007)
+[2023-07-06 13:35:14,481][98493] Updated weights for policy 0, policy_version 563427 (0.0009)
+[2023-07-06 13:35:14,764][98243] Fps is (10 sec: 117968.3, 60 sec: 111958.3, 300 sec: 111522.3). Total num frames: 1153957888. Throughput: 0: 28205.6. Samples: 288540672. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:14,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:35:15,501][98493] Updated weights for policy 0, policy_version 563488 (0.0007)
+[2023-07-06 13:35:15,996][98493] Updated weights for policy 0, policy_version 563539 (0.0007)
+[2023-07-06 13:35:16,921][98493] Updated weights for policy 0, policy_version 563600 (0.0007)
+[2023-07-06 13:35:17,346][98493] Updated weights for policy 0, policy_version 563648 (0.0007)
+[2023-07-06 13:35:19,614][98493] Updated weights for policy 0, policy_version 563708 (0.0008)
+[2023-07-06 13:35:19,764][98243] Fps is (10 sec: 111412.9, 60 sec: 110864.9, 300 sec: 111522.3). Total num frames: 1154482176. Throughput: 0: 28171.6. Samples: 288708096. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:19,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 13:35:20,213][98493] Updated weights for policy 0, policy_version 563768 (0.0007)
+[2023-07-06 13:35:20,799][98493] Updated weights for policy 0, policy_version 563834 (0.0007)
+[2023-07-06 13:35:21,793][98493] Updated weights for policy 0, policy_version 563877 (0.0008)
+[2023-07-06 13:35:23,776][98493] Updated weights for policy 0, policy_version 563906 (0.0007)
+[2023-07-06 13:35:24,254][98493] Updated weights for policy 0, policy_version 563968 (0.0007)
+[2023-07-06 13:35:24,764][98243] Fps is (10 sec: 108133.5, 60 sec: 110865.1, 300 sec: 111633.4). Total num frames: 1155039232. Throughput: 0: 28091.8. Samples: 288790016. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:35:25,201][98493] Updated weights for policy 0, policy_version 564039 (0.0007)
+[2023-07-06 13:35:25,628][98493] Updated weights for policy 0, policy_version 564095 (0.0007)
+[2023-07-06 13:35:26,835][98493] Updated weights for policy 0, policy_version 564154 (0.0007)
+[2023-07-06 13:35:28,821][98449] Signal inference workers to stop experience collection... (29200 times)
+[2023-07-06 13:35:28,863][98493] InferenceWorker_p0-w0: stopping experience collection (29200 times)
+[2023-07-06 13:35:28,864][98493] Updated weights for policy 0, policy_version 564201 (0.0007)
+[2023-07-06 13:35:28,911][98449] Signal inference workers to resume experience collection... (29200 times)
+[2023-07-06 13:35:28,912][98493] InferenceWorker_p0-w0: resuming experience collection (29200 times)
+[2023-07-06 13:35:29,345][98493] Updated weights for policy 0, policy_version 564248 (0.0008)
+[2023-07-06 13:35:29,764][98243] Fps is (10 sec: 117965.0, 60 sec: 111411.3, 300 sec: 111966.7). Total num frames: 1155661824. Throughput: 0: 28273.9. Samples: 288961024. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:35:29,876][98493] Updated weights for policy 0, policy_version 564308 (0.0030)
+[2023-07-06 13:35:31,319][98493] Updated weights for policy 0, policy_version 564376 (0.0008)
+[2023-07-06 13:35:33,403][98493] Updated weights for policy 0, policy_version 564418 (0.0006)
+[2023-07-06 13:35:33,977][98493] Updated weights for policy 0, policy_version 564484 (0.0007)
+[2023-07-06 13:35:34,401][98493] Updated weights for policy 0, policy_version 564534 (0.0007)
+[2023-07-06 13:35:34,764][98243] Fps is (10 sec: 121242.3, 60 sec: 112504.3, 300 sec: 112077.8). Total num frames: 1156251648. Throughput: 0: 28125.9. Samples: 289123840. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:34,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:35:34,948][98493] Updated weights for policy 0, policy_version 564602 (0.0008)
+[2023-07-06 13:35:36,091][98493] Updated weights for policy 0, policy_version 564644 (0.0006)
+[2023-07-06 13:35:38,020][98493] Updated weights for policy 0, policy_version 564693 (0.0010)
+[2023-07-06 13:35:38,647][98493] Updated weights for policy 0, policy_version 564737 (0.0007)
+[2023-07-06 13:35:39,130][98493] Updated weights for policy 0, policy_version 564800 (0.0007)
+[2023-07-06 13:35:39,629][98493] Updated weights for policy 0, policy_version 564861 (0.0006)
+[2023-07-06 13:35:39,764][98243] Fps is (10 sec: 117964.9, 60 sec: 113596.0, 300 sec: 112188.7). Total num frames: 1156841472. Throughput: 0: 28171.5. Samples: 289212416. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:35:40,759][98493] Updated weights for policy 0, policy_version 564898 (0.0007)
+[2023-07-06 13:35:42,784][98493] Updated weights for policy 0, policy_version 564965 (0.0007)
+[2023-07-06 13:35:43,499][98493] Updated weights for policy 0, policy_version 565015 (0.0007)
+[2023-07-06 13:35:44,103][98493] Updated weights for policy 0, policy_version 565088 (0.0007)
+[2023-07-06 13:35:44,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113596.1, 300 sec: 111855.5). Total num frames: 1157365760. Throughput: 0: 28069.1. Samples: 289376768. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:35:45,383][98449] Signal inference workers to stop experience collection... (29250 times)
+[2023-07-06 13:35:45,403][98493] InferenceWorker_p0-w0: stopping experience collection (29250 times)
+[2023-07-06 13:35:45,404][98493] Updated weights for policy 0, policy_version 565142 (0.0007)
+[2023-07-06 13:35:45,453][98449] Signal inference workers to resume experience collection... (29250 times)
+[2023-07-06 13:35:45,453][98493] InferenceWorker_p0-w0: resuming experience collection (29250 times)
+[2023-07-06 13:35:47,172][98493] Updated weights for policy 0, policy_version 565185 (0.0006)
+[2023-07-06 13:35:48,026][98493] Updated weights for policy 0, policy_version 565249 (0.0008)
+[2023-07-06 13:35:48,583][98493] Updated weights for policy 0, policy_version 565312 (0.0008)
+[2023-07-06 13:35:49,038][98493] Updated weights for policy 0, policy_version 565360 (0.0006)
+[2023-07-06 13:35:49,764][98243] Fps is (10 sec: 104855.7, 60 sec: 111410.8, 300 sec: 111633.4). Total num frames: 1157890048. Throughput: 0: 27898.3. Samples: 289542656. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:49,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:35:50,050][98493] Updated weights for policy 0, policy_version 565408 (0.0006)
+[2023-07-06 13:35:51,950][98493] Updated weights for policy 0, policy_version 565441 (0.0007)
+[2023-07-06 13:35:52,382][98493] Updated weights for policy 0, policy_version 565499 (0.0007)
+[2023-07-06 13:35:53,188][98493] Updated weights for policy 0, policy_version 565559 (0.0007)
+[2023-07-06 13:35:53,711][98493] Updated weights for policy 0, policy_version 565627 (0.0008)
+[2023-07-06 13:35:54,764][98243] Fps is (10 sec: 108134.8, 60 sec: 111957.7, 300 sec: 111633.5). Total num frames: 1158447104. Throughput: 0: 28103.2. Samples: 289630720. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:54,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:35:55,024][98493] Updated weights for policy 0, policy_version 565692 (0.0007)
+[2023-07-06 13:35:57,075][98493] Updated weights for policy 0, policy_version 565732 (0.0007)
+[2023-07-06 13:35:57,647][98493] Updated weights for policy 0, policy_version 565799 (0.0007)
+[2023-07-06 13:35:58,162][98493] Updated weights for policy 0, policy_version 565857 (0.0007)
+[2023-07-06 13:35:59,417][98493] Updated weights for policy 0, policy_version 565909 (0.0007)
+[2023-07-06 13:35:59,764][98243] Fps is (10 sec: 117965.5, 60 sec: 113595.9, 300 sec: 111966.5). Total num frames: 1159069696. Throughput: 0: 27795.8. Samples: 289791488. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:35:59,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:36:01,545][98493] Updated weights for policy 0, policy_version 565958 (0.0007)
+[2023-07-06 13:36:02,015][98493] Updated weights for policy 0, policy_version 566015 (0.0008)
+[2023-07-06 13:36:02,586][98493] Updated weights for policy 0, policy_version 566072 (0.0007)
+[2023-07-06 13:36:02,669][98449] Signal inference workers to stop experience collection... (29300 times)
+[2023-07-06 13:36:02,712][98493] InferenceWorker_p0-w0: stopping experience collection (29300 times)
+[2023-07-06 13:36:02,763][98449] Signal inference workers to resume experience collection... (29300 times)
+[2023-07-06 13:36:02,763][98493] InferenceWorker_p0-w0: resuming experience collection (29300 times)
+[2023-07-06 13:36:03,075][98493] Updated weights for policy 0, policy_version 566128 (0.0007)
+[2023-07-06 13:36:04,037][98493] Updated weights for policy 0, policy_version 566184 (0.0008)
+[2023-07-06 13:36:04,764][98243] Fps is (10 sec: 114687.2, 60 sec: 113596.1, 300 sec: 111966.6). Total num frames: 1159593984. Throughput: 0: 27807.3. Samples: 289959424. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:36:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:36:06,603][98493] Updated weights for policy 0, policy_version 566233 (0.0008)
+[2023-07-06 13:36:07,158][98493] Updated weights for policy 0, policy_version 566295 (0.0006)
+[2023-07-06 13:36:07,643][98493] Updated weights for policy 0, policy_version 566342 (0.0008)
+[2023-07-06 13:36:08,471][98493] Updated weights for policy 0, policy_version 566401 (0.0007)
+[2023-07-06 13:36:09,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.5, 300 sec: 111966.5). Total num frames: 1160118272. Throughput: 0: 27875.5. Samples: 290044416. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:36:09,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:36:11,276][98493] Updated weights for policy 0, policy_version 566465 (0.0008)
+[2023-07-06 13:36:11,876][98493] Updated weights for policy 0, policy_version 566537 (0.0007)
+[2023-07-06 13:36:12,447][98493] Updated weights for policy 0, policy_version 566600 (0.0007)
+[2023-07-06 13:36:12,920][98493] Updated weights for policy 0, policy_version 566654 (0.0007)
+[2023-07-06 13:36:13,642][98493] Updated weights for policy 0, policy_version 566704 (0.0008)
+[2023-07-06 13:36:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.0, 300 sec: 111966.6). Total num frames: 1160642560. Throughput: 0: 27659.4. Samples: 290205696. Policy #0 lag: (min: 9.0, avg: 104.2, max: 265.0)
+[2023-07-06 13:36:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:36:15,973][98493] Updated weights for policy 0, policy_version 566728 (0.0006)
+[2023-07-06 13:36:16,419][98493] Updated weights for policy 0, policy_version 566775 (0.0007)
+[2023-07-06 13:36:16,973][98493] Updated weights for policy 0, policy_version 566836 (0.0007)
+[2023-07-06 13:36:17,394][98493] Updated weights for policy 0, policy_version 566884 (0.0007)
+[2023-07-06 13:36:18,022][98493] Updated weights for policy 0, policy_version 566944 (0.0007)
+[2023-07-06 13:36:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.0, 300 sec: 111966.6). Total num frames: 1161166848. Throughput: 0: 27909.6. Samples: 290379776. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:36:20,754][98493] Updated weights for policy 0, policy_version 566992 (0.0007)
+[2023-07-06 13:36:20,954][98449] Signal inference workers to stop experience collection... (29350 times)
+[2023-07-06 13:36:20,986][98493] InferenceWorker_p0-w0: stopping experience collection (29350 times)
+[2023-07-06 13:36:21,033][98449] Signal inference workers to resume experience collection... (29350 times)
+[2023-07-06 13:36:21,033][98493] InferenceWorker_p0-w0: resuming experience collection (29350 times)
+[2023-07-06 13:36:21,444][98493] Updated weights for policy 0, policy_version 567072 (0.0007)
+[2023-07-06 13:36:21,987][98493] Updated weights for policy 0, policy_version 567136 (0.0006)
+[2023-07-06 13:36:22,893][98493] Updated weights for policy 0, policy_version 567200 (0.0007)
+[2023-07-06 13:36:24,764][98243] Fps is (10 sec: 104855.9, 60 sec: 110864.7, 300 sec: 111744.4). Total num frames: 1161691136. Throughput: 0: 27659.3. Samples: 290457088. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:24,766][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:36:24,770][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000567232_1161691136.pth...
+[2023-07-06 13:36:24,816][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000554176_1134952448.pth
+[2023-07-06 13:36:25,633][98493] Updated weights for policy 0, policy_version 567264 (0.0007)
+[2023-07-06 13:36:26,134][98493] Updated weights for policy 0, policy_version 567315 (0.0007)
+[2023-07-06 13:36:26,622][98493] Updated weights for policy 0, policy_version 567376 (0.0007)
+[2023-07-06 13:36:27,482][98493] Updated weights for policy 0, policy_version 567429 (0.0006)
+[2023-07-06 13:36:29,764][98243] Fps is (10 sec: 104858.9, 60 sec: 109226.7, 300 sec: 111411.2). Total num frames: 1162215424. Throughput: 0: 27682.1. Samples: 290622464. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:29,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:36:30,366][98493] Updated weights for policy 0, policy_version 567493 (0.0008)
+[2023-07-06 13:36:30,940][98493] Updated weights for policy 0, policy_version 567560 (0.0007)
+[2023-07-06 13:36:31,401][98493] Updated weights for policy 0, policy_version 567616 (0.0007)
+[2023-07-06 13:36:31,841][98493] Updated weights for policy 0, policy_version 567664 (0.0007)
+[2023-07-06 13:36:32,281][98493] Updated weights for policy 0, policy_version 567712 (0.0006)
+[2023-07-06 13:36:34,764][98243] Fps is (10 sec: 104859.1, 60 sec: 108134.2, 300 sec: 111300.1). Total num frames: 1162739712. Throughput: 0: 27864.3. Samples: 290796544. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:34,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:36:35,024][98493] Updated weights for policy 0, policy_version 567746 (0.0006)
+[2023-07-06 13:36:35,525][98493] Updated weights for policy 0, policy_version 567808 (0.0007)
+[2023-07-06 13:36:36,208][98493] Updated weights for policy 0, policy_version 567874 (0.0007)
+[2023-07-06 13:36:36,330][98449] Signal inference workers to stop experience collection... (29400 times)
+[2023-07-06 13:36:36,368][98493] InferenceWorker_p0-w0: stopping experience collection (29400 times)
+[2023-07-06 13:36:36,409][98449] Signal inference workers to resume experience collection... (29400 times)
+[2023-07-06 13:36:36,409][98493] InferenceWorker_p0-w0: resuming experience collection (29400 times)
+[2023-07-06 13:36:36,655][98493] Updated weights for policy 0, policy_version 567927 (0.0008)
+[2023-07-06 13:36:37,211][98493] Updated weights for policy 0, policy_version 567993 (0.0007)
+[2023-07-06 13:36:39,764][98243] Fps is (10 sec: 108135.0, 60 sec: 107588.4, 300 sec: 111189.1). Total num frames: 1163296768. Throughput: 0: 27557.0. Samples: 290870784. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:39,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 13:36:40,120][98493] Updated weights for policy 0, policy_version 568054 (0.0007)
+[2023-07-06 13:36:40,597][98493] Updated weights for policy 0, policy_version 568112 (0.0007)
+[2023-07-06 13:36:41,176][98493] Updated weights for policy 0, policy_version 568176 (0.0008)
+[2023-07-06 13:36:41,810][98493] Updated weights for policy 0, policy_version 568247 (0.0007)
+[2023-07-06 13:36:44,716][98493] Updated weights for policy 0, policy_version 568296 (0.0008)
+[2023-07-06 13:36:44,764][98243] Fps is (10 sec: 114687.7, 60 sec: 108680.4, 300 sec: 111411.2). Total num frames: 1163886592. Throughput: 0: 27784.6. Samples: 291041792. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:44,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:36:45,185][98493] Updated weights for policy 0, policy_version 568352 (0.0008)
+[2023-07-06 13:36:45,711][98493] Updated weights for policy 0, policy_version 568405 (0.0011)
+[2023-07-06 13:36:46,280][98493] Updated weights for policy 0, policy_version 568473 (0.0007)
+[2023-07-06 13:36:49,074][98493] Updated weights for policy 0, policy_version 568513 (0.0006)
+[2023-07-06 13:36:49,684][98493] Updated weights for policy 0, policy_version 568583 (0.0006)
+[2023-07-06 13:36:49,765][98243] Fps is (10 sec: 117961.1, 60 sec: 109772.7, 300 sec: 111633.3). Total num frames: 1164476416. Throughput: 0: 27682.0. Samples: 291205120. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:49,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:36:50,493][98493] Updated weights for policy 0, policy_version 568649 (0.0008)
+[2023-07-06 13:36:50,931][98493] Updated weights for policy 0, policy_version 568698 (0.0007)
+[2023-07-06 13:36:51,399][98493] Updated weights for policy 0, policy_version 568752 (0.0007)
+[2023-07-06 13:36:53,734][98449] Signal inference workers to stop experience collection... (29450 times)
+[2023-07-06 13:36:53,754][98493] InferenceWorker_p0-w0: stopping experience collection (29450 times)
+[2023-07-06 13:36:53,826][98449] Signal inference workers to resume experience collection... (29450 times)
+[2023-07-06 13:36:53,826][98493] InferenceWorker_p0-w0: resuming experience collection (29450 times)
+[2023-07-06 13:36:54,049][98493] Updated weights for policy 0, policy_version 568805 (0.0008)
+[2023-07-06 13:36:54,764][98243] Fps is (10 sec: 114688.7, 60 sec: 109772.7, 300 sec: 111744.6). Total num frames: 1165033472. Throughput: 0: 27613.9. Samples: 291287040. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:54,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:36:54,805][98493] Updated weights for policy 0, policy_version 568880 (0.0007)
+[2023-07-06 13:36:55,457][98493] Updated weights for policy 0, policy_version 568928 (0.0007)
+[2023-07-06 13:36:56,129][98493] Updated weights for policy 0, policy_version 569008 (0.0007)
+[2023-07-06 13:36:58,859][98493] Updated weights for policy 0, policy_version 569061 (0.0006)
+[2023-07-06 13:36:59,254][98493] Updated weights for policy 0, policy_version 569104 (0.0007)
+[2023-07-06 13:36:59,765][98243] Fps is (10 sec: 114687.7, 60 sec: 109226.4, 300 sec: 111744.3). Total num frames: 1165623296. Throughput: 0: 27773.0. Samples: 291455488. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:36:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:36:59,821][98493] Updated weights for policy 0, policy_version 569155 (0.0007)
+[2023-07-06 13:37:00,428][98493] Updated weights for policy 0, policy_version 569232 (0.0006)
+[2023-07-06 13:37:03,387][98493] Updated weights for policy 0, policy_version 569312 (0.0008)
+[2023-07-06 13:37:04,002][98493] Updated weights for policy 0, policy_version 569352 (0.0007)
+[2023-07-06 13:37:04,701][98493] Updated weights for policy 0, policy_version 569410 (0.0007)
+[2023-07-06 13:37:04,764][98243] Fps is (10 sec: 111412.1, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 1166147584. Throughput: 0: 27511.6. Samples: 291617792. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:04,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:37:05,214][98493] Updated weights for policy 0, policy_version 569472 (0.0007)
+[2023-07-06 13:37:05,735][98493] Updated weights for policy 0, policy_version 569530 (0.0006)
+[2023-07-06 13:37:08,258][98493] Updated weights for policy 0, policy_version 569584 (0.0007)
+[2023-07-06 13:37:08,777][98493] Updated weights for policy 0, policy_version 569632 (0.0007)
+[2023-07-06 13:37:09,432][98493] Updated weights for policy 0, policy_version 569688 (0.0007)
+[2023-07-06 13:37:09,764][98243] Fps is (10 sec: 117966.9, 60 sec: 111411.3, 300 sec: 111744.4). Total num frames: 1166802944. Throughput: 0: 27727.7. Samples: 291704832. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:37:09,866][98449] Signal inference workers to stop experience collection... (29500 times)
+[2023-07-06 13:37:09,880][98493] InferenceWorker_p0-w0: stopping experience collection (29500 times)
+[2023-07-06 13:37:09,964][98449] Signal inference workers to resume experience collection... (29500 times)
+[2023-07-06 13:37:09,964][98493] InferenceWorker_p0-w0: resuming experience collection (29500 times)
+[2023-07-06 13:37:10,104][98493] Updated weights for policy 0, policy_version 569760 (0.0007)
+[2023-07-06 13:37:12,935][98493] Updated weights for policy 0, policy_version 569812 (0.0006)
+[2023-07-06 13:37:13,422][98493] Updated weights for policy 0, policy_version 569872 (0.0006)
+[2023-07-06 13:37:13,873][98493] Updated weights for policy 0, policy_version 569918 (0.0006)
+[2023-07-06 13:37:14,460][98493] Updated weights for policy 0, policy_version 569984 (0.0007)
+[2023-07-06 13:37:14,764][98243] Fps is (10 sec: 124516.0, 60 sec: 112503.3, 300 sec: 111744.5). Total num frames: 1167392768. Throughput: 0: 27704.8. Samples: 291869184. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:14,770][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:37:14,956][98493] Updated weights for policy 0, policy_version 570040 (0.0007)
+[2023-07-06 13:37:17,903][98493] Updated weights for policy 0, policy_version 570096 (0.0007)
+[2023-07-06 13:37:18,559][98493] Updated weights for policy 0, policy_version 570170 (0.0007)
+[2023-07-06 13:37:19,114][98493] Updated weights for policy 0, policy_version 570230 (0.0045)
+[2023-07-06 13:37:19,551][98493] Updated weights for policy 0, policy_version 570281 (0.0007)
+[2023-07-06 13:37:19,764][98243] Fps is (10 sec: 117965.7, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 1167982592. Throughput: 0: 27397.7. Samples: 292029440. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:37:22,508][98493] Updated weights for policy 0, policy_version 570328 (0.0006)
+[2023-07-06 13:37:23,088][98493] Updated weights for policy 0, policy_version 570400 (0.0007)
+[2023-07-06 13:37:23,749][98493] Updated weights for policy 0, policy_version 570473 (0.0008)
+[2023-07-06 13:37:24,290][98493] Updated weights for policy 0, policy_version 570535 (0.0007)
+[2023-07-06 13:37:24,764][98243] Fps is (10 sec: 111412.5, 60 sec: 113596.1, 300 sec: 111966.6). Total num frames: 1168506880. Throughput: 0: 27830.0. Samples: 292123136. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:37:27,407][98449] Signal inference workers to stop experience collection... (29550 times)
+[2023-07-06 13:37:27,435][98493] Updated weights for policy 0, policy_version 570596 (0.0008)
+[2023-07-06 13:37:27,441][98493] InferenceWorker_p0-w0: stopping experience collection (29550 times)
+[2023-07-06 13:37:27,511][98449] Signal inference workers to resume experience collection... (29550 times)
+[2023-07-06 13:37:27,512][98493] InferenceWorker_p0-w0: resuming experience collection (29550 times)
+[2023-07-06 13:37:28,010][98493] Updated weights for policy 0, policy_version 570659 (0.0008)
+[2023-07-06 13:37:28,490][98493] Updated weights for policy 0, policy_version 570720 (0.0007)
+[2023-07-06 13:37:28,797][98493] Updated weights for policy 0, policy_version 570752 (0.0007)
+[2023-07-06 13:37:29,246][98493] Updated weights for policy 0, policy_version 570802 (0.0007)
+[2023-07-06 13:37:29,764][98243] Fps is (10 sec: 104855.8, 60 sec: 113595.3, 300 sec: 111966.6). Total num frames: 1169031168. Throughput: 0: 27488.6. Samples: 292278784. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:29,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:37:31,957][98493] Updated weights for policy 0, policy_version 570848 (0.0006)
+[2023-07-06 13:37:32,506][98493] Updated weights for policy 0, policy_version 570900 (0.0007)
+[2023-07-06 13:37:32,986][98493] Updated weights for policy 0, policy_version 570960 (0.0007)
+[2023-07-06 13:37:33,396][98493] Updated weights for policy 0, policy_version 571007 (0.0007)
+[2023-07-06 13:37:33,965][98493] Updated weights for policy 0, policy_version 571042 (0.0006)
+[2023-07-06 13:37:34,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1169555456. Throughput: 0: 27602.7. Samples: 292447232. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:34,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:37:36,642][98493] Updated weights for policy 0, policy_version 571104 (0.0006)
+[2023-07-06 13:37:37,255][98493] Updated weights for policy 0, policy_version 571172 (0.0009)
+[2023-07-06 13:37:38,033][98493] Updated weights for policy 0, policy_version 571236 (0.0007)
+[2023-07-06 13:37:38,515][98493] Updated weights for policy 0, policy_version 571289 (0.0008)
+[2023-07-06 13:37:39,764][98243] Fps is (10 sec: 104858.5, 60 sec: 113049.3, 300 sec: 111855.5). Total num frames: 1170079744. Throughput: 0: 27659.3. Samples: 292531712. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:37:41,028][98493] Updated weights for policy 0, policy_version 571335 (0.0007)
+[2023-07-06 13:37:41,571][98493] Updated weights for policy 0, policy_version 571395 (0.0006)
+[2023-07-06 13:37:42,041][98493] Updated weights for policy 0, policy_version 571456 (0.0006)
+[2023-07-06 13:37:42,696][98449] Signal inference workers to stop experience collection... (29600 times)
+[2023-07-06 13:37:42,719][98493] InferenceWorker_p0-w0: stopping experience collection (29600 times)
+[2023-07-06 13:37:42,776][98449] Signal inference workers to resume experience collection... (29600 times)
+[2023-07-06 13:37:42,776][98493] InferenceWorker_p0-w0: resuming experience collection (29600 times)
+[2023-07-06 13:37:42,861][98493] Updated weights for policy 0, policy_version 571516 (0.0007)
+[2023-07-06 13:37:43,342][98493] Updated weights for policy 0, policy_version 571557 (0.0006)
+[2023-07-06 13:37:44,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111957.4, 300 sec: 111522.3). Total num frames: 1170604032. Throughput: 0: 27602.6. Samples: 292697600. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:44,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:37:45,716][98493] Updated weights for policy 0, policy_version 571616 (0.0008)
+[2023-07-06 13:37:46,157][98493] Updated weights for policy 0, policy_version 571653 (0.0007)
+[2023-07-06 13:37:46,582][98493] Updated weights for policy 0, policy_version 571710 (0.0007)
+[2023-07-06 13:37:47,474][98493] Updated weights for policy 0, policy_version 571760 (0.0006)
+[2023-07-06 13:37:48,078][98493] Updated weights for policy 0, policy_version 571824 (0.0008)
+[2023-07-06 13:37:49,764][98243] Fps is (10 sec: 104858.1, 60 sec: 110865.4, 300 sec: 111411.2). Total num frames: 1171128320. Throughput: 0: 27852.7. Samples: 292871168. Policy #0 lag: (min: 143.0, avg: 229.3, max: 396.0)
+[2023-07-06 13:37:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:37:50,416][98493] Updated weights for policy 0, policy_version 571872 (0.0008)
+[2023-07-06 13:37:51,006][98493] Updated weights for policy 0, policy_version 571928 (0.0006)
+[2023-07-06 13:37:51,817][98493] Updated weights for policy 0, policy_version 571976 (0.0006)
+[2023-07-06 13:37:52,243][98493] Updated weights for policy 0, policy_version 572026 (0.0007)
+[2023-07-06 13:37:52,806][98493] Updated weights for policy 0, policy_version 572071 (0.0006)
+[2023-07-06 13:37:54,745][98493] Updated weights for policy 0, policy_version 572112 (0.0007)
+[2023-07-06 13:37:54,764][98243] Fps is (10 sec: 108132.3, 60 sec: 110864.7, 300 sec: 111189.0). Total num frames: 1171685376. Throughput: 0: 27761.7. Samples: 292954112. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:37:54,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:37:55,398][98493] Updated weights for policy 0, policy_version 572165 (0.0008)
+[2023-07-06 13:37:56,407][98493] Updated weights for policy 0, policy_version 572225 (0.0008)
+[2023-07-06 13:37:57,332][98493] Updated weights for policy 0, policy_version 572304 (0.0008)
+[2023-07-06 13:37:59,442][98493] Updated weights for policy 0, policy_version 572359 (0.0007)
+[2023-07-06 13:37:59,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110319.4, 300 sec: 111078.0). Total num frames: 1172242432. Throughput: 0: 27864.2. Samples: 293123072. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:37:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:37:59,901][98493] Updated weights for policy 0, policy_version 572410 (0.0008)
+[2023-07-06 13:38:00,535][98493] Updated weights for policy 0, policy_version 572464 (0.0008)
+[2023-07-06 13:38:01,279][98493] Updated weights for policy 0, policy_version 572518 (0.0007)
+[2023-07-06 13:38:02,085][98493] Updated weights for policy 0, policy_version 572560 (0.0006)
+[2023-07-06 13:38:02,132][98449] Signal inference workers to stop experience collection... (29650 times)
+[2023-07-06 13:38:02,188][98493] InferenceWorker_p0-w0: stopping experience collection (29650 times)
+[2023-07-06 13:38:02,223][98449] Signal inference workers to resume experience collection... (29650 times)
+[2023-07-06 13:38:02,227][98493] InferenceWorker_p0-w0: resuming experience collection (29650 times)
+[2023-07-06 13:38:02,500][98493] Updated weights for policy 0, policy_version 572606 (0.0007)
+[2023-07-06 13:38:04,333][98493] Updated weights for policy 0, policy_version 572666 (0.0007)
+[2023-07-06 13:38:04,764][98243] Fps is (10 sec: 114690.7, 60 sec: 111411.1, 300 sec: 111078.1). Total num frames: 1172832256. Throughput: 0: 28080.4. Samples: 293293056. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:04,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:38:05,246][98493] Updated weights for policy 0, policy_version 572713 (0.0006)
+[2023-07-06 13:38:05,844][98493] Updated weights for policy 0, policy_version 572772 (0.0007)
+[2023-07-06 13:38:06,957][98493] Updated weights for policy 0, policy_version 572832 (0.0006)
+[2023-07-06 13:38:08,775][98493] Updated weights for policy 0, policy_version 572896 (0.0020)
+[2023-07-06 13:38:09,764][98243] Fps is (10 sec: 111412.4, 60 sec: 109227.0, 300 sec: 111078.1). Total num frames: 1173356544. Throughput: 0: 27807.4. Samples: 293374464. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:09,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 13:38:10,024][98493] Updated weights for policy 0, policy_version 572964 (0.0008)
+[2023-07-06 13:38:10,398][98493] Updated weights for policy 0, policy_version 572995 (0.0007)
+[2023-07-06 13:38:11,497][98493] Updated weights for policy 0, policy_version 573058 (0.0007)
+[2023-07-06 13:38:11,935][98493] Updated weights for policy 0, policy_version 573116 (0.0007)
+[2023-07-06 13:38:13,624][98493] Updated weights for policy 0, policy_version 573176 (0.0008)
+[2023-07-06 13:38:14,764][98243] Fps is (10 sec: 111411.4, 60 sec: 109227.0, 300 sec: 111300.2). Total num frames: 1173946368. Throughput: 0: 28035.0. Samples: 293540352. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:38:14,828][98493] Updated weights for policy 0, policy_version 573222 (0.0007)
+[2023-07-06 13:38:15,588][98493] Updated weights for policy 0, policy_version 573296 (0.0008)
+[2023-07-06 13:38:16,288][98493] Updated weights for policy 0, policy_version 573345 (0.0006)
+[2023-07-06 13:38:17,762][98493] Updated weights for policy 0, policy_version 573380 (0.0006)
+[2023-07-06 13:38:19,221][98493] Updated weights for policy 0, policy_version 573442 (0.0006)
+[2023-07-06 13:38:19,712][98493] Updated weights for policy 0, policy_version 573504 (0.0007)
+[2023-07-06 13:38:19,764][98243] Fps is (10 sec: 117963.3, 60 sec: 109226.7, 300 sec: 111411.2). Total num frames: 1174536192. Throughput: 0: 28046.2. Samples: 293709312. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:19,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 13:38:20,388][98493] Updated weights for policy 0, policy_version 573563 (0.0008)
+[2023-07-06 13:38:21,033][98493] Updated weights for policy 0, policy_version 573616 (0.0007)
+[2023-07-06 13:38:22,555][98449] Signal inference workers to stop experience collection... (29700 times)
+[2023-07-06 13:38:22,616][98493] InferenceWorker_p0-w0: stopping experience collection (29700 times)
+[2023-07-06 13:38:22,660][98449] Signal inference workers to resume experience collection... (29700 times)
+[2023-07-06 13:38:22,661][98493] InferenceWorker_p0-w0: resuming experience collection (29700 times)
+[2023-07-06 13:38:22,754][98493] Updated weights for policy 0, policy_version 573653 (0.0007)
+[2023-07-06 13:38:24,164][98493] Updated weights for policy 0, policy_version 573720 (0.0007)
+[2023-07-06 13:38:24,533][98493] Updated weights for policy 0, policy_version 573760 (0.0008)
+[2023-07-06 13:38:24,764][98243] Fps is (10 sec: 114688.0, 60 sec: 109772.9, 300 sec: 111411.2). Total num frames: 1175093248. Throughput: 0: 28069.1. Samples: 293794816. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 13:38:24,989][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000573808_1175158784.pth...
+[2023-07-06 13:38:25,009][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000560768_1148452864.pth
+[2023-07-06 13:38:25,070][98493] Updated weights for policy 0, policy_version 573814 (0.0009)
+[2023-07-06 13:38:25,746][98493] Updated weights for policy 0, policy_version 573872 (0.0007)
+[2023-07-06 13:38:27,251][98493] Updated weights for policy 0, policy_version 573936 (0.0007)
+[2023-07-06 13:38:29,040][98493] Updated weights for policy 0, policy_version 574000 (0.0008)
+[2023-07-06 13:38:29,538][98493] Updated weights for policy 0, policy_version 574048 (0.0007)
+[2023-07-06 13:38:29,764][98243] Fps is (10 sec: 114687.6, 60 sec: 110865.3, 300 sec: 111522.3). Total num frames: 1175683072. Throughput: 0: 28148.6. Samples: 293964288. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:29,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:38:29,978][98493] Updated weights for policy 0, policy_version 574083 (0.0007)
+[2023-07-06 13:38:31,837][98493] Updated weights for policy 0, policy_version 574149 (0.0007)
+[2023-07-06 13:38:32,274][98493] Updated weights for policy 0, policy_version 574205 (0.0006)
+[2023-07-06 13:38:33,906][98493] Updated weights for policy 0, policy_version 574260 (0.0007)
+[2023-07-06 13:38:34,410][98493] Updated weights for policy 0, policy_version 574320 (0.0006)
+[2023-07-06 13:38:34,764][98243] Fps is (10 sec: 114685.2, 60 sec: 111410.8, 300 sec: 111522.3). Total num frames: 1176240128. Throughput: 0: 27841.3. Samples: 294124032. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:34,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:38:35,162][98493] Updated weights for policy 0, policy_version 574373 (0.0007)
+[2023-07-06 13:38:37,001][98493] Updated weights for policy 0, policy_version 574422 (0.0007)
+[2023-07-06 13:38:38,424][98493] Updated weights for policy 0, policy_version 574487 (0.0008)
+[2023-07-06 13:38:38,888][98493] Updated weights for policy 0, policy_version 574544 (0.0007)
+[2023-07-06 13:38:39,642][98493] Updated weights for policy 0, policy_version 574596 (0.0007)
+[2023-07-06 13:38:39,764][98243] Fps is (10 sec: 111411.9, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 1176797184. Throughput: 0: 27898.4. Samples: 294209536. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:39,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:38:39,881][98449] Signal inference workers to stop experience collection... (29750 times)
+[2023-07-06 13:38:39,925][98493] InferenceWorker_p0-w0: stopping experience collection (29750 times)
+[2023-07-06 13:38:39,990][98449] Signal inference workers to resume experience collection... (29750 times)
+[2023-07-06 13:38:39,991][98493] InferenceWorker_p0-w0: resuming experience collection (29750 times)
+[2023-07-06 13:38:41,534][98493] Updated weights for policy 0, policy_version 574657 (0.0007)
+[2023-07-06 13:38:42,028][98493] Updated weights for policy 0, policy_version 574720 (0.0008)
+[2023-07-06 13:38:43,527][98493] Updated weights for policy 0, policy_version 574772 (0.0007)
+[2023-07-06 13:38:44,118][98493] Updated weights for policy 0, policy_version 574843 (0.0006)
+[2023-07-06 13:38:44,764][98243] Fps is (10 sec: 111414.3, 60 sec: 112503.6, 300 sec: 111744.5). Total num frames: 1177354240. Throughput: 0: 27818.7. Samples: 294374912. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:44,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 13:38:44,899][98493] Updated weights for policy 0, policy_version 574905 (0.0008)
+[2023-07-06 13:38:46,600][98493] Updated weights for policy 0, policy_version 574950 (0.0007)
+[2023-07-06 13:38:47,858][98493] Updated weights for policy 0, policy_version 574994 (0.0007)
+[2023-07-06 13:38:48,359][98493] Updated weights for policy 0, policy_version 575048 (0.0007)
+[2023-07-06 13:38:48,808][98493] Updated weights for policy 0, policy_version 575104 (0.0007)
+[2023-07-06 13:38:49,731][98493] Updated weights for policy 0, policy_version 575164 (0.0009)
+[2023-07-06 13:38:49,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113595.9, 300 sec: 111966.7). Total num frames: 1177944064. Throughput: 0: 27568.4. Samples: 294533632. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:49,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:38:51,466][98493] Updated weights for policy 0, policy_version 575216 (0.0009)
+[2023-07-06 13:38:52,743][98493] Updated weights for policy 0, policy_version 575271 (0.0007)
+[2023-07-06 13:38:53,497][98493] Updated weights for policy 0, policy_version 575329 (0.0006)
+[2023-07-06 13:38:53,735][98493] Updated weights for policy 0, policy_version 575360 (0.0006)
+[2023-07-06 13:38:54,555][98493] Updated weights for policy 0, policy_version 575420 (0.0008)
+[2023-07-06 13:38:54,764][98243] Fps is (10 sec: 111409.7, 60 sec: 113049.9, 300 sec: 111855.6). Total num frames: 1178468352. Throughput: 0: 27693.4. Samples: 294620672. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:38:56,071][98493] Updated weights for policy 0, policy_version 575461 (0.0007)
+[2023-07-06 13:38:57,065][98493] Updated weights for policy 0, policy_version 575504 (0.0006)
+[2023-07-06 13:38:57,470][98493] Updated weights for policy 0, policy_version 575551 (0.0006)
+[2023-07-06 13:38:58,256][98493] Updated weights for policy 0, policy_version 575600 (0.0007)
+[2023-07-06 13:38:58,974][98449] Signal inference workers to stop experience collection... (29800 times)
+[2023-07-06 13:38:59,014][98493] InferenceWorker_p0-w0: stopping experience collection (29800 times)
+[2023-07-06 13:38:59,054][98449] Signal inference workers to resume experience collection... (29800 times)
+[2023-07-06 13:38:59,054][98493] InferenceWorker_p0-w0: resuming experience collection (29800 times)
+[2023-07-06 13:38:59,056][98493] Updated weights for policy 0, policy_version 575664 (0.0006)
+[2023-07-06 13:38:59,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.5, 300 sec: 111633.4). Total num frames: 1178992640. Throughput: 0: 27727.6. Samples: 294788096. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:38:59,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:39:00,864][98493] Updated weights for policy 0, policy_version 575728 (0.0008)
+[2023-07-06 13:39:02,160][98493] Updated weights for policy 0, policy_version 575779 (0.0007)
+[2023-07-06 13:39:02,865][98493] Updated weights for policy 0, policy_version 575840 (0.0007)
+[2023-07-06 13:39:04,183][98493] Updated weights for policy 0, policy_version 575904 (0.0007)
+[2023-07-06 13:39:04,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.1, 300 sec: 111527.1). Total num frames: 1179516928. Throughput: 0: 27511.5. Samples: 294947328. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:39:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:39:05,590][98493] Updated weights for policy 0, policy_version 575962 (0.0007)
+[2023-07-06 13:39:06,973][98493] Updated weights for policy 0, policy_version 576019 (0.0007)
+[2023-07-06 13:39:07,594][98493] Updated weights for policy 0, policy_version 576096 (0.0007)
+[2023-07-06 13:39:08,583][98493] Updated weights for policy 0, policy_version 576129 (0.0006)
+[2023-07-06 13:39:09,072][98493] Updated weights for policy 0, policy_version 576192 (0.0007)
+[2023-07-06 13:39:09,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.0, 300 sec: 111189.2). Total num frames: 1180041216. Throughput: 0: 27397.7. Samples: 295027712. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:39:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:39:10,650][98493] Updated weights for policy 0, policy_version 576249 (0.0008)
+[2023-07-06 13:39:11,987][98493] Updated weights for policy 0, policy_version 576314 (0.0007)
+[2023-07-06 13:39:12,444][98493] Updated weights for policy 0, policy_version 576356 (0.0007)
+[2023-07-06 13:39:13,220][98493] Updated weights for policy 0, policy_version 576407 (0.0008)
+[2023-07-06 13:39:14,765][98243] Fps is (10 sec: 104854.9, 60 sec: 110318.4, 300 sec: 110966.8). Total num frames: 1180565504. Throughput: 0: 27283.8. Samples: 295192064. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:39:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:39:15,169][98493] Updated weights for policy 0, policy_version 576472 (0.0007)
+[2023-07-06 13:39:16,250][98493] Updated weights for policy 0, policy_version 576514 (0.0006)
+[2023-07-06 13:39:16,710][98493] Updated weights for policy 0, policy_version 576570 (0.0008)
+[2023-07-06 13:39:17,256][98493] Updated weights for policy 0, policy_version 576611 (0.0006)
+[2023-07-06 13:39:18,017][98493] Updated weights for policy 0, policy_version 576662 (0.0007)
+[2023-07-06 13:39:18,111][98449] Signal inference workers to stop experience collection... (29850 times)
+[2023-07-06 13:39:18,159][98493] InferenceWorker_p0-w0: stopping experience collection (29850 times)
+[2023-07-06 13:39:18,214][98449] Signal inference workers to resume experience collection... (29850 times)
+[2023-07-06 13:39:18,215][98493] InferenceWorker_p0-w0: resuming experience collection (29850 times)
+[2023-07-06 13:39:19,764][98243] Fps is (10 sec: 108135.2, 60 sec: 109772.9, 300 sec: 110966.9). Total num frames: 1181122560. Throughput: 0: 27579.9. Samples: 295365120. Policy #0 lag: (min: 6.0, avg: 82.4, max: 262.0)
+[2023-07-06 13:39:19,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:39:19,827][98493] Updated weights for policy 0, policy_version 576730 (0.0007)
+[2023-07-06 13:39:21,123][98493] Updated weights for policy 0, policy_version 576772 (0.0007)
+[2023-07-06 13:39:21,719][98493] Updated weights for policy 0, policy_version 576841 (0.0006)
+[2023-07-06 13:39:22,195][98493] Updated weights for policy 0, policy_version 576896 (0.0007)
+[2023-07-06 13:39:22,935][98493] Updated weights for policy 0, policy_version 576952 (0.0008)
+[2023-07-06 13:39:24,624][98493] Updated weights for policy 0, policy_version 576997 (0.0007)
+[2023-07-06 13:39:24,765][98243] Fps is (10 sec: 114688.1, 60 sec: 110318.4, 300 sec: 110966.8). Total num frames: 1181712384. Throughput: 0: 27420.3. Samples: 295443456. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:24,766][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:39:26,172][98493] Updated weights for policy 0, policy_version 577046 (0.0007)
+[2023-07-06 13:39:26,741][98493] Updated weights for policy 0, policy_version 577108 (0.0008)
+[2023-07-06 13:39:27,362][98493] Updated weights for policy 0, policy_version 577155 (0.0006)
+[2023-07-06 13:39:29,132][98493] Updated weights for policy 0, policy_version 577219 (0.0007)
+[2023-07-06 13:39:29,572][98493] Updated weights for policy 0, policy_version 577275 (0.0007)
+[2023-07-06 13:39:29,764][98243] Fps is (10 sec: 114687.3, 60 sec: 109772.9, 300 sec: 111078.1). Total num frames: 1182269440. Throughput: 0: 27511.4. Samples: 295612928. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:39:30,926][98493] Updated weights for policy 0, policy_version 577315 (0.0007)
+[2023-07-06 13:39:31,531][98493] Updated weights for policy 0, policy_version 577392 (0.0007)
+[2023-07-06 13:39:32,010][98493] Updated weights for policy 0, policy_version 577424 (0.0013)
+[2023-07-06 13:39:32,396][98493] Updated weights for policy 0, policy_version 577468 (0.0008)
+[2023-07-06 13:39:34,162][98493] Updated weights for policy 0, policy_version 577520 (0.0011)
+[2023-07-06 13:39:34,764][98243] Fps is (10 sec: 108137.4, 60 sec: 109227.1, 300 sec: 111078.0). Total num frames: 1182793728. Throughput: 0: 27704.9. Samples: 295780352. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 13:39:35,562][98493] Updated weights for policy 0, policy_version 577568 (0.0006)
+[2023-07-06 13:39:36,188][98493] Updated weights for policy 0, policy_version 577638 (0.0008)
+[2023-07-06 13:39:36,623][98449] Signal inference workers to stop experience collection... (29900 times)
+[2023-07-06 13:39:36,671][98493] InferenceWorker_p0-w0: stopping experience collection (29900 times)
+[2023-07-06 13:39:36,723][98449] Signal inference workers to resume experience collection... (29900 times)
+[2023-07-06 13:39:36,723][98493] InferenceWorker_p0-w0: resuming experience collection (29900 times)
+[2023-07-06 13:39:36,854][98493] Updated weights for policy 0, policy_version 577696 (0.0006)
+[2023-07-06 13:39:38,578][98493] Updated weights for policy 0, policy_version 577734 (0.0008)
+[2023-07-06 13:39:39,764][98243] Fps is (10 sec: 104856.5, 60 sec: 108680.3, 300 sec: 111078.0). Total num frames: 1183318016. Throughput: 0: 27545.6. Samples: 295860224. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:39:39,999][98493] Updated weights for policy 0, policy_version 577808 (0.0007)
+[2023-07-06 13:39:40,748][98493] Updated weights for policy 0, policy_version 577858 (0.0006)
+[2023-07-06 13:39:41,230][98493] Updated weights for policy 0, policy_version 577920 (0.0007)
+[2023-07-06 13:39:41,829][98493] Updated weights for policy 0, policy_version 577976 (0.0007)
+[2023-07-06 13:39:43,479][98493] Updated weights for policy 0, policy_version 578032 (0.0007)
+[2023-07-06 13:39:44,764][98243] Fps is (10 sec: 111410.4, 60 sec: 109226.4, 300 sec: 110855.8). Total num frames: 1183907840. Throughput: 0: 27579.7. Samples: 296029184. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 13:39:44,766][98493] Updated weights for policy 0, policy_version 578083 (0.0006)
+[2023-07-06 13:39:45,713][98493] Updated weights for policy 0, policy_version 578146 (0.0007)
+[2023-07-06 13:39:46,141][98493] Updated weights for policy 0, policy_version 578193 (0.0007)
+[2023-07-06 13:39:47,991][98493] Updated weights for policy 0, policy_version 578242 (0.0006)
+[2023-07-06 13:39:48,484][98493] Updated weights for policy 0, policy_version 578300 (0.0007)
+[2023-07-06 13:39:49,524][98493] Updated weights for policy 0, policy_version 578364 (0.0007)
+[2023-07-06 13:39:49,764][98243] Fps is (10 sec: 117964.8, 60 sec: 109226.4, 300 sec: 111078.0). Total num frames: 1184497664. Throughput: 0: 27807.2. Samples: 296198656. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:49,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:39:50,406][98493] Updated weights for policy 0, policy_version 578423 (0.0008)
+[2023-07-06 13:39:51,063][98493] Updated weights for policy 0, policy_version 578470 (0.0007)
+[2023-07-06 13:39:52,811][98493] Updated weights for policy 0, policy_version 578512 (0.0007)
+[2023-07-06 13:39:53,220][98493] Updated weights for policy 0, policy_version 578559 (0.0006)
+[2023-07-06 13:39:54,265][98493] Updated weights for policy 0, policy_version 578617 (0.0007)
+[2023-07-06 13:39:54,764][98243] Fps is (10 sec: 114688.4, 60 sec: 109772.9, 300 sec: 111189.1). Total num frames: 1185054720. Throughput: 0: 27955.2. Samples: 296285696. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:39:55,058][98493] Updated weights for policy 0, policy_version 578687 (0.0007)
+[2023-07-06 13:39:55,663][98449] Signal inference workers to stop experience collection... (29950 times)
+[2023-07-06 13:39:55,691][98493] InferenceWorker_p0-w0: stopping experience collection (29950 times)
+[2023-07-06 13:39:55,736][98449] Signal inference workers to resume experience collection... (29950 times)
+[2023-07-06 13:39:55,736][98493] InferenceWorker_p0-w0: resuming experience collection (29950 times)
+[2023-07-06 13:39:55,885][98493] Updated weights for policy 0, policy_version 578736 (0.0007)
+[2023-07-06 13:39:57,812][98493] Updated weights for policy 0, policy_version 578800 (0.0007)
+[2023-07-06 13:39:58,730][98493] Updated weights for policy 0, policy_version 578855 (0.0007)
+[2023-07-06 13:39:59,764][98243] Fps is (10 sec: 111413.0, 60 sec: 110319.0, 300 sec: 111300.2). Total num frames: 1185611776. Throughput: 0: 27898.5. Samples: 296447488. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:39:59,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:39:59,804][98493] Updated weights for policy 0, policy_version 578915 (0.0008)
+[2023-07-06 13:40:00,601][98493] Updated weights for policy 0, policy_version 578979 (0.0007)
+[2023-07-06 13:40:02,584][98493] Updated weights for policy 0, policy_version 579047 (0.0007)
+[2023-07-06 13:40:03,213][98493] Updated weights for policy 0, policy_version 579104 (0.0006)
+[2023-07-06 13:40:04,616][98493] Updated weights for policy 0, policy_version 579169 (0.0007)
+[2023-07-06 13:40:04,765][98243] Fps is (10 sec: 111408.7, 60 sec: 110864.6, 300 sec: 111189.0). Total num frames: 1186168832. Throughput: 0: 27716.1. Samples: 296612352. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:40:05,443][98493] Updated weights for policy 0, policy_version 579238 (0.0006)
+[2023-07-06 13:40:07,109][98493] Updated weights for policy 0, policy_version 579280 (0.0007)
+[2023-07-06 13:40:07,678][98493] Updated weights for policy 0, policy_version 579344 (0.0007)
+[2023-07-06 13:40:08,042][98493] Updated weights for policy 0, policy_version 579384 (0.0007)
+[2023-07-06 13:40:09,508][98493] Updated weights for policy 0, policy_version 579440 (0.0007)
+[2023-07-06 13:40:09,764][98243] Fps is (10 sec: 111410.2, 60 sec: 111411.2, 300 sec: 111077.9). Total num frames: 1186725888. Throughput: 0: 27841.6. Samples: 296696320. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:40:10,012][98493] Updated weights for policy 0, policy_version 579492 (0.0007)
+[2023-07-06 13:40:11,777][98493] Updated weights for policy 0, policy_version 579536 (0.0007)
+[2023-07-06 13:40:12,277][98493] Updated weights for policy 0, policy_version 579585 (0.0007)
+[2023-07-06 13:40:12,728][98493] Updated weights for policy 0, policy_version 579646 (0.0006)
+[2023-07-06 13:40:14,256][98493] Updated weights for policy 0, policy_version 579696 (0.0007)
+[2023-07-06 13:40:14,319][98449] Signal inference workers to stop experience collection... (30000 times)
+[2023-07-06 13:40:14,352][98493] InferenceWorker_p0-w0: stopping experience collection (30000 times)
+[2023-07-06 13:40:14,397][98449] Signal inference workers to resume experience collection... (30000 times)
+[2023-07-06 13:40:14,398][98493] InferenceWorker_p0-w0: resuming experience collection (30000 times)
+[2023-07-06 13:40:14,690][98493] Updated weights for policy 0, policy_version 579744 (0.0007)
+[2023-07-06 13:40:14,764][98243] Fps is (10 sec: 114689.2, 60 sec: 112503.7, 300 sec: 111300.1). Total num frames: 1187315712. Throughput: 0: 27898.2. Samples: 296868352. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:40:16,334][98493] Updated weights for policy 0, policy_version 579780 (0.0007)
+[2023-07-06 13:40:16,895][98493] Updated weights for policy 0, policy_version 579844 (0.0006)
+[2023-07-06 13:40:17,404][98493] Updated weights for policy 0, policy_version 579903 (0.0006)
+[2023-07-06 13:40:18,924][98493] Updated weights for policy 0, policy_version 579940 (0.0007)
+[2023-07-06 13:40:19,529][98493] Updated weights for policy 0, policy_version 580016 (0.0007)
+[2023-07-06 13:40:19,764][98243] Fps is (10 sec: 117963.9, 60 sec: 113049.3, 300 sec: 111411.2). Total num frames: 1187905536. Throughput: 0: 27841.3. Samples: 297033216. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:40:21,233][98493] Updated weights for policy 0, policy_version 580056 (0.0007)
+[2023-07-06 13:40:21,670][98493] Updated weights for policy 0, policy_version 580103 (0.0007)
+[2023-07-06 13:40:22,094][98493] Updated weights for policy 0, policy_version 580157 (0.0007)
+[2023-07-06 13:40:23,621][98493] Updated weights for policy 0, policy_version 580214 (0.0007)
+[2023-07-06 13:40:24,154][98493] Updated weights for policy 0, policy_version 580282 (0.0006)
+[2023-07-06 13:40:24,764][98243] Fps is (10 sec: 111412.5, 60 sec: 111957.8, 300 sec: 111078.0). Total num frames: 1188429824. Throughput: 0: 28023.5. Samples: 297121280. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:24,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:40:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000580288_1188429824.pth...
+[2023-07-06 13:40:24,801][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000567232_1161691136.pth
+[2023-07-06 13:40:26,154][98493] Updated weights for policy 0, policy_version 580327 (0.0007)
+[2023-07-06 13:40:26,721][98493] Updated weights for policy 0, policy_version 580389 (0.0007)
+[2023-07-06 13:40:27,604][98493] Updated weights for policy 0, policy_version 580417 (0.0006)
+[2023-07-06 13:40:28,079][98493] Updated weights for policy 0, policy_version 580480 (0.0007)
+[2023-07-06 13:40:28,590][98493] Updated weights for policy 0, policy_version 580538 (0.0007)
+[2023-07-06 13:40:29,764][98243] Fps is (10 sec: 104858.7, 60 sec: 111411.2, 300 sec: 110855.8). Total num frames: 1188954112. Throughput: 0: 27887.0. Samples: 297284096. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:29,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:40:30,979][98493] Updated weights for policy 0, policy_version 580592 (0.0008)
+[2023-07-06 13:40:31,145][98449] Signal inference workers to stop experience collection... (30050 times)
+[2023-07-06 13:40:31,202][98493] InferenceWorker_p0-w0: stopping experience collection (30050 times)
+[2023-07-06 13:40:31,257][98449] Signal inference workers to resume experience collection... (30050 times)
+[2023-07-06 13:40:31,258][98493] InferenceWorker_p0-w0: resuming experience collection (30050 times)
+[2023-07-06 13:40:31,461][98493] Updated weights for policy 0, policy_version 580642 (0.0007)
+[2023-07-06 13:40:32,396][98493] Updated weights for policy 0, policy_version 580678 (0.0006)
+[2023-07-06 13:40:32,969][98493] Updated weights for policy 0, policy_version 580743 (0.0008)
+[2023-07-06 13:40:33,396][98493] Updated weights for policy 0, policy_version 580795 (0.0007)
+[2023-07-06 13:40:34,764][98243] Fps is (10 sec: 104858.7, 60 sec: 111411.3, 300 sec: 110633.7). Total num frames: 1189478400. Throughput: 0: 27978.1. Samples: 297457664. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:34,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:40:35,330][98493] Updated weights for policy 0, policy_version 580832 (0.0007)
+[2023-07-06 13:40:36,116][98493] Updated weights for policy 0, policy_version 580896 (0.0008)
+[2023-07-06 13:40:37,158][98493] Updated weights for policy 0, policy_version 580963 (0.0008)
+[2023-07-06 13:40:37,596][98493] Updated weights for policy 0, policy_version 581008 (0.0008)
+[2023-07-06 13:40:39,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.6, 300 sec: 110633.7). Total num frames: 1190002688. Throughput: 0: 27841.5. Samples: 297538560. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:39,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:40:39,778][98493] Updated weights for policy 0, policy_version 581072 (0.0007)
+[2023-07-06 13:40:40,142][98493] Updated weights for policy 0, policy_version 581115 (0.0008)
+[2023-07-06 13:40:41,006][98493] Updated weights for policy 0, policy_version 581159 (0.0009)
+[2023-07-06 13:40:41,551][98493] Updated weights for policy 0, policy_version 581188 (0.0007)
+[2023-07-06 13:40:41,983][98493] Updated weights for policy 0, policy_version 581245 (0.0008)
+[2023-07-06 13:40:42,604][98493] Updated weights for policy 0, policy_version 581305 (0.0006)
+[2023-07-06 13:40:44,684][98493] Updated weights for policy 0, policy_version 581372 (0.0007)
+[2023-07-06 13:40:44,764][98243] Fps is (10 sec: 117963.1, 60 sec: 112503.4, 300 sec: 111078.0). Total num frames: 1190658048. Throughput: 0: 28103.0. Samples: 297712128. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:40:45,701][98493] Updated weights for policy 0, policy_version 581414 (0.0007)
+[2023-07-06 13:40:46,478][98493] Updated weights for policy 0, policy_version 581477 (0.0008)
+[2023-07-06 13:40:46,904][98493] Updated weights for policy 0, policy_version 581522 (0.0007)
+[2023-07-06 13:40:47,279][98493] Updated weights for policy 0, policy_version 581568 (0.0006)
+[2023-07-06 13:40:49,337][98493] Updated weights for policy 0, policy_version 581630 (0.0007)
+[2023-07-06 13:40:49,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111411.4, 300 sec: 110966.9). Total num frames: 1191182336. Throughput: 0: 28205.7. Samples: 297881600. Policy #0 lag: (min: 105.0, avg: 189.4, max: 319.0)
+[2023-07-06 13:40:49,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:40:49,997][98449] Signal inference workers to stop experience collection... (30100 times)
+[2023-07-06 13:40:50,023][98493] InferenceWorker_p0-w0: stopping experience collection (30100 times)
+[2023-07-06 13:40:50,103][98449] Signal inference workers to resume experience collection... (30100 times)
+[2023-07-06 13:40:50,103][98493] InferenceWorker_p0-w0: resuming experience collection (30100 times)
+[2023-07-06 13:40:50,471][98493] Updated weights for policy 0, policy_version 581692 (0.0006)
+[2023-07-06 13:40:51,476][98493] Updated weights for policy 0, policy_version 581760 (0.0007)
+[2023-07-06 13:40:52,011][98493] Updated weights for policy 0, policy_version 581818 (0.0008)
+[2023-07-06 13:40:53,998][98493] Updated weights for policy 0, policy_version 581883 (0.0007)
+[2023-07-06 13:40:54,764][98243] Fps is (10 sec: 108136.2, 60 sec: 111411.4, 300 sec: 110744.8). Total num frames: 1191739392. Throughput: 0: 28103.2. Samples: 297960960. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:40:54,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:40:54,963][98493] Updated weights for policy 0, policy_version 581926 (0.0007)
+[2023-07-06 13:40:55,833][98493] Updated weights for policy 0, policy_version 581968 (0.0007)
+[2023-07-06 13:40:56,463][98493] Updated weights for policy 0, policy_version 582038 (0.0007)
+[2023-07-06 13:40:58,687][98493] Updated weights for policy 0, policy_version 582105 (0.0006)
+[2023-07-06 13:40:59,437][98493] Updated weights for policy 0, policy_version 582171 (0.0008)
+[2023-07-06 13:40:59,764][98243] Fps is (10 sec: 117965.1, 60 sec: 112503.4, 300 sec: 111078.0). Total num frames: 1192361984. Throughput: 0: 28069.1. Samples: 298131456. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:40:59,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:41:00,652][98493] Updated weights for policy 0, policy_version 582234 (0.0009)
+[2023-07-06 13:41:01,198][98493] Updated weights for policy 0, policy_version 582295 (0.0008)
+[2023-07-06 13:41:03,360][98493] Updated weights for policy 0, policy_version 582340 (0.0007)
+[2023-07-06 13:41:03,940][98493] Updated weights for policy 0, policy_version 582402 (0.0006)
+[2023-07-06 13:41:04,441][98493] Updated weights for policy 0, policy_version 582461 (0.0007)
+[2023-07-06 13:41:04,764][98243] Fps is (10 sec: 114685.6, 60 sec: 111957.6, 300 sec: 111078.0). Total num frames: 1192886272. Throughput: 0: 27955.2. Samples: 298291200. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:41:05,712][98493] Updated weights for policy 0, policy_version 582512 (0.0006)
+[2023-07-06 13:41:06,146][98493] Updated weights for policy 0, policy_version 582560 (0.0008)
+[2023-07-06 13:41:07,974][98449] Signal inference workers to stop experience collection... (30150 times)
+[2023-07-06 13:41:08,000][98493] InferenceWorker_p0-w0: stopping experience collection (30150 times)
+[2023-07-06 13:41:08,058][98449] Signal inference workers to resume experience collection... (30150 times)
+[2023-07-06 13:41:08,058][98493] InferenceWorker_p0-w0: resuming experience collection (30150 times)
+[2023-07-06 13:41:08,154][98493] Updated weights for policy 0, policy_version 582615 (0.0006)
+[2023-07-06 13:41:08,818][98493] Updated weights for policy 0, policy_version 582674 (0.0007)
+[2023-07-06 13:41:09,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.2, 300 sec: 111077.9). Total num frames: 1193410560. Throughput: 0: 27943.8. Samples: 298378752. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:09,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:41:10,315][98493] Updated weights for policy 0, policy_version 582752 (0.0006)
+[2023-07-06 13:41:10,752][98493] Updated weights for policy 0, policy_version 582800 (0.0007)
+[2023-07-06 13:41:11,168][98493] Updated weights for policy 0, policy_version 582848 (0.0007)
+[2023-07-06 13:41:13,044][98493] Updated weights for policy 0, policy_version 582906 (0.0006)
+[2023-07-06 13:41:13,933][98493] Updated weights for policy 0, policy_version 582974 (0.0008)
+[2023-07-06 13:41:14,764][98243] Fps is (10 sec: 104859.2, 60 sec: 110319.3, 300 sec: 111078.0). Total num frames: 1193934848. Throughput: 0: 27978.0. Samples: 298543104. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:14,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:41:15,182][98493] Updated weights for policy 0, policy_version 583025 (0.0007)
+[2023-07-06 13:41:15,563][98493] Updated weights for policy 0, policy_version 583072 (0.0007)
+[2023-07-06 13:41:17,562][98493] Updated weights for policy 0, policy_version 583136 (0.0007)
+[2023-07-06 13:41:18,345][98493] Updated weights for policy 0, policy_version 583172 (0.0006)
+[2023-07-06 13:41:18,792][98493] Updated weights for policy 0, policy_version 583229 (0.0006)
+[2023-07-06 13:41:19,678][98493] Updated weights for policy 0, policy_version 583269 (0.0008)
+[2023-07-06 13:41:19,764][98243] Fps is (10 sec: 114689.6, 60 sec: 110865.4, 300 sec: 111411.3). Total num frames: 1194557440. Throughput: 0: 27875.6. Samples: 298712064. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:19,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:41:20,226][98493] Updated weights for policy 0, policy_version 583333 (0.0008)
+[2023-07-06 13:41:22,119][98493] Updated weights for policy 0, policy_version 583392 (0.0007)
+[2023-07-06 13:41:23,186][98493] Updated weights for policy 0, policy_version 583456 (0.0007)
+[2023-07-06 13:41:24,084][98493] Updated weights for policy 0, policy_version 583490 (0.0007)
+[2023-07-06 13:41:24,635][98493] Updated weights for policy 0, policy_version 583554 (0.0007)
+[2023-07-06 13:41:24,764][98243] Fps is (10 sec: 121241.2, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1195147264. Throughput: 0: 27932.4. Samples: 298795520. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:24,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:41:24,749][98449] Signal inference workers to stop experience collection... (30200 times)
+[2023-07-06 13:41:24,799][98493] InferenceWorker_p0-w0: stopping experience collection (30200 times)
+[2023-07-06 13:41:24,851][98449] Signal inference workers to resume experience collection... (30200 times)
+[2023-07-06 13:41:24,852][98493] InferenceWorker_p0-w0: resuming experience collection (30200 times)
+[2023-07-06 13:41:25,129][98493] Updated weights for policy 0, policy_version 583616 (0.0007)
+[2023-07-06 13:41:27,212][98493] Updated weights for policy 0, policy_version 583676 (0.0006)
+[2023-07-06 13:41:28,073][98493] Updated weights for policy 0, policy_version 583728 (0.0007)
+[2023-07-06 13:41:28,869][98493] Updated weights for policy 0, policy_version 583779 (0.0007)
+[2023-07-06 13:41:29,373][98493] Updated weights for policy 0, policy_version 583840 (0.0008)
+[2023-07-06 13:41:29,764][98243] Fps is (10 sec: 121240.1, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 1195769856. Throughput: 0: 27773.2. Samples: 298961920. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:29,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:41:31,771][98493] Updated weights for policy 0, policy_version 583896 (0.0006)
+[2023-07-06 13:41:32,348][98493] Updated weights for policy 0, policy_version 583943 (0.0007)
+[2023-07-06 13:41:32,767][98493] Updated weights for policy 0, policy_version 583995 (0.0007)
+[2023-07-06 13:41:33,418][98493] Updated weights for policy 0, policy_version 584048 (0.0007)
+[2023-07-06 13:41:34,090][98493] Updated weights for policy 0, policy_version 584100 (0.0007)
+[2023-07-06 13:41:34,764][98243] Fps is (10 sec: 114687.4, 60 sec: 113595.5, 300 sec: 111855.5). Total num frames: 1196294144. Throughput: 0: 27693.5. Samples: 299127808. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:34,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:41:36,690][98493] Updated weights for policy 0, policy_version 584160 (0.0008)
+[2023-07-06 13:41:37,235][98493] Updated weights for policy 0, policy_version 584224 (0.0007)
+[2023-07-06 13:41:38,121][98493] Updated weights for policy 0, policy_version 584279 (0.0007)
+[2023-07-06 13:41:38,607][98493] Updated weights for policy 0, policy_version 584336 (0.0007)
+[2023-07-06 13:41:39,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113595.6, 300 sec: 111633.4). Total num frames: 1196818432. Throughput: 0: 27795.8. Samples: 299211776. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:41:41,321][98493] Updated weights for policy 0, policy_version 584386 (0.0007)
+[2023-07-06 13:41:41,917][98493] Updated weights for policy 0, policy_version 584452 (0.0008)
+[2023-07-06 13:41:42,347][98493] Updated weights for policy 0, policy_version 584508 (0.0007)
+[2023-07-06 13:41:42,902][98449] Signal inference workers to stop experience collection... (30250 times)
+[2023-07-06 13:41:42,944][98493] InferenceWorker_p0-w0: stopping experience collection (30250 times)
+[2023-07-06 13:41:42,998][98449] Signal inference workers to resume experience collection... (30250 times)
+[2023-07-06 13:41:42,998][98493] InferenceWorker_p0-w0: resuming experience collection (30250 times)
+[2023-07-06 13:41:43,083][98493] Updated weights for policy 0, policy_version 584571 (0.0007)
+[2023-07-06 13:41:43,609][98493] Updated weights for policy 0, policy_version 584624 (0.0008)
+[2023-07-06 13:41:44,764][98243] Fps is (10 sec: 104856.0, 60 sec: 111411.0, 300 sec: 111411.2). Total num frames: 1197342720. Throughput: 0: 27647.9. Samples: 299375616. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:41:46,268][98493] Updated weights for policy 0, policy_version 584688 (0.0007)
+[2023-07-06 13:41:46,822][98493] Updated weights for policy 0, policy_version 584755 (0.0008)
+[2023-07-06 13:41:47,421][98493] Updated weights for policy 0, policy_version 584787 (0.0006)
+[2023-07-06 13:41:48,186][98493] Updated weights for policy 0, policy_version 584839 (0.0007)
+[2023-07-06 13:41:49,764][98243] Fps is (10 sec: 104857.0, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 1197867008. Throughput: 0: 27909.7. Samples: 299547136. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:49,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:41:50,707][98493] Updated weights for policy 0, policy_version 584899 (0.0007)
+[2023-07-06 13:41:51,308][98493] Updated weights for policy 0, policy_version 584976 (0.0008)
+[2023-07-06 13:41:52,267][98493] Updated weights for policy 0, policy_version 585032 (0.0006)
+[2023-07-06 13:41:52,693][98493] Updated weights for policy 0, policy_version 585084 (0.0009)
+[2023-07-06 13:41:53,150][98493] Updated weights for policy 0, policy_version 585127 (0.0007)
+[2023-07-06 13:41:54,764][98243] Fps is (10 sec: 104859.7, 60 sec: 110864.9, 300 sec: 111078.1). Total num frames: 1198391296. Throughput: 0: 27739.1. Samples: 299627008. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:54,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:41:55,733][98493] Updated weights for policy 0, policy_version 585186 (0.0007)
+[2023-07-06 13:41:56,188][98493] Updated weights for policy 0, policy_version 585238 (0.0007)
+[2023-07-06 13:41:57,002][98493] Updated weights for policy 0, policy_version 585296 (0.0007)
+[2023-07-06 13:41:57,508][98493] Updated weights for policy 0, policy_version 585345 (0.0008)
+[2023-07-06 13:41:57,928][98493] Updated weights for policy 0, policy_version 585401 (0.0007)
+[2023-07-06 13:41:59,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109226.6, 300 sec: 111077.9). Total num frames: 1198915584. Throughput: 0: 27795.9. Samples: 299793920. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:41:59,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:42:00,334][98493] Updated weights for policy 0, policy_version 585443 (0.0007)
+[2023-07-06 13:42:00,764][98449] Signal inference workers to stop experience collection... (30300 times)
+[2023-07-06 13:42:00,785][98493] InferenceWorker_p0-w0: stopping experience collection (30300 times)
+[2023-07-06 13:42:00,845][98449] Signal inference workers to resume experience collection... (30300 times)
+[2023-07-06 13:42:00,845][98493] InferenceWorker_p0-w0: resuming experience collection (30300 times)
+[2023-07-06 13:42:00,846][98493] Updated weights for policy 0, policy_version 585504 (0.0007)
+[2023-07-06 13:42:01,812][98493] Updated weights for policy 0, policy_version 585557 (0.0007)
+[2023-07-06 13:42:02,420][98493] Updated weights for policy 0, policy_version 585617 (0.0006)
+[2023-07-06 13:42:04,764][98243] Fps is (10 sec: 104855.8, 60 sec: 109226.6, 300 sec: 110633.6). Total num frames: 1199439872. Throughput: 0: 27795.8. Samples: 299962880. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:42:04,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:42:05,099][98493] Updated weights for policy 0, policy_version 585680 (0.0007)
+[2023-07-06 13:42:05,626][98493] Updated weights for policy 0, policy_version 585735 (0.0008)
+[2023-07-06 13:42:06,041][98493] Updated weights for policy 0, policy_version 585790 (0.0006)
+[2023-07-06 13:42:06,737][98493] Updated weights for policy 0, policy_version 585840 (0.0006)
+[2023-07-06 13:42:07,253][98493] Updated weights for policy 0, policy_version 585891 (0.0008)
+[2023-07-06 13:42:09,768][98243] Fps is (10 sec: 108098.4, 60 sec: 109766.8, 300 sec: 110521.4). Total num frames: 1199996928. Throughput: 0: 27645.9. Samples: 300039680. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:42:09,768][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:42:09,904][98493] Updated weights for policy 0, policy_version 585954 (0.0007)
+[2023-07-06 13:42:10,459][98493] Updated weights for policy 0, policy_version 586017 (0.0008)
+[2023-07-06 13:42:11,357][98493] Updated weights for policy 0, policy_version 586080 (0.0006)
+[2023-07-06 13:42:11,883][98493] Updated weights for policy 0, policy_version 586131 (0.0008)
+[2023-07-06 13:42:12,218][98493] Updated weights for policy 0, policy_version 586174 (0.0006)
+[2023-07-06 13:42:14,606][98493] Updated weights for policy 0, policy_version 586230 (0.0007)
+[2023-07-06 13:42:14,765][98243] Fps is (10 sec: 117958.4, 60 sec: 111409.8, 300 sec: 110633.4). Total num frames: 1200619520. Throughput: 0: 27829.6. Samples: 300214272. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:42:14,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:42:14,997][98493] Updated weights for policy 0, policy_version 586272 (0.0007)
+[2023-07-06 13:42:15,956][98493] Updated weights for policy 0, policy_version 586327 (0.0007)
+[2023-07-06 13:42:16,435][98493] Updated weights for policy 0, policy_version 586384 (0.0007)
+[2023-07-06 13:42:16,621][98449] Signal inference workers to stop experience collection... (30350 times)
+[2023-07-06 13:42:16,663][98493] InferenceWorker_p0-w0: stopping experience collection (30350 times)
+[2023-07-06 13:42:16,730][98449] Signal inference workers to resume experience collection... (30350 times)
+[2023-07-06 13:42:16,730][98493] InferenceWorker_p0-w0: resuming experience collection (30350 times)
+[2023-07-06 13:42:19,047][98493] Updated weights for policy 0, policy_version 586433 (0.0007)
+[2023-07-06 13:42:19,523][98493] Updated weights for policy 0, policy_version 586487 (0.0006)
+[2023-07-06 13:42:19,765][98243] Fps is (10 sec: 117999.4, 60 sec: 110318.0, 300 sec: 110744.6). Total num frames: 1201176576. Throughput: 0: 27795.7. Samples: 300378624. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:42:19,766][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:42:20,084][98493] Updated weights for policy 0, policy_version 586551 (0.0010)
+[2023-07-06 13:42:20,735][98493] Updated weights for policy 0, policy_version 586599 (0.0006)
+[2023-07-06 13:42:21,242][98493] Updated weights for policy 0, policy_version 586649 (0.0007)
+[2023-07-06 13:42:23,667][98493] Updated weights for policy 0, policy_version 586693 (0.0007)
+[2023-07-06 13:42:24,095][98493] Updated weights for policy 0, policy_version 586748 (0.0008)
+[2023-07-06 13:42:24,697][98493] Updated weights for policy 0, policy_version 586790 (0.0007)
+[2023-07-06 13:42:24,764][98243] Fps is (10 sec: 114696.6, 60 sec: 110319.0, 300 sec: 110967.0). Total num frames: 1201766400. Throughput: 0: 27761.8. Samples: 300461056. Policy #0 lag: (min: 8.0, avg: 102.7, max: 264.0)
+[2023-07-06 13:42:24,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 13:42:24,875][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000586816_1201799168.pth...
+[2023-07-06 13:42:24,906][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000573808_1175158784.pth
+[2023-07-06 13:42:24,911][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000586816_1201799168.pth
+[2023-07-06 13:42:25,413][98493] Updated weights for policy 0, policy_version 586851 (0.0007)
+[2023-07-06 13:42:26,031][98493] Updated weights for policy 0, policy_version 586928 (0.0007)
+[2023-07-06 13:42:28,796][98493] Updated weights for policy 0, policy_version 586984 (0.0007)
+[2023-07-06 13:42:29,234][98493] Updated weights for policy 0, policy_version 587012 (0.0007)
+[2023-07-06 13:42:29,765][98243] Fps is (10 sec: 114689.2, 60 sec: 109226.2, 300 sec: 111077.8). Total num frames: 1202323456. Throughput: 0: 27841.4. Samples: 300628480. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:29,766][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:42:29,857][98493] Updated weights for policy 0, policy_version 587076 (0.0007)
+[2023-07-06 13:42:30,345][98493] Updated weights for policy 0, policy_version 587136 (0.0007)
+[2023-07-06 13:42:31,107][98493] Updated weights for policy 0, policy_version 587196 (0.0007)
+[2023-07-06 13:42:33,512][98493] Updated weights for policy 0, policy_version 587260 (0.0007)
+[2023-07-06 13:42:34,182][98493] Updated weights for policy 0, policy_version 587313 (0.0007)
+[2023-07-06 13:42:34,560][98493] Updated weights for policy 0, policy_version 587345 (0.0008)
+[2023-07-06 13:42:34,764][98243] Fps is (10 sec: 114688.6, 60 sec: 110319.2, 300 sec: 111300.2). Total num frames: 1202913280. Throughput: 0: 27636.7. Samples: 300790784. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:34,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 13:42:35,478][98449] Signal inference workers to stop experience collection... (30400 times)
+[2023-07-06 13:42:35,503][98493] Updated weights for policy 0, policy_version 587396 (0.0007)
+[2023-07-06 13:42:35,513][98493] InferenceWorker_p0-w0: stopping experience collection (30400 times)
+[2023-07-06 13:42:35,562][98449] Signal inference workers to resume experience collection... (30400 times)
+[2023-07-06 13:42:35,562][98493] InferenceWorker_p0-w0: resuming experience collection (30400 times)
+[2023-07-06 13:42:35,944][98493] Updated weights for policy 0, policy_version 587450 (0.0008)
+[2023-07-06 13:42:38,084][98493] Updated weights for policy 0, policy_version 587504 (0.0008)
+[2023-07-06 13:42:38,606][98493] Updated weights for policy 0, policy_version 587553 (0.0008)
+[2023-07-06 13:42:39,070][98493] Updated weights for policy 0, policy_version 587600 (0.0007)
+[2023-07-06 13:42:39,488][98493] Updated weights for policy 0, policy_version 587647 (0.0007)
+[2023-07-06 13:42:39,764][98243] Fps is (10 sec: 117966.9, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1203503104. Throughput: 0: 27898.2. Samples: 300882432. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:39,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 13:42:40,528][98493] Updated weights for policy 0, policy_version 587696 (0.0008)
+[2023-07-06 13:42:42,422][98493] Updated weights for policy 0, policy_version 587744 (0.0006)
+[2023-07-06 13:42:43,068][98493] Updated weights for policy 0, policy_version 587781 (0.0006)
+[2023-07-06 13:42:43,622][98493] Updated weights for policy 0, policy_version 587846 (0.0007)
+[2023-07-06 13:42:44,035][98493] Updated weights for policy 0, policy_version 587898 (0.0007)
+[2023-07-06 13:42:44,764][98243] Fps is (10 sec: 111410.7, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 1204027392. Throughput: 0: 27864.2. Samples: 301047808. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:44,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:42:45,056][98493] Updated weights for policy 0, policy_version 587952 (0.0007)
+[2023-07-06 13:42:47,220][98493] Updated weights for policy 0, policy_version 588004 (0.0006)
+[2023-07-06 13:42:48,012][98493] Updated weights for policy 0, policy_version 588061 (0.0007)
+[2023-07-06 13:42:48,574][98493] Updated weights for policy 0, policy_version 588121 (0.0007)
+[2023-07-06 13:42:49,338][98493] Updated weights for policy 0, policy_version 588176 (0.0006)
+[2023-07-06 13:42:49,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113596.0, 300 sec: 111855.6). Total num frames: 1204682752. Throughput: 0: 27761.9. Samples: 301212160. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:49,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:42:51,681][98493] Updated weights for policy 0, policy_version 588225 (0.0007)
+[2023-07-06 13:42:52,122][98493] Updated weights for policy 0, policy_version 588283 (0.0008)
+[2023-07-06 13:42:53,036][98493] Updated weights for policy 0, policy_version 588336 (0.0007)
+[2023-07-06 13:42:53,385][98449] Signal inference workers to stop experience collection... (30450 times)
+[2023-07-06 13:42:53,412][98493] InferenceWorker_p0-w0: stopping experience collection (30450 times)
+[2023-07-06 13:42:53,452][98449] Signal inference workers to resume experience collection... (30450 times)
+[2023-07-06 13:42:53,453][98493] InferenceWorker_p0-w0: resuming experience collection (30450 times)
+[2023-07-06 13:42:53,600][98493] Updated weights for policy 0, policy_version 588400 (0.0007)
+[2023-07-06 13:42:53,983][98493] Updated weights for policy 0, policy_version 588435 (0.0039)
+[2023-07-06 13:42:54,764][98243] Fps is (10 sec: 117964.4, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 1205207040. Throughput: 0: 28093.8. Samples: 301303808. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:54,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:42:56,372][98493] Updated weights for policy 0, policy_version 588484 (0.0007)
+[2023-07-06 13:42:57,478][98493] Updated weights for policy 0, policy_version 588546 (0.0007)
+[2023-07-06 13:42:58,030][98493] Updated weights for policy 0, policy_version 588611 (0.0007)
+[2023-07-06 13:42:58,391][98493] Updated weights for policy 0, policy_version 588656 (0.0008)
+[2023-07-06 13:42:58,913][98493] Updated weights for policy 0, policy_version 588712 (0.0007)
+[2023-07-06 13:42:59,764][98243] Fps is (10 sec: 104856.7, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1205731328. Throughput: 0: 27819.1. Samples: 301466112. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:42:59,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 13:43:01,140][98493] Updated weights for policy 0, policy_version 588768 (0.0006)
+[2023-07-06 13:43:02,453][98493] Updated weights for policy 0, policy_version 588832 (0.0008)
+[2023-07-06 13:43:03,033][98493] Updated weights for policy 0, policy_version 588896 (0.0007)
+[2023-07-06 13:43:03,594][98493] Updated weights for policy 0, policy_version 588948 (0.0008)
+[2023-07-06 13:43:04,764][98243] Fps is (10 sec: 104856.4, 60 sec: 113595.8, 300 sec: 111522.2). Total num frames: 1206255616. Throughput: 0: 27841.6. Samples: 301631488. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:04,765][98243] Avg episode reward: [(0, '9.490')]
+[2023-07-06 13:43:05,844][98493] Updated weights for policy 0, policy_version 589024 (0.0007)
+[2023-07-06 13:43:06,993][98493] Updated weights for policy 0, policy_version 589072 (0.0006)
+[2023-07-06 13:43:07,506][98493] Updated weights for policy 0, policy_version 589125 (0.0007)
+[2023-07-06 13:43:08,103][98493] Updated weights for policy 0, policy_version 589186 (0.0007)
+[2023-07-06 13:43:08,563][98493] Updated weights for policy 0, policy_version 589245 (0.0007)
+[2023-07-06 13:43:09,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113055.9, 300 sec: 111300.1). Total num frames: 1206779904. Throughput: 0: 27875.5. Samples: 301715456. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:09,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:43:10,882][98493] Updated weights for policy 0, policy_version 589306 (0.0007)
+[2023-07-06 13:43:11,727][98449] Signal inference workers to stop experience collection... (30500 times)
+[2023-07-06 13:43:11,773][98493] InferenceWorker_p0-w0: stopping experience collection (30500 times)
+[2023-07-06 13:43:11,806][98449] Signal inference workers to resume experience collection... (30500 times)
+[2023-07-06 13:43:11,807][98493] InferenceWorker_p0-w0: resuming experience collection (30500 times)
+[2023-07-06 13:43:12,084][98493] Updated weights for policy 0, policy_version 589371 (0.0007)
+[2023-07-06 13:43:12,511][98493] Updated weights for policy 0, policy_version 589415 (0.0009)
+[2023-07-06 13:43:13,014][98493] Updated weights for policy 0, policy_version 589460 (0.0007)
+[2023-07-06 13:43:14,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111412.6, 300 sec: 111078.0). Total num frames: 1207304192. Throughput: 0: 27784.7. Samples: 301878784. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:14,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:43:15,423][98493] Updated weights for policy 0, policy_version 589528 (0.0007)
+[2023-07-06 13:43:16,344][98493] Updated weights for policy 0, policy_version 589573 (0.0007)
+[2023-07-06 13:43:16,829][98493] Updated weights for policy 0, policy_version 589632 (0.0009)
+[2023-07-06 13:43:17,282][98493] Updated weights for policy 0, policy_version 589686 (0.0007)
+[2023-07-06 13:43:17,856][98493] Updated weights for policy 0, policy_version 589730 (0.0007)
+[2023-07-06 13:43:19,740][98493] Updated weights for policy 0, policy_version 589763 (0.0006)
+[2023-07-06 13:43:19,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110865.8, 300 sec: 110966.9). Total num frames: 1207828480. Throughput: 0: 28023.4. Samples: 302051840. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:19,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:43:20,187][98493] Updated weights for policy 0, policy_version 589821 (0.0008)
+[2023-07-06 13:43:21,464][98493] Updated weights for policy 0, policy_version 589876 (0.0008)
+[2023-07-06 13:43:22,032][98493] Updated weights for policy 0, policy_version 589947 (0.0008)
+[2023-07-06 13:43:22,833][98493] Updated weights for policy 0, policy_version 590009 (0.0008)
+[2023-07-06 13:43:24,764][98243] Fps is (10 sec: 108133.6, 60 sec: 110318.8, 300 sec: 110855.8). Total num frames: 1208385536. Throughput: 0: 27659.4. Samples: 302127104. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:24,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:43:24,995][98493] Updated weights for policy 0, policy_version 590064 (0.0006)
+[2023-07-06 13:43:26,173][98493] Updated weights for policy 0, policy_version 590112 (0.0006)
+[2023-07-06 13:43:26,731][98493] Updated weights for policy 0, policy_version 590176 (0.0008)
+[2023-07-06 13:43:27,159][98493] Updated weights for policy 0, policy_version 590224 (0.0007)
+[2023-07-06 13:43:29,248][98493] Updated weights for policy 0, policy_version 590275 (0.0007)
+[2023-07-06 13:43:29,363][98449] Signal inference workers to stop experience collection... (30550 times)
+[2023-07-06 13:43:29,408][98493] InferenceWorker_p0-w0: stopping experience collection (30550 times)
+[2023-07-06 13:43:29,450][98449] Signal inference workers to resume experience collection... (30550 times)
+[2023-07-06 13:43:29,450][98493] InferenceWorker_p0-w0: resuming experience collection (30550 times)
+[2023-07-06 13:43:29,729][98493] Updated weights for policy 0, policy_version 590336 (0.0008)
+[2023-07-06 13:43:29,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.8, 300 sec: 111078.0). Total num frames: 1209008128. Throughput: 0: 27784.5. Samples: 302298112. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:43:31,019][98493] Updated weights for policy 0, policy_version 590384 (0.0006)
+[2023-07-06 13:43:31,597][98493] Updated weights for policy 0, policy_version 590448 (0.0008)
+[2023-07-06 13:43:32,174][98493] Updated weights for policy 0, policy_version 590512 (0.0007)
+[2023-07-06 13:43:34,075][98493] Updated weights for policy 0, policy_version 590576 (0.0007)
+[2023-07-06 13:43:34,764][98243] Fps is (10 sec: 114688.5, 60 sec: 110318.8, 300 sec: 110966.9). Total num frames: 1209532416. Throughput: 0: 27830.0. Samples: 302464512. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:34,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:43:35,615][98493] Updated weights for policy 0, policy_version 590629 (0.0007)
+[2023-07-06 13:43:36,174][98493] Updated weights for policy 0, policy_version 590672 (0.0007)
+[2023-07-06 13:43:36,724][98493] Updated weights for policy 0, policy_version 590736 (0.0007)
+[2023-07-06 13:43:37,151][98493] Updated weights for policy 0, policy_version 590783 (0.0006)
+[2023-07-06 13:43:39,001][98493] Updated weights for policy 0, policy_version 590839 (0.0008)
+[2023-07-06 13:43:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 109226.9, 300 sec: 110855.8). Total num frames: 1210056704. Throughput: 0: 27602.5. Samples: 302545920. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:39,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:43:40,205][98493] Updated weights for policy 0, policy_version 590884 (0.0008)
+[2023-07-06 13:43:40,639][98493] Updated weights for policy 0, policy_version 590932 (0.0030)
+[2023-07-06 13:43:41,278][98493] Updated weights for policy 0, policy_version 590992 (0.0006)
+[2023-07-06 13:43:41,693][98493] Updated weights for policy 0, policy_version 591040 (0.0007)
+[2023-07-06 13:43:43,912][98493] Updated weights for policy 0, policy_version 591099 (0.0007)
+[2023-07-06 13:43:44,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110319.0, 300 sec: 110855.8). Total num frames: 1210646528. Throughput: 0: 27818.7. Samples: 302717952. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:44,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:43:44,925][98493] Updated weights for policy 0, policy_version 591162 (0.0007)
+[2023-07-06 13:43:45,517][98493] Updated weights for policy 0, policy_version 591217 (0.0007)
+[2023-07-06 13:43:46,328][98449] Signal inference workers to stop experience collection... (30600 times)
+[2023-07-06 13:43:46,356][98493] Updated weights for policy 0, policy_version 591268 (0.0007)
+[2023-07-06 13:43:46,367][98493] InferenceWorker_p0-w0: stopping experience collection (30600 times)
+[2023-07-06 13:43:46,423][98449] Signal inference workers to resume experience collection... (30600 times)
+[2023-07-06 13:43:46,423][98493] InferenceWorker_p0-w0: resuming experience collection (30600 times)
+[2023-07-06 13:43:48,064][98493] Updated weights for policy 0, policy_version 591298 (0.0006)
+[2023-07-06 13:43:48,464][98493] Updated weights for policy 0, policy_version 591350 (0.0008)
+[2023-07-06 13:43:49,154][98493] Updated weights for policy 0, policy_version 591392 (0.0007)
+[2023-07-06 13:43:49,764][98243] Fps is (10 sec: 117964.6, 60 sec: 109226.5, 300 sec: 111078.0). Total num frames: 1211236352. Throughput: 0: 27864.2. Samples: 302885376. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:49,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:43:50,168][98493] Updated weights for policy 0, policy_version 591449 (0.0007)
+[2023-07-06 13:43:50,770][98493] Updated weights for policy 0, policy_version 591489 (0.0007)
+[2023-07-06 13:43:52,865][98493] Updated weights for policy 0, policy_version 591553 (0.0007)
+[2023-07-06 13:43:53,483][98493] Updated weights for policy 0, policy_version 591618 (0.0008)
+[2023-07-06 13:43:53,921][98493] Updated weights for policy 0, policy_version 591672 (0.0007)
+[2023-07-06 13:43:54,764][98243] Fps is (10 sec: 114686.6, 60 sec: 109772.7, 300 sec: 111189.0). Total num frames: 1211793408. Throughput: 0: 27898.3. Samples: 302970880. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:54,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:43:54,898][98493] Updated weights for policy 0, policy_version 591720 (0.0007)
+[2023-07-06 13:43:55,505][98493] Updated weights for policy 0, policy_version 591766 (0.0007)
+[2023-07-06 13:43:57,750][98493] Updated weights for policy 0, policy_version 591840 (0.0007)
+[2023-07-06 13:43:58,114][98493] Updated weights for policy 0, policy_version 591873 (0.0006)
+[2023-07-06 13:43:58,554][98493] Updated weights for policy 0, policy_version 591928 (0.0008)
+[2023-07-06 13:43:59,528][98493] Updated weights for policy 0, policy_version 591974 (0.0007)
+[2023-07-06 13:43:59,764][98243] Fps is (10 sec: 117965.0, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1212416000. Throughput: 0: 27932.4. Samples: 303135744. Policy #0 lag: (min: 1.0, avg: 70.4, max: 257.0)
+[2023-07-06 13:43:59,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:44:00,294][98493] Updated weights for policy 0, policy_version 592001 (0.0006)
+[2023-07-06 13:44:00,735][98493] Updated weights for policy 0, policy_version 592056 (0.0007)
+[2023-07-06 13:44:02,495][98493] Updated weights for policy 0, policy_version 592102 (0.0007)
+[2023-07-06 13:44:02,949][98493] Updated weights for policy 0, policy_version 592153 (0.0008)
+[2023-07-06 13:44:03,237][98493] Updated weights for policy 0, policy_version 592187 (0.0006)
+[2023-07-06 13:44:04,036][98493] Updated weights for policy 0, policy_version 592225 (0.0007)
+[2023-07-06 13:44:04,764][98243] Fps is (10 sec: 114688.5, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1212940288. Throughput: 0: 27864.2. Samples: 303305728. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:04,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:44:05,392][98493] Updated weights for policy 0, policy_version 592288 (0.0007)
+[2023-07-06 13:44:05,456][98449] Signal inference workers to stop experience collection... (30650 times)
+[2023-07-06 13:44:05,479][98493] InferenceWorker_p0-w0: stopping experience collection (30650 times)
+[2023-07-06 13:44:05,547][98449] Signal inference workers to resume experience collection... (30650 times)
+[2023-07-06 13:44:05,547][98493] InferenceWorker_p0-w0: resuming experience collection (30650 times)
+[2023-07-06 13:44:06,874][98493] Updated weights for policy 0, policy_version 592340 (0.0006)
+[2023-07-06 13:44:07,482][98493] Updated weights for policy 0, policy_version 592409 (0.0008)
+[2023-07-06 13:44:08,336][98493] Updated weights for policy 0, policy_version 592450 (0.0008)
+[2023-07-06 13:44:08,752][98493] Updated weights for policy 0, policy_version 592509 (0.0007)
+[2023-07-06 13:44:09,764][98243] Fps is (10 sec: 104855.3, 60 sec: 111410.8, 300 sec: 111522.3). Total num frames: 1213464576. Throughput: 0: 28023.4. Samples: 303388160. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:09,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:44:10,201][98493] Updated weights for policy 0, policy_version 592561 (0.0007)
+[2023-07-06 13:44:11,619][98493] Updated weights for policy 0, policy_version 592599 (0.0007)
+[2023-07-06 13:44:12,101][98493] Updated weights for policy 0, policy_version 592656 (0.0008)
+[2023-07-06 13:44:13,112][98493] Updated weights for policy 0, policy_version 592705 (0.0007)
+[2023-07-06 13:44:13,542][98493] Updated weights for policy 0, policy_version 592759 (0.0007)
+[2023-07-06 13:44:14,652][98493] Updated weights for policy 0, policy_version 592804 (0.0007)
+[2023-07-06 13:44:14,764][98243] Fps is (10 sec: 114688.4, 60 sec: 113049.6, 300 sec: 111744.4). Total num frames: 1214087168. Throughput: 0: 28000.7. Samples: 303558144. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:44:16,293][98493] Updated weights for policy 0, policy_version 592854 (0.0006)
+[2023-07-06 13:44:16,766][98493] Updated weights for policy 0, policy_version 592912 (0.0007)
+[2023-07-06 13:44:17,208][98493] Updated weights for policy 0, policy_version 592960 (0.0007)
+[2023-07-06 13:44:18,160][98493] Updated weights for policy 0, policy_version 593024 (0.0007)
+[2023-07-06 13:44:19,519][98493] Updated weights for policy 0, policy_version 593080 (0.0006)
+[2023-07-06 13:44:19,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113595.7, 300 sec: 111633.5). Total num frames: 1214644224. Throughput: 0: 28069.0. Samples: 303727616. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:19,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:44:21,106][98493] Updated weights for policy 0, policy_version 593120 (0.0007)
+[2023-07-06 13:44:21,612][98493] Updated weights for policy 0, policy_version 593177 (0.0007)
+[2023-07-06 13:44:21,890][98493] Updated weights for policy 0, policy_version 593214 (0.0008)
+[2023-07-06 13:44:22,951][98493] Updated weights for policy 0, policy_version 593275 (0.0007)
+[2023-07-06 13:44:23,647][98449] Signal inference workers to stop experience collection... (30700 times)
+[2023-07-06 13:44:23,677][98493] InferenceWorker_p0-w0: stopping experience collection (30700 times)
+[2023-07-06 13:44:23,730][98449] Signal inference workers to resume experience collection... (30700 times)
+[2023-07-06 13:44:23,730][98493] InferenceWorker_p0-w0: resuming experience collection (30700 times)
+[2023-07-06 13:44:23,960][98493] Updated weights for policy 0, policy_version 593314 (0.0007)
+[2023-07-06 13:44:24,764][98243] Fps is (10 sec: 108133.9, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 1215168512. Throughput: 0: 28137.2. Samples: 303812096. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:24,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:44:24,780][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000593344_1215168512.pth...
+[2023-07-06 13:44:24,813][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000580288_1188429824.pth
+[2023-07-06 13:44:25,716][98493] Updated weights for policy 0, policy_version 593376 (0.0007)
+[2023-07-06 13:44:26,113][98493] Updated weights for policy 0, policy_version 593416 (0.0007)
+[2023-07-06 13:44:26,521][98493] Updated weights for policy 0, policy_version 593466 (0.0007)
+[2023-07-06 13:44:27,535][98493] Updated weights for policy 0, policy_version 593520 (0.0007)
+[2023-07-06 13:44:28,419][98493] Updated weights for policy 0, policy_version 593568 (0.0007)
+[2023-07-06 13:44:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1215692800. Throughput: 0: 28080.3. Samples: 303981568. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:29,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:44:30,120][98493] Updated weights for policy 0, policy_version 593603 (0.0008)
+[2023-07-06 13:44:30,724][98493] Updated weights for policy 0, policy_version 593680 (0.0009)
+[2023-07-06 13:44:32,092][98493] Updated weights for policy 0, policy_version 593751 (0.0008)
+[2023-07-06 13:44:33,021][98493] Updated weights for policy 0, policy_version 593808 (0.0009)
+[2023-07-06 13:44:34,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111410.9, 300 sec: 111522.3). Total num frames: 1216217088. Throughput: 0: 28137.1. Samples: 304151552. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:34,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:44:34,873][98493] Updated weights for policy 0, policy_version 593860 (0.0008)
+[2023-07-06 13:44:35,353][98493] Updated weights for policy 0, policy_version 593920 (0.0006)
+[2023-07-06 13:44:35,731][98493] Updated weights for policy 0, policy_version 593957 (0.0006)
+[2023-07-06 13:44:36,916][98493] Updated weights for policy 0, policy_version 594016 (0.0008)
+[2023-07-06 13:44:37,760][98493] Updated weights for policy 0, policy_version 594066 (0.0006)
+[2023-07-06 13:44:38,083][98493] Updated weights for policy 0, policy_version 594109 (0.0006)
+[2023-07-06 13:44:39,730][98493] Updated weights for policy 0, policy_version 594160 (0.0007)
+[2023-07-06 13:44:39,764][98243] Fps is (10 sec: 114685.0, 60 sec: 113049.1, 300 sec: 111633.3). Total num frames: 1216839680. Throughput: 0: 28080.3. Samples: 304234496. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:44:40,135][98493] Updated weights for policy 0, policy_version 594196 (0.0011)
+[2023-07-06 13:44:41,392][98493] Updated weights for policy 0, policy_version 594256 (0.0007)
+[2023-07-06 13:44:41,440][98449] Signal inference workers to stop experience collection... (30750 times)
+[2023-07-06 13:44:41,477][98493] InferenceWorker_p0-w0: stopping experience collection (30750 times)
+[2023-07-06 13:44:41,518][98449] Signal inference workers to resume experience collection... (30750 times)
+[2023-07-06 13:44:41,518][98493] InferenceWorker_p0-w0: resuming experience collection (30750 times)
+[2023-07-06 13:44:41,793][98493] Updated weights for policy 0, policy_version 594304 (0.0007)
+[2023-07-06 13:44:42,926][98493] Updated weights for policy 0, policy_version 594352 (0.0008)
+[2023-07-06 13:44:44,094][98493] Updated weights for policy 0, policy_version 594400 (0.0006)
+[2023-07-06 13:44:44,693][98493] Updated weights for policy 0, policy_version 594466 (0.0007)
+[2023-07-06 13:44:44,764][98243] Fps is (10 sec: 124521.4, 60 sec: 113595.8, 300 sec: 111744.5). Total num frames: 1217462272. Throughput: 0: 28228.3. Samples: 304406016. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:44,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:44:46,212][98493] Updated weights for policy 0, policy_version 594515 (0.0007)
+[2023-07-06 13:44:47,325][98493] Updated weights for policy 0, policy_version 594584 (0.0007)
+[2023-07-06 13:44:48,576][98493] Updated weights for policy 0, policy_version 594640 (0.0007)
+[2023-07-06 13:44:49,010][98493] Updated weights for policy 0, policy_version 594688 (0.0007)
+[2023-07-06 13:44:49,595][98493] Updated weights for policy 0, policy_version 594746 (0.0007)
+[2023-07-06 13:44:49,764][98243] Fps is (10 sec: 121244.5, 60 sec: 113595.7, 300 sec: 111855.5). Total num frames: 1218052096. Throughput: 0: 28091.8. Samples: 304569856. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:44:50,981][98493] Updated weights for policy 0, policy_version 594791 (0.0007)
+[2023-07-06 13:44:52,064][98493] Updated weights for policy 0, policy_version 594853 (0.0007)
+[2023-07-06 13:44:53,439][98493] Updated weights for policy 0, policy_version 594939 (0.0008)
+[2023-07-06 13:44:54,114][98493] Updated weights for policy 0, policy_version 594983 (0.0006)
+[2023-07-06 13:44:54,764][98243] Fps is (10 sec: 111409.5, 60 sec: 113049.6, 300 sec: 111744.4). Total num frames: 1218576384. Throughput: 0: 28217.0. Samples: 304657920. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:54,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:44:55,645][98493] Updated weights for policy 0, policy_version 595034 (0.0007)
+[2023-07-06 13:44:55,920][98493] Updated weights for policy 0, policy_version 595069 (0.0007)
+[2023-07-06 13:44:56,793][98493] Updated weights for policy 0, policy_version 595120 (0.0007)
+[2023-07-06 13:44:58,001][98493] Updated weights for policy 0, policy_version 595169 (0.0008)
+[2023-07-06 13:44:58,503][98493] Updated weights for policy 0, policy_version 595232 (0.0008)
+[2023-07-06 13:44:59,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.2, 300 sec: 111633.5). Total num frames: 1219100672. Throughput: 0: 28069.0. Samples: 304821248. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:44:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:45:00,444][98493] Updated weights for policy 0, policy_version 595270 (0.0007)
+[2023-07-06 13:45:00,527][98449] Signal inference workers to stop experience collection... (30800 times)
+[2023-07-06 13:45:00,574][98493] InferenceWorker_p0-w0: stopping experience collection (30800 times)
+[2023-07-06 13:45:00,624][98449] Signal inference workers to resume experience collection... (30800 times)
+[2023-07-06 13:45:00,624][98493] InferenceWorker_p0-w0: resuming experience collection (30800 times)
+[2023-07-06 13:45:00,856][98493] Updated weights for policy 0, policy_version 595325 (0.0007)
+[2023-07-06 13:45:01,737][98493] Updated weights for policy 0, policy_version 595387 (0.0007)
+[2023-07-06 13:45:02,874][98493] Updated weights for policy 0, policy_version 595440 (0.0007)
+[2023-07-06 13:45:03,404][98493] Updated weights for policy 0, policy_version 595495 (0.0007)
+[2023-07-06 13:45:04,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1219624960. Throughput: 0: 28114.5. Samples: 304992768. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:04,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:45:05,128][98493] Updated weights for policy 0, policy_version 595536 (0.0007)
+[2023-07-06 13:45:05,497][98493] Updated weights for policy 0, policy_version 595581 (0.0007)
+[2023-07-06 13:45:06,372][98493] Updated weights for policy 0, policy_version 595632 (0.0008)
+[2023-07-06 13:45:07,188][98493] Updated weights for policy 0, policy_version 595686 (0.0007)
+[2023-07-06 13:45:07,782][98493] Updated weights for policy 0, policy_version 595760 (0.0007)
+[2023-07-06 13:45:09,764][98243] Fps is (10 sec: 104857.0, 60 sec: 111411.5, 300 sec: 111300.2). Total num frames: 1220149248. Throughput: 0: 27989.3. Samples: 305071616. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:09,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:45:10,349][98493] Updated weights for policy 0, policy_version 595818 (0.0008)
+[2023-07-06 13:45:10,859][98493] Updated weights for policy 0, policy_version 595860 (0.0008)
+[2023-07-06 13:45:11,478][98493] Updated weights for policy 0, policy_version 595905 (0.0006)
+[2023-07-06 13:45:11,860][98493] Updated weights for policy 0, policy_version 595952 (0.0006)
+[2023-07-06 13:45:12,469][98493] Updated weights for policy 0, policy_version 596026 (0.0007)
+[2023-07-06 13:45:14,764][98243] Fps is (10 sec: 104858.5, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 1220673536. Throughput: 0: 28091.7. Samples: 305245696. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:14,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:45:15,046][98493] Updated weights for policy 0, policy_version 596069 (0.0007)
+[2023-07-06 13:45:15,642][98493] Updated weights for policy 0, policy_version 596144 (0.0007)
+[2023-07-06 13:45:15,928][98493] Updated weights for policy 0, policy_version 596161 (0.0007)
+[2023-07-06 13:45:16,312][98493] Updated weights for policy 0, policy_version 596208 (0.0007)
+[2023-07-06 13:45:17,158][98449] Signal inference workers to stop experience collection... (30850 times)
+[2023-07-06 13:45:17,180][98493] InferenceWorker_p0-w0: stopping experience collection (30850 times)
+[2023-07-06 13:45:17,181][98493] Updated weights for policy 0, policy_version 596243 (0.0006)
+[2023-07-06 13:45:17,244][98449] Signal inference workers to resume experience collection... (30850 times)
+[2023-07-06 13:45:17,244][98493] InferenceWorker_p0-w0: resuming experience collection (30850 times)
+[2023-07-06 13:45:19,534][98493] Updated weights for policy 0, policy_version 596304 (0.0007)
+[2023-07-06 13:45:19,764][98243] Fps is (10 sec: 111410.0, 60 sec: 110318.6, 300 sec: 111300.1). Total num frames: 1221263360. Throughput: 0: 28103.1. Samples: 305416192. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:45:20,054][98493] Updated weights for policy 0, policy_version 596360 (0.0007)
+[2023-07-06 13:45:20,506][98493] Updated weights for policy 0, policy_version 596408 (0.0006)
+[2023-07-06 13:45:20,990][98493] Updated weights for policy 0, policy_version 596455 (0.0009)
+[2023-07-06 13:45:21,854][98493] Updated weights for policy 0, policy_version 596512 (0.0007)
+[2023-07-06 13:45:24,176][98493] Updated weights for policy 0, policy_version 596569 (0.0007)
+[2023-07-06 13:45:24,765][98243] Fps is (10 sec: 117961.0, 60 sec: 111410.7, 300 sec: 111522.2). Total num frames: 1221853184. Throughput: 0: 28046.2. Samples: 305496576. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:24,766][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:45:25,075][98493] Updated weights for policy 0, policy_version 596630 (0.0007)
+[2023-07-06 13:45:25,778][98493] Updated weights for policy 0, policy_version 596708 (0.0009)
+[2023-07-06 13:45:26,657][98493] Updated weights for policy 0, policy_version 596772 (0.0007)
+[2023-07-06 13:45:29,097][98493] Updated weights for policy 0, policy_version 596832 (0.0007)
+[2023-07-06 13:45:29,359][98493] Updated weights for policy 0, policy_version 596864 (0.0006)
+[2023-07-06 13:45:29,764][98243] Fps is (10 sec: 111411.1, 60 sec: 111410.8, 300 sec: 111522.2). Total num frames: 1222377472. Throughput: 0: 27909.5. Samples: 305661952. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:29,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:45:30,175][98493] Updated weights for policy 0, policy_version 596912 (0.0006)
+[2023-07-06 13:45:30,700][98493] Updated weights for policy 0, policy_version 596966 (0.0007)
+[2023-07-06 13:45:31,251][98493] Updated weights for policy 0, policy_version 597008 (0.0007)
+[2023-07-06 13:45:33,562][98493] Updated weights for policy 0, policy_version 597059 (0.0006)
+[2023-07-06 13:45:34,015][98493] Updated weights for policy 0, policy_version 597115 (0.0007)
+[2023-07-06 13:45:34,696][98493] Updated weights for policy 0, policy_version 597168 (0.0007)
+[2023-07-06 13:45:34,764][98243] Fps is (10 sec: 114691.5, 60 sec: 113049.9, 300 sec: 111855.5). Total num frames: 1223000064. Throughput: 0: 27989.3. Samples: 305829376. Policy #0 lag: (min: 5.0, avg: 96.5, max: 261.0)
+[2023-07-06 13:45:34,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 13:45:35,051][98449] Signal inference workers to stop experience collection... (30900 times)
+[2023-07-06 13:45:35,086][98493] InferenceWorker_p0-w0: stopping experience collection (30900 times)
+[2023-07-06 13:45:35,126][98449] Signal inference workers to resume experience collection... (30900 times)
+[2023-07-06 13:45:35,126][98493] InferenceWorker_p0-w0: resuming experience collection (30900 times)
+[2023-07-06 13:45:35,213][98493] Updated weights for policy 0, policy_version 597220 (0.0008)
+[2023-07-06 13:45:36,127][98493] Updated weights for policy 0, policy_version 597270 (0.0011)
+[2023-07-06 13:45:38,322][98493] Updated weights for policy 0, policy_version 597328 (0.0006)
+[2023-07-06 13:45:38,726][98493] Updated weights for policy 0, policy_version 597376 (0.0006)
+[2023-07-06 13:45:39,405][98493] Updated weights for policy 0, policy_version 597426 (0.0006)
+[2023-07-06 13:45:39,764][98243] Fps is (10 sec: 121243.8, 60 sec: 112503.9, 300 sec: 111633.4). Total num frames: 1223589888. Throughput: 0: 27898.4. Samples: 305913344. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:45:39,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:45:39,915][98493] Updated weights for policy 0, policy_version 597488 (0.0007)
+[2023-07-06 13:45:41,113][98493] Updated weights for policy 0, policy_version 597552 (0.0007)
+[2023-07-06 13:45:43,198][98493] Updated weights for policy 0, policy_version 597616 (0.0008)
+[2023-07-06 13:45:43,590][98493] Updated weights for policy 0, policy_version 597640 (0.0007)
+[2023-07-06 13:45:44,041][98493] Updated weights for policy 0, policy_version 597696 (0.0008)
+[2023-07-06 13:45:44,535][98493] Updated weights for policy 0, policy_version 597754 (0.0007)
+[2023-07-06 13:45:44,764][98243] Fps is (10 sec: 121240.9, 60 sec: 112503.2, 300 sec: 111966.6). Total num frames: 1224212480. Throughput: 0: 27977.9. Samples: 306080256. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:45:44,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:45:46,151][98493] Updated weights for policy 0, policy_version 597824 (0.0007)
+[2023-07-06 13:45:47,856][98493] Updated weights for policy 0, policy_version 597884 (0.0006)
+[2023-07-06 13:45:48,513][98493] Updated weights for policy 0, policy_version 597936 (0.0008)
+[2023-07-06 13:45:49,037][98493] Updated weights for policy 0, policy_version 597989 (0.0007)
+[2023-07-06 13:45:49,764][98243] Fps is (10 sec: 114687.7, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1224736768. Throughput: 0: 27818.7. Samples: 306244608. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:45:49,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:45:51,115][98493] Updated weights for policy 0, policy_version 598064 (0.0007)
+[2023-07-06 13:45:52,104][98493] Updated weights for policy 0, policy_version 598112 (0.0007)
+[2023-07-06 13:45:53,087][98493] Updated weights for policy 0, policy_version 598168 (0.0008)
+[2023-07-06 13:45:53,358][98449] Signal inference workers to stop experience collection... (30950 times)
+[2023-07-06 13:45:53,399][98493] InferenceWorker_p0-w0: stopping experience collection (30950 times)
+[2023-07-06 13:45:53,449][98449] Signal inference workers to resume experience collection... (30950 times)
+[2023-07-06 13:45:53,449][98493] InferenceWorker_p0-w0: resuming experience collection (30950 times)
+[2023-07-06 13:45:53,675][98493] Updated weights for policy 0, policy_version 598232 (0.0007)
+[2023-07-06 13:45:54,017][98493] Updated weights for policy 0, policy_version 598272 (0.0007)
+[2023-07-06 13:45:54,764][98243] Fps is (10 sec: 104855.7, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 1225261056. Throughput: 0: 28012.0. Samples: 306332160. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:45:54,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:45:56,009][98493] Updated weights for policy 0, policy_version 598330 (0.0007)
+[2023-07-06 13:45:56,949][98493] Updated weights for policy 0, policy_version 598373 (0.0007)
+[2023-07-06 13:45:57,701][98493] Updated weights for policy 0, policy_version 598425 (0.0007)
+[2023-07-06 13:45:58,250][98493] Updated weights for policy 0, policy_version 598486 (0.0008)
+[2023-07-06 13:45:58,565][98493] Updated weights for policy 0, policy_version 598527 (0.0006)
+[2023-07-06 13:45:59,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1225785344. Throughput: 0: 27727.6. Samples: 306493440. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:45:59,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:46:00,654][98493] Updated weights for policy 0, policy_version 598584 (0.0015)
+[2023-07-06 13:46:01,600][98493] Updated weights for policy 0, policy_version 598631 (0.0007)
+[2023-07-06 13:46:02,487][98493] Updated weights for policy 0, policy_version 598680 (0.0008)
+[2023-07-06 13:46:02,898][98493] Updated weights for policy 0, policy_version 598723 (0.0008)
+[2023-07-06 13:46:03,359][98493] Updated weights for policy 0, policy_version 598782 (0.0007)
+[2023-07-06 13:46:04,765][98243] Fps is (10 sec: 104856.8, 60 sec: 111410.8, 300 sec: 111522.2). Total num frames: 1226309632. Throughput: 0: 27864.1. Samples: 306670080. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:46:05,300][98493] Updated weights for policy 0, policy_version 598842 (0.0007)
+[2023-07-06 13:46:06,255][98493] Updated weights for policy 0, policy_version 598896 (0.0008)
+[2023-07-06 13:46:07,018][98493] Updated weights for policy 0, policy_version 598932 (0.0007)
+[2023-07-06 13:46:07,569][98493] Updated weights for policy 0, policy_version 598994 (0.0007)
+[2023-07-06 13:46:09,596][98493] Updated weights for policy 0, policy_version 599056 (0.0007)
+[2023-07-06 13:46:09,764][98243] Fps is (10 sec: 108134.1, 60 sec: 111957.4, 300 sec: 111633.3). Total num frames: 1226866688. Throughput: 0: 27818.8. Samples: 306748416. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:09,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:46:10,077][98493] Updated weights for policy 0, policy_version 599104 (0.0007)
+[2023-07-06 13:46:11,071][98493] Updated weights for policy 0, policy_version 599163 (0.0008)
+[2023-07-06 13:46:11,631][98449] Signal inference workers to stop experience collection... (31000 times)
+[2023-07-06 13:46:11,678][98493] InferenceWorker_p0-w0: stopping experience collection (31000 times)
+[2023-07-06 13:46:11,728][98449] Signal inference workers to resume experience collection... (31000 times)
+[2023-07-06 13:46:11,728][98493] InferenceWorker_p0-w0: resuming experience collection (31000 times)
+[2023-07-06 13:46:11,942][98493] Updated weights for policy 0, policy_version 599221 (0.0006)
+[2023-07-06 13:46:12,513][98493] Updated weights for policy 0, policy_version 599291 (0.0007)
+[2023-07-06 13:46:14,593][98493] Updated weights for policy 0, policy_version 599352 (0.0007)
+[2023-07-06 13:46:14,764][98243] Fps is (10 sec: 117967.5, 60 sec: 113595.5, 300 sec: 111633.3). Total num frames: 1227489280. Throughput: 0: 27921.1. Samples: 306918400. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:46:15,738][98493] Updated weights for policy 0, policy_version 599395 (0.0007)
+[2023-07-06 13:46:16,267][98493] Updated weights for policy 0, policy_version 599427 (0.0006)
+[2023-07-06 13:46:16,763][98493] Updated weights for policy 0, policy_version 599488 (0.0007)
+[2023-07-06 13:46:17,272][98493] Updated weights for policy 0, policy_version 599548 (0.0007)
+[2023-07-06 13:46:19,238][98493] Updated weights for policy 0, policy_version 599612 (0.0008)
+[2023-07-06 13:46:19,764][98243] Fps is (10 sec: 114688.1, 60 sec: 112503.8, 300 sec: 111411.2). Total num frames: 1228013568. Throughput: 0: 27955.2. Samples: 307087360. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:19,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:46:20,587][98493] Updated weights for policy 0, policy_version 599666 (0.0006)
+[2023-07-06 13:46:20,971][98493] Updated weights for policy 0, policy_version 599696 (0.0007)
+[2023-07-06 13:46:21,414][98493] Updated weights for policy 0, policy_version 599744 (0.0007)
+[2023-07-06 13:46:21,855][98493] Updated weights for policy 0, policy_version 599793 (0.0007)
+[2023-07-06 13:46:23,681][98493] Updated weights for policy 0, policy_version 599824 (0.0006)
+[2023-07-06 13:46:24,140][98493] Updated weights for policy 0, policy_version 599872 (0.0006)
+[2023-07-06 13:46:24,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.7, 300 sec: 111078.0). Total num frames: 1228537856. Throughput: 0: 27989.3. Samples: 307172864. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:24,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:46:24,941][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000599904_1228603392.pth...
+[2023-07-06 13:46:25,011][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000586816_1201799168.pth
+[2023-07-06 13:46:25,199][98493] Updated weights for policy 0, policy_version 599933 (0.0007)
+[2023-07-06 13:46:25,891][98493] Updated weights for policy 0, policy_version 599992 (0.0007)
+[2023-07-06 13:46:26,349][98493] Updated weights for policy 0, policy_version 600032 (0.0008)
+[2023-07-06 13:46:28,606][98493] Updated weights for policy 0, policy_version 600096 (0.0007)
+[2023-07-06 13:46:29,382][98493] Updated weights for policy 0, policy_version 600144 (0.0006)
+[2023-07-06 13:46:29,543][98449] Signal inference workers to stop experience collection... (31050 times)
+[2023-07-06 13:46:29,573][98493] InferenceWorker_p0-w0: stopping experience collection (31050 times)
+[2023-07-06 13:46:29,648][98449] Signal inference workers to resume experience collection... (31050 times)
+[2023-07-06 13:46:29,649][98493] InferenceWorker_p0-w0: resuming experience collection (31050 times)
+[2023-07-06 13:46:29,764][98243] Fps is (10 sec: 117965.5, 60 sec: 113596.2, 300 sec: 111522.3). Total num frames: 1229193216. Throughput: 0: 28012.2. Samples: 307340800. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:29,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:46:30,263][98493] Updated weights for policy 0, policy_version 600195 (0.0007)
+[2023-07-06 13:46:30,736][98493] Updated weights for policy 0, policy_version 600256 (0.0006)
+[2023-07-06 13:46:31,422][98493] Updated weights for policy 0, policy_version 600315 (0.0006)
+[2023-07-06 13:46:33,387][98493] Updated weights for policy 0, policy_version 600377 (0.0007)
+[2023-07-06 13:46:34,439][98493] Updated weights for policy 0, policy_version 600432 (0.0007)
+[2023-07-06 13:46:34,764][98243] Fps is (10 sec: 117963.6, 60 sec: 111957.1, 300 sec: 111522.2). Total num frames: 1229717504. Throughput: 0: 28046.2. Samples: 307506688. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:46:35,101][98493] Updated weights for policy 0, policy_version 600485 (0.0007)
+[2023-07-06 13:46:35,763][98493] Updated weights for policy 0, policy_version 600549 (0.0006)
+[2023-07-06 13:46:37,932][98493] Updated weights for policy 0, policy_version 600608 (0.0007)
+[2023-07-06 13:46:38,955][98493] Updated weights for policy 0, policy_version 600657 (0.0007)
+[2023-07-06 13:46:39,353][98493] Updated weights for policy 0, policy_version 600703 (0.0007)
+[2023-07-06 13:46:39,764][98243] Fps is (10 sec: 111410.7, 60 sec: 111957.4, 300 sec: 111744.5). Total num frames: 1230307328. Throughput: 0: 28046.4. Samples: 307594240. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:46:39,769][98493] Updated weights for policy 0, policy_version 600752 (0.0008)
+[2023-07-06 13:46:40,287][98493] Updated weights for policy 0, policy_version 600803 (0.0007)
+[2023-07-06 13:46:42,356][98493] Updated weights for policy 0, policy_version 600864 (0.0006)
+[2023-07-06 13:46:43,691][98493] Updated weights for policy 0, policy_version 600928 (0.0007)
+[2023-07-06 13:46:44,123][98493] Updated weights for policy 0, policy_version 600963 (0.0008)
+[2023-07-06 13:46:44,592][98493] Updated weights for policy 0, policy_version 601024 (0.0007)
+[2023-07-06 13:46:44,764][98243] Fps is (10 sec: 117965.6, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 1230897152. Throughput: 0: 28205.5. Samples: 307762688. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:44,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:46:46,900][98493] Updated weights for policy 0, policy_version 601095 (0.0007)
+[2023-07-06 13:46:47,323][98493] Updated weights for policy 0, policy_version 601150 (0.0007)
+[2023-07-06 13:46:48,139][98449] Signal inference workers to stop experience collection... (31100 times)
+[2023-07-06 13:46:48,179][98493] InferenceWorker_p0-w0: stopping experience collection (31100 times)
+[2023-07-06 13:46:48,246][98449] Signal inference workers to resume experience collection... (31100 times)
+[2023-07-06 13:46:48,246][98493] InferenceWorker_p0-w0: resuming experience collection (31100 times)
+[2023-07-06 13:46:48,338][98493] Updated weights for policy 0, policy_version 601190 (0.0007)
+[2023-07-06 13:46:48,856][98493] Updated weights for policy 0, policy_version 601232 (0.0007)
+[2023-07-06 13:46:49,567][98493] Updated weights for policy 0, policy_version 601304 (0.0008)
+[2023-07-06 13:46:49,764][98243] Fps is (10 sec: 121242.7, 60 sec: 113049.8, 300 sec: 112299.9). Total num frames: 1231519744. Throughput: 0: 27944.1. Samples: 307927552. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:49,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:46:51,720][98493] Updated weights for policy 0, policy_version 601348 (0.0007)
+[2023-07-06 13:46:52,148][98493] Updated weights for policy 0, policy_version 601404 (0.0007)
+[2023-07-06 13:46:52,823][98493] Updated weights for policy 0, policy_version 601440 (0.0007)
+[2023-07-06 13:46:53,417][98493] Updated weights for policy 0, policy_version 601496 (0.0007)
+[2023-07-06 13:46:54,098][98493] Updated weights for policy 0, policy_version 601541 (0.0006)
+[2023-07-06 13:46:54,546][98493] Updated weights for policy 0, policy_version 601598 (0.0007)
+[2023-07-06 13:46:54,764][98243] Fps is (10 sec: 117963.2, 60 sec: 113595.8, 300 sec: 112410.8). Total num frames: 1232076800. Throughput: 0: 28194.0. Samples: 308017152. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:46:56,716][98493] Updated weights for policy 0, policy_version 601660 (0.0006)
+[2023-07-06 13:46:57,817][98493] Updated weights for policy 0, policy_version 601714 (0.0006)
+[2023-07-06 13:46:58,295][98493] Updated weights for policy 0, policy_version 601776 (0.0008)
+[2023-07-06 13:46:59,126][98493] Updated weights for policy 0, policy_version 601829 (0.0007)
+[2023-07-06 13:46:59,764][98243] Fps is (10 sec: 108133.1, 60 sec: 113595.7, 300 sec: 112411.0). Total num frames: 1232601088. Throughput: 0: 28069.0. Samples: 308181504. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:46:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:47:01,014][98493] Updated weights for policy 0, policy_version 601872 (0.0006)
+[2023-07-06 13:47:02,261][98493] Updated weights for policy 0, policy_version 601924 (0.0005)
+[2023-07-06 13:47:02,706][98493] Updated weights for policy 0, policy_version 601974 (0.0011)
+[2023-07-06 13:47:03,232][98493] Updated weights for policy 0, policy_version 602043 (0.0007)
+[2023-07-06 13:47:04,017][98493] Updated weights for policy 0, policy_version 602109 (0.0008)
+[2023-07-06 13:47:04,764][98243] Fps is (10 sec: 104859.1, 60 sec: 113596.2, 300 sec: 112301.1). Total num frames: 1233125376. Throughput: 0: 27966.6. Samples: 308345856. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:47:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:47:06,028][98493] Updated weights for policy 0, policy_version 602160 (0.0008)
+[2023-07-06 13:47:07,006][98449] Signal inference workers to stop experience collection... (31150 times)
+[2023-07-06 13:47:07,036][98493] InferenceWorker_p0-w0: stopping experience collection (31150 times)
+[2023-07-06 13:47:07,057][98493] Updated weights for policy 0, policy_version 602196 (0.0007)
+[2023-07-06 13:47:07,113][98449] Signal inference workers to resume experience collection... (31150 times)
+[2023-07-06 13:47:07,113][98493] InferenceWorker_p0-w0: resuming experience collection (31150 times)
+[2023-07-06 13:47:07,869][98493] Updated weights for policy 0, policy_version 602272 (0.0008)
+[2023-07-06 13:47:08,301][98493] Updated weights for policy 0, policy_version 602320 (0.0007)
+[2023-07-06 13:47:09,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113049.6, 300 sec: 111966.9). Total num frames: 1233649664. Throughput: 0: 28000.7. Samples: 308432896. Policy #0 lag: (min: 4.0, avg: 155.9, max: 260.0)
+[2023-07-06 13:47:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:47:10,315][98493] Updated weights for policy 0, policy_version 602369 (0.0008)
+[2023-07-06 13:47:10,761][98493] Updated weights for policy 0, policy_version 602426 (0.0007)
+[2023-07-06 13:47:12,136][98493] Updated weights for policy 0, policy_version 602490 (0.0007)
+[2023-07-06 13:47:12,816][98493] Updated weights for policy 0, policy_version 602551 (0.0008)
+[2023-07-06 13:47:13,355][98493] Updated weights for policy 0, policy_version 602619 (0.0008)
+[2023-07-06 13:47:14,764][98243] Fps is (10 sec: 104855.5, 60 sec: 111410.9, 300 sec: 111855.6). Total num frames: 1234173952. Throughput: 0: 27829.9. Samples: 308593152. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:47:15,531][98493] Updated weights for policy 0, policy_version 602683 (0.0011)
+[2023-07-06 13:47:16,709][98493] Updated weights for policy 0, policy_version 602736 (0.0012)
+[2023-07-06 13:47:17,268][98493] Updated weights for policy 0, policy_version 602768 (0.0007)
+[2023-07-06 13:47:17,865][98493] Updated weights for policy 0, policy_version 602836 (0.0007)
+[2023-07-06 13:47:18,182][98493] Updated weights for policy 0, policy_version 602877 (0.0006)
+[2023-07-06 13:47:19,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 1234698240. Throughput: 0: 27989.4. Samples: 308766208. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:19,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:47:20,177][98493] Updated weights for policy 0, policy_version 602914 (0.0007)
+[2023-07-06 13:47:21,130][98493] Updated weights for policy 0, policy_version 602969 (0.0007)
+[2023-07-06 13:47:22,098][98493] Updated weights for policy 0, policy_version 603040 (0.0007)
+[2023-07-06 13:47:22,543][98493] Updated weights for policy 0, policy_version 603088 (0.0007)
+[2023-07-06 13:47:24,593][98493] Updated weights for policy 0, policy_version 603139 (0.0006)
+[2023-07-06 13:47:24,764][98243] Fps is (10 sec: 108137.2, 60 sec: 111957.4, 300 sec: 111633.5). Total num frames: 1235255296. Throughput: 0: 27784.5. Samples: 308844544. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:24,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:47:24,852][98449] Signal inference workers to stop experience collection... (31200 times)
+[2023-07-06 13:47:24,884][98493] InferenceWorker_p0-w0: stopping experience collection (31200 times)
+[2023-07-06 13:47:24,933][98449] Signal inference workers to resume experience collection... (31200 times)
+[2023-07-06 13:47:24,933][98493] InferenceWorker_p0-w0: resuming experience collection (31200 times)
+[2023-07-06 13:47:25,796][98493] Updated weights for policy 0, policy_version 603201 (0.0007)
+[2023-07-06 13:47:26,254][98493] Updated weights for policy 0, policy_version 603258 (0.0007)
+[2023-07-06 13:47:27,202][98493] Updated weights for policy 0, policy_version 603328 (0.0006)
+[2023-07-06 13:47:27,648][98493] Updated weights for policy 0, policy_version 603376 (0.0019)
+[2023-07-06 13:47:29,242][98493] Updated weights for policy 0, policy_version 603408 (0.0007)
+[2023-07-06 13:47:29,636][98493] Updated weights for policy 0, policy_version 603451 (0.0006)
+[2023-07-06 13:47:29,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111411.1, 300 sec: 111744.4). Total num frames: 1235877888. Throughput: 0: 27818.7. Samples: 309014528. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:29,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:47:30,985][98493] Updated weights for policy 0, policy_version 603514 (0.0007)
+[2023-07-06 13:47:31,680][98493] Updated weights for policy 0, policy_version 603555 (0.0007)
+[2023-07-06 13:47:32,403][98493] Updated weights for policy 0, policy_version 603644 (0.0009)
+[2023-07-06 13:47:34,185][98493] Updated weights for policy 0, policy_version 603702 (0.0007)
+[2023-07-06 13:47:34,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1236402176. Throughput: 0: 27852.7. Samples: 309180928. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:34,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:47:35,701][98493] Updated weights for policy 0, policy_version 603750 (0.0006)
+[2023-07-06 13:47:36,237][98493] Updated weights for policy 0, policy_version 603792 (0.0006)
+[2023-07-06 13:47:36,902][98493] Updated weights for policy 0, policy_version 603862 (0.0008)
+[2023-07-06 13:47:38,557][98493] Updated weights for policy 0, policy_version 603907 (0.0006)
+[2023-07-06 13:47:39,044][98493] Updated weights for policy 0, policy_version 603965 (0.0007)
+[2023-07-06 13:47:39,764][98243] Fps is (10 sec: 104856.0, 60 sec: 110318.6, 300 sec: 111522.2). Total num frames: 1236926464. Throughput: 0: 27670.8. Samples: 309262336. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:39,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:47:40,566][98493] Updated weights for policy 0, policy_version 604024 (0.0007)
+[2023-07-06 13:47:41,011][98493] Updated weights for policy 0, policy_version 604068 (0.0007)
+[2023-07-06 13:47:41,527][98493] Updated weights for policy 0, policy_version 604128 (0.0007)
+[2023-07-06 13:47:41,560][98449] Signal inference workers to stop experience collection... (31250 times)
+[2023-07-06 13:47:41,597][98493] InferenceWorker_p0-w0: stopping experience collection (31250 times)
+[2023-07-06 13:47:41,660][98449] Signal inference workers to resume experience collection... (31250 times)
+[2023-07-06 13:47:41,660][98493] InferenceWorker_p0-w0: resuming experience collection (31250 times)
+[2023-07-06 13:47:43,654][98493] Updated weights for policy 0, policy_version 604186 (0.0011)
+[2023-07-06 13:47:44,764][98243] Fps is (10 sec: 104858.5, 60 sec: 109226.7, 300 sec: 111077.9). Total num frames: 1237450752. Throughput: 0: 27784.5. Samples: 309431808. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:44,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:47:44,944][98493] Updated weights for policy 0, policy_version 604228 (0.0006)
+[2023-07-06 13:47:45,441][98493] Updated weights for policy 0, policy_version 604288 (0.0008)
+[2023-07-06 13:47:46,122][98493] Updated weights for policy 0, policy_version 604368 (0.0009)
+[2023-07-06 13:47:46,550][98493] Updated weights for policy 0, policy_version 604416 (0.0007)
+[2023-07-06 13:47:48,678][98493] Updated weights for policy 0, policy_version 604480 (0.0007)
+[2023-07-06 13:47:49,764][98243] Fps is (10 sec: 104859.5, 60 sec: 107588.1, 300 sec: 111078.0). Total num frames: 1237975040. Throughput: 0: 27887.0. Samples: 309600768. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:49,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:47:50,220][98493] Updated weights for policy 0, policy_version 604544 (0.0007)
+[2023-07-06 13:47:50,771][98493] Updated weights for policy 0, policy_version 604608 (0.0008)
+[2023-07-06 13:47:51,278][98493] Updated weights for policy 0, policy_version 604669 (0.0007)
+[2023-07-06 13:47:53,317][98493] Updated weights for policy 0, policy_version 604727 (0.0007)
+[2023-07-06 13:47:54,764][98243] Fps is (10 sec: 111411.3, 60 sec: 108134.7, 300 sec: 111300.1). Total num frames: 1238564864. Throughput: 0: 27682.1. Samples: 309678592. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:47:54,800][98493] Updated weights for policy 0, policy_version 604770 (0.0006)
+[2023-07-06 13:47:55,483][98493] Updated weights for policy 0, policy_version 604853 (0.0007)
+[2023-07-06 13:47:56,074][98493] Updated weights for policy 0, policy_version 604922 (0.0007)
+[2023-07-06 13:47:58,000][98493] Updated weights for policy 0, policy_version 604986 (0.0007)
+[2023-07-06 13:47:59,491][98493] Updated weights for policy 0, policy_version 605040 (0.0007)
+[2023-07-06 13:47:59,764][98243] Fps is (10 sec: 117963.3, 60 sec: 109226.5, 300 sec: 111522.3). Total num frames: 1239154688. Throughput: 0: 27773.2. Samples: 309842944. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:47:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:47:59,943][98449] Signal inference workers to stop experience collection... (31300 times)
+[2023-07-06 13:47:59,973][98493] InferenceWorker_p0-w0: stopping experience collection (31300 times)
+[2023-07-06 13:48:00,028][98449] Signal inference workers to resume experience collection... (31300 times)
+[2023-07-06 13:48:00,028][98493] InferenceWorker_p0-w0: resuming experience collection (31300 times)
+[2023-07-06 13:48:00,128][98493] Updated weights for policy 0, policy_version 605097 (0.0007)
+[2023-07-06 13:48:00,740][98493] Updated weights for policy 0, policy_version 605152 (0.0007)
+[2023-07-06 13:48:02,243][98493] Updated weights for policy 0, policy_version 605208 (0.0007)
+[2023-07-06 13:48:03,965][98493] Updated weights for policy 0, policy_version 605250 (0.0006)
+[2023-07-06 13:48:04,502][98493] Updated weights for policy 0, policy_version 605312 (0.0007)
+[2023-07-06 13:48:04,764][98243] Fps is (10 sec: 114689.2, 60 sec: 109773.0, 300 sec: 111633.4). Total num frames: 1239711744. Throughput: 0: 27591.2. Samples: 310007808. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:04,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:48:05,015][98493] Updated weights for policy 0, policy_version 605371 (0.0006)
+[2023-07-06 13:48:05,535][98493] Updated weights for policy 0, policy_version 605412 (0.0007)
+[2023-07-06 13:48:07,141][98493] Updated weights for policy 0, policy_version 605476 (0.0007)
+[2023-07-06 13:48:08,637][98493] Updated weights for policy 0, policy_version 605508 (0.0006)
+[2023-07-06 13:48:09,389][98493] Updated weights for policy 0, policy_version 605584 (0.0007)
+[2023-07-06 13:48:09,764][98243] Fps is (10 sec: 114689.2, 60 sec: 110865.0, 300 sec: 111855.5). Total num frames: 1240301568. Throughput: 0: 27704.9. Samples: 310091264. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:48:09,923][98493] Updated weights for policy 0, policy_version 605633 (0.0007)
+[2023-07-06 13:48:10,374][98493] Updated weights for policy 0, policy_version 605690 (0.0007)
+[2023-07-06 13:48:11,949][98493] Updated weights for policy 0, policy_version 605745 (0.0007)
+[2023-07-06 13:48:13,632][98493] Updated weights for policy 0, policy_version 605792 (0.0007)
+[2023-07-06 13:48:14,121][98493] Updated weights for policy 0, policy_version 605841 (0.0007)
+[2023-07-06 13:48:14,764][98243] Fps is (10 sec: 114685.5, 60 sec: 111411.4, 300 sec: 111966.5). Total num frames: 1240858624. Throughput: 0: 27682.1. Samples: 310260224. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:14,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:48:14,907][98493] Updated weights for policy 0, policy_version 605904 (0.0008)
+[2023-07-06 13:48:15,326][98493] Updated weights for policy 0, policy_version 605952 (0.0007)
+[2023-07-06 13:48:16,779][98493] Updated weights for policy 0, policy_version 606016 (0.0007)
+[2023-07-06 13:48:18,257][98493] Updated weights for policy 0, policy_version 606073 (0.0012)
+[2023-07-06 13:48:18,790][98449] Signal inference workers to stop experience collection... (31350 times)
+[2023-07-06 13:48:18,816][98493] InferenceWorker_p0-w0: stopping experience collection (31350 times)
+[2023-07-06 13:48:18,883][98449] Signal inference workers to resume experience collection... (31350 times)
+[2023-07-06 13:48:18,883][98493] InferenceWorker_p0-w0: resuming experience collection (31350 times)
+[2023-07-06 13:48:19,101][98493] Updated weights for policy 0, policy_version 606113 (0.0006)
+[2023-07-06 13:48:19,567][98493] Updated weights for policy 0, policy_version 606165 (0.0007)
+[2023-07-06 13:48:19,764][98243] Fps is (10 sec: 117965.9, 60 sec: 113049.8, 300 sec: 112188.8). Total num frames: 1241481216. Throughput: 0: 27602.6. Samples: 310423040. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:19,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:48:21,079][98493] Updated weights for policy 0, policy_version 606250 (0.0008)
+[2023-07-06 13:48:22,775][98493] Updated weights for policy 0, policy_version 606304 (0.0007)
+[2023-07-06 13:48:23,761][98493] Updated weights for policy 0, policy_version 606352 (0.0007)
+[2023-07-06 13:48:24,338][98493] Updated weights for policy 0, policy_version 606416 (0.0007)
+[2023-07-06 13:48:24,706][98493] Updated weights for policy 0, policy_version 606460 (0.0007)
+[2023-07-06 13:48:24,764][98243] Fps is (10 sec: 117964.0, 60 sec: 113049.2, 300 sec: 111966.5). Total num frames: 1242038272. Throughput: 0: 27716.3. Samples: 310509568. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:24,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:48:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000606464_1242038272.pth...
+[2023-07-06 13:48:24,796][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000593344_1215168512.pth
+[2023-07-06 13:48:25,674][98493] Updated weights for policy 0, policy_version 606498 (0.0007)
+[2023-07-06 13:48:27,677][98493] Updated weights for policy 0, policy_version 606564 (0.0006)
+[2023-07-06 13:48:28,683][98493] Updated weights for policy 0, policy_version 606624 (0.0007)
+[2023-07-06 13:48:29,248][98493] Updated weights for policy 0, policy_version 606688 (0.0007)
+[2023-07-06 13:48:29,764][98243] Fps is (10 sec: 108132.9, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 1242562560. Throughput: 0: 27682.1. Samples: 310677504. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:48:30,172][98493] Updated weights for policy 0, policy_version 606726 (0.0007)
+[2023-07-06 13:48:30,648][98493] Updated weights for policy 0, policy_version 606784 (0.0007)
+[2023-07-06 13:48:32,479][98493] Updated weights for policy 0, policy_version 606844 (0.0007)
+[2023-07-06 13:48:33,512][98493] Updated weights for policy 0, policy_version 606912 (0.0007)
+[2023-07-06 13:48:34,764][98243] Fps is (10 sec: 104859.5, 60 sec: 111411.4, 300 sec: 111966.6). Total num frames: 1243086848. Throughput: 0: 27522.8. Samples: 310839296. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:34,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 13:48:35,025][98493] Updated weights for policy 0, policy_version 606977 (0.0007)
+[2023-07-06 13:48:35,498][98493] Updated weights for policy 0, policy_version 607033 (0.0006)
+[2023-07-06 13:48:37,339][98449] Signal inference workers to stop experience collection... (31400 times)
+[2023-07-06 13:48:37,363][98493] Updated weights for policy 0, policy_version 607075 (0.0007)
+[2023-07-06 13:48:37,371][98493] InferenceWorker_p0-w0: stopping experience collection (31400 times)
+[2023-07-06 13:48:37,431][98449] Signal inference workers to resume experience collection... (31400 times)
+[2023-07-06 13:48:37,431][98493] InferenceWorker_p0-w0: resuming experience collection (31400 times)
+[2023-07-06 13:48:37,934][98493] Updated weights for policy 0, policy_version 607140 (0.0027)
+[2023-07-06 13:48:38,681][98493] Updated weights for policy 0, policy_version 607200 (0.0007)
+[2023-07-06 13:48:39,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.5, 300 sec: 111744.4). Total num frames: 1243611136. Throughput: 0: 27693.5. Samples: 310924800. Policy #0 lag: (min: 15.0, avg: 111.7, max: 271.0)
+[2023-07-06 13:48:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:48:39,928][98493] Updated weights for policy 0, policy_version 607257 (0.0007)
+[2023-07-06 13:48:40,258][98493] Updated weights for policy 0, policy_version 607296 (0.0006)
+[2023-07-06 13:48:42,134][98493] Updated weights for policy 0, policy_version 607356 (0.0007)
+[2023-07-06 13:48:42,648][98493] Updated weights for policy 0, policy_version 607408 (0.0007)
+[2023-07-06 13:48:43,388][98493] Updated weights for policy 0, policy_version 607459 (0.0007)
+[2023-07-06 13:48:44,565][98493] Updated weights for policy 0, policy_version 607505 (0.0007)
+[2023-07-06 13:48:44,764][98243] Fps is (10 sec: 111411.9, 60 sec: 112503.6, 300 sec: 111744.5). Total num frames: 1244200960. Throughput: 0: 27705.0. Samples: 311089664. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:48:44,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:48:46,299][98493] Updated weights for policy 0, policy_version 607568 (0.0007)
+[2023-07-06 13:48:46,937][98493] Updated weights for policy 0, policy_version 607618 (0.0008)
+[2023-07-06 13:48:47,383][98493] Updated weights for policy 0, policy_version 607677 (0.0008)
+[2023-07-06 13:48:47,993][98493] Updated weights for policy 0, policy_version 607728 (0.0007)
+[2023-07-06 13:48:49,419][98493] Updated weights for policy 0, policy_version 607781 (0.0007)
+[2023-07-06 13:48:49,764][98243] Fps is (10 sec: 117964.8, 60 sec: 113595.7, 300 sec: 111855.5). Total num frames: 1244790784. Throughput: 0: 27795.8. Samples: 311258624. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:48:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:48:51,070][98493] Updated weights for policy 0, policy_version 607824 (0.0006)
+[2023-07-06 13:48:51,455][98493] Updated weights for policy 0, policy_version 607868 (0.0007)
+[2023-07-06 13:48:52,008][98493] Updated weights for policy 0, policy_version 607907 (0.0010)
+[2023-07-06 13:48:52,547][98493] Updated weights for policy 0, policy_version 607960 (0.0007)
+[2023-07-06 13:48:53,849][98493] Updated weights for policy 0, policy_version 608026 (0.0007)
+[2023-07-06 13:48:54,765][98243] Fps is (10 sec: 111407.7, 60 sec: 112503.0, 300 sec: 111522.2). Total num frames: 1245315072. Throughput: 0: 27807.1. Samples: 311342592. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:48:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 13:48:55,635][98493] Updated weights for policy 0, policy_version 608066 (0.0007)
+[2023-07-06 13:48:55,908][98449] Signal inference workers to stop experience collection... (31450 times)
+[2023-07-06 13:48:55,954][98493] InferenceWorker_p0-w0: stopping experience collection (31450 times)
+[2023-07-06 13:48:55,997][98449] Signal inference workers to resume experience collection... (31450 times)
+[2023-07-06 13:48:55,997][98493] InferenceWorker_p0-w0: resuming experience collection (31450 times)
+[2023-07-06 13:48:56,508][98493] Updated weights for policy 0, policy_version 608129 (0.0007)
+[2023-07-06 13:48:57,002][98493] Updated weights for policy 0, policy_version 608192 (0.0007)
+[2023-07-06 13:48:57,683][98493] Updated weights for policy 0, policy_version 608252 (0.0006)
+[2023-07-06 13:48:58,788][98493] Updated weights for policy 0, policy_version 608310 (0.0007)
+[2023-07-06 13:48:59,764][98243] Fps is (10 sec: 104855.4, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1245839360. Throughput: 0: 27750.3. Samples: 311508992. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:48:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:49:00,686][98493] Updated weights for policy 0, policy_version 608355 (0.0007)
+[2023-07-06 13:49:01,115][98493] Updated weights for policy 0, policy_version 608389 (0.0006)
+[2023-07-06 13:49:01,586][98493] Updated weights for policy 0, policy_version 608448 (0.0007)
+[2023-07-06 13:49:02,500][98493] Updated weights for policy 0, policy_version 608506 (0.0007)
+[2023-07-06 13:49:03,245][98493] Updated weights for policy 0, policy_version 608560 (0.0007)
+[2023-07-06 13:49:04,764][98243] Fps is (10 sec: 104860.7, 60 sec: 110865.0, 300 sec: 111522.4). Total num frames: 1246363648. Throughput: 0: 28023.4. Samples: 311684096. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:04,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:49:05,222][98493] Updated weights for policy 0, policy_version 608596 (0.0006)
+[2023-07-06 13:49:05,616][98493] Updated weights for policy 0, policy_version 608640 (0.0006)
+[2023-07-06 13:49:06,117][98493] Updated weights for policy 0, policy_version 608702 (0.0007)
+[2023-07-06 13:49:06,951][98493] Updated weights for policy 0, policy_version 608741 (0.0006)
+[2023-07-06 13:49:07,688][98493] Updated weights for policy 0, policy_version 608805 (0.0007)
+[2023-07-06 13:49:09,764][98243] Fps is (10 sec: 104859.9, 60 sec: 109772.8, 300 sec: 111189.0). Total num frames: 1246887936. Throughput: 0: 27852.9. Samples: 311762944. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:49:09,884][98493] Updated weights for policy 0, policy_version 608850 (0.0006)
+[2023-07-06 13:49:10,331][98493] Updated weights for policy 0, policy_version 608901 (0.0007)
+[2023-07-06 13:49:11,415][98493] Updated weights for policy 0, policy_version 608963 (0.0007)
+[2023-07-06 13:49:11,841][98493] Updated weights for policy 0, policy_version 609020 (0.0006)
+[2023-07-06 13:49:12,572][98493] Updated weights for policy 0, policy_version 609080 (0.0007)
+[2023-07-06 13:49:14,568][98449] Signal inference workers to stop experience collection... (31500 times)
+[2023-07-06 13:49:14,609][98493] InferenceWorker_p0-w0: stopping experience collection (31500 times)
+[2023-07-06 13:49:14,642][98449] Signal inference workers to resume experience collection... (31500 times)
+[2023-07-06 13:49:14,643][98493] InferenceWorker_p0-w0: resuming experience collection (31500 times)
+[2023-07-06 13:49:14,644][98493] Updated weights for policy 0, policy_version 609136 (0.0006)
+[2023-07-06 13:49:14,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 1247543296. Throughput: 0: 27909.8. Samples: 311933440. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:14,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:49:15,226][98493] Updated weights for policy 0, policy_version 609184 (0.0008)
+[2023-07-06 13:49:16,570][98493] Updated weights for policy 0, policy_version 609250 (0.0007)
+[2023-07-06 13:49:17,132][98493] Updated weights for policy 0, policy_version 609318 (0.0007)
+[2023-07-06 13:49:19,271][98493] Updated weights for policy 0, policy_version 609367 (0.0007)
+[2023-07-06 13:49:19,764][98243] Fps is (10 sec: 117964.5, 60 sec: 109772.6, 300 sec: 111522.3). Total num frames: 1248067584. Throughput: 0: 28000.7. Samples: 312099328. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:49:20,028][98493] Updated weights for policy 0, policy_version 609424 (0.0007)
+[2023-07-06 13:49:21,090][98493] Updated weights for policy 0, policy_version 609488 (0.0007)
+[2023-07-06 13:49:21,627][98493] Updated weights for policy 0, policy_version 609544 (0.0008)
+[2023-07-06 13:49:22,094][98493] Updated weights for policy 0, policy_version 609600 (0.0007)
+[2023-07-06 13:49:24,429][98493] Updated weights for policy 0, policy_version 609655 (0.0007)
+[2023-07-06 13:49:24,764][98243] Fps is (10 sec: 108133.0, 60 sec: 109773.0, 300 sec: 111633.3). Total num frames: 1248624640. Throughput: 0: 27909.6. Samples: 312180736. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:49:25,032][98493] Updated weights for policy 0, policy_version 609722 (0.0008)
+[2023-07-06 13:49:26,088][98493] Updated weights for policy 0, policy_version 609776 (0.0007)
+[2023-07-06 13:49:26,559][98493] Updated weights for policy 0, policy_version 609824 (0.0007)
+[2023-07-06 13:49:29,171][98493] Updated weights for policy 0, policy_version 609897 (0.0008)
+[2023-07-06 13:49:29,761][98493] Updated weights for policy 0, policy_version 609953 (0.0007)
+[2023-07-06 13:49:29,764][98243] Fps is (10 sec: 111409.8, 60 sec: 110318.8, 300 sec: 111744.4). Total num frames: 1249181696. Throughput: 0: 28012.0. Samples: 312350208. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:29,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:49:30,832][98493] Updated weights for policy 0, policy_version 610023 (0.0008)
+[2023-07-06 13:49:31,232][98449] Signal inference workers to stop experience collection... (31550 times)
+[2023-07-06 13:49:31,252][98493] InferenceWorker_p0-w0: stopping experience collection (31550 times)
+[2023-07-06 13:49:31,320][98449] Signal inference workers to resume experience collection... (31550 times)
+[2023-07-06 13:49:31,320][98493] InferenceWorker_p0-w0: resuming experience collection (31550 times)
+[2023-07-06 13:49:31,411][98493] Updated weights for policy 0, policy_version 610087 (0.0009)
+[2023-07-06 13:49:33,966][98493] Updated weights for policy 0, policy_version 610132 (0.0007)
+[2023-07-06 13:49:34,563][98493] Updated weights for policy 0, policy_version 610193 (0.0008)
+[2023-07-06 13:49:34,764][98243] Fps is (10 sec: 108135.6, 60 sec: 110319.0, 300 sec: 111411.3). Total num frames: 1249705984. Throughput: 0: 27795.9. Samples: 312509440. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:34,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:49:35,291][98493] Updated weights for policy 0, policy_version 610266 (0.0007)
+[2023-07-06 13:49:35,826][98493] Updated weights for policy 0, policy_version 610325 (0.0008)
+[2023-07-06 13:49:38,569][98493] Updated weights for policy 0, policy_version 610372 (0.0008)
+[2023-07-06 13:49:39,175][98493] Updated weights for policy 0, policy_version 610441 (0.0009)
+[2023-07-06 13:49:39,603][98493] Updated weights for policy 0, policy_version 610486 (0.0008)
+[2023-07-06 13:49:39,764][98243] Fps is (10 sec: 111412.5, 60 sec: 111411.2, 300 sec: 111300.1). Total num frames: 1250295808. Throughput: 0: 27818.8. Samples: 312594432. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:49:40,110][98493] Updated weights for policy 0, policy_version 610528 (0.0006)
+[2023-07-06 13:49:40,785][98493] Updated weights for policy 0, policy_version 610608 (0.0007)
+[2023-07-06 13:49:43,582][98493] Updated weights for policy 0, policy_version 610664 (0.0007)
+[2023-07-06 13:49:44,163][98493] Updated weights for policy 0, policy_version 610728 (0.0008)
+[2023-07-06 13:49:44,764][98243] Fps is (10 sec: 111409.1, 60 sec: 110318.5, 300 sec: 111077.9). Total num frames: 1250820096. Throughput: 0: 27796.0. Samples: 312759808. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:49:45,052][98493] Updated weights for policy 0, policy_version 610770 (0.0007)
+[2023-07-06 13:49:45,497][98493] Updated weights for policy 0, policy_version 610823 (0.0008)
+[2023-07-06 13:49:45,925][98493] Updated weights for policy 0, policy_version 610875 (0.0007)
+[2023-07-06 13:49:48,461][98493] Updated weights for policy 0, policy_version 610928 (0.0007)
+[2023-07-06 13:49:48,980][98449] Signal inference workers to stop experience collection... (31600 times)
+[2023-07-06 13:49:49,018][98493] InferenceWorker_p0-w0: stopping experience collection (31600 times)
+[2023-07-06 13:49:49,085][98449] Signal inference workers to resume experience collection... (31600 times)
+[2023-07-06 13:49:49,085][98493] InferenceWorker_p0-w0: resuming experience collection (31600 times)
+[2023-07-06 13:49:49,086][98493] Updated weights for policy 0, policy_version 610992 (0.0008)
+[2023-07-06 13:49:49,596][98493] Updated weights for policy 0, policy_version 611024 (0.0006)
+[2023-07-06 13:49:49,764][98243] Fps is (10 sec: 111412.6, 60 sec: 110319.1, 300 sec: 111300.2). Total num frames: 1251409920. Throughput: 0: 27591.1. Samples: 312925696. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:49,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:49:50,222][98493] Updated weights for policy 0, policy_version 611091 (0.0008)
+[2023-07-06 13:49:50,570][98493] Updated weights for policy 0, policy_version 611136 (0.0006)
+[2023-07-06 13:49:53,407][98493] Updated weights for policy 0, policy_version 611209 (0.0007)
+[2023-07-06 13:49:53,820][98493] Updated weights for policy 0, policy_version 611258 (0.0007)
+[2023-07-06 13:49:54,583][98493] Updated weights for policy 0, policy_version 611296 (0.0009)
+[2023-07-06 13:49:54,764][98243] Fps is (10 sec: 114690.3, 60 sec: 110865.6, 300 sec: 111411.2). Total num frames: 1251966976. Throughput: 0: 27750.4. Samples: 313011712. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:54,764][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:49:55,086][98493] Updated weights for policy 0, policy_version 611349 (0.0007)
+[2023-07-06 13:49:55,478][98493] Updated weights for policy 0, policy_version 611392 (0.0007)
+[2023-07-06 13:49:57,906][98493] Updated weights for policy 0, policy_version 611456 (0.0008)
+[2023-07-06 13:49:58,437][98493] Updated weights for policy 0, policy_version 611513 (0.0006)
+[2023-07-06 13:49:59,323][98493] Updated weights for policy 0, policy_version 611554 (0.0007)
+[2023-07-06 13:49:59,764][98243] Fps is (10 sec: 114685.8, 60 sec: 111957.6, 300 sec: 111633.3). Total num frames: 1252556800. Throughput: 0: 27591.0. Samples: 313175040. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:49:59,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:49:59,821][98493] Updated weights for policy 0, policy_version 611616 (0.0007)
+[2023-07-06 13:50:02,145][98493] Updated weights for policy 0, policy_version 611672 (0.0007)
+[2023-07-06 13:50:02,767][98493] Updated weights for policy 0, policy_version 611714 (0.0006)
+[2023-07-06 13:50:03,194][98493] Updated weights for policy 0, policy_version 611772 (0.0006)
+[2023-07-06 13:50:04,181][98493] Updated weights for policy 0, policy_version 611831 (0.0008)
+[2023-07-06 13:50:04,658][98493] Updated weights for policy 0, policy_version 611888 (0.0008)
+[2023-07-06 13:50:04,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113049.4, 300 sec: 111855.5). Total num frames: 1253146624. Throughput: 0: 27522.8. Samples: 313337856. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:50:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:50:06,886][98449] Signal inference workers to stop experience collection... (31650 times)
+[2023-07-06 13:50:06,919][98493] InferenceWorker_p0-w0: stopping experience collection (31650 times)
+[2023-07-06 13:50:06,926][98493] Updated weights for policy 0, policy_version 611930 (0.0007)
+[2023-07-06 13:50:06,953][98449] Signal inference workers to resume experience collection... (31650 times)
+[2023-07-06 13:50:06,953][98493] InferenceWorker_p0-w0: resuming experience collection (31650 times)
+[2023-07-06 13:50:07,205][98493] Updated weights for policy 0, policy_version 611968 (0.0006)
+[2023-07-06 13:50:07,830][98493] Updated weights for policy 0, policy_version 612030 (0.0006)
+[2023-07-06 13:50:08,767][98493] Updated weights for policy 0, policy_version 612080 (0.0007)
+[2023-07-06 13:50:09,195][98493] Updated weights for policy 0, policy_version 612128 (0.0008)
+[2023-07-06 13:50:09,764][98243] Fps is (10 sec: 114688.9, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1253703680. Throughput: 0: 27670.8. Samples: 313425920. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:50:09,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:50:11,448][98493] Updated weights for policy 0, policy_version 612185 (0.0007)
+[2023-07-06 13:50:12,227][98493] Updated weights for policy 0, policy_version 612246 (0.0007)
+[2023-07-06 13:50:12,553][98493] Updated weights for policy 0, policy_version 612284 (0.0006)
+[2023-07-06 13:50:13,574][98493] Updated weights for policy 0, policy_version 612340 (0.0008)
+[2023-07-06 13:50:14,151][98493] Updated weights for policy 0, policy_version 612412 (0.0007)
+[2023-07-06 13:50:14,764][98243] Fps is (10 sec: 108133.5, 60 sec: 111410.8, 300 sec: 111744.4). Total num frames: 1254227968. Throughput: 0: 27579.7. Samples: 313591296. Policy #0 lag: (min: 15.0, avg: 141.2, max: 271.0)
+[2023-07-06 13:50:14,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:50:16,109][98493] Updated weights for policy 0, policy_version 612464 (0.0007)
+[2023-07-06 13:50:17,075][98493] Updated weights for policy 0, policy_version 612528 (0.0008)
+[2023-07-06 13:50:18,229][98493] Updated weights for policy 0, policy_version 612579 (0.0007)
+[2023-07-06 13:50:18,685][98493] Updated weights for policy 0, policy_version 612640 (0.0007)
+[2023-07-06 13:50:18,970][98493] Updated weights for policy 0, policy_version 612672 (0.0007)
+[2023-07-06 13:50:19,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1254752256. Throughput: 0: 27829.9. Samples: 313761792. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:19,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:50:20,810][98493] Updated weights for policy 0, policy_version 612731 (0.0008)
+[2023-07-06 13:50:21,855][98493] Updated weights for policy 0, policy_version 612775 (0.0007)
+[2023-07-06 13:50:22,774][98493] Updated weights for policy 0, policy_version 612837 (0.0007)
+[2023-07-06 13:50:23,265][98493] Updated weights for policy 0, policy_version 612896 (0.0008)
+[2023-07-06 13:50:23,313][98449] Signal inference workers to stop experience collection... (31700 times)
+[2023-07-06 13:50:23,345][98493] InferenceWorker_p0-w0: stopping experience collection (31700 times)
+[2023-07-06 13:50:23,402][98449] Signal inference workers to resume experience collection... (31700 times)
+[2023-07-06 13:50:23,402][98493] InferenceWorker_p0-w0: resuming experience collection (31700 times)
+[2023-07-06 13:50:24,764][98243] Fps is (10 sec: 104859.1, 60 sec: 110865.2, 300 sec: 111522.3). Total num frames: 1255276544. Throughput: 0: 27795.9. Samples: 313845248. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:24,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:50:24,782][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000612928_1255276544.pth...
+[2023-07-06 13:50:24,830][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000599904_1228603392.pth
+[2023-07-06 13:50:25,314][98493] Updated weights for policy 0, policy_version 612950 (0.0007)
+[2023-07-06 13:50:26,343][98493] Updated weights for policy 0, policy_version 612994 (0.0007)
+[2023-07-06 13:50:26,774][98493] Updated weights for policy 0, policy_version 613049 (0.0007)
+[2023-07-06 13:50:27,460][98493] Updated weights for policy 0, policy_version 613104 (0.0007)
+[2023-07-06 13:50:28,066][98493] Updated weights for policy 0, policy_version 613179 (0.0006)
+[2023-07-06 13:50:29,764][98243] Fps is (10 sec: 104857.9, 60 sec: 110319.0, 300 sec: 111189.0). Total num frames: 1255800832. Throughput: 0: 27818.7. Samples: 314011648. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:29,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:50:30,213][98493] Updated weights for policy 0, policy_version 613221 (0.0007)
+[2023-07-06 13:50:31,060][98493] Updated weights for policy 0, policy_version 613271 (0.0008)
+[2023-07-06 13:50:31,853][98493] Updated weights for policy 0, policy_version 613316 (0.0006)
+[2023-07-06 13:50:32,356][98493] Updated weights for policy 0, policy_version 613376 (0.0008)
+[2023-07-06 13:50:32,882][98493] Updated weights for policy 0, policy_version 613436 (0.0007)
+[2023-07-06 13:50:34,737][98493] Updated weights for policy 0, policy_version 613479 (0.0007)
+[2023-07-06 13:50:34,764][98243] Fps is (10 sec: 111411.7, 60 sec: 111411.2, 300 sec: 111189.1). Total num frames: 1256390656. Throughput: 0: 27966.5. Samples: 314184192. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:34,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:50:35,650][98493] Updated weights for policy 0, policy_version 613513 (0.0006)
+[2023-07-06 13:50:36,498][98493] Updated weights for policy 0, policy_version 613573 (0.0007)
+[2023-07-06 13:50:37,037][98493] Updated weights for policy 0, policy_version 613633 (0.0007)
+[2023-07-06 13:50:37,508][98493] Updated weights for policy 0, policy_version 613691 (0.0007)
+[2023-07-06 13:50:39,482][98493] Updated weights for policy 0, policy_version 613744 (0.0007)
+[2023-07-06 13:50:39,764][98243] Fps is (10 sec: 117965.9, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1256980480. Throughput: 0: 27830.0. Samples: 314264064. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:39,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:50:40,871][98493] Updated weights for policy 0, policy_version 613809 (0.0007)
+[2023-07-06 13:50:41,387][98493] Updated weights for policy 0, policy_version 613856 (0.0007)
+[2023-07-06 13:50:41,707][98449] Signal inference workers to stop experience collection... (31750 times)
+[2023-07-06 13:50:41,729][98493] InferenceWorker_p0-w0: stopping experience collection (31750 times)
+[2023-07-06 13:50:41,793][98449] Signal inference workers to resume experience collection... (31750 times)
+[2023-07-06 13:50:41,793][98493] InferenceWorker_p0-w0: resuming experience collection (31750 times)
+[2023-07-06 13:50:41,890][98493] Updated weights for policy 0, policy_version 613913 (0.0008)
+[2023-07-06 13:50:43,905][98493] Updated weights for policy 0, policy_version 613959 (0.0006)
+[2023-07-06 13:50:44,764][98243] Fps is (10 sec: 111410.8, 60 sec: 111411.5, 300 sec: 111078.0). Total num frames: 1257504768. Throughput: 0: 28034.9. Samples: 314436608. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:50:45,035][98493] Updated weights for policy 0, policy_version 614032 (0.0007)
+[2023-07-06 13:50:45,410][98493] Updated weights for policy 0, policy_version 614077 (0.0006)
+[2023-07-06 13:50:46,104][98493] Updated weights for policy 0, policy_version 614114 (0.0007)
+[2023-07-06 13:50:46,560][98493] Updated weights for policy 0, policy_version 614165 (0.0009)
+[2023-07-06 13:50:46,902][98493] Updated weights for policy 0, policy_version 614208 (0.0009)
+[2023-07-06 13:50:49,001][98493] Updated weights for policy 0, policy_version 614268 (0.0008)
+[2023-07-06 13:50:49,764][98243] Fps is (10 sec: 108134.8, 60 sec: 110864.9, 300 sec: 111189.1). Total num frames: 1258061824. Throughput: 0: 28216.9. Samples: 314607616. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 13:50:49,957][98493] Updated weights for policy 0, policy_version 614308 (0.0007)
+[2023-07-06 13:50:50,533][98493] Updated weights for policy 0, policy_version 614360 (0.0006)
+[2023-07-06 13:50:50,950][98493] Updated weights for policy 0, policy_version 614407 (0.0008)
+[2023-07-06 13:50:53,376][98493] Updated weights for policy 0, policy_version 614470 (0.0007)
+[2023-07-06 13:50:53,803][98493] Updated weights for policy 0, policy_version 614523 (0.0006)
+[2023-07-06 13:50:54,765][98243] Fps is (10 sec: 114678.4, 60 sec: 111409.5, 300 sec: 111410.9). Total num frames: 1258651648. Throughput: 0: 28091.2. Samples: 314690048. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:50:54,773][98493] Updated weights for policy 0, policy_version 614585 (0.0007)
+[2023-07-06 13:50:55,407][98493] Updated weights for policy 0, policy_version 614642 (0.0008)
+[2023-07-06 13:50:55,880][98493] Updated weights for policy 0, policy_version 614704 (0.0006)
+[2023-07-06 13:50:58,268][98493] Updated weights for policy 0, policy_version 614757 (0.0008)
+[2023-07-06 13:50:59,458][98493] Updated weights for policy 0, policy_version 614822 (0.0006)
+[2023-07-06 13:50:59,765][98243] Fps is (10 sec: 114685.0, 60 sec: 110864.8, 300 sec: 111522.3). Total num frames: 1259208704. Throughput: 0: 28125.8. Samples: 314856960. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:50:59,766][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:50:59,908][98493] Updated weights for policy 0, policy_version 614864 (0.0008)
+[2023-07-06 13:51:00,116][98449] Signal inference workers to stop experience collection... (31800 times)
+[2023-07-06 13:51:00,153][98493] InferenceWorker_p0-w0: stopping experience collection (31800 times)
+[2023-07-06 13:51:00,195][98449] Signal inference workers to resume experience collection... (31800 times)
+[2023-07-06 13:51:00,196][98493] InferenceWorker_p0-w0: resuming experience collection (31800 times)
+[2023-07-06 13:51:00,332][98493] Updated weights for policy 0, policy_version 614912 (0.0008)
+[2023-07-06 13:51:00,853][98493] Updated weights for policy 0, policy_version 614969 (0.0007)
+[2023-07-06 13:51:03,188][98493] Updated weights for policy 0, policy_version 615035 (0.0007)
+[2023-07-06 13:51:04,273][98493] Updated weights for policy 0, policy_version 615081 (0.0007)
+[2023-07-06 13:51:04,708][98493] Updated weights for policy 0, policy_version 615127 (0.0007)
+[2023-07-06 13:51:04,764][98243] Fps is (10 sec: 114695.2, 60 sec: 110864.8, 300 sec: 111633.3). Total num frames: 1259798528. Throughput: 0: 27955.2. Samples: 315019776. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:04,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:51:05,235][98493] Updated weights for policy 0, policy_version 615187 (0.0007)
+[2023-07-06 13:51:07,246][98493] Updated weights for policy 0, policy_version 615234 (0.0006)
+[2023-07-06 13:51:07,683][98493] Updated weights for policy 0, policy_version 615293 (0.0006)
+[2023-07-06 13:51:09,094][98493] Updated weights for policy 0, policy_version 615344 (0.0007)
+[2023-07-06 13:51:09,689][98493] Updated weights for policy 0, policy_version 615396 (0.0008)
+[2023-07-06 13:51:09,765][98243] Fps is (10 sec: 114684.5, 60 sec: 110864.1, 300 sec: 111411.0). Total num frames: 1260355584. Throughput: 0: 27966.2. Samples: 315103744. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:09,766][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:51:10,180][98493] Updated weights for policy 0, policy_version 615456 (0.0008)
+[2023-07-06 13:51:11,911][98493] Updated weights for policy 0, policy_version 615504 (0.0008)
+[2023-07-06 13:51:12,279][98493] Updated weights for policy 0, policy_version 615547 (0.0007)
+[2023-07-06 13:51:13,614][98493] Updated weights for policy 0, policy_version 615587 (0.0007)
+[2023-07-06 13:51:14,417][98493] Updated weights for policy 0, policy_version 615656 (0.0007)
+[2023-07-06 13:51:14,764][98243] Fps is (10 sec: 114690.5, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 1260945408. Throughput: 0: 28023.5. Samples: 315272704. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:14,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:51:14,816][98493] Updated weights for policy 0, policy_version 615698 (0.0009)
+[2023-07-06 13:51:16,413][98493] Updated weights for policy 0, policy_version 615748 (0.0007)
+[2023-07-06 13:51:16,871][98493] Updated weights for policy 0, policy_version 615806 (0.0006)
+[2023-07-06 13:51:18,466][98449] Signal inference workers to stop experience collection... (31850 times)
+[2023-07-06 13:51:18,514][98493] InferenceWorker_p0-w0: stopping experience collection (31850 times)
+[2023-07-06 13:51:18,566][98449] Signal inference workers to resume experience collection... (31850 times)
+[2023-07-06 13:51:18,566][98493] InferenceWorker_p0-w0: resuming experience collection (31850 times)
+[2023-07-06 13:51:18,648][98493] Updated weights for policy 0, policy_version 615857 (0.0006)
+[2023-07-06 13:51:19,099][98493] Updated weights for policy 0, policy_version 615909 (0.0006)
+[2023-07-06 13:51:19,617][98493] Updated weights for policy 0, policy_version 615968 (0.0007)
+[2023-07-06 13:51:19,764][98243] Fps is (10 sec: 117972.2, 60 sec: 113050.0, 300 sec: 111855.5). Total num frames: 1261535232. Throughput: 0: 27784.6. Samples: 315434496. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:19,764][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:51:21,139][98493] Updated weights for policy 0, policy_version 616016 (0.0007)
+[2023-07-06 13:51:21,578][98493] Updated weights for policy 0, policy_version 616064 (0.0007)
+[2023-07-06 13:51:23,220][98493] Updated weights for policy 0, policy_version 616123 (0.0007)
+[2023-07-06 13:51:23,851][98493] Updated weights for policy 0, policy_version 616176 (0.0007)
+[2023-07-06 13:51:24,356][98493] Updated weights for policy 0, policy_version 616229 (0.0009)
+[2023-07-06 13:51:24,764][98243] Fps is (10 sec: 114687.1, 60 sec: 113595.6, 300 sec: 111522.2). Total num frames: 1262092288. Throughput: 0: 28034.8. Samples: 315525632. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:24,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 13:51:26,055][98493] Updated weights for policy 0, policy_version 616288 (0.0006)
+[2023-07-06 13:51:27,459][98493] Updated weights for policy 0, policy_version 616336 (0.0006)
+[2023-07-06 13:51:27,843][98493] Updated weights for policy 0, policy_version 616375 (0.0007)
+[2023-07-06 13:51:28,355][98493] Updated weights for policy 0, policy_version 616416 (0.0007)
+[2023-07-06 13:51:28,934][98493] Updated weights for policy 0, policy_version 616480 (0.0007)
+[2023-07-06 13:51:29,764][98243] Fps is (10 sec: 108133.7, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 1262616576. Throughput: 0: 27864.2. Samples: 315690496. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:29,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 13:51:30,878][98493] Updated weights for policy 0, policy_version 616536 (0.0011)
+[2023-07-06 13:51:32,120][98493] Updated weights for policy 0, policy_version 616592 (0.0007)
+[2023-07-06 13:51:32,563][98493] Updated weights for policy 0, policy_version 616640 (0.0006)
+[2023-07-06 13:51:33,293][98493] Updated weights for policy 0, policy_version 616704 (0.0008)
+[2023-07-06 13:51:33,846][98493] Updated weights for policy 0, policy_version 616768 (0.0007)
+[2023-07-06 13:51:34,764][98243] Fps is (10 sec: 104858.9, 60 sec: 112503.5, 300 sec: 111300.1). Total num frames: 1263140864. Throughput: 0: 27761.8. Samples: 315856896. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:51:35,784][98449] Signal inference workers to stop experience collection... (31900 times)
+[2023-07-06 13:51:35,824][98493] InferenceWorker_p0-w0: stopping experience collection (31900 times)
+[2023-07-06 13:51:35,860][98449] Signal inference workers to resume experience collection... (31900 times)
+[2023-07-06 13:51:35,860][98493] InferenceWorker_p0-w0: resuming experience collection (31900 times)
+[2023-07-06 13:51:35,932][98493] Updated weights for policy 0, policy_version 616824 (0.0007)
+[2023-07-06 13:51:37,033][98493] Updated weights for policy 0, policy_version 616864 (0.0007)
+[2023-07-06 13:51:37,459][98493] Updated weights for policy 0, policy_version 616912 (0.0007)
+[2023-07-06 13:51:37,921][98493] Updated weights for policy 0, policy_version 616960 (0.0006)
+[2023-07-06 13:51:38,384][98493] Updated weights for policy 0, policy_version 617018 (0.0007)
+[2023-07-06 13:51:39,765][98243] Fps is (10 sec: 104854.3, 60 sec: 111410.7, 300 sec: 111077.9). Total num frames: 1263665152. Throughput: 0: 27796.2. Samples: 315940864. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:39,766][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:51:40,330][98493] Updated weights for policy 0, policy_version 617080 (0.0008)
+[2023-07-06 13:51:42,068][98493] Updated weights for policy 0, policy_version 617136 (0.0007)
+[2023-07-06 13:51:42,577][98493] Updated weights for policy 0, policy_version 617186 (0.0007)
+[2023-07-06 13:51:42,956][98493] Updated weights for policy 0, policy_version 617232 (0.0007)
+[2023-07-06 13:51:44,379][98493] Updated weights for policy 0, policy_version 617283 (0.0007)
+[2023-07-06 13:51:44,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113049.6, 300 sec: 111077.9). Total num frames: 1264287744. Throughput: 0: 27830.2. Samples: 316109312. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:51:46,496][98493] Updated weights for policy 0, policy_version 617347 (0.0006)
+[2023-07-06 13:51:47,000][98493] Updated weights for policy 0, policy_version 617408 (0.0007)
+[2023-07-06 13:51:47,649][98493] Updated weights for policy 0, policy_version 617474 (0.0007)
+[2023-07-06 13:51:48,130][98493] Updated weights for policy 0, policy_version 617536 (0.0007)
+[2023-07-06 13:51:49,545][98493] Updated weights for policy 0, policy_version 617590 (0.0007)
+[2023-07-06 13:51:49,764][98243] Fps is (10 sec: 117968.5, 60 sec: 113049.6, 300 sec: 111078.0). Total num frames: 1264844800. Throughput: 0: 27875.7. Samples: 316274176. Policy #0 lag: (min: 110.0, avg: 210.3, max: 366.0)
+[2023-07-06 13:51:49,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:51:51,828][98493] Updated weights for policy 0, policy_version 617648 (0.0007)
+[2023-07-06 13:51:52,387][98493] Updated weights for policy 0, policy_version 617712 (0.0007)
+[2023-07-06 13:51:52,436][98449] Signal inference workers to stop experience collection... (31950 times)
+[2023-07-06 13:51:52,478][98493] InferenceWorker_p0-w0: stopping experience collection (31950 times)
+[2023-07-06 13:51:52,512][98449] Signal inference workers to resume experience collection... (31950 times)
+[2023-07-06 13:51:52,512][98493] InferenceWorker_p0-w0: resuming experience collection (31950 times)
+[2023-07-06 13:51:53,029][98493] Updated weights for policy 0, policy_version 617785 (0.0008)
+[2023-07-06 13:51:54,305][98493] Updated weights for policy 0, policy_version 617850 (0.0007)
+[2023-07-06 13:51:54,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111958.9, 300 sec: 111078.0). Total num frames: 1265369088. Throughput: 0: 27830.4. Samples: 316356096. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:51:54,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:51:56,707][98493] Updated weights for policy 0, policy_version 617912 (0.0007)
+[2023-07-06 13:51:57,387][98493] Updated weights for policy 0, policy_version 617992 (0.0008)
+[2023-07-06 13:51:58,636][98493] Updated weights for policy 0, policy_version 618049 (0.0007)
+[2023-07-06 13:51:59,076][98493] Updated weights for policy 0, policy_version 618107 (0.0006)
+[2023-07-06 13:51:59,764][98243] Fps is (10 sec: 104856.0, 60 sec: 111411.4, 300 sec: 111077.9). Total num frames: 1265893376. Throughput: 0: 27704.8. Samples: 316519424. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:51:59,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:52:01,411][98493] Updated weights for policy 0, policy_version 618160 (0.0006)
+[2023-07-06 13:52:01,901][98493] Updated weights for policy 0, policy_version 618213 (0.0007)
+[2023-07-06 13:52:02,428][98493] Updated weights for policy 0, policy_version 618272 (0.0007)
+[2023-07-06 13:52:03,591][98493] Updated weights for policy 0, policy_version 618328 (0.0007)
+[2023-07-06 13:52:04,764][98243] Fps is (10 sec: 104855.7, 60 sec: 110319.0, 300 sec: 111077.9). Total num frames: 1266417664. Throughput: 0: 27829.9. Samples: 316686848. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:04,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:52:05,697][98493] Updated weights for policy 0, policy_version 618369 (0.0007)
+[2023-07-06 13:52:06,284][98493] Updated weights for policy 0, policy_version 618436 (0.0007)
+[2023-07-06 13:52:06,719][98493] Updated weights for policy 0, policy_version 618482 (0.0007)
+[2023-07-06 13:52:07,162][98493] Updated weights for policy 0, policy_version 618535 (0.0007)
+[2023-07-06 13:52:08,165][98493] Updated weights for policy 0, policy_version 618580 (0.0006)
+[2023-07-06 13:52:09,764][98243] Fps is (10 sec: 104858.9, 60 sec: 109773.8, 300 sec: 111078.0). Total num frames: 1266941952. Throughput: 0: 27625.3. Samples: 316768768. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:09,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:52:10,135][98493] Updated weights for policy 0, policy_version 618627 (0.0008)
+[2023-07-06 13:52:10,251][98449] Signal inference workers to stop experience collection... (32000 times)
+[2023-07-06 13:52:10,293][98493] InferenceWorker_p0-w0: stopping experience collection (32000 times)
+[2023-07-06 13:52:10,337][98449] Signal inference workers to resume experience collection... (32000 times)
+[2023-07-06 13:52:10,337][98493] InferenceWorker_p0-w0: resuming experience collection (32000 times)
+[2023-07-06 13:52:10,790][98493] Updated weights for policy 0, policy_version 618689 (0.0008)
+[2023-07-06 13:52:11,375][98493] Updated weights for policy 0, policy_version 618759 (0.0006)
+[2023-07-06 13:52:11,830][98493] Updated weights for policy 0, policy_version 618811 (0.0007)
+[2023-07-06 13:52:12,975][98493] Updated weights for policy 0, policy_version 618855 (0.0007)
+[2023-07-06 13:52:14,765][98243] Fps is (10 sec: 104856.5, 60 sec: 108680.0, 300 sec: 111077.9). Total num frames: 1267466240. Throughput: 0: 27727.5. Samples: 316938240. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:14,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 13:52:14,928][98493] Updated weights for policy 0, policy_version 618896 (0.0007)
+[2023-07-06 13:52:15,510][98493] Updated weights for policy 0, policy_version 618960 (0.0007)
+[2023-07-06 13:52:15,938][98493] Updated weights for policy 0, policy_version 619008 (0.0006)
+[2023-07-06 13:52:16,451][98493] Updated weights for policy 0, policy_version 619063 (0.0012)
+[2023-07-06 13:52:17,562][98493] Updated weights for policy 0, policy_version 619120 (0.0006)
+[2023-07-06 13:52:19,764][98243] Fps is (10 sec: 108135.3, 60 sec: 108134.4, 300 sec: 111078.0). Total num frames: 1268023296. Throughput: 0: 27841.4. Samples: 317109760. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:19,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:52:19,866][98493] Updated weights for policy 0, policy_version 619172 (0.0007)
+[2023-07-06 13:52:20,437][98493] Updated weights for policy 0, policy_version 619220 (0.0007)
+[2023-07-06 13:52:21,046][98493] Updated weights for policy 0, policy_version 619296 (0.0007)
+[2023-07-06 13:52:22,232][98493] Updated weights for policy 0, policy_version 619353 (0.0007)
+[2023-07-06 13:52:24,374][98493] Updated weights for policy 0, policy_version 619396 (0.0007)
+[2023-07-06 13:52:24,765][98243] Fps is (10 sec: 114687.9, 60 sec: 108680.2, 300 sec: 110966.8). Total num frames: 1268613120. Throughput: 0: 27682.1. Samples: 317186560. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:24,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:52:24,865][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000619456_1268645888.pth...
+[2023-07-06 13:52:24,935][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000606464_1242038272.pth
+[2023-07-06 13:52:25,058][98493] Updated weights for policy 0, policy_version 619472 (0.0007)
+[2023-07-06 13:52:25,578][98493] Updated weights for policy 0, policy_version 619526 (0.0007)
+[2023-07-06 13:52:26,775][98449] Signal inference workers to stop experience collection... (32050 times)
+[2023-07-06 13:52:26,784][98493] InferenceWorker_p0-w0: stopping experience collection (32050 times)
+[2023-07-06 13:52:26,810][98493] Updated weights for policy 0, policy_version 619589 (0.0007)
+[2023-07-06 13:52:26,862][98449] Signal inference workers to resume experience collection... (32050 times)
+[2023-07-06 13:52:26,863][98493] InferenceWorker_p0-w0: resuming experience collection (32050 times)
+[2023-07-06 13:52:28,971][98493] Updated weights for policy 0, policy_version 619664 (0.0007)
+[2023-07-06 13:52:29,395][98493] Updated weights for policy 0, policy_version 619712 (0.0006)
+[2023-07-06 13:52:29,764][98243] Fps is (10 sec: 114687.4, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1269170176. Throughput: 0: 27761.8. Samples: 317358592. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:29,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:52:30,159][98493] Updated weights for policy 0, policy_version 619761 (0.0007)
+[2023-07-06 13:52:30,654][98493] Updated weights for policy 0, policy_version 619824 (0.0007)
+[2023-07-06 13:52:31,735][98493] Updated weights for policy 0, policy_version 619873 (0.0006)
+[2023-07-06 13:52:33,573][98493] Updated weights for policy 0, policy_version 619920 (0.0006)
+[2023-07-06 13:52:33,953][98493] Updated weights for policy 0, policy_version 619964 (0.0006)
+[2023-07-06 13:52:34,764][98243] Fps is (10 sec: 114691.7, 60 sec: 110318.9, 300 sec: 111300.2). Total num frames: 1269760000. Throughput: 0: 27807.3. Samples: 317525504. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:34,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:52:34,989][98493] Updated weights for policy 0, policy_version 620024 (0.0007)
+[2023-07-06 13:52:35,441][98493] Updated weights for policy 0, policy_version 620080 (0.0006)
+[2023-07-06 13:52:36,104][98493] Updated weights for policy 0, policy_version 620119 (0.0007)
+[2023-07-06 13:52:38,176][98493] Updated weights for policy 0, policy_version 620162 (0.0007)
+[2023-07-06 13:52:38,622][98493] Updated weights for policy 0, policy_version 620219 (0.0006)
+[2023-07-06 13:52:39,448][98493] Updated weights for policy 0, policy_version 620277 (0.0007)
+[2023-07-06 13:52:39,764][98243] Fps is (10 sec: 121241.4, 60 sec: 111957.9, 300 sec: 111633.4). Total num frames: 1270382592. Throughput: 0: 27864.2. Samples: 317609984. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:39,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:52:40,012][98493] Updated weights for policy 0, policy_version 620346 (0.0009)
+[2023-07-06 13:52:41,231][98493] Updated weights for policy 0, policy_version 620408 (0.0007)
+[2023-07-06 13:52:43,149][98493] Updated weights for policy 0, policy_version 620464 (0.0006)
+[2023-07-06 13:52:44,079][98493] Updated weights for policy 0, policy_version 620519 (0.0008)
+[2023-07-06 13:52:44,455][98449] Signal inference workers to stop experience collection... (32100 times)
+[2023-07-06 13:52:44,514][98493] InferenceWorker_p0-w0: stopping experience collection (32100 times)
+[2023-07-06 13:52:44,573][98449] Signal inference workers to resume experience collection... (32100 times)
+[2023-07-06 13:52:44,573][98493] InferenceWorker_p0-w0: resuming experience collection (32100 times)
+[2023-07-06 13:52:44,648][98493] Updated weights for policy 0, policy_version 620577 (0.0007)
+[2023-07-06 13:52:44,764][98243] Fps is (10 sec: 121241.7, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 1270972416. Throughput: 0: 27943.9. Samples: 317776896. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:44,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 13:52:45,738][98493] Updated weights for policy 0, policy_version 620612 (0.0006)
+[2023-07-06 13:52:46,144][98493] Updated weights for policy 0, policy_version 620660 (0.0007)
+[2023-07-06 13:52:47,606][98493] Updated weights for policy 0, policy_version 620704 (0.0006)
+[2023-07-06 13:52:48,549][98493] Updated weights for policy 0, policy_version 620752 (0.0007)
+[2023-07-06 13:52:49,054][98493] Updated weights for policy 0, policy_version 620801 (0.0007)
+[2023-07-06 13:52:49,510][98493] Updated weights for policy 0, policy_version 620858 (0.0011)
+[2023-07-06 13:52:49,764][98243] Fps is (10 sec: 114688.4, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 1271529472. Throughput: 0: 27864.3. Samples: 317940736. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:49,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:52:50,809][98493] Updated weights for policy 0, policy_version 620906 (0.0007)
+[2023-07-06 13:52:51,870][98493] Updated weights for policy 0, policy_version 620944 (0.0006)
+[2023-07-06 13:52:53,112][98493] Updated weights for policy 0, policy_version 620999 (0.0006)
+[2023-07-06 13:52:53,689][98493] Updated weights for policy 0, policy_version 621065 (0.0007)
+[2023-07-06 13:52:54,103][98493] Updated weights for policy 0, policy_version 621118 (0.0007)
+[2023-07-06 13:52:54,764][98243] Fps is (10 sec: 108133.8, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1272053760. Throughput: 0: 28012.1. Samples: 318029312. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:54,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:52:55,377][98493] Updated weights for policy 0, policy_version 621158 (0.0006)
+[2023-07-06 13:52:56,903][98493] Updated weights for policy 0, policy_version 621220 (0.0007)
+[2023-07-06 13:52:57,953][98493] Updated weights for policy 0, policy_version 621284 (0.0007)
+[2023-07-06 13:52:58,510][98493] Updated weights for policy 0, policy_version 621349 (0.0007)
+[2023-07-06 13:52:59,764][98243] Fps is (10 sec: 104855.3, 60 sec: 111411.1, 300 sec: 111411.1). Total num frames: 1272578048. Throughput: 0: 27898.4. Samples: 318193664. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:52:59,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 13:53:00,017][98493] Updated weights for policy 0, policy_version 621408 (0.0007)
+[2023-07-06 13:53:01,584][98493] Updated weights for policy 0, policy_version 621463 (0.0006)
+[2023-07-06 13:53:02,331][98493] Updated weights for policy 0, policy_version 621509 (0.0006)
+[2023-07-06 13:53:02,833][98449] Signal inference workers to stop experience collection... (32150 times)
+[2023-07-06 13:53:02,866][98449] Signal inference workers to resume experience collection... (32150 times)
+[2023-07-06 13:53:02,867][98493] InferenceWorker_p0-w0: stopping experience collection (32150 times)
+[2023-07-06 13:53:02,887][98493] InferenceWorker_p0-w0: resuming experience collection (32150 times)
+[2023-07-06 13:53:02,942][98493] Updated weights for policy 0, policy_version 621570 (0.0008)
+[2023-07-06 13:53:03,369][98493] Updated weights for policy 0, policy_version 621627 (0.0007)
+[2023-07-06 13:53:04,523][98493] Updated weights for policy 0, policy_version 621653 (0.0006)
+[2023-07-06 13:53:04,764][98243] Fps is (10 sec: 114689.0, 60 sec: 113050.1, 300 sec: 111522.3). Total num frames: 1273200640. Throughput: 0: 27875.6. Samples: 318364160. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:53:04,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:53:06,006][98493] Updated weights for policy 0, policy_version 621697 (0.0007)
+[2023-07-06 13:53:06,444][98493] Updated weights for policy 0, policy_version 621755 (0.0006)
+[2023-07-06 13:53:07,352][98493] Updated weights for policy 0, policy_version 621808 (0.0007)
+[2023-07-06 13:53:07,989][98493] Updated weights for policy 0, policy_version 621872 (0.0007)
+[2023-07-06 13:53:09,198][98493] Updated weights for policy 0, policy_version 621923 (0.0007)
+[2023-07-06 13:53:09,764][98243] Fps is (10 sec: 117967.1, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 1273757696. Throughput: 0: 28057.8. Samples: 318449152. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:53:09,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:53:10,843][98493] Updated weights for policy 0, policy_version 621988 (0.0007)
+[2023-07-06 13:53:11,954][98493] Updated weights for policy 0, policy_version 622041 (0.0008)
+[2023-07-06 13:53:12,261][98493] Updated weights for policy 0, policy_version 622080 (0.0008)
+[2023-07-06 13:53:12,902][98493] Updated weights for policy 0, policy_version 622139 (0.0006)
+[2023-07-06 13:53:13,740][98493] Updated weights for policy 0, policy_version 622185 (0.0009)
+[2023-07-06 13:53:14,764][98243] Fps is (10 sec: 108132.6, 60 sec: 113596.1, 300 sec: 111189.0). Total num frames: 1274281984. Throughput: 0: 27943.8. Samples: 318616064. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:53:14,773][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:53:15,460][98493] Updated weights for policy 0, policy_version 622243 (0.0007)
+[2023-07-06 13:53:16,531][98493] Updated weights for policy 0, policy_version 622294 (0.0007)
+[2023-07-06 13:53:17,289][98493] Updated weights for policy 0, policy_version 622340 (0.0006)
+[2023-07-06 13:53:17,715][98493] Updated weights for policy 0, policy_version 622393 (0.0007)
+[2023-07-06 13:53:18,481][98493] Updated weights for policy 0, policy_version 622448 (0.0007)
+[2023-07-06 13:53:19,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113049.5, 300 sec: 111078.0). Total num frames: 1274806272. Throughput: 0: 28023.5. Samples: 318786560. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:53:19,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:53:20,308][98493] Updated weights for policy 0, policy_version 622512 (0.0007)
+[2023-07-06 13:53:21,158][98493] Updated weights for policy 0, policy_version 622560 (0.0007)
+[2023-07-06 13:53:22,176][98493] Updated weights for policy 0, policy_version 622595 (0.0007)
+[2023-07-06 13:53:22,291][98449] Signal inference workers to stop experience collection... (32200 times)
+[2023-07-06 13:53:22,328][98493] InferenceWorker_p0-w0: stopping experience collection (32200 times)
+[2023-07-06 13:53:22,378][98449] Signal inference workers to resume experience collection... (32200 times)
+[2023-07-06 13:53:22,379][98493] InferenceWorker_p0-w0: resuming experience collection (32200 times)
+[2023-07-06 13:53:22,884][98493] Updated weights for policy 0, policy_version 622662 (0.0009)
+[2023-07-06 13:53:23,296][98493] Updated weights for policy 0, policy_version 622711 (0.0008)
+[2023-07-06 13:53:24,719][98493] Updated weights for policy 0, policy_version 622741 (0.0007)
+[2023-07-06 13:53:24,764][98243] Fps is (10 sec: 108136.3, 60 sec: 112504.1, 300 sec: 111189.1). Total num frames: 1275363328. Throughput: 0: 27943.9. Samples: 318867456. Policy #0 lag: (min: 12.0, avg: 151.0, max: 268.0)
+[2023-07-06 13:53:24,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:53:25,033][98493] Updated weights for policy 0, policy_version 622784 (0.0007)
+[2023-07-06 13:53:26,870][98493] Updated weights for policy 0, policy_version 622851 (0.0007)
+[2023-07-06 13:53:27,333][98493] Updated weights for policy 0, policy_version 622904 (0.0008)
+[2023-07-06 13:53:27,858][98493] Updated weights for policy 0, policy_version 622960 (0.0007)
+[2023-07-06 13:53:29,267][98493] Updated weights for policy 0, policy_version 623008 (0.0008)
+[2023-07-06 13:53:29,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1275985920. Throughput: 0: 28057.6. Samples: 319039488. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:29,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:53:30,266][98493] Updated weights for policy 0, policy_version 623056 (0.0007)
+[2023-07-06 13:53:31,623][98493] Updated weights for policy 0, policy_version 623107 (0.0008)
+[2023-07-06 13:53:32,050][98493] Updated weights for policy 0, policy_version 623157 (0.0007)
+[2023-07-06 13:53:32,490][98493] Updated weights for policy 0, policy_version 623203 (0.0007)
+[2023-07-06 13:53:33,706][98493] Updated weights for policy 0, policy_version 623257 (0.0007)
+[2023-07-06 13:53:34,764][98243] Fps is (10 sec: 114687.1, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 1276510208. Throughput: 0: 28205.5. Samples: 319209984. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:34,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 13:53:34,942][98493] Updated weights for policy 0, policy_version 623328 (0.0007)
+[2023-07-06 13:53:36,338][98493] Updated weights for policy 0, policy_version 623364 (0.0006)
+[2023-07-06 13:53:36,909][98493] Updated weights for policy 0, policy_version 623428 (0.0007)
+[2023-07-06 13:53:37,344][98493] Updated weights for policy 0, policy_version 623480 (0.0007)
+[2023-07-06 13:53:38,480][98493] Updated weights for policy 0, policy_version 623522 (0.0007)
+[2023-07-06 13:53:39,764][98243] Fps is (10 sec: 114688.8, 60 sec: 112503.6, 300 sec: 111633.4). Total num frames: 1277132800. Throughput: 0: 28080.4. Samples: 319292928. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:39,764][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 13:53:39,831][98493] Updated weights for policy 0, policy_version 623609 (0.0007)
+[2023-07-06 13:53:41,139][98449] Signal inference workers to stop experience collection... (32250 times)
+[2023-07-06 13:53:41,170][98493] InferenceWorker_p0-w0: stopping experience collection (32250 times)
+[2023-07-06 13:53:41,227][98449] Signal inference workers to resume experience collection... (32250 times)
+[2023-07-06 13:53:41,228][98493] InferenceWorker_p0-w0: resuming experience collection (32250 times)
+[2023-07-06 13:53:41,459][98493] Updated weights for policy 0, policy_version 623652 (0.0007)
+[2023-07-06 13:53:41,933][98493] Updated weights for policy 0, policy_version 623699 (0.0006)
+[2023-07-06 13:53:42,802][98493] Updated weights for policy 0, policy_version 623760 (0.0007)
+[2023-07-06 13:53:43,171][98493] Updated weights for policy 0, policy_version 623805 (0.0007)
+[2023-07-06 13:53:44,660][98493] Updated weights for policy 0, policy_version 623868 (0.0007)
+[2023-07-06 13:53:44,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111957.3, 300 sec: 111522.3). Total num frames: 1277689856. Throughput: 0: 28182.9. Samples: 319461888. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:44,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:53:46,121][98493] Updated weights for policy 0, policy_version 623920 (0.0009)
+[2023-07-06 13:53:46,632][98493] Updated weights for policy 0, policy_version 623974 (0.0007)
+[2023-07-06 13:53:47,589][98493] Updated weights for policy 0, policy_version 624020 (0.0008)
+[2023-07-06 13:53:48,857][98493] Updated weights for policy 0, policy_version 624065 (0.0009)
+[2023-07-06 13:53:49,369][98493] Updated weights for policy 0, policy_version 624128 (0.0007)
+[2023-07-06 13:53:49,764][98243] Fps is (10 sec: 108131.6, 60 sec: 111410.8, 300 sec: 111522.3). Total num frames: 1278214144. Throughput: 0: 28148.5. Samples: 319630848. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:49,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 13:53:50,830][98493] Updated weights for policy 0, policy_version 624192 (0.0007)
+[2023-07-06 13:53:51,332][98493] Updated weights for policy 0, policy_version 624251 (0.0007)
+[2023-07-06 13:53:52,472][98493] Updated weights for policy 0, policy_version 624293 (0.0006)
+[2023-07-06 13:53:53,790][98493] Updated weights for policy 0, policy_version 624343 (0.0008)
+[2023-07-06 13:53:54,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1278738432. Throughput: 0: 28034.8. Samples: 319710720. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:54,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:53:55,148][98493] Updated weights for policy 0, policy_version 624392 (0.0006)
+[2023-07-06 13:53:55,689][98493] Updated weights for policy 0, policy_version 624454 (0.0007)
+[2023-07-06 13:53:56,168][98493] Updated weights for policy 0, policy_version 624512 (0.0007)
+[2023-07-06 13:53:57,172][98493] Updated weights for policy 0, policy_version 624572 (0.0008)
+[2023-07-06 13:53:58,394][98449] Signal inference workers to stop experience collection... (32300 times)
+[2023-07-06 13:53:58,446][98493] InferenceWorker_p0-w0: stopping experience collection (32300 times)
+[2023-07-06 13:53:58,486][98449] Signal inference workers to resume experience collection... (32300 times)
+[2023-07-06 13:53:58,487][98493] InferenceWorker_p0-w0: resuming experience collection (32300 times)
+[2023-07-06 13:53:58,632][98493] Updated weights for policy 0, policy_version 624624 (0.0007)
+[2023-07-06 13:53:59,765][98243] Fps is (10 sec: 104856.5, 60 sec: 111411.0, 300 sec: 111522.1). Total num frames: 1279262720. Throughput: 0: 28057.5. Samples: 319878656. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:53:59,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:54:00,089][98493] Updated weights for policy 0, policy_version 624672 (0.0020)
+[2023-07-06 13:54:00,736][98493] Updated weights for policy 0, policy_version 624740 (0.0009)
+[2023-07-06 13:54:01,477][98493] Updated weights for policy 0, policy_version 624800 (0.0007)
+[2023-07-06 13:54:03,066][98493] Updated weights for policy 0, policy_version 624835 (0.0006)
+[2023-07-06 13:54:03,504][98493] Updated weights for policy 0, policy_version 624894 (0.0006)
+[2023-07-06 13:54:04,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109772.6, 300 sec: 111522.3). Total num frames: 1279787008. Throughput: 0: 28103.1. Samples: 320051200. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:04,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 13:54:05,138][98493] Updated weights for policy 0, policy_version 624944 (0.0007)
+[2023-07-06 13:54:05,593][98493] Updated weights for policy 0, policy_version 624992 (0.0008)
+[2023-07-06 13:54:06,199][98493] Updated weights for policy 0, policy_version 625048 (0.0006)
+[2023-07-06 13:54:07,633][98493] Updated weights for policy 0, policy_version 625096 (0.0007)
+[2023-07-06 13:54:08,073][98493] Updated weights for policy 0, policy_version 625152 (0.0006)
+[2023-07-06 13:54:09,764][98243] Fps is (10 sec: 114691.7, 60 sec: 110865.1, 300 sec: 111411.2). Total num frames: 1280409600. Throughput: 0: 28114.5. Samples: 320132608. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:09,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 13:54:09,846][98493] Updated weights for policy 0, policy_version 625208 (0.0007)
+[2023-07-06 13:54:10,401][98493] Updated weights for policy 0, policy_version 625275 (0.0006)
+[2023-07-06 13:54:11,143][98493] Updated weights for policy 0, policy_version 625328 (0.0007)
+[2023-07-06 13:54:12,281][98493] Updated weights for policy 0, policy_version 625376 (0.0006)
+[2023-07-06 13:54:14,018][98493] Updated weights for policy 0, policy_version 625440 (0.0006)
+[2023-07-06 13:54:14,726][98493] Updated weights for policy 0, policy_version 625491 (0.0008)
+[2023-07-06 13:54:14,764][98243] Fps is (10 sec: 121241.7, 60 sec: 111957.5, 300 sec: 111633.4). Total num frames: 1280999424. Throughput: 0: 28069.0. Samples: 320302592. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:14,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 13:54:15,076][98493] Updated weights for policy 0, policy_version 625536 (0.0007)
+[2023-07-06 13:54:15,716][98493] Updated weights for policy 0, policy_version 625593 (0.0008)
+[2023-07-06 13:54:16,847][98449] Signal inference workers to stop experience collection... (32350 times)
+[2023-07-06 13:54:16,878][98493] InferenceWorker_p0-w0: stopping experience collection (32350 times)
+[2023-07-06 13:54:16,944][98449] Signal inference workers to resume experience collection... (32350 times)
+[2023-07-06 13:54:16,945][98493] InferenceWorker_p0-w0: resuming experience collection (32350 times)
+[2023-07-06 13:54:17,164][98493] Updated weights for policy 0, policy_version 625638 (0.0006)
+[2023-07-06 13:54:18,706][98493] Updated weights for policy 0, policy_version 625701 (0.0007)
+[2023-07-06 13:54:19,323][98493] Updated weights for policy 0, policy_version 625731 (0.0007)
+[2023-07-06 13:54:19,764][98243] Fps is (10 sec: 117963.8, 60 sec: 113049.4, 300 sec: 111744.4). Total num frames: 1281589248. Throughput: 0: 27977.9. Samples: 320468992. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:19,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:54:19,824][98493] Updated weights for policy 0, policy_version 625792 (0.0007)
+[2023-07-06 13:54:20,359][98493] Updated weights for policy 0, policy_version 625852 (0.0007)
+[2023-07-06 13:54:21,992][98493] Updated weights for policy 0, policy_version 625914 (0.0007)
+[2023-07-06 13:54:23,702][98493] Updated weights for policy 0, policy_version 625968 (0.0007)
+[2023-07-06 13:54:24,320][98493] Updated weights for policy 0, policy_version 626016 (0.0007)
+[2023-07-06 13:54:24,764][98243] Fps is (10 sec: 114688.4, 60 sec: 113049.5, 300 sec: 111744.5). Total num frames: 1282146304. Throughput: 0: 27989.3. Samples: 320552448. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:24,764][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:54:24,851][98493] Updated weights for policy 0, policy_version 626068 (0.0007)
+[2023-07-06 13:54:24,921][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000626080_1282211840.pth...
+[2023-07-06 13:54:24,998][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000612928_1255276544.pth
+[2023-07-06 13:54:26,479][98493] Updated weights for policy 0, policy_version 626128 (0.0007)
+[2023-07-06 13:54:28,128][98493] Updated weights for policy 0, policy_version 626192 (0.0008)
+[2023-07-06 13:54:28,994][98493] Updated weights for policy 0, policy_version 626264 (0.0007)
+[2023-07-06 13:54:29,708][98493] Updated weights for policy 0, policy_version 626336 (0.0007)
+[2023-07-06 13:54:29,764][98243] Fps is (10 sec: 114688.6, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 1282736128. Throughput: 0: 27898.3. Samples: 320717312. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 13:54:30,999][98493] Updated weights for policy 0, policy_version 626376 (0.0006)
+[2023-07-06 13:54:32,954][98493] Updated weights for policy 0, policy_version 626435 (0.0007)
+[2023-07-06 13:54:33,456][98493] Updated weights for policy 0, policy_version 626496 (0.0008)
+[2023-07-06 13:54:33,967][98493] Updated weights for policy 0, policy_version 626555 (0.0006)
+[2023-07-06 13:54:34,572][98449] Signal inference workers to stop experience collection... (32400 times)
+[2023-07-06 13:54:34,616][98493] InferenceWorker_p0-w0: stopping experience collection (32400 times)
+[2023-07-06 13:54:34,663][98449] Signal inference workers to resume experience collection... (32400 times)
+[2023-07-06 13:54:34,663][98493] InferenceWorker_p0-w0: resuming experience collection (32400 times)
+[2023-07-06 13:54:34,689][98493] Updated weights for policy 0, policy_version 626609 (0.0007)
+[2023-07-06 13:54:34,764][98243] Fps is (10 sec: 114687.0, 60 sec: 113049.5, 300 sec: 111855.5). Total num frames: 1283293184. Throughput: 0: 27773.2. Samples: 320880640. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:54:35,734][98493] Updated weights for policy 0, policy_version 626656 (0.0007)
+[2023-07-06 13:54:37,868][98493] Updated weights for policy 0, policy_version 626713 (0.0006)
+[2023-07-06 13:54:38,320][98493] Updated weights for policy 0, policy_version 626768 (0.0007)
+[2023-07-06 13:54:38,739][98493] Updated weights for policy 0, policy_version 626816 (0.0007)
+[2023-07-06 13:54:39,413][98493] Updated weights for policy 0, policy_version 626864 (0.0007)
+[2023-07-06 13:54:39,765][98243] Fps is (10 sec: 111407.4, 60 sec: 111956.6, 300 sec: 111966.5). Total num frames: 1283850240. Throughput: 0: 28068.8. Samples: 320973824. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 13:54:40,278][98493] Updated weights for policy 0, policy_version 626914 (0.0007)
+[2023-07-06 13:54:42,446][98493] Updated weights for policy 0, policy_version 626976 (0.0007)
+[2023-07-06 13:54:43,055][98493] Updated weights for policy 0, policy_version 627044 (0.0032)
+[2023-07-06 13:54:43,876][98493] Updated weights for policy 0, policy_version 627088 (0.0007)
+[2023-07-06 13:54:44,282][98493] Updated weights for policy 0, policy_version 627136 (0.0007)
+[2023-07-06 13:54:44,764][98243] Fps is (10 sec: 111412.0, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 1284407296. Throughput: 0: 27978.1. Samples: 321137664. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:54:45,104][98493] Updated weights for policy 0, policy_version 627192 (0.0007)
+[2023-07-06 13:54:47,436][98493] Updated weights for policy 0, policy_version 627250 (0.0007)
+[2023-07-06 13:54:47,981][98493] Updated weights for policy 0, policy_version 627322 (0.0008)
+[2023-07-06 13:54:48,715][98493] Updated weights for policy 0, policy_version 627365 (0.0006)
+[2023-07-06 13:54:49,320][98493] Updated weights for policy 0, policy_version 627408 (0.0006)
+[2023-07-06 13:54:49,764][98243] Fps is (10 sec: 117968.3, 60 sec: 113596.0, 300 sec: 112077.6). Total num frames: 1285029888. Throughput: 0: 27750.4. Samples: 321299968. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:49,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:54:51,642][98493] Updated weights for policy 0, policy_version 627459 (0.0006)
+[2023-07-06 13:54:52,078][98493] Updated weights for policy 0, policy_version 627515 (0.0005)
+[2023-07-06 13:54:52,871][98493] Updated weights for policy 0, policy_version 627577 (0.0008)
+[2023-07-06 13:54:53,367][98449] Signal inference workers to stop experience collection... (32450 times)
+[2023-07-06 13:54:53,413][98493] InferenceWorker_p0-w0: stopping experience collection (32450 times)
+[2023-07-06 13:54:53,454][98449] Signal inference workers to resume experience collection... (32450 times)
+[2023-07-06 13:54:53,454][98493] InferenceWorker_p0-w0: resuming experience collection (32450 times)
+[2023-07-06 13:54:53,593][98493] Updated weights for policy 0, policy_version 627632 (0.0006)
+[2023-07-06 13:54:53,971][98493] Updated weights for policy 0, policy_version 627664 (0.0007)
+[2023-07-06 13:54:54,412][98493] Updated weights for policy 0, policy_version 627712 (0.0006)
+[2023-07-06 13:54:54,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113595.8, 300 sec: 111855.5). Total num frames: 1285554176. Throughput: 0: 27921.0. Samples: 321389056. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:54,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:54:56,695][98493] Updated weights for policy 0, policy_version 627769 (0.0007)
+[2023-07-06 13:54:57,301][98493] Updated weights for policy 0, policy_version 627808 (0.0007)
+[2023-07-06 13:54:58,142][98493] Updated weights for policy 0, policy_version 627872 (0.0007)
+[2023-07-06 13:54:58,639][98493] Updated weights for policy 0, policy_version 627920 (0.0007)
+[2023-07-06 13:54:59,097][98493] Updated weights for policy 0, policy_version 627968 (0.0006)
+[2023-07-06 13:54:59,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113596.2, 300 sec: 111633.4). Total num frames: 1286078464. Throughput: 0: 27807.3. Samples: 321553920. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:54:59,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:55:01,596][98493] Updated weights for policy 0, policy_version 628029 (0.0007)
+[2023-07-06 13:55:02,050][98493] Updated weights for policy 0, policy_version 628080 (0.0008)
+[2023-07-06 13:55:03,026][98493] Updated weights for policy 0, policy_version 628144 (0.0007)
+[2023-07-06 13:55:03,463][98493] Updated weights for policy 0, policy_version 628192 (0.0007)
+[2023-07-06 13:55:04,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 1286602752. Throughput: 0: 27864.2. Samples: 321722880. Policy #0 lag: (min: 15.0, avg: 122.9, max: 271.0)
+[2023-07-06 13:55:04,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:55:05,620][98493] Updated weights for policy 0, policy_version 628232 (0.0006)
+[2023-07-06 13:55:06,026][98493] Updated weights for policy 0, policy_version 628280 (0.0007)
+[2023-07-06 13:55:06,741][98493] Updated weights for policy 0, policy_version 628323 (0.0011)
+[2023-07-06 13:55:07,395][98493] Updated weights for policy 0, policy_version 628358 (0.0007)
+[2023-07-06 13:55:07,869][98493] Updated weights for policy 0, policy_version 628416 (0.0006)
+[2023-07-06 13:55:08,480][98493] Updated weights for policy 0, policy_version 628480 (0.0006)
+[2023-07-06 13:55:09,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111957.3, 300 sec: 111522.3). Total num frames: 1287127040. Throughput: 0: 27886.9. Samples: 321807360. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:09,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:55:10,346][98493] Updated weights for policy 0, policy_version 628529 (0.0006)
+[2023-07-06 13:55:11,457][98493] Updated weights for policy 0, policy_version 628581 (0.0007)
+[2023-07-06 13:55:12,288][98449] Signal inference workers to stop experience collection... (32500 times)
+[2023-07-06 13:55:12,332][98493] InferenceWorker_p0-w0: stopping experience collection (32500 times)
+[2023-07-06 13:55:12,338][98493] Updated weights for policy 0, policy_version 628632 (0.0007)
+[2023-07-06 13:55:12,373][98449] Signal inference workers to resume experience collection... (32500 times)
+[2023-07-06 13:55:12,373][98493] InferenceWorker_p0-w0: resuming experience collection (32500 times)
+[2023-07-06 13:55:12,868][98493] Updated weights for policy 0, policy_version 628689 (0.0006)
+[2023-07-06 13:55:13,179][98493] Updated weights for policy 0, policy_version 628733 (0.0007)
+[2023-07-06 13:55:14,764][98243] Fps is (10 sec: 111409.9, 60 sec: 111957.1, 300 sec: 111744.4). Total num frames: 1287716864. Throughput: 0: 27955.1. Samples: 321975296. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:14,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:55:14,930][98493] Updated weights for policy 0, policy_version 628794 (0.0007)
+[2023-07-06 13:55:16,336][98493] Updated weights for policy 0, policy_version 628833 (0.0007)
+[2023-07-06 13:55:16,838][98493] Updated weights for policy 0, policy_version 628880 (0.0007)
+[2023-07-06 13:55:17,344][98493] Updated weights for policy 0, policy_version 628929 (0.0007)
+[2023-07-06 13:55:17,766][98493] Updated weights for policy 0, policy_version 628985 (0.0007)
+[2023-07-06 13:55:19,231][98493] Updated weights for policy 0, policy_version 629028 (0.0007)
+[2023-07-06 13:55:19,764][98243] Fps is (10 sec: 117964.5, 60 sec: 111957.4, 300 sec: 111966.6). Total num frames: 1288306688. Throughput: 0: 28114.5. Samples: 322145792. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:19,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:55:21,009][98493] Updated weights for policy 0, policy_version 629081 (0.0006)
+[2023-07-06 13:55:21,436][98493] Updated weights for policy 0, policy_version 629128 (0.0007)
+[2023-07-06 13:55:21,851][98493] Updated weights for policy 0, policy_version 629181 (0.0008)
+[2023-07-06 13:55:22,414][98493] Updated weights for policy 0, policy_version 629232 (0.0008)
+[2023-07-06 13:55:23,838][98493] Updated weights for policy 0, policy_version 629284 (0.0007)
+[2023-07-06 13:55:24,043][98493] Updated weights for policy 0, policy_version 629312 (0.0008)
+[2023-07-06 13:55:24,764][98243] Fps is (10 sec: 111412.0, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 1288830976. Throughput: 0: 27921.3. Samples: 322230272. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:24,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 13:55:25,698][98493] Updated weights for policy 0, policy_version 629363 (0.0007)
+[2023-07-06 13:55:26,247][98493] Updated weights for policy 0, policy_version 629433 (0.0007)
+[2023-07-06 13:55:27,238][98493] Updated weights for policy 0, policy_version 629489 (0.0007)
+[2023-07-06 13:55:28,465][98493] Updated weights for policy 0, policy_version 629528 (0.0006)
+[2023-07-06 13:55:28,777][98493] Updated weights for policy 0, policy_version 629568 (0.0006)
+[2023-07-06 13:55:29,764][98243] Fps is (10 sec: 104855.7, 60 sec: 110318.6, 300 sec: 111744.3). Total num frames: 1289355264. Throughput: 0: 28080.2. Samples: 322401280. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:29,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:55:30,093][98449] Signal inference workers to stop experience collection... (32550 times)
+[2023-07-06 13:55:30,112][98493] InferenceWorker_p0-w0: stopping experience collection (32550 times)
+[2023-07-06 13:55:30,191][98449] Signal inference workers to resume experience collection... (32550 times)
+[2023-07-06 13:55:30,192][98493] InferenceWorker_p0-w0: resuming experience collection (32550 times)
+[2023-07-06 13:55:30,292][98493] Updated weights for policy 0, policy_version 629625 (0.0024)
+[2023-07-06 13:55:30,831][98493] Updated weights for policy 0, policy_version 629690 (0.0006)
+[2023-07-06 13:55:31,845][98493] Updated weights for policy 0, policy_version 629755 (0.0007)
+[2023-07-06 13:55:33,318][98493] Updated weights for policy 0, policy_version 629817 (0.0007)
+[2023-07-06 13:55:34,764][98243] Fps is (10 sec: 108135.5, 60 sec: 110319.2, 300 sec: 111633.4). Total num frames: 1289912320. Throughput: 0: 28308.0. Samples: 322573824. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:34,764][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:55:34,866][98493] Updated weights for policy 0, policy_version 629860 (0.0006)
+[2023-07-06 13:55:35,343][98493] Updated weights for policy 0, policy_version 629908 (0.0008)
+[2023-07-06 13:55:36,149][98493] Updated weights for policy 0, policy_version 629957 (0.0011)
+[2023-07-06 13:55:36,571][98493] Updated weights for policy 0, policy_version 630008 (0.0007)
+[2023-07-06 13:55:37,617][98493] Updated weights for policy 0, policy_version 630043 (0.0008)
+[2023-07-06 13:55:39,220][98493] Updated weights for policy 0, policy_version 630096 (0.0007)
+[2023-07-06 13:55:39,665][98493] Updated weights for policy 0, policy_version 630140 (0.0007)
+[2023-07-06 13:55:39,764][98243] Fps is (10 sec: 117965.2, 60 sec: 111411.6, 300 sec: 111966.5). Total num frames: 1290534912. Throughput: 0: 28205.4. Samples: 322658304. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:39,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:55:40,108][98493] Updated weights for policy 0, policy_version 630192 (0.0008)
+[2023-07-06 13:55:40,902][98493] Updated weights for policy 0, policy_version 630240 (0.0007)
+[2023-07-06 13:55:41,840][98493] Updated weights for policy 0, policy_version 630273 (0.0013)
+[2023-07-06 13:55:42,319][98493] Updated weights for policy 0, policy_version 630336 (0.0006)
+[2023-07-06 13:55:44,334][98493] Updated weights for policy 0, policy_version 630388 (0.0007)
+[2023-07-06 13:55:44,764][98243] Fps is (10 sec: 121242.2, 60 sec: 111957.5, 300 sec: 112077.7). Total num frames: 1291124736. Throughput: 0: 28353.5. Samples: 322829824. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:44,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:55:44,829][98493] Updated weights for policy 0, policy_version 630441 (0.0006)
+[2023-07-06 13:55:45,564][98493] Updated weights for policy 0, policy_version 630496 (0.0007)
+[2023-07-06 13:55:46,615][98493] Updated weights for policy 0, policy_version 630552 (0.0007)
+[2023-07-06 13:55:46,943][98493] Updated weights for policy 0, policy_version 630592 (0.0006)
+[2023-07-06 13:55:48,578][98449] Signal inference workers to stop experience collection... (32600 times)
+[2023-07-06 13:55:48,609][98493] InferenceWorker_p0-w0: stopping experience collection (32600 times)
+[2023-07-06 13:55:48,666][98449] Signal inference workers to resume experience collection... (32600 times)
+[2023-07-06 13:55:48,666][98493] InferenceWorker_p0-w0: resuming experience collection (32600 times)
+[2023-07-06 13:55:49,093][98493] Updated weights for policy 0, policy_version 630656 (0.0007)
+[2023-07-06 13:55:49,595][98493] Updated weights for policy 0, policy_version 630715 (0.0007)
+[2023-07-06 13:55:49,764][98243] Fps is (10 sec: 117966.3, 60 sec: 111411.2, 300 sec: 112078.0). Total num frames: 1291714560. Throughput: 0: 28239.6. Samples: 322993664. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:49,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:55:50,378][98493] Updated weights for policy 0, policy_version 630768 (0.0008)
+[2023-07-06 13:55:51,441][98493] Updated weights for policy 0, policy_version 630819 (0.0006)
+[2023-07-06 13:55:53,543][98493] Updated weights for policy 0, policy_version 630880 (0.0007)
+[2023-07-06 13:55:54,014][98493] Updated weights for policy 0, policy_version 630928 (0.0012)
+[2023-07-06 13:55:54,444][98493] Updated weights for policy 0, policy_version 630975 (0.0007)
+[2023-07-06 13:55:54,764][98243] Fps is (10 sec: 114687.2, 60 sec: 111957.4, 300 sec: 112077.8). Total num frames: 1292271616. Throughput: 0: 28307.9. Samples: 323081216. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:54,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:55:55,067][98493] Updated weights for policy 0, policy_version 631040 (0.0007)
+[2023-07-06 13:55:56,127][98493] Updated weights for policy 0, policy_version 631101 (0.0007)
+[2023-07-06 13:55:58,463][98493] Updated weights for policy 0, policy_version 631164 (0.0012)
+[2023-07-06 13:55:59,183][98493] Updated weights for policy 0, policy_version 631219 (0.0007)
+[2023-07-06 13:55:59,692][98493] Updated weights for policy 0, policy_version 631280 (0.0008)
+[2023-07-06 13:55:59,764][98243] Fps is (10 sec: 114688.5, 60 sec: 113049.7, 300 sec: 112077.8). Total num frames: 1292861440. Throughput: 0: 28308.0. Samples: 323249152. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:55:59,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:56:00,751][98493] Updated weights for policy 0, policy_version 631344 (0.0007)
+[2023-07-06 13:56:03,203][98493] Updated weights for policy 0, policy_version 631396 (0.0006)
+[2023-07-06 13:56:03,757][98493] Updated weights for policy 0, policy_version 631456 (0.0008)
+[2023-07-06 13:56:04,395][98493] Updated weights for policy 0, policy_version 631523 (0.0007)
+[2023-07-06 13:56:04,764][98243] Fps is (10 sec: 114688.2, 60 sec: 113595.8, 300 sec: 112077.9). Total num frames: 1293418496. Throughput: 0: 28057.6. Samples: 323408384. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:04,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:56:05,122][98493] Updated weights for policy 0, policy_version 631568 (0.0007)
+[2023-07-06 13:56:05,174][98449] Signal inference workers to stop experience collection... (32650 times)
+[2023-07-06 13:56:05,205][98493] InferenceWorker_p0-w0: stopping experience collection (32650 times)
+[2023-07-06 13:56:05,268][98449] Signal inference workers to resume experience collection... (32650 times)
+[2023-07-06 13:56:05,269][98493] InferenceWorker_p0-w0: resuming experience collection (32650 times)
+[2023-07-06 13:56:07,807][98493] Updated weights for policy 0, policy_version 631619 (0.0007)
+[2023-07-06 13:56:08,374][98493] Updated weights for policy 0, policy_version 631682 (0.0007)
+[2023-07-06 13:56:08,977][98493] Updated weights for policy 0, policy_version 631752 (0.0007)
+[2023-07-06 13:56:09,403][98493] Updated weights for policy 0, policy_version 631804 (0.0007)
+[2023-07-06 13:56:09,764][98243] Fps is (10 sec: 108133.6, 60 sec: 113595.6, 300 sec: 111855.5). Total num frames: 1293942784. Throughput: 0: 28251.0. Samples: 323501568. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:09,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:56:10,122][98493] Updated weights for policy 0, policy_version 631856 (0.0007)
+[2023-07-06 13:56:12,483][98493] Updated weights for policy 0, policy_version 631888 (0.0009)
+[2023-07-06 13:56:13,037][98493] Updated weights for policy 0, policy_version 631952 (0.0008)
+[2023-07-06 13:56:13,600][98493] Updated weights for policy 0, policy_version 632016 (0.0007)
+[2023-07-06 13:56:14,363][98493] Updated weights for policy 0, policy_version 632065 (0.0007)
+[2023-07-06 13:56:14,764][98243] Fps is (10 sec: 114687.5, 60 sec: 114142.1, 300 sec: 111966.6). Total num frames: 1294565376. Throughput: 0: 27966.7. Samples: 323659776. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:14,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:56:17,193][98493] Updated weights for policy 0, policy_version 632131 (0.0007)
+[2023-07-06 13:56:17,701][98493] Updated weights for policy 0, policy_version 632192 (0.0008)
+[2023-07-06 13:56:18,223][98493] Updated weights for policy 0, policy_version 632253 (0.0008)
+[2023-07-06 13:56:18,691][98493] Updated weights for policy 0, policy_version 632304 (0.0007)
+[2023-07-06 13:56:19,481][98493] Updated weights for policy 0, policy_version 632358 (0.0008)
+[2023-07-06 13:56:19,764][98243] Fps is (10 sec: 117965.7, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1295122432. Throughput: 0: 27773.1. Samples: 323823616. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:19,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:56:21,898][98493] Updated weights for policy 0, policy_version 632405 (0.0007)
+[2023-07-06 13:56:22,348][98493] Updated weights for policy 0, policy_version 632450 (0.0008)
+[2023-07-06 13:56:22,611][98449] Signal inference workers to stop experience collection... (32700 times)
+[2023-07-06 13:56:22,642][98493] InferenceWorker_p0-w0: stopping experience collection (32700 times)
+[2023-07-06 13:56:22,710][98449] Signal inference workers to resume experience collection... (32700 times)
+[2023-07-06 13:56:22,711][98493] InferenceWorker_p0-w0: resuming experience collection (32700 times)
+[2023-07-06 13:56:22,805][98493] Updated weights for policy 0, policy_version 632508 (0.0007)
+[2023-07-06 13:56:23,496][98493] Updated weights for policy 0, policy_version 632576 (0.0008)
+[2023-07-06 13:56:24,165][98493] Updated weights for policy 0, policy_version 632635 (0.0007)
+[2023-07-06 13:56:24,764][98243] Fps is (10 sec: 108134.1, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1295646720. Throughput: 0: 27887.0. Samples: 323913216. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:56:24,773][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000632640_1295646720.pth...
+[2023-07-06 13:56:24,809][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000619456_1268645888.pth
+[2023-07-06 13:56:26,856][98493] Updated weights for policy 0, policy_version 632698 (0.0027)
+[2023-07-06 13:56:27,259][98493] Updated weights for policy 0, policy_version 632740 (0.0007)
+[2023-07-06 13:56:27,997][98493] Updated weights for policy 0, policy_version 632784 (0.0008)
+[2023-07-06 13:56:28,558][98493] Updated weights for policy 0, policy_version 632848 (0.0007)
+[2023-07-06 13:56:28,962][98493] Updated weights for policy 0, policy_version 632892 (0.0007)
+[2023-07-06 13:56:29,765][98243] Fps is (10 sec: 104854.0, 60 sec: 113595.5, 300 sec: 111966.4). Total num frames: 1296171008. Throughput: 0: 27727.4. Samples: 324077568. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 13:56:31,552][98493] Updated weights for policy 0, policy_version 632945 (0.0008)
+[2023-07-06 13:56:32,036][98493] Updated weights for policy 0, policy_version 633008 (0.0007)
+[2023-07-06 13:56:32,830][98493] Updated weights for policy 0, policy_version 633062 (0.0006)
+[2023-07-06 13:56:33,339][98493] Updated weights for policy 0, policy_version 633120 (0.0009)
+[2023-07-06 13:56:34,764][98243] Fps is (10 sec: 104857.3, 60 sec: 113049.4, 300 sec: 111966.7). Total num frames: 1296695296. Throughput: 0: 27909.7. Samples: 324249600. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 13:56:35,840][98493] Updated weights for policy 0, policy_version 633168 (0.0006)
+[2023-07-06 13:56:36,396][98493] Updated weights for policy 0, policy_version 633223 (0.0007)
+[2023-07-06 13:56:36,812][98493] Updated weights for policy 0, policy_version 633275 (0.0006)
+[2023-07-06 13:56:37,493][98493] Updated weights for policy 0, policy_version 633315 (0.0007)
+[2023-07-06 13:56:38,061][98493] Updated weights for policy 0, policy_version 633384 (0.0007)
+[2023-07-06 13:56:39,764][98243] Fps is (10 sec: 104860.5, 60 sec: 111411.4, 300 sec: 111633.3). Total num frames: 1297219584. Throughput: 0: 27784.5. Samples: 324331520. Policy #0 lag: (min: 15.0, avg: 93.8, max: 271.0)
+[2023-07-06 13:56:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:56:40,626][98449] Signal inference workers to stop experience collection... (32750 times)
+[2023-07-06 13:56:40,676][98493] InferenceWorker_p0-w0: stopping experience collection (32750 times)
+[2023-07-06 13:56:40,709][98449] Signal inference workers to resume experience collection... (32750 times)
+[2023-07-06 13:56:40,710][98493] InferenceWorker_p0-w0: resuming experience collection (32750 times)
+[2023-07-06 13:56:40,938][98493] Updated weights for policy 0, policy_version 633466 (0.0027)
+[2023-07-06 13:56:41,911][98493] Updated weights for policy 0, policy_version 633537 (0.0007)
+[2023-07-06 13:56:42,350][98493] Updated weights for policy 0, policy_version 633588 (0.0014)
+[2023-07-06 13:56:42,841][98493] Updated weights for policy 0, policy_version 633648 (0.0009)
+[2023-07-06 13:56:44,764][98243] Fps is (10 sec: 104858.1, 60 sec: 110318.7, 300 sec: 111522.3). Total num frames: 1297743872. Throughput: 0: 27761.8. Samples: 324498432. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:56:44,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:56:45,587][98493] Updated weights for policy 0, policy_version 633712 (0.0006)
+[2023-07-06 13:56:46,114][98493] Updated weights for policy 0, policy_version 633770 (0.0006)
+[2023-07-06 13:56:46,882][98493] Updated weights for policy 0, policy_version 633817 (0.0006)
+[2023-07-06 13:56:47,426][98493] Updated weights for policy 0, policy_version 633877 (0.0006)
+[2023-07-06 13:56:49,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109226.6, 300 sec: 111522.3). Total num frames: 1298268160. Throughput: 0: 28012.0. Samples: 324668928. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:56:49,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:56:50,188][98493] Updated weights for policy 0, policy_version 633952 (0.0007)
+[2023-07-06 13:56:50,687][98493] Updated weights for policy 0, policy_version 634000 (0.0008)
+[2023-07-06 13:56:51,481][98493] Updated weights for policy 0, policy_version 634049 (0.0007)
+[2023-07-06 13:56:51,931][98493] Updated weights for policy 0, policy_version 634100 (0.0008)
+[2023-07-06 13:56:52,487][98493] Updated weights for policy 0, policy_version 634170 (0.0007)
+[2023-07-06 13:56:54,765][98243] Fps is (10 sec: 104854.3, 60 sec: 108679.9, 300 sec: 111522.2). Total num frames: 1298792448. Throughput: 0: 27590.9. Samples: 324743168. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:56:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 13:56:55,237][98493] Updated weights for policy 0, policy_version 634224 (0.0006)
+[2023-07-06 13:56:55,779][98493] Updated weights for policy 0, policy_version 634282 (0.0008)
+[2023-07-06 13:56:56,208][98493] Updated weights for policy 0, policy_version 634308 (0.0007)
+[2023-07-06 13:56:56,612][98449] Signal inference workers to stop experience collection... (32800 times)
+[2023-07-06 13:56:56,642][98493] InferenceWorker_p0-w0: stopping experience collection (32800 times)
+[2023-07-06 13:56:56,691][98449] Signal inference workers to resume experience collection... (32800 times)
+[2023-07-06 13:56:56,691][98493] InferenceWorker_p0-w0: resuming experience collection (32800 times)
+[2023-07-06 13:56:56,692][98493] Updated weights for policy 0, policy_version 634368 (0.0007)
+[2023-07-06 13:56:57,197][98493] Updated weights for policy 0, policy_version 634426 (0.0007)
+[2023-07-06 13:56:59,672][98493] Updated weights for policy 0, policy_version 634480 (0.0006)
+[2023-07-06 13:56:59,764][98243] Fps is (10 sec: 114687.0, 60 sec: 109226.4, 300 sec: 111855.5). Total num frames: 1299415040. Throughput: 0: 27921.0. Samples: 324916224. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:56:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 13:57:00,208][98493] Updated weights for policy 0, policy_version 634516 (0.0006)
+[2023-07-06 13:57:00,933][98493] Updated weights for policy 0, policy_version 634576 (0.0008)
+[2023-07-06 13:57:01,439][98493] Updated weights for policy 0, policy_version 634629 (0.0007)
+[2023-07-06 13:57:01,874][98493] Updated weights for policy 0, policy_version 634683 (0.0007)
+[2023-07-06 13:57:04,364][98493] Updated weights for policy 0, policy_version 634749 (0.0007)
+[2023-07-06 13:57:04,764][98243] Fps is (10 sec: 117965.9, 60 sec: 109226.2, 300 sec: 111966.5). Total num frames: 1299972096. Throughput: 0: 28080.2. Samples: 325087232. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:04,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:57:05,156][98493] Updated weights for policy 0, policy_version 634800 (0.0007)
+[2023-07-06 13:57:05,676][98493] Updated weights for policy 0, policy_version 634853 (0.0007)
+[2023-07-06 13:57:06,378][98493] Updated weights for policy 0, policy_version 634918 (0.0007)
+[2023-07-06 13:57:08,759][98493] Updated weights for policy 0, policy_version 634983 (0.0007)
+[2023-07-06 13:57:09,764][98243] Fps is (10 sec: 111410.9, 60 sec: 109772.6, 300 sec: 112077.7). Total num frames: 1300529152. Throughput: 0: 27886.8. Samples: 325168128. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:09,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 13:57:09,779][98493] Updated weights for policy 0, policy_version 635026 (0.0006)
+[2023-07-06 13:57:10,375][98493] Updated weights for policy 0, policy_version 635095 (0.0007)
+[2023-07-06 13:57:10,986][98493] Updated weights for policy 0, policy_version 635152 (0.0007)
+[2023-07-06 13:57:13,099][98493] Updated weights for policy 0, policy_version 635204 (0.0008)
+[2023-07-06 13:57:13,542][98493] Updated weights for policy 0, policy_version 635262 (0.0007)
+[2023-07-06 13:57:14,695][98493] Updated weights for policy 0, policy_version 635321 (0.0007)
+[2023-07-06 13:57:14,764][98243] Fps is (10 sec: 117968.4, 60 sec: 109772.9, 300 sec: 112299.8). Total num frames: 1301151744. Throughput: 0: 27955.5. Samples: 325335552. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:14,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:57:14,772][98449] Signal inference workers to stop experience collection... (32850 times)
+[2023-07-06 13:57:14,820][98493] InferenceWorker_p0-w0: stopping experience collection (32850 times)
+[2023-07-06 13:57:14,853][98449] Signal inference workers to resume experience collection... (32850 times)
+[2023-07-06 13:57:14,854][98493] InferenceWorker_p0-w0: resuming experience collection (32850 times)
+[2023-07-06 13:57:15,221][98493] Updated weights for policy 0, policy_version 635384 (0.0007)
+[2023-07-06 13:57:15,878][98493] Updated weights for policy 0, policy_version 635411 (0.0009)
+[2023-07-06 13:57:17,795][98493] Updated weights for policy 0, policy_version 635459 (0.0008)
+[2023-07-06 13:57:18,227][98493] Updated weights for policy 0, policy_version 635516 (0.0007)
+[2023-07-06 13:57:19,224][98493] Updated weights for policy 0, policy_version 635568 (0.0007)
+[2023-07-06 13:57:19,691][98493] Updated weights for policy 0, policy_version 635616 (0.0007)
+[2023-07-06 13:57:19,764][98243] Fps is (10 sec: 121240.9, 60 sec: 110318.5, 300 sec: 112299.8). Total num frames: 1301741568. Throughput: 0: 27784.4. Samples: 325499904. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:19,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:57:20,576][98493] Updated weights for policy 0, policy_version 635652 (0.0006)
+[2023-07-06 13:57:21,015][98493] Updated weights for policy 0, policy_version 635706 (0.0007)
+[2023-07-06 13:57:22,572][98493] Updated weights for policy 0, policy_version 635749 (0.0007)
+[2023-07-06 13:57:23,694][98493] Updated weights for policy 0, policy_version 635811 (0.0007)
+[2023-07-06 13:57:24,224][98493] Updated weights for policy 0, policy_version 635842 (0.0007)
+[2023-07-06 13:57:24,701][98493] Updated weights for policy 0, policy_version 635903 (0.0006)
+[2023-07-06 13:57:24,764][98243] Fps is (10 sec: 117963.7, 60 sec: 111411.2, 300 sec: 112410.9). Total num frames: 1302331392. Throughput: 0: 27887.0. Samples: 325586432. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:24,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:57:25,642][98493] Updated weights for policy 0, policy_version 635960 (0.0007)
+[2023-07-06 13:57:27,390][98493] Updated weights for policy 0, policy_version 636016 (0.0008)
+[2023-07-06 13:57:28,372][98493] Updated weights for policy 0, policy_version 636064 (0.0007)
+[2023-07-06 13:57:28,938][98493] Updated weights for policy 0, policy_version 636128 (0.0007)
+[2023-07-06 13:57:29,766][98243] Fps is (10 sec: 111394.5, 60 sec: 111408.6, 300 sec: 112188.1). Total num frames: 1302855680. Throughput: 0: 27942.8. Samples: 325755904. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:29,767][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:57:29,880][98493] Updated weights for policy 0, policy_version 636161 (0.0007)
+[2023-07-06 13:57:30,382][98493] Updated weights for policy 0, policy_version 636224 (0.0006)
+[2023-07-06 13:57:32,132][98493] Updated weights for policy 0, policy_version 636282 (0.0007)
+[2023-07-06 13:57:33,218][98449] Signal inference workers to stop experience collection... (32900 times)
+[2023-07-06 13:57:33,224][98493] Updated weights for policy 0, policy_version 636348 (0.0028)
+[2023-07-06 13:57:33,237][98493] InferenceWorker_p0-w0: stopping experience collection (32900 times)
+[2023-07-06 13:57:33,255][98449] Signal inference workers to resume experience collection... (32900 times)
+[2023-07-06 13:57:33,262][98493] InferenceWorker_p0-w0: resuming experience collection (32900 times)
+[2023-07-06 13:57:33,726][98493] Updated weights for policy 0, policy_version 636401 (0.0007)
+[2023-07-06 13:57:34,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111957.4, 300 sec: 111966.6). Total num frames: 1303412736. Throughput: 0: 27943.8. Samples: 325926400. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:34,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 13:57:34,881][98493] Updated weights for policy 0, policy_version 636448 (0.0007)
+[2023-07-06 13:57:36,413][98493] Updated weights for policy 0, policy_version 636512 (0.0007)
+[2023-07-06 13:57:37,612][98493] Updated weights for policy 0, policy_version 636576 (0.0006)
+[2023-07-06 13:57:38,234][98493] Updated weights for policy 0, policy_version 636630 (0.0007)
+[2023-07-06 13:57:39,506][98493] Updated weights for policy 0, policy_version 636690 (0.0007)
+[2023-07-06 13:57:39,764][98243] Fps is (10 sec: 114707.6, 60 sec: 113049.7, 300 sec: 111966.6). Total num frames: 1304002560. Throughput: 0: 28103.3. Samples: 326007808. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:39,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:57:40,953][98493] Updated weights for policy 0, policy_version 636739 (0.0007)
+[2023-07-06 13:57:41,357][98493] Updated weights for policy 0, policy_version 636793 (0.0008)
+[2023-07-06 13:57:42,290][98493] Updated weights for policy 0, policy_version 636848 (0.0007)
+[2023-07-06 13:57:43,134][98493] Updated weights for policy 0, policy_version 636899 (0.0008)
+[2023-07-06 13:57:44,258][98493] Updated weights for policy 0, policy_version 636966 (0.0008)
+[2023-07-06 13:57:44,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1304559616. Throughput: 0: 28012.2. Samples: 326176768. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:57:45,634][98493] Updated weights for policy 0, policy_version 637008 (0.0007)
+[2023-07-06 13:57:46,518][98493] Updated weights for policy 0, policy_version 637059 (0.0008)
+[2023-07-06 13:57:46,966][98493] Updated weights for policy 0, policy_version 637116 (0.0007)
+[2023-07-06 13:57:47,908][98493] Updated weights for policy 0, policy_version 637173 (0.0008)
+[2023-07-06 13:57:49,077][98493] Updated weights for policy 0, policy_version 637204 (0.0007)
+[2023-07-06 13:57:49,393][98493] Updated weights for policy 0, policy_version 637246 (0.0006)
+[2023-07-06 13:57:49,764][98243] Fps is (10 sec: 108134.7, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 1305083904. Throughput: 0: 28012.2. Samples: 326347776. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:49,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:57:50,467][98493] Updated weights for policy 0, policy_version 637306 (0.0007)
+[2023-07-06 13:57:51,596][98493] Updated weights for policy 0, policy_version 637360 (0.0007)
+[2023-07-06 13:57:52,325][98449] Signal inference workers to stop experience collection... (32950 times)
+[2023-07-06 13:57:52,362][98493] InferenceWorker_p0-w0: stopping experience collection (32950 times)
+[2023-07-06 13:57:52,401][98449] Signal inference workers to resume experience collection... (32950 times)
+[2023-07-06 13:57:52,401][98493] InferenceWorker_p0-w0: resuming experience collection (32950 times)
+[2023-07-06 13:57:52,412][98493] Updated weights for policy 0, policy_version 637408 (0.0007)
+[2023-07-06 13:57:54,073][98493] Updated weights for policy 0, policy_version 637476 (0.0013)
+[2023-07-06 13:57:54,764][98243] Fps is (10 sec: 108134.6, 60 sec: 114142.5, 300 sec: 112077.8). Total num frames: 1305640960. Throughput: 0: 27989.5. Samples: 326427648. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:54,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 13:57:54,899][98493] Updated weights for policy 0, policy_version 637541 (0.0007)
+[2023-07-06 13:57:55,135][98493] Updated weights for policy 0, policy_version 637568 (0.0006)
+[2023-07-06 13:57:56,528][98493] Updated weights for policy 0, policy_version 637630 (0.0007)
+[2023-07-06 13:57:57,200][98493] Updated weights for policy 0, policy_version 637689 (0.0008)
+[2023-07-06 13:57:58,818][98493] Updated weights for policy 0, policy_version 637735 (0.0006)
+[2023-07-06 13:57:59,460][98493] Updated weights for policy 0, policy_version 637797 (0.0007)
+[2023-07-06 13:57:59,764][98243] Fps is (10 sec: 117964.8, 60 sec: 114142.2, 300 sec: 112077.6). Total num frames: 1306263552. Throughput: 0: 28114.4. Samples: 326600704. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:57:59,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 13:58:00,753][98493] Updated weights for policy 0, policy_version 637840 (0.0007)
+[2023-07-06 13:58:01,587][98493] Updated weights for policy 0, policy_version 637904 (0.0007)
+[2023-07-06 13:58:02,859][98493] Updated weights for policy 0, policy_version 637953 (0.0007)
+[2023-07-06 13:58:03,319][98493] Updated weights for policy 0, policy_version 638012 (0.0008)
+[2023-07-06 13:58:04,073][98493] Updated weights for policy 0, policy_version 638064 (0.0008)
+[2023-07-06 13:58:04,764][98243] Fps is (10 sec: 114686.3, 60 sec: 113595.9, 300 sec: 111966.5). Total num frames: 1306787840. Throughput: 0: 28217.0. Samples: 326769664. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:58:04,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:58:05,582][98493] Updated weights for policy 0, policy_version 638115 (0.0007)
+[2023-07-06 13:58:06,438][98493] Updated weights for policy 0, policy_version 638176 (0.0006)
+[2023-07-06 13:58:07,339][98493] Updated weights for policy 0, policy_version 638212 (0.0006)
+[2023-07-06 13:58:07,835][98493] Updated weights for policy 0, policy_version 638272 (0.0007)
+[2023-07-06 13:58:08,738][98493] Updated weights for policy 0, policy_version 638332 (0.0007)
+[2023-07-06 13:58:09,764][98243] Fps is (10 sec: 104856.0, 60 sec: 113049.6, 300 sec: 111966.6). Total num frames: 1307312128. Throughput: 0: 28171.3. Samples: 326854144. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:58:09,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 13:58:10,273][98493] Updated weights for policy 0, policy_version 638375 (0.0007)
+[2023-07-06 13:58:11,133][98493] Updated weights for policy 0, policy_version 638432 (0.0007)
+[2023-07-06 13:58:11,404][98493] Updated weights for policy 0, policy_version 638464 (0.0006)
+[2023-07-06 13:58:11,869][98449] Signal inference workers to stop experience collection... (33000 times)
+[2023-07-06 13:58:11,881][98493] InferenceWorker_p0-w0: stopping experience collection (33000 times)
+[2023-07-06 13:58:11,963][98449] Signal inference workers to resume experience collection... (33000 times)
+[2023-07-06 13:58:11,963][98493] InferenceWorker_p0-w0: resuming experience collection (33000 times)
+[2023-07-06 13:58:12,366][98493] Updated weights for policy 0, policy_version 638525 (0.0008)
+[2023-07-06 13:58:13,421][98493] Updated weights for policy 0, policy_version 638576 (0.0007)
+[2023-07-06 13:58:14,613][98493] Updated weights for policy 0, policy_version 638608 (0.0010)
+[2023-07-06 13:58:14,764][98243] Fps is (10 sec: 111412.9, 60 sec: 112503.4, 300 sec: 112188.7). Total num frames: 1307901952. Throughput: 0: 28195.2. Samples: 327024640. Policy #0 lag: (min: 50.0, avg: 142.9, max: 322.0)
+[2023-07-06 13:58:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 13:58:15,623][98493] Updated weights for policy 0, policy_version 638672 (0.0006)
+[2023-07-06 13:58:16,357][98493] Updated weights for policy 0, policy_version 638722 (0.0006)
+[2023-07-06 13:58:17,688][98493] Updated weights for policy 0, policy_version 638788 (0.0008)
+[2023-07-06 13:58:18,111][98493] Updated weights for policy 0, policy_version 638841 (0.0007)
+[2023-07-06 13:58:19,490][98493] Updated weights for policy 0, policy_version 638886 (0.0007)
+[2023-07-06 13:58:19,764][98243] Fps is (10 sec: 117966.1, 60 sec: 112503.8, 300 sec: 112299.8). Total num frames: 1308491776. Throughput: 0: 28239.6. Samples: 327197184. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:19,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 13:58:20,336][98493] Updated weights for policy 0, policy_version 638945 (0.0006)
+[2023-07-06 13:58:21,233][98493] Updated weights for policy 0, policy_version 639008 (0.0008)
+[2023-07-06 13:58:22,337][98493] Updated weights for policy 0, policy_version 639056 (0.0007)
+[2023-07-06 13:58:22,773][98493] Updated weights for policy 0, policy_version 639104 (0.0007)
+[2023-07-06 13:58:24,227][98493] Updated weights for policy 0, policy_version 639165 (0.0007)
+[2023-07-06 13:58:24,764][98243] Fps is (10 sec: 111411.1, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1309016064. Throughput: 0: 28251.0. Samples: 327279104. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:24,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 13:58:24,899][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000639200_1309081600.pth...
+[2023-07-06 13:58:24,978][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000626080_1282211840.pth
+[2023-07-06 13:58:25,089][98493] Updated weights for policy 0, policy_version 639216 (0.0007)
+[2023-07-06 13:58:25,911][98493] Updated weights for policy 0, policy_version 639264 (0.0007)
+[2023-07-06 13:58:26,864][98493] Updated weights for policy 0, policy_version 639299 (0.0007)
+[2023-07-06 13:58:27,335][98493] Updated weights for policy 0, policy_version 639357 (0.0006)
+[2023-07-06 13:58:28,816][98493] Updated weights for policy 0, policy_version 639410 (0.0007)
+[2023-07-06 13:58:29,764][98243] Fps is (10 sec: 111412.8, 60 sec: 112506.9, 300 sec: 112188.8). Total num frames: 1309605888. Throughput: 0: 28308.0. Samples: 327450624. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:29,764][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:58:29,797][98493] Updated weights for policy 0, policy_version 639472 (0.0007)
+[2023-07-06 13:58:30,697][98449] Signal inference workers to stop experience collection... (33050 times)
+[2023-07-06 13:58:30,733][98493] InferenceWorker_p0-w0: stopping experience collection (33050 times)
+[2023-07-06 13:58:30,785][98449] Signal inference workers to resume experience collection... (33050 times)
+[2023-07-06 13:58:30,785][98493] InferenceWorker_p0-w0: resuming experience collection (33050 times)
+[2023-07-06 13:58:30,867][98493] Updated weights for policy 0, policy_version 639545 (0.0007)
+[2023-07-06 13:58:31,989][98493] Updated weights for policy 0, policy_version 639609 (0.0006)
+[2023-07-06 13:58:33,501][98493] Updated weights for policy 0, policy_version 639664 (0.0006)
+[2023-07-06 13:58:34,440][98493] Updated weights for policy 0, policy_version 639728 (0.0007)
+[2023-07-06 13:58:34,765][98243] Fps is (10 sec: 117961.5, 60 sec: 113049.1, 300 sec: 112077.5). Total num frames: 1310195712. Throughput: 0: 28159.8. Samples: 327614976. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:34,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:58:35,287][98493] Updated weights for policy 0, policy_version 639780 (0.0008)
+[2023-07-06 13:58:36,618][98493] Updated weights for policy 0, policy_version 639830 (0.0007)
+[2023-07-06 13:58:38,066][98493] Updated weights for policy 0, policy_version 639893 (0.0008)
+[2023-07-06 13:58:39,116][98493] Updated weights for policy 0, policy_version 639958 (0.0008)
+[2023-07-06 13:58:39,764][98243] Fps is (10 sec: 111408.2, 60 sec: 111957.1, 300 sec: 111966.5). Total num frames: 1310720000. Throughput: 0: 28296.4. Samples: 327700992. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:39,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 13:58:39,896][98493] Updated weights for policy 0, policy_version 640005 (0.0007)
+[2023-07-06 13:58:40,333][98493] Updated weights for policy 0, policy_version 640062 (0.0006)
+[2023-07-06 13:58:41,551][98493] Updated weights for policy 0, policy_version 640122 (0.0007)
+[2023-07-06 13:58:42,997][98493] Updated weights for policy 0, policy_version 640184 (0.0007)
+[2023-07-06 13:58:43,787][98493] Updated weights for policy 0, policy_version 640240 (0.0007)
+[2023-07-06 13:58:44,764][98243] Fps is (10 sec: 108136.1, 60 sec: 111957.1, 300 sec: 112077.7). Total num frames: 1311277056. Throughput: 0: 28114.4. Samples: 327865856. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:44,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:58:44,982][98493] Updated weights for policy 0, policy_version 640294 (0.0008)
+[2023-07-06 13:58:45,790][98493] Updated weights for policy 0, policy_version 640336 (0.0007)
+[2023-07-06 13:58:46,161][98493] Updated weights for policy 0, policy_version 640379 (0.0007)
+[2023-07-06 13:58:47,715][98493] Updated weights for policy 0, policy_version 640442 (0.0007)
+[2023-07-06 13:58:48,398][98493] Updated weights for policy 0, policy_version 640483 (0.0006)
+[2023-07-06 13:58:49,559][98493] Updated weights for policy 0, policy_version 640548 (0.0008)
+[2023-07-06 13:58:49,764][98243] Fps is (10 sec: 117967.1, 60 sec: 113595.8, 300 sec: 112410.9). Total num frames: 1311899648. Throughput: 0: 28091.8. Samples: 328033792. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:49,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:58:50,394][98493] Updated weights for policy 0, policy_version 640579 (0.0006)
+[2023-07-06 13:58:50,510][98449] Signal inference workers to stop experience collection... (33100 times)
+[2023-07-06 13:58:50,536][98493] InferenceWorker_p0-w0: stopping experience collection (33100 times)
+[2023-07-06 13:58:50,590][98449] Signal inference workers to resume experience collection... (33100 times)
+[2023-07-06 13:58:50,590][98493] InferenceWorker_p0-w0: resuming experience collection (33100 times)
+[2023-07-06 13:58:50,855][98493] Updated weights for policy 0, policy_version 640635 (0.0008)
+[2023-07-06 13:58:52,082][98493] Updated weights for policy 0, policy_version 640678 (0.0006)
+[2023-07-06 13:58:53,163][98493] Updated weights for policy 0, policy_version 640743 (0.0007)
+[2023-07-06 13:58:54,229][98493] Updated weights for policy 0, policy_version 640804 (0.0007)
+[2023-07-06 13:58:54,764][98243] Fps is (10 sec: 114688.9, 60 sec: 113049.5, 300 sec: 112411.0). Total num frames: 1312423936. Throughput: 0: 28148.7. Samples: 328120832. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:54,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 13:58:55,373][98493] Updated weights for policy 0, policy_version 640864 (0.0007)
+[2023-07-06 13:58:56,388][98493] Updated weights for policy 0, policy_version 640898 (0.0006)
+[2023-07-06 13:58:56,800][98493] Updated weights for policy 0, policy_version 640952 (0.0008)
+[2023-07-06 13:58:57,645][98493] Updated weights for policy 0, policy_version 640992 (0.0007)
+[2023-07-06 13:58:58,576][98493] Updated weights for policy 0, policy_version 641029 (0.0007)
+[2023-07-06 13:58:59,001][98493] Updated weights for policy 0, policy_version 641086 (0.0007)
+[2023-07-06 13:58:59,764][98243] Fps is (10 sec: 108134.6, 60 sec: 111957.4, 300 sec: 112522.0). Total num frames: 1312980992. Throughput: 0: 28148.6. Samples: 328291328. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:58:59,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 13:59:00,081][98493] Updated weights for policy 0, policy_version 641143 (0.0008)
+[2023-07-06 13:59:01,451][98493] Updated weights for policy 0, policy_version 641193 (0.0007)
+[2023-07-06 13:59:02,285][98493] Updated weights for policy 0, policy_version 641248 (0.0007)
+[2023-07-06 13:59:03,499][98493] Updated weights for policy 0, policy_version 641304 (0.0007)
+[2023-07-06 13:59:04,423][98493] Updated weights for policy 0, policy_version 641348 (0.0007)
+[2023-07-06 13:59:04,764][98243] Fps is (10 sec: 114689.7, 60 sec: 113050.1, 300 sec: 112410.9). Total num frames: 1313570816. Throughput: 0: 27966.7. Samples: 328455680. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:04,764][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:59:04,886][98493] Updated weights for policy 0, policy_version 641408 (0.0007)
+[2023-07-06 13:59:06,142][98493] Updated weights for policy 0, policy_version 641470 (0.0007)
+[2023-07-06 13:59:07,317][98493] Updated weights for policy 0, policy_version 641530 (0.0007)
+[2023-07-06 13:59:08,145][98493] Updated weights for policy 0, policy_version 641590 (0.0007)
+[2023-07-06 13:59:09,444][98493] Updated weights for policy 0, policy_version 641632 (0.0006)
+[2023-07-06 13:59:09,764][98243] Fps is (10 sec: 114687.9, 60 sec: 113596.1, 300 sec: 112299.8). Total num frames: 1314127872. Throughput: 0: 28057.6. Samples: 328541696. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:09,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:59:10,424][98449] Signal inference workers to stop experience collection... (33150 times)
+[2023-07-06 13:59:10,454][98493] InferenceWorker_p0-w0: stopping experience collection (33150 times)
+[2023-07-06 13:59:10,514][98449] Signal inference workers to resume experience collection... (33150 times)
+[2023-07-06 13:59:10,514][98493] InferenceWorker_p0-w0: resuming experience collection (33150 times)
+[2023-07-06 13:59:10,515][98493] Updated weights for policy 0, policy_version 641680 (0.0006)
+[2023-07-06 13:59:10,910][98493] Updated weights for policy 0, policy_version 641726 (0.0006)
+[2023-07-06 13:59:11,853][98493] Updated weights for policy 0, policy_version 641776 (0.0007)
+[2023-07-06 13:59:12,597][98493] Updated weights for policy 0, policy_version 641840 (0.0007)
+[2023-07-06 13:59:13,881][98493] Updated weights for policy 0, policy_version 641859 (0.0007)
+[2023-07-06 13:59:14,764][98243] Fps is (10 sec: 108133.1, 60 sec: 112503.4, 300 sec: 112077.7). Total num frames: 1314652160. Throughput: 0: 28068.9. Samples: 328713728. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:14,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 13:59:14,936][98493] Updated weights for policy 0, policy_version 641925 (0.0007)
+[2023-07-06 13:59:15,389][98493] Updated weights for policy 0, policy_version 641981 (0.0011)
+[2023-07-06 13:59:16,808][98493] Updated weights for policy 0, policy_version 642035 (0.0008)
+[2023-07-06 13:59:17,237][98493] Updated weights for policy 0, policy_version 642084 (0.0007)
+[2023-07-06 13:59:18,674][98493] Updated weights for policy 0, policy_version 642128 (0.0006)
+[2023-07-06 13:59:19,476][98493] Updated weights for policy 0, policy_version 642177 (0.0007)
+[2023-07-06 13:59:19,764][98243] Fps is (10 sec: 111410.4, 60 sec: 112503.5, 300 sec: 112188.7). Total num frames: 1315241984. Throughput: 0: 28103.3. Samples: 328879616. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:19,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:59:19,944][98493] Updated weights for policy 0, policy_version 642235 (0.0006)
+[2023-07-06 13:59:21,272][98493] Updated weights for policy 0, policy_version 642288 (0.0007)
+[2023-07-06 13:59:21,859][98493] Updated weights for policy 0, policy_version 642340 (0.0008)
+[2023-07-06 13:59:23,499][98493] Updated weights for policy 0, policy_version 642400 (0.0007)
+[2023-07-06 13:59:23,898][98493] Updated weights for policy 0, policy_version 642432 (0.0007)
+[2023-07-06 13:59:24,421][98493] Updated weights for policy 0, policy_version 642488 (0.0008)
+[2023-07-06 13:59:24,764][98243] Fps is (10 sec: 117963.8, 60 sec: 113595.5, 300 sec: 112188.7). Total num frames: 1315831808. Throughput: 0: 28137.3. Samples: 328967168. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:24,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 13:59:26,273][98493] Updated weights for policy 0, policy_version 642553 (0.0007)
+[2023-07-06 13:59:26,805][98493] Updated weights for policy 0, policy_version 642616 (0.0006)
+[2023-07-06 13:59:28,345][98449] Signal inference workers to stop experience collection... (33200 times)
+[2023-07-06 13:59:28,376][98493] InferenceWorker_p0-w0: stopping experience collection (33200 times)
+[2023-07-06 13:59:28,429][98449] Signal inference workers to resume experience collection... (33200 times)
+[2023-07-06 13:59:28,430][98493] InferenceWorker_p0-w0: resuming experience collection (33200 times)
+[2023-07-06 13:59:28,518][98493] Updated weights for policy 0, policy_version 642681 (0.0007)
+[2023-07-06 13:59:29,262][98493] Updated weights for policy 0, policy_version 642721 (0.0008)
+[2023-07-06 13:59:29,764][98243] Fps is (10 sec: 111411.7, 60 sec: 112503.3, 300 sec: 112077.7). Total num frames: 1316356096. Throughput: 0: 28080.4. Samples: 329129472. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:29,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 13:59:30,598][98493] Updated weights for policy 0, policy_version 642778 (0.0007)
+[2023-07-06 13:59:31,319][98493] Updated weights for policy 0, policy_version 642839 (0.0007)
+[2023-07-06 13:59:32,786][98493] Updated weights for policy 0, policy_version 642881 (0.0007)
+[2023-07-06 13:59:33,314][98493] Updated weights for policy 0, policy_version 642944 (0.0007)
+[2023-07-06 13:59:34,009][98493] Updated weights for policy 0, policy_version 642999 (0.0006)
+[2023-07-06 13:59:34,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.4, 300 sec: 111966.7). Total num frames: 1316880384. Throughput: 0: 28034.7. Samples: 329295360. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:34,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 13:59:35,367][98493] Updated weights for policy 0, policy_version 643045 (0.0006)
+[2023-07-06 13:59:35,959][98493] Updated weights for policy 0, policy_version 643088 (0.0007)
+[2023-07-06 13:59:37,550][98493] Updated weights for policy 0, policy_version 643140 (0.0007)
+[2023-07-06 13:59:38,031][98493] Updated weights for policy 0, policy_version 643200 (0.0007)
+[2023-07-06 13:59:38,734][98493] Updated weights for policy 0, policy_version 643258 (0.0008)
+[2023-07-06 13:59:39,764][98243] Fps is (10 sec: 104855.1, 60 sec: 111411.1, 300 sec: 111855.4). Total num frames: 1317404672. Throughput: 0: 28012.0. Samples: 329381376. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 13:59:40,158][98493] Updated weights for policy 0, policy_version 643302 (0.0006)
+[2023-07-06 13:59:40,740][98493] Updated weights for policy 0, policy_version 643349 (0.0008)
+[2023-07-06 13:59:41,972][98493] Updated weights for policy 0, policy_version 643395 (0.0007)
+[2023-07-06 13:59:42,434][98493] Updated weights for policy 0, policy_version 643451 (0.0013)
+[2023-07-06 13:59:43,386][98493] Updated weights for policy 0, policy_version 643515 (0.0007)
+[2023-07-06 13:59:44,764][98243] Fps is (10 sec: 104859.4, 60 sec: 110865.3, 300 sec: 111522.3). Total num frames: 1317928960. Throughput: 0: 27909.7. Samples: 329547264. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:44,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 13:59:45,074][98493] Updated weights for policy 0, policy_version 643558 (0.0006)
+[2023-07-06 13:59:45,678][98493] Updated weights for policy 0, policy_version 643632 (0.0007)
+[2023-07-06 13:59:47,049][98493] Updated weights for policy 0, policy_version 643708 (0.0007)
+[2023-07-06 13:59:47,547][98449] Signal inference workers to stop experience collection... (33250 times)
+[2023-07-06 13:59:47,575][98493] InferenceWorker_p0-w0: stopping experience collection (33250 times)
+[2023-07-06 13:59:47,635][98449] Signal inference workers to resume experience collection... (33250 times)
+[2023-07-06 13:59:47,635][98493] InferenceWorker_p0-w0: resuming experience collection (33250 times)
+[2023-07-06 13:59:47,908][98493] Updated weights for policy 0, policy_version 643760 (0.0007)
+[2023-07-06 13:59:49,583][98493] Updated weights for policy 0, policy_version 643812 (0.0007)
+[2023-07-06 13:59:49,764][98243] Fps is (10 sec: 114690.4, 60 sec: 110865.0, 300 sec: 111855.5). Total num frames: 1318551552. Throughput: 0: 28000.6. Samples: 329715712. Policy #0 lag: (min: 15.0, avg: 138.1, max: 271.0)
+[2023-07-06 13:59:49,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 13:59:50,165][98493] Updated weights for policy 0, policy_version 643859 (0.0006)
+[2023-07-06 13:59:50,453][98493] Updated weights for policy 0, policy_version 643900 (0.0006)
+[2023-07-06 13:59:51,652][98493] Updated weights for policy 0, policy_version 643952 (0.0007)
+[2023-07-06 13:59:52,657][98493] Updated weights for policy 0, policy_version 643991 (0.0007)
+[2023-07-06 13:59:52,952][98493] Updated weights for policy 0, policy_version 644029 (0.0011)
+[2023-07-06 13:59:54,262][98493] Updated weights for policy 0, policy_version 644069 (0.0007)
+[2023-07-06 13:59:54,734][98493] Updated weights for policy 0, policy_version 644118 (0.0007)
+[2023-07-06 13:59:54,764][98243] Fps is (10 sec: 121242.6, 60 sec: 111957.6, 300 sec: 112077.7). Total num frames: 1319141376. Throughput: 0: 28012.1. Samples: 329802240. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 13:59:54,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 13:59:55,985][98493] Updated weights for policy 0, policy_version 644179 (0.0007)
+[2023-07-06 13:59:57,310][98493] Updated weights for policy 0, policy_version 644247 (0.0007)
+[2023-07-06 13:59:58,655][98493] Updated weights for policy 0, policy_version 644312 (0.0006)
+[2023-07-06 13:59:58,971][98493] Updated weights for policy 0, policy_version 644352 (0.0007)
+[2023-07-06 13:59:59,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111957.2, 300 sec: 112188.7). Total num frames: 1319698432. Throughput: 0: 27921.1. Samples: 329970176. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 13:59:59,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 13:59:59,931][98493] Updated weights for policy 0, policy_version 644412 (0.0008)
+[2023-07-06 14:00:00,715][98493] Updated weights for policy 0, policy_version 644470 (0.0007)
+[2023-07-06 14:00:02,075][98493] Updated weights for policy 0, policy_version 644512 (0.0006)
+[2023-07-06 14:00:03,446][98493] Updated weights for policy 0, policy_version 644567 (0.0007)
+[2023-07-06 14:00:03,754][98493] Updated weights for policy 0, policy_version 644607 (0.0007)
+[2023-07-06 14:00:04,538][98493] Updated weights for policy 0, policy_version 644664 (0.0008)
+[2023-07-06 14:00:04,764][98243] Fps is (10 sec: 114685.7, 60 sec: 111956.9, 300 sec: 112410.9). Total num frames: 1320288256. Throughput: 0: 27955.1. Samples: 330137600. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:04,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:00:05,446][98493] Updated weights for policy 0, policy_version 644730 (0.0008)
+[2023-07-06 14:00:06,788][98449] Signal inference workers to stop experience collection... (33300 times)
+[2023-07-06 14:00:06,816][98493] InferenceWorker_p0-w0: stopping experience collection (33300 times)
+[2023-07-06 14:00:06,866][98449] Signal inference workers to resume experience collection... (33300 times)
+[2023-07-06 14:00:06,867][98493] InferenceWorker_p0-w0: resuming experience collection (33300 times)
+[2023-07-06 14:00:07,095][98493] Updated weights for policy 0, policy_version 644795 (0.0007)
+[2023-07-06 14:00:08,214][98493] Updated weights for policy 0, policy_version 644848 (0.0007)
+[2023-07-06 14:00:09,123][98493] Updated weights for policy 0, policy_version 644912 (0.0007)
+[2023-07-06 14:00:09,764][98243] Fps is (10 sec: 111411.3, 60 sec: 111411.1, 300 sec: 112188.8). Total num frames: 1320812544. Throughput: 0: 27898.4. Samples: 330222592. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:09,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:00:10,104][98493] Updated weights for policy 0, policy_version 644960 (0.0007)
+[2023-07-06 14:00:11,551][98493] Updated weights for policy 0, policy_version 645008 (0.0008)
+[2023-07-06 14:00:12,589][98493] Updated weights for policy 0, policy_version 645072 (0.0006)
+[2023-07-06 14:00:13,419][98493] Updated weights for policy 0, policy_version 645136 (0.0007)
+[2023-07-06 14:00:13,842][98493] Updated weights for policy 0, policy_version 645184 (0.0007)
+[2023-07-06 14:00:14,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.0, 300 sec: 111966.5). Total num frames: 1321336832. Throughput: 0: 27886.8. Samples: 330384384. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:14,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:00:15,180][98493] Updated weights for policy 0, policy_version 645234 (0.0007)
+[2023-07-06 14:00:16,509][98493] Updated weights for policy 0, policy_version 645281 (0.0007)
+[2023-07-06 14:00:17,365][98493] Updated weights for policy 0, policy_version 645317 (0.0006)
+[2023-07-06 14:00:17,818][98493] Updated weights for policy 0, policy_version 645374 (0.0007)
+[2023-07-06 14:00:18,487][98493] Updated weights for policy 0, policy_version 645431 (0.0008)
+[2023-07-06 14:00:19,764][98243] Fps is (10 sec: 108134.5, 60 sec: 110865.1, 300 sec: 112077.7). Total num frames: 1321893888. Throughput: 0: 27955.3. Samples: 330553344. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:19,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:00:19,884][98493] Updated weights for policy 0, policy_version 645475 (0.0013)
+[2023-07-06 14:00:21,105][98493] Updated weights for policy 0, policy_version 645529 (0.0007)
+[2023-07-06 14:00:22,176][98493] Updated weights for policy 0, policy_version 645592 (0.0006)
+[2023-07-06 14:00:22,944][98493] Updated weights for policy 0, policy_version 645656 (0.0013)
+[2023-07-06 14:00:24,355][98493] Updated weights for policy 0, policy_version 645712 (0.0006)
+[2023-07-06 14:00:24,764][98243] Fps is (10 sec: 117966.4, 60 sec: 111411.4, 300 sec: 112411.0). Total num frames: 1322516480. Throughput: 0: 27875.7. Samples: 330635776. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:24,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 14:00:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000645760_1322516480.pth...
+[2023-07-06 14:00:24,771][98493] Updated weights for policy 0, policy_version 645760 (0.0008)
+[2023-07-06 14:00:24,800][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000632640_1295646720.pth
+[2023-07-06 14:00:26,116][98493] Updated weights for policy 0, policy_version 645824 (0.0006)
+[2023-07-06 14:00:26,594][98449] Signal inference workers to stop experience collection... (33350 times)
+[2023-07-06 14:00:26,624][98493] InferenceWorker_p0-w0: stopping experience collection (33350 times)
+[2023-07-06 14:00:26,691][98449] Signal inference workers to resume experience collection... (33350 times)
+[2023-07-06 14:00:26,691][98493] InferenceWorker_p0-w0: resuming experience collection (33350 times)
+[2023-07-06 14:00:27,062][98493] Updated weights for policy 0, policy_version 645884 (0.0007)
+[2023-07-06 14:00:27,990][98493] Updated weights for policy 0, policy_version 645942 (0.0007)
+[2023-07-06 14:00:29,092][98493] Updated weights for policy 0, policy_version 645972 (0.0006)
+[2023-07-06 14:00:29,430][98493] Updated weights for policy 0, policy_version 646016 (0.0007)
+[2023-07-06 14:00:29,764][98243] Fps is (10 sec: 114688.1, 60 sec: 111411.2, 300 sec: 112299.8). Total num frames: 1323040768. Throughput: 0: 27932.4. Samples: 330804224. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:29,765][98243] Avg episode reward: [(0, '9.460')]
+[2023-07-06 14:00:30,753][98493] Updated weights for policy 0, policy_version 646064 (0.0006)
+[2023-07-06 14:00:31,187][98493] Updated weights for policy 0, policy_version 646104 (0.0007)
+[2023-07-06 14:00:32,426][98493] Updated weights for policy 0, policy_version 646166 (0.0007)
+[2023-07-06 14:00:33,643][98493] Updated weights for policy 0, policy_version 646229 (0.0007)
+[2023-07-06 14:00:34,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.5, 300 sec: 111966.6). Total num frames: 1323565056. Throughput: 0: 27989.3. Samples: 330975232. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:34,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 14:00:35,217][98493] Updated weights for policy 0, policy_version 646288 (0.0007)
+[2023-07-06 14:00:36,019][98493] Updated weights for policy 0, policy_version 646352 (0.0008)
+[2023-07-06 14:00:36,913][98493] Updated weights for policy 0, policy_version 646406 (0.0006)
+[2023-07-06 14:00:37,315][98493] Updated weights for policy 0, policy_version 646455 (0.0007)
+[2023-07-06 14:00:38,565][98493] Updated weights for policy 0, policy_version 646522 (0.0007)
+[2023-07-06 14:00:39,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.5, 300 sec: 111744.4). Total num frames: 1324089344. Throughput: 0: 27875.5. Samples: 331056640. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:39,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 14:00:40,214][98493] Updated weights for policy 0, policy_version 646582 (0.0007)
+[2023-07-06 14:00:40,991][98493] Updated weights for policy 0, policy_version 646632 (0.0007)
+[2023-07-06 14:00:41,629][98493] Updated weights for policy 0, policy_version 646672 (0.0007)
+[2023-07-06 14:00:42,000][98493] Updated weights for policy 0, policy_version 646716 (0.0006)
+[2023-07-06 14:00:43,327][98493] Updated weights for policy 0, policy_version 646777 (0.0006)
+[2023-07-06 14:00:44,758][98493] Updated weights for policy 0, policy_version 646832 (0.0007)
+[2023-07-06 14:00:44,764][98243] Fps is (10 sec: 114689.4, 60 sec: 113049.8, 300 sec: 111855.6). Total num frames: 1324711936. Throughput: 0: 27864.3. Samples: 331224064. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:44,764][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 14:00:45,549][98493] Updated weights for policy 0, policy_version 646868 (0.0007)
+[2023-07-06 14:00:45,664][98449] Signal inference workers to stop experience collection... (33400 times)
+[2023-07-06 14:00:45,694][98493] InferenceWorker_p0-w0: stopping experience collection (33400 times)
+[2023-07-06 14:00:45,759][98449] Signal inference workers to resume experience collection... (33400 times)
+[2023-07-06 14:00:45,760][98493] InferenceWorker_p0-w0: resuming experience collection (33400 times)
+[2023-07-06 14:00:46,209][98493] Updated weights for policy 0, policy_version 646928 (0.0006)
+[2023-07-06 14:00:46,571][98493] Updated weights for policy 0, policy_version 646971 (0.0006)
+[2023-07-06 14:00:47,801][98493] Updated weights for policy 0, policy_version 647024 (0.0007)
+[2023-07-06 14:00:49,475][98493] Updated weights for policy 0, policy_version 647078 (0.0007)
+[2023-07-06 14:00:49,764][98243] Fps is (10 sec: 117965.5, 60 sec: 111957.3, 300 sec: 111855.5). Total num frames: 1325268992. Throughput: 0: 27921.1. Samples: 331394048. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:49,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:00:50,184][98493] Updated weights for policy 0, policy_version 647109 (0.0006)
+[2023-07-06 14:00:50,619][98493] Updated weights for policy 0, policy_version 647163 (0.0007)
+[2023-07-06 14:00:51,279][98493] Updated weights for policy 0, policy_version 647226 (0.0006)
+[2023-07-06 14:00:52,300][98493] Updated weights for policy 0, policy_version 647280 (0.0007)
+[2023-07-06 14:00:53,814][98493] Updated weights for policy 0, policy_version 647318 (0.0009)
+[2023-07-06 14:00:54,163][98493] Updated weights for policy 0, policy_version 647360 (0.0007)
+[2023-07-06 14:00:54,764][98243] Fps is (10 sec: 108132.0, 60 sec: 110864.7, 300 sec: 111633.3). Total num frames: 1325793280. Throughput: 0: 27875.5. Samples: 331476992. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:54,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:00:55,226][98493] Updated weights for policy 0, policy_version 647419 (0.0007)
+[2023-07-06 14:00:55,845][98493] Updated weights for policy 0, policy_version 647472 (0.0007)
+[2023-07-06 14:00:56,845][98493] Updated weights for policy 0, policy_version 647510 (0.0006)
+[2023-07-06 14:00:58,389][98493] Updated weights for policy 0, policy_version 647577 (0.0007)
+[2023-07-06 14:00:59,680][98493] Updated weights for policy 0, policy_version 647640 (0.0008)
+[2023-07-06 14:00:59,764][98243] Fps is (10 sec: 111411.3, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 1326383104. Throughput: 0: 28091.8. Samples: 331648512. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:00:59,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 14:01:00,247][98493] Updated weights for policy 0, policy_version 647703 (0.0007)
+[2023-07-06 14:01:01,398][98493] Updated weights for policy 0, policy_version 647745 (0.0007)
+[2023-07-06 14:01:01,853][98493] Updated weights for policy 0, policy_version 647802 (0.0007)
+[2023-07-06 14:01:03,285][98493] Updated weights for policy 0, policy_version 647864 (0.0006)
+[2023-07-06 14:01:04,765][98243] Fps is (10 sec: 114685.5, 60 sec: 110864.7, 300 sec: 111855.4). Total num frames: 1326940160. Throughput: 0: 28046.0. Samples: 331815424. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:01:04,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 14:01:04,795][98449] Signal inference workers to stop experience collection... (33450 times)
+[2023-07-06 14:01:04,838][98493] InferenceWorker_p0-w0: stopping experience collection (33450 times)
+[2023-07-06 14:01:04,847][98493] Updated weights for policy 0, policy_version 647930 (0.0007)
+[2023-07-06 14:01:04,875][98449] Signal inference workers to resume experience collection... (33450 times)
+[2023-07-06 14:01:04,875][98493] InferenceWorker_p0-w0: resuming experience collection (33450 times)
+[2023-07-06 14:01:05,395][98493] Updated weights for policy 0, policy_version 647993 (0.0007)
+[2023-07-06 14:01:06,657][98493] Updated weights for policy 0, policy_version 648058 (0.0007)
+[2023-07-06 14:01:07,767][98493] Updated weights for policy 0, policy_version 648100 (0.0008)
+[2023-07-06 14:01:09,136][98493] Updated weights for policy 0, policy_version 648130 (0.0006)
+[2023-07-06 14:01:09,678][98493] Updated weights for policy 0, policy_version 648194 (0.0007)
+[2023-07-06 14:01:09,764][98243] Fps is (10 sec: 114688.8, 60 sec: 111957.5, 300 sec: 111744.5). Total num frames: 1327529984. Throughput: 0: 28023.5. Samples: 331896832. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:01:09,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 14:01:10,117][98493] Updated weights for policy 0, policy_version 648249 (0.0007)
+[2023-07-06 14:01:11,247][98493] Updated weights for policy 0, policy_version 648304 (0.0006)
+[2023-07-06 14:01:12,667][98493] Updated weights for policy 0, policy_version 648378 (0.0007)
+[2023-07-06 14:01:14,183][98493] Updated weights for policy 0, policy_version 648421 (0.0007)
+[2023-07-06 14:01:14,626][98493] Updated weights for policy 0, policy_version 648469 (0.0006)
+[2023-07-06 14:01:14,765][98243] Fps is (10 sec: 114685.8, 60 sec: 112502.7, 300 sec: 111744.2). Total num frames: 1328087040. Throughput: 0: 28080.0. Samples: 332067840. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:01:14,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 14:01:15,671][98493] Updated weights for policy 0, policy_version 648514 (0.0008)
+[2023-07-06 14:01:16,747][98493] Updated weights for policy 0, policy_version 648577 (0.0007)
+[2023-07-06 14:01:17,185][98493] Updated weights for policy 0, policy_version 648634 (0.0007)
+[2023-07-06 14:01:19,006][98493] Updated weights for policy 0, policy_version 648672 (0.0008)
+[2023-07-06 14:01:19,516][98493] Updated weights for policy 0, policy_version 648728 (0.0007)
+[2023-07-06 14:01:19,764][98243] Fps is (10 sec: 111408.5, 60 sec: 112503.1, 300 sec: 111855.5). Total num frames: 1328644096. Throughput: 0: 27932.3. Samples: 332232192. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:01:19,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:01:20,472][98493] Updated weights for policy 0, policy_version 648773 (0.0006)
+[2023-07-06 14:01:21,275][98493] Updated weights for policy 0, policy_version 648834 (0.0006)
+[2023-07-06 14:01:21,717][98493] Updated weights for policy 0, policy_version 648890 (0.0006)
+[2023-07-06 14:01:23,300][98449] Signal inference workers to stop experience collection... (33500 times)
+[2023-07-06 14:01:23,331][98493] InferenceWorker_p0-w0: stopping experience collection (33500 times)
+[2023-07-06 14:01:23,377][98449] Signal inference workers to resume experience collection... (33500 times)
+[2023-07-06 14:01:23,378][98493] InferenceWorker_p0-w0: resuming experience collection (33500 times)
+[2023-07-06 14:01:23,467][98493] Updated weights for policy 0, policy_version 648933 (0.0007)
+[2023-07-06 14:01:24,069][98493] Updated weights for policy 0, policy_version 648997 (0.0007)
+[2023-07-06 14:01:24,764][98243] Fps is (10 sec: 111416.8, 60 sec: 111411.2, 300 sec: 111966.7). Total num frames: 1329201152. Throughput: 0: 28012.1. Samples: 332317184. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:01:24,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 14:01:25,433][98493] Updated weights for policy 0, policy_version 649043 (0.0006)
+[2023-07-06 14:01:25,732][98493] Updated weights for policy 0, policy_version 649080 (0.0006)
+[2023-07-06 14:01:26,464][98493] Updated weights for policy 0, policy_version 649123 (0.0007)
+[2023-07-06 14:01:27,966][98493] Updated weights for policy 0, policy_version 649168 (0.0006)
+[2023-07-06 14:01:28,546][98493] Updated weights for policy 0, policy_version 649232 (0.0007)
+[2023-07-06 14:01:29,725][98493] Updated weights for policy 0, policy_version 649283 (0.0007)
+[2023-07-06 14:01:29,764][98243] Fps is (10 sec: 108136.9, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1329725440. Throughput: 0: 28012.1. Samples: 332484608. Policy #0 lag: (min: 31.0, avg: 131.3, max: 287.0)
+[2023-07-06 14:01:29,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:01:30,226][98493] Updated weights for policy 0, policy_version 649344 (0.0006)
+[2023-07-06 14:01:31,266][98493] Updated weights for policy 0, policy_version 649399 (0.0006)
+[2023-07-06 14:01:32,824][98493] Updated weights for policy 0, policy_version 649456 (0.0007)
+[2023-07-06 14:01:33,272][98493] Updated weights for policy 0, policy_version 649498 (0.0007)
+[2023-07-06 14:01:34,348][98493] Updated weights for policy 0, policy_version 649539 (0.0007)
+[2023-07-06 14:01:34,764][98243] Fps is (10 sec: 114687.9, 60 sec: 113049.6, 300 sec: 112299.8). Total num frames: 1330348032. Throughput: 0: 28000.7. Samples: 332654080. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:01:34,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:01:34,793][98493] Updated weights for policy 0, policy_version 649591 (0.0007)
+[2023-07-06 14:01:35,871][98493] Updated weights for policy 0, policy_version 649648 (0.0007)
+[2023-07-06 14:01:37,537][98493] Updated weights for policy 0, policy_version 649684 (0.0019)
+[2023-07-06 14:01:38,087][98493] Updated weights for policy 0, policy_version 649745 (0.0007)
+[2023-07-06 14:01:38,777][98493] Updated weights for policy 0, policy_version 649793 (0.0007)
+[2023-07-06 14:01:39,258][98493] Updated weights for policy 0, policy_version 649856 (0.0007)
+[2023-07-06 14:01:39,764][98243] Fps is (10 sec: 117963.8, 60 sec: 113595.8, 300 sec: 112410.9). Total num frames: 1330905088. Throughput: 0: 28125.9. Samples: 332742656. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:01:39,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 14:01:40,480][98449] Signal inference workers to stop experience collection... (33550 times)
+[2023-07-06 14:01:40,514][98493] InferenceWorker_p0-w0: stopping experience collection (33550 times)
+[2023-07-06 14:01:40,567][98449] Signal inference workers to resume experience collection... (33550 times)
+[2023-07-06 14:01:40,567][98493] InferenceWorker_p0-w0: resuming experience collection (33550 times)
+[2023-07-06 14:01:40,663][98493] Updated weights for policy 0, policy_version 649917 (0.0006)
+[2023-07-06 14:01:42,219][98493] Updated weights for policy 0, policy_version 649984 (0.0009)
+[2023-07-06 14:01:42,897][98493] Updated weights for policy 0, policy_version 650042 (0.0007)
+[2023-07-06 14:01:44,075][98493] Updated weights for policy 0, policy_version 650096 (0.0007)
+[2023-07-06 14:01:44,764][98243] Fps is (10 sec: 108133.5, 60 sec: 111956.9, 300 sec: 112410.9). Total num frames: 1331429376. Throughput: 0: 27932.4. Samples: 332905472. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:01:44,765][98243] Avg episode reward: [(0, '9.480')]
+[2023-07-06 14:01:45,313][98493] Updated weights for policy 0, policy_version 650160 (0.0007)
+[2023-07-06 14:01:46,904][98493] Updated weights for policy 0, policy_version 650224 (0.0006)
+[2023-07-06 14:01:47,589][98493] Updated weights for policy 0, policy_version 650274 (0.0007)
+[2023-07-06 14:01:48,309][98493] Updated weights for policy 0, policy_version 650325 (0.0007)
+[2023-07-06 14:01:49,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.1, 300 sec: 112411.0). Total num frames: 1331953664. Throughput: 0: 27955.4. Samples: 333073408. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:01:49,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:01:49,937][98493] Updated weights for policy 0, policy_version 650400 (0.0007)
+[2023-07-06 14:01:50,245][98493] Updated weights for policy 0, policy_version 650432 (0.0006)
+[2023-07-06 14:01:51,518][98493] Updated weights for policy 0, policy_version 650492 (0.0006)
+[2023-07-06 14:01:52,701][98493] Updated weights for policy 0, policy_version 650551 (0.0007)
+[2023-07-06 14:01:53,251][98493] Updated weights for policy 0, policy_version 650618 (0.0008)
+[2023-07-06 14:01:54,764][98243] Fps is (10 sec: 108135.8, 60 sec: 111957.6, 300 sec: 112188.8). Total num frames: 1332510720. Throughput: 0: 27943.8. Samples: 333154304. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:01:54,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:01:55,014][98493] Updated weights for policy 0, policy_version 650672 (0.0008)
+[2023-07-06 14:01:55,944][98493] Updated weights for policy 0, policy_version 650720 (0.0006)
+[2023-07-06 14:01:56,899][98493] Updated weights for policy 0, policy_version 650756 (0.0007)
+[2023-07-06 14:01:57,339][98493] Updated weights for policy 0, policy_version 650813 (0.0007)
+[2023-07-06 14:01:58,030][98493] Updated weights for policy 0, policy_version 650864 (0.0007)
+[2023-07-06 14:01:59,389][98493] Updated weights for policy 0, policy_version 650921 (0.0008)
+[2023-07-06 14:01:59,764][98243] Fps is (10 sec: 117966.2, 60 sec: 112503.5, 300 sec: 112411.0). Total num frames: 1333133312. Throughput: 0: 27853.1. Samples: 333321216. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:01:59,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:02:00,485][98449] Signal inference workers to stop experience collection... (33600 times)
+[2023-07-06 14:02:00,505][98493] InferenceWorker_p0-w0: stopping experience collection (33600 times)
+[2023-07-06 14:02:00,509][98493] Updated weights for policy 0, policy_version 650947 (0.0006)
+[2023-07-06 14:02:00,584][98449] Signal inference workers to resume experience collection... (33600 times)
+[2023-07-06 14:02:00,584][98493] InferenceWorker_p0-w0: resuming experience collection (33600 times)
+[2023-07-06 14:02:01,038][98493] Updated weights for policy 0, policy_version 651008 (0.0007)
+[2023-07-06 14:02:02,106][98493] Updated weights for policy 0, policy_version 651065 (0.0008)
+[2023-07-06 14:02:02,594][98493] Updated weights for policy 0, policy_version 651107 (0.0007)
+[2023-07-06 14:02:04,229][98493] Updated weights for policy 0, policy_version 651168 (0.0007)
+[2023-07-06 14:02:04,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111958.0, 300 sec: 112299.9). Total num frames: 1333657600. Throughput: 0: 27932.6. Samples: 333489152. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:04,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 14:02:05,186][98493] Updated weights for policy 0, policy_version 651216 (0.0007)
+[2023-07-06 14:02:05,629][98493] Updated weights for policy 0, policy_version 651264 (0.0007)
+[2023-07-06 14:02:06,903][98493] Updated weights for policy 0, policy_version 651328 (0.0008)
+[2023-07-06 14:02:07,394][98493] Updated weights for policy 0, policy_version 651386 (0.0007)
+[2023-07-06 14:02:08,878][98493] Updated weights for policy 0, policy_version 651424 (0.0011)
+[2023-07-06 14:02:09,721][98493] Updated weights for policy 0, policy_version 651462 (0.0007)
+[2023-07-06 14:02:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 110865.1, 300 sec: 111966.6). Total num frames: 1334181888. Throughput: 0: 27852.8. Samples: 333570560. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:09,764][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:02:10,138][98493] Updated weights for policy 0, policy_version 651517 (0.0006)
+[2023-07-06 14:02:11,630][98493] Updated weights for policy 0, policy_version 651577 (0.0007)
+[2023-07-06 14:02:12,170][98493] Updated weights for policy 0, policy_version 651643 (0.0008)
+[2023-07-06 14:02:13,624][98493] Updated weights for policy 0, policy_version 651683 (0.0006)
+[2023-07-06 14:02:14,522][98493] Updated weights for policy 0, policy_version 651732 (0.0007)
+[2023-07-06 14:02:14,764][98243] Fps is (10 sec: 114688.1, 60 sec: 111958.3, 300 sec: 112077.8). Total num frames: 1334804480. Throughput: 0: 27898.3. Samples: 333740032. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:14,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 14:02:15,876][98493] Updated weights for policy 0, policy_version 651792 (0.0007)
+[2023-07-06 14:02:16,251][98493] Updated weights for policy 0, policy_version 651836 (0.0007)
+[2023-07-06 14:02:16,784][98493] Updated weights for policy 0, policy_version 651882 (0.0008)
+[2023-07-06 14:02:18,469][98493] Updated weights for policy 0, policy_version 651928 (0.0007)
+[2023-07-06 14:02:18,557][98449] Signal inference workers to stop experience collection... (33650 times)
+[2023-07-06 14:02:18,595][98493] InferenceWorker_p0-w0: stopping experience collection (33650 times)
+[2023-07-06 14:02:18,634][98449] Signal inference workers to resume experience collection... (33650 times)
+[2023-07-06 14:02:18,635][98493] InferenceWorker_p0-w0: resuming experience collection (33650 times)
+[2023-07-06 14:02:19,172][98493] Updated weights for policy 0, policy_version 651987 (0.0007)
+[2023-07-06 14:02:19,765][98243] Fps is (10 sec: 117960.8, 60 sec: 111957.1, 300 sec: 111966.5). Total num frames: 1335361536. Throughput: 0: 27875.4. Samples: 333908480. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:19,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:02:20,421][98493] Updated weights for policy 0, policy_version 652038 (0.0007)
+[2023-07-06 14:02:20,894][98493] Updated weights for policy 0, policy_version 652096 (0.0007)
+[2023-07-06 14:02:22,948][98493] Updated weights for policy 0, policy_version 652162 (0.0008)
+[2023-07-06 14:02:23,422][98493] Updated weights for policy 0, policy_version 652222 (0.0007)
+[2023-07-06 14:02:24,090][98493] Updated weights for policy 0, policy_version 652272 (0.0006)
+[2023-07-06 14:02:24,764][98243] Fps is (10 sec: 108134.0, 60 sec: 111411.2, 300 sec: 111967.2). Total num frames: 1335885824. Throughput: 0: 27818.7. Samples: 333994496. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:24,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 14:02:24,780][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000652288_1335885824.pth...
+[2023-07-06 14:02:24,810][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000639200_1309081600.pth
+[2023-07-06 14:02:24,812][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000652288_1335885824.pth
+[2023-07-06 14:02:25,340][98493] Updated weights for policy 0, policy_version 652323 (0.0006)
+[2023-07-06 14:02:25,805][98493] Updated weights for policy 0, policy_version 652378 (0.0009)
+[2023-07-06 14:02:27,820][98493] Updated weights for policy 0, policy_version 652424 (0.0007)
+[2023-07-06 14:02:28,426][98493] Updated weights for policy 0, policy_version 652482 (0.0007)
+[2023-07-06 14:02:28,877][98493] Updated weights for policy 0, policy_version 652539 (0.0006)
+[2023-07-06 14:02:29,764][98243] Fps is (10 sec: 104861.1, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1336410112. Throughput: 0: 27830.1. Samples: 334157824. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:29,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:02:30,113][98493] Updated weights for policy 0, policy_version 652601 (0.0007)
+[2023-07-06 14:02:30,850][98493] Updated weights for policy 0, policy_version 652666 (0.0007)
+[2023-07-06 14:02:32,877][98493] Updated weights for policy 0, policy_version 652720 (0.0008)
+[2023-07-06 14:02:33,485][98493] Updated weights for policy 0, policy_version 652784 (0.0007)
+[2023-07-06 14:02:34,764][98243] Fps is (10 sec: 108135.5, 60 sec: 110319.1, 300 sec: 111744.5). Total num frames: 1336967168. Throughput: 0: 27818.8. Samples: 334325248. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:34,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:02:34,857][98493] Updated weights for policy 0, policy_version 652836 (0.0007)
+[2023-07-06 14:02:35,228][98493] Updated weights for policy 0, policy_version 652880 (0.0008)
+[2023-07-06 14:02:37,081][98449] Signal inference workers to stop experience collection... (33700 times)
+[2023-07-06 14:02:37,121][98493] Updated weights for policy 0, policy_version 652935 (0.0007)
+[2023-07-06 14:02:37,129][98493] InferenceWorker_p0-w0: stopping experience collection (33700 times)
+[2023-07-06 14:02:37,167][98449] Signal inference workers to resume experience collection... (33700 times)
+[2023-07-06 14:02:37,167][98493] InferenceWorker_p0-w0: resuming experience collection (33700 times)
+[2023-07-06 14:02:37,517][98493] Updated weights for policy 0, policy_version 652986 (0.0007)
+[2023-07-06 14:02:38,154][98493] Updated weights for policy 0, policy_version 653051 (0.0007)
+[2023-07-06 14:02:39,456][98493] Updated weights for policy 0, policy_version 653095 (0.0006)
+[2023-07-06 14:02:39,764][98243] Fps is (10 sec: 117964.2, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1337589760. Throughput: 0: 27932.4. Samples: 334411264. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:39,765][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:02:39,949][98493] Updated weights for policy 0, policy_version 653152 (0.0007)
+[2023-07-06 14:02:41,866][98493] Updated weights for policy 0, policy_version 653185 (0.0006)
+[2023-07-06 14:02:42,359][98493] Updated weights for policy 0, policy_version 653248 (0.0007)
+[2023-07-06 14:02:42,869][98493] Updated weights for policy 0, policy_version 653304 (0.0007)
+[2023-07-06 14:02:44,124][98493] Updated weights for policy 0, policy_version 653347 (0.0007)
+[2023-07-06 14:02:44,503][98493] Updated weights for policy 0, policy_version 653392 (0.0006)
+[2023-07-06 14:02:44,764][98243] Fps is (10 sec: 121241.7, 60 sec: 112503.9, 300 sec: 112188.8). Total num frames: 1338179584. Throughput: 0: 27978.0. Samples: 334580224. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:44,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:02:46,482][98493] Updated weights for policy 0, policy_version 653441 (0.0006)
+[2023-07-06 14:02:47,006][98493] Updated weights for policy 0, policy_version 653504 (0.0007)
+[2023-07-06 14:02:47,576][98493] Updated weights for policy 0, policy_version 653563 (0.0007)
+[2023-07-06 14:02:49,086][98493] Updated weights for policy 0, policy_version 653605 (0.0007)
+[2023-07-06 14:02:49,678][98493] Updated weights for policy 0, policy_version 653669 (0.0007)
+[2023-07-06 14:02:49,764][98243] Fps is (10 sec: 114688.6, 60 sec: 113049.8, 300 sec: 112188.8). Total num frames: 1338736640. Throughput: 0: 27852.8. Samples: 334742528. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:49,764][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:02:51,359][98493] Updated weights for policy 0, policy_version 653728 (0.0006)
+[2023-07-06 14:02:52,125][98493] Updated weights for policy 0, policy_version 653776 (0.0007)
+[2023-07-06 14:02:52,540][98493] Updated weights for policy 0, policy_version 653824 (0.0007)
+[2023-07-06 14:02:53,926][98493] Updated weights for policy 0, policy_version 653888 (0.0007)
+[2023-07-06 14:02:53,954][98449] Signal inference workers to stop experience collection... (33750 times)
+[2023-07-06 14:02:54,002][98493] InferenceWorker_p0-w0: stopping experience collection (33750 times)
+[2023-07-06 14:02:54,063][98449] Signal inference workers to resume experience collection... (33750 times)
+[2023-07-06 14:02:54,064][98493] InferenceWorker_p0-w0: resuming experience collection (33750 times)
+[2023-07-06 14:02:54,465][98493] Updated weights for policy 0, policy_version 653952 (0.0008)
+[2023-07-06 14:02:54,764][98243] Fps is (10 sec: 111409.9, 60 sec: 113049.5, 300 sec: 111966.6). Total num frames: 1339293696. Throughput: 0: 27932.4. Samples: 334827520. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:54,765][98243] Avg episode reward: [(0, '9.480')]
+[2023-07-06 14:02:56,257][98493] Updated weights for policy 0, policy_version 654014 (0.0007)
+[2023-07-06 14:02:57,157][98493] Updated weights for policy 0, policy_version 654066 (0.0007)
+[2023-07-06 14:02:58,500][98493] Updated weights for policy 0, policy_version 654112 (0.0006)
+[2023-07-06 14:02:59,075][98493] Updated weights for policy 0, policy_version 654176 (0.0006)
+[2023-07-06 14:02:59,764][98243] Fps is (10 sec: 108133.9, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 1339817984. Throughput: 0: 27875.5. Samples: 334994432. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:02:59,765][98243] Avg episode reward: [(0, '9.510')]
+[2023-07-06 14:03:00,417][98493] Updated weights for policy 0, policy_version 654224 (0.0007)
+[2023-07-06 14:03:01,764][98493] Updated weights for policy 0, policy_version 654288 (0.0007)
+[2023-07-06 14:03:02,178][98493] Updated weights for policy 0, policy_version 654333 (0.0007)
+[2023-07-06 14:03:03,548][98493] Updated weights for policy 0, policy_version 654392 (0.0007)
+[2023-07-06 14:03:03,926][98493] Updated weights for policy 0, policy_version 654432 (0.0007)
+[2023-07-06 14:03:04,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.1, 300 sec: 111966.6). Total num frames: 1340342272. Throughput: 0: 27750.6. Samples: 335157248. Policy #0 lag: (min: 15.0, avg: 140.2, max: 271.0)
+[2023-07-06 14:03:04,765][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:03:05,224][98493] Updated weights for policy 0, policy_version 654489 (0.0008)
+[2023-07-06 14:03:06,263][98493] Updated weights for policy 0, policy_version 654533 (0.0006)
+[2023-07-06 14:03:07,902][98493] Updated weights for policy 0, policy_version 654593 (0.0007)
+[2023-07-06 14:03:08,402][98493] Updated weights for policy 0, policy_version 654656 (0.0007)
+[2023-07-06 14:03:08,814][98493] Updated weights for policy 0, policy_version 654695 (0.0006)
+[2023-07-06 14:03:09,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.2, 300 sec: 111744.5). Total num frames: 1340866560. Throughput: 0: 27784.6. Samples: 335244800. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:09,764][98243] Avg episode reward: [(0, '9.470')]
+[2023-07-06 14:03:09,774][98493] Updated weights for policy 0, policy_version 654736 (0.0006)
+[2023-07-06 14:03:11,220][98493] Updated weights for policy 0, policy_version 654800 (0.0007)
+[2023-07-06 14:03:11,621][98493] Updated weights for policy 0, policy_version 654848 (0.0006)
+[2023-07-06 14:03:12,727][98449] Signal inference workers to stop experience collection... (33800 times)
+[2023-07-06 14:03:12,773][98493] InferenceWorker_p0-w0: stopping experience collection (33800 times)
+[2023-07-06 14:03:12,818][98449] Signal inference workers to resume experience collection... (33800 times)
+[2023-07-06 14:03:12,818][98493] InferenceWorker_p0-w0: resuming experience collection (33800 times)
+[2023-07-06 14:03:12,820][98493] Updated weights for policy 0, policy_version 654896 (0.0007)
+[2023-07-06 14:03:13,332][98493] Updated weights for policy 0, policy_version 654947 (0.0008)
+[2023-07-06 14:03:14,429][98493] Updated weights for policy 0, policy_version 654995 (0.0006)
+[2023-07-06 14:03:14,764][98243] Fps is (10 sec: 114688.4, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1341489152. Throughput: 0: 27773.1. Samples: 335407616. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:14,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:03:16,186][98493] Updated weights for policy 0, policy_version 655072 (0.0007)
+[2023-07-06 14:03:17,123][98493] Updated weights for policy 0, policy_version 655110 (0.0007)
+[2023-07-06 14:03:17,576][98493] Updated weights for policy 0, policy_version 655160 (0.0007)
+[2023-07-06 14:03:18,048][98493] Updated weights for policy 0, policy_version 655216 (0.0008)
+[2023-07-06 14:03:18,987][98493] Updated weights for policy 0, policy_version 655237 (0.0006)
+[2023-07-06 14:03:19,474][98493] Updated weights for policy 0, policy_version 655296 (0.0007)
+[2023-07-06 14:03:19,764][98243] Fps is (10 sec: 117964.0, 60 sec: 111411.7, 300 sec: 111966.6). Total num frames: 1342046208. Throughput: 0: 27830.0. Samples: 335577600. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:19,764][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 14:03:21,106][98493] Updated weights for policy 0, policy_version 655355 (0.0007)
+[2023-07-06 14:03:22,147][98493] Updated weights for policy 0, policy_version 655408 (0.0008)
+[2023-07-06 14:03:22,787][98493] Updated weights for policy 0, policy_version 655479 (0.0007)
+[2023-07-06 14:03:23,919][98493] Updated weights for policy 0, policy_version 655520 (0.0007)
+[2023-07-06 14:03:24,764][98243] Fps is (10 sec: 108132.8, 60 sec: 111411.0, 300 sec: 111744.3). Total num frames: 1342570496. Throughput: 0: 27795.8. Samples: 335662080. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:24,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:03:25,345][98493] Updated weights for policy 0, policy_version 655568 (0.0007)
+[2023-07-06 14:03:25,737][98493] Updated weights for policy 0, policy_version 655612 (0.0007)
+[2023-07-06 14:03:26,753][98493] Updated weights for policy 0, policy_version 655664 (0.0006)
+[2023-07-06 14:03:27,298][98493] Updated weights for policy 0, policy_version 655728 (0.0007)
+[2023-07-06 14:03:28,672][98493] Updated weights for policy 0, policy_version 655776 (0.0006)
+[2023-07-06 14:03:29,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.1, 300 sec: 111522.4). Total num frames: 1343094784. Throughput: 0: 27795.9. Samples: 335831040. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:29,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:03:29,801][98493] Updated weights for policy 0, policy_version 655817 (0.0007)
+[2023-07-06 14:03:30,202][98493] Updated weights for policy 0, policy_version 655868 (0.0006)
+[2023-07-06 14:03:31,069][98449] Signal inference workers to stop experience collection... (33850 times)
+[2023-07-06 14:03:31,095][98493] InferenceWorker_p0-w0: stopping experience collection (33850 times)
+[2023-07-06 14:03:31,182][98449] Signal inference workers to resume experience collection... (33850 times)
+[2023-07-06 14:03:31,183][98493] InferenceWorker_p0-w0: resuming experience collection (33850 times)
+[2023-07-06 14:03:31,546][98493] Updated weights for policy 0, policy_version 655924 (0.0007)
+[2023-07-06 14:03:32,034][98493] Updated weights for policy 0, policy_version 655975 (0.0006)
+[2023-07-06 14:03:33,275][98493] Updated weights for policy 0, policy_version 656006 (0.0007)
+[2023-07-06 14:03:33,750][98493] Updated weights for policy 0, policy_version 656064 (0.0007)
+[2023-07-06 14:03:34,764][98243] Fps is (10 sec: 111413.7, 60 sec: 111957.3, 300 sec: 111744.5). Total num frames: 1343684608. Throughput: 0: 27955.2. Samples: 336000512. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:34,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:03:34,921][98493] Updated weights for policy 0, policy_version 656114 (0.0006)
+[2023-07-06 14:03:36,039][98493] Updated weights for policy 0, policy_version 656153 (0.0006)
+[2023-07-06 14:03:36,542][98493] Updated weights for policy 0, policy_version 656213 (0.0007)
+[2023-07-06 14:03:38,043][98493] Updated weights for policy 0, policy_version 656261 (0.0007)
+[2023-07-06 14:03:39,084][98493] Updated weights for policy 0, policy_version 656322 (0.0007)
+[2023-07-06 14:03:39,525][98493] Updated weights for policy 0, policy_version 656380 (0.0006)
+[2023-07-06 14:03:39,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111411.1, 300 sec: 111855.5). Total num frames: 1344274432. Throughput: 0: 27898.3. Samples: 336082944. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:39,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 14:03:40,847][98493] Updated weights for policy 0, policy_version 656436 (0.0008)
+[2023-07-06 14:03:41,418][98493] Updated weights for policy 0, policy_version 656506 (0.0007)
+[2023-07-06 14:03:43,166][98493] Updated weights for policy 0, policy_version 656547 (0.0007)
+[2023-07-06 14:03:44,045][98493] Updated weights for policy 0, policy_version 656596 (0.0007)
+[2023-07-06 14:03:44,340][98493] Updated weights for policy 0, policy_version 656637 (0.0007)
+[2023-07-06 14:03:44,764][98243] Fps is (10 sec: 111411.1, 60 sec: 110318.9, 300 sec: 111522.3). Total num frames: 1344798720. Throughput: 0: 27909.7. Samples: 336250368. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:44,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:03:45,410][98493] Updated weights for policy 0, policy_version 656693 (0.0006)
+[2023-07-06 14:03:45,854][98493] Updated weights for policy 0, policy_version 656741 (0.0008)
+[2023-07-06 14:03:48,023][98493] Updated weights for policy 0, policy_version 656803 (0.0007)
+[2023-07-06 14:03:48,656][98449] Signal inference workers to stop experience collection... (33900 times)
+[2023-07-06 14:03:48,691][98493] InferenceWorker_p0-w0: stopping experience collection (33900 times)
+[2023-07-06 14:03:48,694][98493] Updated weights for policy 0, policy_version 656856 (0.0007)
+[2023-07-06 14:03:48,727][98449] Signal inference workers to resume experience collection... (33900 times)
+[2023-07-06 14:03:48,728][98493] InferenceWorker_p0-w0: resuming experience collection (33900 times)
+[2023-07-06 14:03:49,034][98493] Updated weights for policy 0, policy_version 656894 (0.0006)
+[2023-07-06 14:03:49,764][98243] Fps is (10 sec: 108134.7, 60 sec: 110318.8, 300 sec: 111633.3). Total num frames: 1345355776. Throughput: 0: 28023.5. Samples: 336418304. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:49,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:03:50,094][98493] Updated weights for policy 0, policy_version 656960 (0.0007)
+[2023-07-06 14:03:50,590][98493] Updated weights for policy 0, policy_version 657016 (0.0007)
+[2023-07-06 14:03:53,002][98493] Updated weights for policy 0, policy_version 657072 (0.0007)
+[2023-07-06 14:03:53,531][98493] Updated weights for policy 0, policy_version 657120 (0.0007)
+[2023-07-06 14:03:54,395][98493] Updated weights for policy 0, policy_version 657184 (0.0006)
+[2023-07-06 14:03:54,764][98243] Fps is (10 sec: 117962.4, 60 sec: 111411.0, 300 sec: 111855.4). Total num frames: 1345978368. Throughput: 0: 27966.5. Samples: 336503296. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:54,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:03:55,048][98493] Updated weights for policy 0, policy_version 657232 (0.0008)
+[2023-07-06 14:03:55,482][98493] Updated weights for policy 0, policy_version 657280 (0.0007)
+[2023-07-06 14:03:57,809][98493] Updated weights for policy 0, policy_version 657340 (0.0007)
+[2023-07-06 14:03:58,552][98493] Updated weights for policy 0, policy_version 657405 (0.0007)
+[2023-07-06 14:03:59,286][98493] Updated weights for policy 0, policy_version 657466 (0.0008)
+[2023-07-06 14:03:59,765][98243] Fps is (10 sec: 114685.7, 60 sec: 111410.7, 300 sec: 111633.2). Total num frames: 1346502656. Throughput: 0: 27932.3. Samples: 336664576. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:03:59,766][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 14:04:00,133][98493] Updated weights for policy 0, policy_version 657504 (0.0007)
+[2023-07-06 14:04:02,368][98493] Updated weights for policy 0, policy_version 657568 (0.0007)
+[2023-07-06 14:04:02,926][98493] Updated weights for policy 0, policy_version 657621 (0.0008)
+[2023-07-06 14:04:03,612][98493] Updated weights for policy 0, policy_version 657669 (0.0007)
+[2023-07-06 14:04:04,090][98493] Updated weights for policy 0, policy_version 657727 (0.0007)
+[2023-07-06 14:04:04,764][98243] Fps is (10 sec: 111412.8, 60 sec: 112503.6, 300 sec: 111744.4). Total num frames: 1347092480. Throughput: 0: 27852.8. Samples: 336830976. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:04,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:04:04,924][98493] Updated weights for policy 0, policy_version 657786 (0.0007)
+[2023-07-06 14:04:06,862][98493] Updated weights for policy 0, policy_version 657825 (0.0007)
+[2023-07-06 14:04:07,635][98449] Signal inference workers to stop experience collection... (33950 times)
+[2023-07-06 14:04:07,679][98493] InferenceWorker_p0-w0: stopping experience collection (33950 times)
+[2023-07-06 14:04:07,723][98449] Signal inference workers to resume experience collection... (33950 times)
+[2023-07-06 14:04:07,723][98493] InferenceWorker_p0-w0: resuming experience collection (33950 times)
+[2023-07-06 14:04:07,725][98493] Updated weights for policy 0, policy_version 657888 (0.0008)
+[2023-07-06 14:04:08,405][98493] Updated weights for policy 0, policy_version 657936 (0.0006)
+[2023-07-06 14:04:08,792][98493] Updated weights for policy 0, policy_version 657984 (0.0007)
+[2023-07-06 14:04:09,414][98493] Updated weights for policy 0, policy_version 658044 (0.0006)
+[2023-07-06 14:04:09,764][98243] Fps is (10 sec: 117967.6, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 1347682304. Throughput: 0: 27921.1. Samples: 336918528. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:09,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:04:11,659][98493] Updated weights for policy 0, policy_version 658106 (0.0007)
+[2023-07-06 14:04:12,695][98493] Updated weights for policy 0, policy_version 658160 (0.0007)
+[2023-07-06 14:04:13,217][98493] Updated weights for policy 0, policy_version 658213 (0.0006)
+[2023-07-06 14:04:14,197][98493] Updated weights for policy 0, policy_version 658288 (0.0007)
+[2023-07-06 14:04:14,764][98243] Fps is (10 sec: 111411.1, 60 sec: 111957.3, 300 sec: 111744.4). Total num frames: 1348206592. Throughput: 0: 27830.0. Samples: 337083392. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:14,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:04:16,364][98493] Updated weights for policy 0, policy_version 658342 (0.0006)
+[2023-07-06 14:04:17,245][98493] Updated weights for policy 0, policy_version 658400 (0.0007)
+[2023-07-06 14:04:17,878][98493] Updated weights for policy 0, policy_version 658471 (0.0008)
+[2023-07-06 14:04:19,199][98493] Updated weights for policy 0, policy_version 658537 (0.0007)
+[2023-07-06 14:04:19,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1348730880. Throughput: 0: 27693.5. Samples: 337246720. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:19,764][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 14:04:21,139][98493] Updated weights for policy 0, policy_version 658608 (0.0007)
+[2023-07-06 14:04:22,064][98493] Updated weights for policy 0, policy_version 658660 (0.0008)
+[2023-07-06 14:04:22,494][98493] Updated weights for policy 0, policy_version 658706 (0.0008)
+[2023-07-06 14:04:23,560][98493] Updated weights for policy 0, policy_version 658758 (0.0007)
+[2023-07-06 14:04:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1349255168. Throughput: 0: 27739.1. Samples: 337331200. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:24,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 14:04:24,771][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000658816_1349255168.pth...
+[2023-07-06 14:04:24,809][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000645760_1322516480.pth
+[2023-07-06 14:04:25,568][98493] Updated weights for policy 0, policy_version 658817 (0.0008)
+[2023-07-06 14:04:26,028][98493] Updated weights for policy 0, policy_version 658871 (0.0007)
+[2023-07-06 14:04:26,441][98449] Signal inference workers to stop experience collection... (34000 times)
+[2023-07-06 14:04:26,472][98493] InferenceWorker_p0-w0: stopping experience collection (34000 times)
+[2023-07-06 14:04:26,534][98449] Signal inference workers to resume experience collection... (34000 times)
+[2023-07-06 14:04:26,534][98493] InferenceWorker_p0-w0: resuming experience collection (34000 times)
+[2023-07-06 14:04:26,698][98493] Updated weights for policy 0, policy_version 658912 (0.0008)
+[2023-07-06 14:04:27,197][98493] Updated weights for policy 0, policy_version 658969 (0.0007)
+[2023-07-06 14:04:27,520][98493] Updated weights for policy 0, policy_version 659006 (0.0006)
+[2023-07-06 14:04:28,560][98493] Updated weights for policy 0, policy_version 659072 (0.0008)
+[2023-07-06 14:04:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1349779456. Throughput: 0: 27716.2. Samples: 337497600. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:29,765][98243] Avg episode reward: [(0, '9.540')]
+[2023-07-06 14:04:30,842][98493] Updated weights for policy 0, policy_version 659132 (0.0007)
+[2023-07-06 14:04:31,550][98493] Updated weights for policy 0, policy_version 659169 (0.0008)
+[2023-07-06 14:04:32,050][98493] Updated weights for policy 0, policy_version 659232 (0.0008)
+[2023-07-06 14:04:33,034][98493] Updated weights for policy 0, policy_version 659280 (0.0007)
+[2023-07-06 14:04:34,764][98243] Fps is (10 sec: 104856.7, 60 sec: 110318.6, 300 sec: 111522.3). Total num frames: 1350303744. Throughput: 0: 27773.1. Samples: 337668096. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:34,765][98243] Avg episode reward: [(0, '9.520')]
+[2023-07-06 14:04:35,184][98493] Updated weights for policy 0, policy_version 659329 (0.0007)
+[2023-07-06 14:04:35,638][98493] Updated weights for policy 0, policy_version 659387 (0.0006)
+[2023-07-06 14:04:36,556][98493] Updated weights for policy 0, policy_version 659465 (0.0007)
+[2023-07-06 14:04:37,002][98493] Updated weights for policy 0, policy_version 659520 (0.0007)
+[2023-07-06 14:04:38,003][98493] Updated weights for policy 0, policy_version 659577 (0.0007)
+[2023-07-06 14:04:39,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.8, 300 sec: 111522.3). Total num frames: 1350828032. Throughput: 0: 27613.9. Samples: 337745920. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:39,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 14:04:40,354][98493] Updated weights for policy 0, policy_version 659632 (0.0007)
+[2023-07-06 14:04:40,889][98493] Updated weights for policy 0, policy_version 659681 (0.0008)
+[2023-07-06 14:04:41,403][98493] Updated weights for policy 0, policy_version 659744 (0.0008)
+[2023-07-06 14:04:42,469][98493] Updated weights for policy 0, policy_version 659800 (0.0006)
+[2023-07-06 14:04:42,802][98493] Updated weights for policy 0, policy_version 659840 (0.0007)
+[2023-07-06 14:04:44,764][98243] Fps is (10 sec: 104858.5, 60 sec: 109226.5, 300 sec: 111189.0). Total num frames: 1351352320. Throughput: 0: 27807.4. Samples: 337915904. Policy #0 lag: (min: 2.0, avg: 98.3, max: 258.0)
+[2023-07-06 14:04:44,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 14:04:44,832][98449] Signal inference workers to stop experience collection... (34050 times)
+[2023-07-06 14:04:44,855][98493] InferenceWorker_p0-w0: stopping experience collection (34050 times)
+[2023-07-06 14:04:44,929][98449] Signal inference workers to resume experience collection... (34050 times)
+[2023-07-06 14:04:44,929][98493] InferenceWorker_p0-w0: resuming experience collection (34050 times)
+[2023-07-06 14:04:45,330][98493] Updated weights for policy 0, policy_version 659904 (0.0008)
+[2023-07-06 14:04:45,874][98493] Updated weights for policy 0, policy_version 659962 (0.0008)
+[2023-07-06 14:04:46,286][98493] Updated weights for policy 0, policy_version 660005 (0.0007)
+[2023-07-06 14:04:47,158][98493] Updated weights for policy 0, policy_version 660064 (0.0007)
+[2023-07-06 14:04:49,593][98493] Updated weights for policy 0, policy_version 660102 (0.0006)
+[2023-07-06 14:04:49,764][98243] Fps is (10 sec: 108135.0, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 1351909376. Throughput: 0: 27909.7. Samples: 338086912. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:04:49,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:04:50,062][98493] Updated weights for policy 0, policy_version 660160 (0.0006)
+[2023-07-06 14:04:50,541][98493] Updated weights for policy 0, policy_version 660219 (0.0006)
+[2023-07-06 14:04:51,126][98493] Updated weights for policy 0, policy_version 660261 (0.0007)
+[2023-07-06 14:04:51,823][98493] Updated weights for policy 0, policy_version 660324 (0.0008)
+[2023-07-06 14:04:54,073][98493] Updated weights for policy 0, policy_version 660354 (0.0006)
+[2023-07-06 14:04:54,597][98493] Updated weights for policy 0, policy_version 660416 (0.0008)
+[2023-07-06 14:04:54,764][98243] Fps is (10 sec: 121240.3, 60 sec: 109772.8, 300 sec: 111411.2). Total num frames: 1352564736. Throughput: 0: 27727.6. Samples: 338166272. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:04:54,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 14:04:55,104][98493] Updated weights for policy 0, policy_version 660474 (0.0007)
+[2023-07-06 14:04:55,922][98493] Updated weights for policy 0, policy_version 660528 (0.0006)
+[2023-07-06 14:04:56,327][98493] Updated weights for policy 0, policy_version 660564 (0.0007)
+[2023-07-06 14:04:58,802][98493] Updated weights for policy 0, policy_version 660632 (0.0007)
+[2023-07-06 14:04:59,367][98493] Updated weights for policy 0, policy_version 660694 (0.0008)
+[2023-07-06 14:04:59,764][98243] Fps is (10 sec: 127794.7, 60 sec: 111411.7, 300 sec: 111522.3). Total num frames: 1353187328. Throughput: 0: 27943.8. Samples: 338340864. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:04:59,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 14:05:00,447][98493] Updated weights for policy 0, policy_version 660759 (0.0007)
+[2023-07-06 14:05:00,545][98449] Signal inference workers to stop experience collection... (34100 times)
+[2023-07-06 14:05:00,575][98493] InferenceWorker_p0-w0: stopping experience collection (34100 times)
+[2023-07-06 14:05:00,618][98449] Signal inference workers to resume experience collection... (34100 times)
+[2023-07-06 14:05:00,619][98493] InferenceWorker_p0-w0: resuming experience collection (34100 times)
+[2023-07-06 14:05:01,211][98493] Updated weights for policy 0, policy_version 660824 (0.0006)
+[2023-07-06 14:05:01,525][98493] Updated weights for policy 0, policy_version 660862 (0.0006)
+[2023-07-06 14:05:04,024][98493] Updated weights for policy 0, policy_version 660933 (0.0007)
+[2023-07-06 14:05:04,539][98493] Updated weights for policy 0, policy_version 660992 (0.0008)
+[2023-07-06 14:05:04,764][98243] Fps is (10 sec: 114687.9, 60 sec: 110318.6, 300 sec: 111522.2). Total num frames: 1353711616. Throughput: 0: 27875.4. Samples: 338501120. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:04,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:05:05,259][98493] Updated weights for policy 0, policy_version 661053 (0.0006)
+[2023-07-06 14:05:05,902][98493] Updated weights for policy 0, policy_version 661094 (0.0006)
+[2023-07-06 14:05:08,355][98493] Updated weights for policy 0, policy_version 661146 (0.0007)
+[2023-07-06 14:05:08,812][98493] Updated weights for policy 0, policy_version 661187 (0.0007)
+[2023-07-06 14:05:09,764][98243] Fps is (10 sec: 108134.5, 60 sec: 109772.9, 300 sec: 111633.4). Total num frames: 1354268672. Throughput: 0: 27955.2. Samples: 338589184. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:09,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:05:09,771][98493] Updated weights for policy 0, policy_version 661280 (0.0007)
+[2023-07-06 14:05:10,508][98493] Updated weights for policy 0, policy_version 661350 (0.0007)
+[2023-07-06 14:05:13,098][98493] Updated weights for policy 0, policy_version 661396 (0.0006)
+[2023-07-06 14:05:13,615][98493] Updated weights for policy 0, policy_version 661456 (0.0014)
+[2023-07-06 14:05:14,405][98493] Updated weights for policy 0, policy_version 661529 (0.0007)
+[2023-07-06 14:05:14,764][98243] Fps is (10 sec: 117966.6, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1354891264. Throughput: 0: 27852.8. Samples: 338750976. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:14,766][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:05:15,235][98493] Updated weights for policy 0, policy_version 661584 (0.0007)
+[2023-07-06 14:05:15,631][98493] Updated weights for policy 0, policy_version 661629 (0.0008)
+[2023-07-06 14:05:17,686][98493] Updated weights for policy 0, policy_version 661681 (0.0007)
+[2023-07-06 14:05:18,448][98493] Updated weights for policy 0, policy_version 661731 (0.0007)
+[2023-07-06 14:05:19,171][98449] Signal inference workers to stop experience collection... (34150 times)
+[2023-07-06 14:05:19,204][98493] InferenceWorker_p0-w0: stopping experience collection (34150 times)
+[2023-07-06 14:05:19,212][98493] Updated weights for policy 0, policy_version 661784 (0.0007)
+[2023-07-06 14:05:19,247][98449] Signal inference workers to resume experience collection... (34150 times)
+[2023-07-06 14:05:19,247][98493] InferenceWorker_p0-w0: resuming experience collection (34150 times)
+[2023-07-06 14:05:19,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1355415552. Throughput: 0: 27761.9. Samples: 338917376. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:19,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 14:05:19,911][98493] Updated weights for policy 0, policy_version 661825 (0.0007)
+[2023-07-06 14:05:20,359][98493] Updated weights for policy 0, policy_version 661882 (0.0007)
+[2023-07-06 14:05:22,401][98493] Updated weights for policy 0, policy_version 661936 (0.0007)
+[2023-07-06 14:05:23,117][98493] Updated weights for policy 0, policy_version 661984 (0.0007)
+[2023-07-06 14:05:23,754][98493] Updated weights for policy 0, policy_version 662041 (0.0007)
+[2023-07-06 14:05:24,068][98493] Updated weights for policy 0, policy_version 662080 (0.0006)
+[2023-07-06 14:05:24,764][98243] Fps is (10 sec: 108135.3, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 1355972608. Throughput: 0: 27966.6. Samples: 339004416. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:24,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 14:05:25,010][98493] Updated weights for policy 0, policy_version 662141 (0.0006)
+[2023-07-06 14:05:26,982][98493] Updated weights for policy 0, policy_version 662202 (0.0007)
+[2023-07-06 14:05:27,967][98493] Updated weights for policy 0, policy_version 662246 (0.0007)
+[2023-07-06 14:05:28,507][98493] Updated weights for policy 0, policy_version 662292 (0.0007)
+[2023-07-06 14:05:29,209][98493] Updated weights for policy 0, policy_version 662352 (0.0007)
+[2023-07-06 14:05:29,764][98243] Fps is (10 sec: 117964.8, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1356595200. Throughput: 0: 27932.5. Samples: 339172864. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:29,765][98243] Avg episode reward: [(0, '9.590')]
+[2023-07-06 14:05:31,092][98493] Updated weights for policy 0, policy_version 662401 (0.0007)
+[2023-07-06 14:05:31,544][98493] Updated weights for policy 0, policy_version 662456 (0.0007)
+[2023-07-06 14:05:32,720][98493] Updated weights for policy 0, policy_version 662512 (0.0006)
+[2023-07-06 14:05:33,406][98493] Updated weights for policy 0, policy_version 662576 (0.0007)
+[2023-07-06 14:05:33,922][98493] Updated weights for policy 0, policy_version 662615 (0.0008)
+[2023-07-06 14:05:34,764][98243] Fps is (10 sec: 114685.2, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1357119488. Throughput: 0: 27818.5. Samples: 339338752. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:34,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:05:35,918][98493] Updated weights for policy 0, policy_version 662672 (0.0008)
+[2023-07-06 14:05:36,915][98493] Updated weights for policy 0, policy_version 662721 (0.0007)
+[2023-07-06 14:05:37,364][98493] Updated weights for policy 0, policy_version 662780 (0.0007)
+[2023-07-06 14:05:38,129][98493] Updated weights for policy 0, policy_version 662822 (0.0007)
+[2023-07-06 14:05:38,299][98449] Signal inference workers to stop experience collection... (34200 times)
+[2023-07-06 14:05:38,327][98493] InferenceWorker_p0-w0: stopping experience collection (34200 times)
+[2023-07-06 14:05:38,358][98449] Signal inference workers to resume experience collection... (34200 times)
+[2023-07-06 14:05:38,359][98493] InferenceWorker_p0-w0: resuming experience collection (34200 times)
+[2023-07-06 14:05:38,573][98493] Updated weights for policy 0, policy_version 662868 (0.0007)
+[2023-07-06 14:05:39,765][98243] Fps is (10 sec: 104854.2, 60 sec: 113595.1, 300 sec: 111633.2). Total num frames: 1357643776. Throughput: 0: 28000.6. Samples: 339426304. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:05:40,393][98493] Updated weights for policy 0, policy_version 662919 (0.0007)
+[2023-07-06 14:05:40,863][98493] Updated weights for policy 0, policy_version 662974 (0.0027)
+[2023-07-06 14:05:42,101][98493] Updated weights for policy 0, policy_version 663035 (0.0007)
+[2023-07-06 14:05:42,981][98493] Updated weights for policy 0, policy_version 663104 (0.0007)
+[2023-07-06 14:05:43,517][98493] Updated weights for policy 0, policy_version 663163 (0.0007)
+[2023-07-06 14:05:44,764][98243] Fps is (10 sec: 104859.7, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 1358168064. Throughput: 0: 27761.8. Samples: 339590144. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:44,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:05:45,570][98493] Updated weights for policy 0, policy_version 663216 (0.0007)
+[2023-07-06 14:05:46,521][98493] Updated weights for policy 0, policy_version 663264 (0.0006)
+[2023-07-06 14:05:47,301][98493] Updated weights for policy 0, policy_version 663312 (0.0006)
+[2023-07-06 14:05:47,816][98493] Updated weights for policy 0, policy_version 663366 (0.0008)
+[2023-07-06 14:05:48,243][98493] Updated weights for policy 0, policy_version 663421 (0.0007)
+[2023-07-06 14:05:49,764][98243] Fps is (10 sec: 104858.6, 60 sec: 113049.1, 300 sec: 111522.2). Total num frames: 1358692352. Throughput: 0: 28148.6. Samples: 339767808. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:49,766][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:05:50,180][98493] Updated weights for policy 0, policy_version 663460 (0.0006)
+[2023-07-06 14:05:51,139][98493] Updated weights for policy 0, policy_version 663526 (0.0011)
+[2023-07-06 14:05:51,834][98493] Updated weights for policy 0, policy_version 663568 (0.0007)
+[2023-07-06 14:05:52,375][98493] Updated weights for policy 0, policy_version 663632 (0.0007)
+[2023-07-06 14:05:54,362][98493] Updated weights for policy 0, policy_version 663681 (0.0007)
+[2023-07-06 14:05:54,764][98243] Fps is (10 sec: 114687.5, 60 sec: 112503.7, 300 sec: 111633.4). Total num frames: 1359314944. Throughput: 0: 27909.7. Samples: 339845120. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:54,764][98243] Avg episode reward: [(0, '9.530')]
+[2023-07-06 14:05:54,817][98493] Updated weights for policy 0, policy_version 663736 (0.0007)
+[2023-07-06 14:05:56,097][98493] Updated weights for policy 0, policy_version 663785 (0.0007)
+[2023-07-06 14:05:56,349][98449] Signal inference workers to stop experience collection... (34250 times)
+[2023-07-06 14:05:56,378][98493] InferenceWorker_p0-w0: stopping experience collection (34250 times)
+[2023-07-06 14:05:56,438][98449] Signal inference workers to resume experience collection... (34250 times)
+[2023-07-06 14:05:56,439][98493] InferenceWorker_p0-w0: resuming experience collection (34250 times)
+[2023-07-06 14:05:56,539][98493] Updated weights for policy 0, policy_version 663831 (0.0009)
+[2023-07-06 14:05:57,020][98493] Updated weights for policy 0, policy_version 663888 (0.0008)
+[2023-07-06 14:05:58,904][98493] Updated weights for policy 0, policy_version 663937 (0.0007)
+[2023-07-06 14:05:59,358][98493] Updated weights for policy 0, policy_version 663997 (0.0007)
+[2023-07-06 14:05:59,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111410.8, 300 sec: 111633.4). Total num frames: 1359872000. Throughput: 0: 28159.9. Samples: 340018176. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:05:59,765][98243] Avg episode reward: [(0, '9.570')]
+[2023-07-06 14:06:01,005][98493] Updated weights for policy 0, policy_version 664061 (0.0007)
+[2023-07-06 14:06:01,572][98493] Updated weights for policy 0, policy_version 664121 (0.0008)
+[2023-07-06 14:06:02,176][98493] Updated weights for policy 0, policy_version 664192 (0.0007)
+[2023-07-06 14:06:04,177][98493] Updated weights for policy 0, policy_version 664253 (0.0007)
+[2023-07-06 14:06:04,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111411.4, 300 sec: 111411.2). Total num frames: 1360396288. Throughput: 0: 28160.0. Samples: 340184576. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:06:04,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 14:06:05,678][98493] Updated weights for policy 0, policy_version 664311 (0.0007)
+[2023-07-06 14:06:06,089][98493] Updated weights for policy 0, policy_version 664352 (0.0007)
+[2023-07-06 14:06:06,781][98493] Updated weights for policy 0, policy_version 664432 (0.0008)
+[2023-07-06 14:06:08,661][98493] Updated weights for policy 0, policy_version 664483 (0.0007)
+[2023-07-06 14:06:09,764][98243] Fps is (10 sec: 104857.9, 60 sec: 110864.7, 300 sec: 111300.2). Total num frames: 1360920576. Throughput: 0: 27989.2. Samples: 340263936. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:06:09,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 14:06:10,257][98493] Updated weights for policy 0, policy_version 664537 (0.0006)
+[2023-07-06 14:06:10,724][98493] Updated weights for policy 0, policy_version 664592 (0.0009)
+[2023-07-06 14:06:11,165][98493] Updated weights for policy 0, policy_version 664640 (0.0007)
+[2023-07-06 14:06:11,654][98493] Updated weights for policy 0, policy_version 664698 (0.0007)
+[2023-07-06 14:06:13,234][98449] Signal inference workers to stop experience collection... (34300 times)
+[2023-07-06 14:06:13,256][98493] InferenceWorker_p0-w0: stopping experience collection (34300 times)
+[2023-07-06 14:06:13,323][98449] Signal inference workers to resume experience collection... (34300 times)
+[2023-07-06 14:06:13,324][98493] InferenceWorker_p0-w0: resuming experience collection (34300 times)
+[2023-07-06 14:06:13,396][98493] Updated weights for policy 0, policy_version 664738 (0.0006)
+[2023-07-06 14:06:14,733][98493] Updated weights for policy 0, policy_version 664784 (0.0011)
+[2023-07-06 14:06:14,764][98243] Fps is (10 sec: 108135.2, 60 sec: 109772.9, 300 sec: 111300.2). Total num frames: 1361477632. Throughput: 0: 27978.0. Samples: 340431872. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:06:14,764][98243] Avg episode reward: [(0, '9.550')]
+[2023-07-06 14:06:15,294][98493] Updated weights for policy 0, policy_version 664834 (0.0007)
+[2023-07-06 14:06:15,738][98493] Updated weights for policy 0, policy_version 664888 (0.0007)
+[2023-07-06 14:06:16,291][98493] Updated weights for policy 0, policy_version 664954 (0.0006)
+[2023-07-06 14:06:18,189][98493] Updated weights for policy 0, policy_version 665021 (0.0006)
+[2023-07-06 14:06:19,774][98243] Fps is (10 sec: 114581.1, 60 sec: 110847.5, 300 sec: 111407.6). Total num frames: 1362067456. Throughput: 0: 28097.3. Samples: 340603392. Policy #0 lag: (min: 56.0, avg: 102.0, max: 256.0)
+[2023-07-06 14:06:19,774][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 14:06:19,806][98493] Updated weights for policy 0, policy_version 665081 (0.0007)
+[2023-07-06 14:06:20,288][98493] Updated weights for policy 0, policy_version 665136 (0.0007)
+[2023-07-06 14:06:20,754][98493] Updated weights for policy 0, policy_version 665184 (0.0007)
+[2023-07-06 14:06:22,660][98493] Updated weights for policy 0, policy_version 665238 (0.0007)
+[2023-07-06 14:06:23,931][98493] Updated weights for policy 0, policy_version 665296 (0.0007)
+[2023-07-06 14:06:24,764][98243] Fps is (10 sec: 114685.9, 60 sec: 110864.7, 300 sec: 111522.2). Total num frames: 1362624512. Throughput: 0: 27978.1. Samples: 340685312. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:24,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:06:24,768][98493] Updated weights for policy 0, policy_version 665350 (0.0006)
+[2023-07-06 14:06:24,964][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000665376_1362690048.pth...
+[2023-07-06 14:06:25,035][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000652288_1335885824.pth
+[2023-07-06 14:06:25,489][98493] Updated weights for policy 0, policy_version 665429 (0.0008)
+[2023-07-06 14:06:25,794][98493] Updated weights for policy 0, policy_version 665470 (0.0006)
+[2023-07-06 14:06:27,444][98493] Updated weights for policy 0, policy_version 665520 (0.0007)
+[2023-07-06 14:06:29,119][98493] Updated weights for policy 0, policy_version 665584 (0.0007)
+[2023-07-06 14:06:29,764][98243] Fps is (10 sec: 111515.2, 60 sec: 109772.5, 300 sec: 111300.1). Total num frames: 1363181568. Throughput: 0: 28103.0. Samples: 340854784. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:29,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 14:06:29,907][98493] Updated weights for policy 0, policy_version 665639 (0.0007)
+[2023-07-06 14:06:30,255][98449] Signal inference workers to stop experience collection... (34350 times)
+[2023-07-06 14:06:30,295][98493] InferenceWorker_p0-w0: stopping experience collection (34350 times)
+[2023-07-06 14:06:30,341][98449] Signal inference workers to resume experience collection... (34350 times)
+[2023-07-06 14:06:30,341][98493] InferenceWorker_p0-w0: resuming experience collection (34350 times)
+[2023-07-06 14:06:30,423][98493] Updated weights for policy 0, policy_version 665699 (0.0007)
+[2023-07-06 14:06:30,656][98493] Updated weights for policy 0, policy_version 665728 (0.0009)
+[2023-07-06 14:06:32,339][98493] Updated weights for policy 0, policy_version 665778 (0.0007)
+[2023-07-06 14:06:33,391][98493] Updated weights for policy 0, policy_version 665816 (0.0006)
+[2023-07-06 14:06:34,147][98493] Updated weights for policy 0, policy_version 665858 (0.0006)
+[2023-07-06 14:06:34,596][98493] Updated weights for policy 0, policy_version 665917 (0.0007)
+[2023-07-06 14:06:34,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 1363804160. Throughput: 0: 27739.1. Samples: 341016064. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:34,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:06:35,293][98493] Updated weights for policy 0, policy_version 665978 (0.0008)
+[2023-07-06 14:06:37,080][98493] Updated weights for policy 0, policy_version 666018 (0.0006)
+[2023-07-06 14:06:38,332][98493] Updated weights for policy 0, policy_version 666087 (0.0007)
+[2023-07-06 14:06:38,942][98493] Updated weights for policy 0, policy_version 666137 (0.0006)
+[2023-07-06 14:06:39,679][98493] Updated weights for policy 0, policy_version 666178 (0.0006)
+[2023-07-06 14:06:39,764][98243] Fps is (10 sec: 117966.4, 60 sec: 111957.9, 300 sec: 111633.4). Total num frames: 1364361216. Throughput: 0: 27921.0. Samples: 341101568. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:39,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 14:06:40,148][98493] Updated weights for policy 0, policy_version 666238 (0.0007)
+[2023-07-06 14:06:41,827][98493] Updated weights for policy 0, policy_version 666295 (0.0006)
+[2023-07-06 14:06:43,275][98493] Updated weights for policy 0, policy_version 666363 (0.0007)
+[2023-07-06 14:06:43,729][98493] Updated weights for policy 0, policy_version 666401 (0.0007)
+[2023-07-06 14:06:44,432][98493] Updated weights for policy 0, policy_version 666456 (0.0006)
+[2023-07-06 14:06:44,764][98243] Fps is (10 sec: 117967.1, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1364983808. Throughput: 0: 27750.6. Samples: 341266944. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:44,764][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:06:46,049][98493] Updated weights for policy 0, policy_version 666512 (0.0007)
+[2023-07-06 14:06:47,601][98493] Updated weights for policy 0, policy_version 666563 (0.0007)
+[2023-07-06 14:06:48,228][98493] Updated weights for policy 0, policy_version 666640 (0.0007)
+[2023-07-06 14:06:48,615][98493] Updated weights for policy 0, policy_version 666687 (0.0006)
+[2023-07-06 14:06:49,258][98449] Signal inference workers to stop experience collection... (34400 times)
+[2023-07-06 14:06:49,289][98493] InferenceWorker_p0-w0: stopping experience collection (34400 times)
+[2023-07-06 14:06:49,346][98449] Signal inference workers to resume experience collection... (34400 times)
+[2023-07-06 14:06:49,347][98493] InferenceWorker_p0-w0: resuming experience collection (34400 times)
+[2023-07-06 14:06:49,434][98493] Updated weights for policy 0, policy_version 666727 (0.0007)
+[2023-07-06 14:06:49,764][98243] Fps is (10 sec: 114688.6, 60 sec: 113596.2, 300 sec: 111855.5). Total num frames: 1365508096. Throughput: 0: 27761.8. Samples: 341433856. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:49,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:06:50,664][98493] Updated weights for policy 0, policy_version 666768 (0.0007)
+[2023-07-06 14:06:52,361][98493] Updated weights for policy 0, policy_version 666817 (0.0008)
+[2023-07-06 14:06:52,956][98493] Updated weights for policy 0, policy_version 666884 (0.0007)
+[2023-07-06 14:06:53,425][98493] Updated weights for policy 0, policy_version 666944 (0.0011)
+[2023-07-06 14:06:54,330][98493] Updated weights for policy 0, policy_version 667001 (0.0007)
+[2023-07-06 14:06:54,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111957.3, 300 sec: 111522.3). Total num frames: 1366032384. Throughput: 0: 27921.2. Samples: 341520384. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:06:55,531][98493] Updated weights for policy 0, policy_version 667056 (0.0007)
+[2023-07-06 14:06:57,427][98493] Updated weights for policy 0, policy_version 667108 (0.0007)
+[2023-07-06 14:06:57,803][98493] Updated weights for policy 0, policy_version 667152 (0.0006)
+[2023-07-06 14:06:58,645][98493] Updated weights for policy 0, policy_version 667216 (0.0007)
+[2023-07-06 14:06:59,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111411.4, 300 sec: 111522.2). Total num frames: 1366556672. Throughput: 0: 27841.3. Samples: 341684736. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:06:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:07:00,121][98493] Updated weights for policy 0, policy_version 667268 (0.0007)
+[2023-07-06 14:07:00,586][98493] Updated weights for policy 0, policy_version 667328 (0.0007)
+[2023-07-06 14:07:01,889][98493] Updated weights for policy 0, policy_version 667365 (0.0007)
+[2023-07-06 14:07:02,481][98493] Updated weights for policy 0, policy_version 667424 (0.0007)
+[2023-07-06 14:07:03,268][98493] Updated weights for policy 0, policy_version 667472 (0.0007)
+[2023-07-06 14:07:04,738][98493] Updated weights for policy 0, policy_version 667536 (0.0007)
+[2023-07-06 14:07:04,764][98243] Fps is (10 sec: 108135.8, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 1367113728. Throughput: 0: 27779.1. Samples: 341853184. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:04,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:07:06,414][98493] Updated weights for policy 0, policy_version 667587 (0.0007)
+[2023-07-06 14:07:06,872][98493] Updated weights for policy 0, policy_version 667643 (0.0027)
+[2023-07-06 14:07:07,284][98493] Updated weights for policy 0, policy_version 667683 (0.0008)
+[2023-07-06 14:07:07,908][98449] Signal inference workers to stop experience collection... (34450 times)
+[2023-07-06 14:07:07,939][98493] InferenceWorker_p0-w0: stopping experience collection (34450 times)
+[2023-07-06 14:07:07,995][98449] Signal inference workers to resume experience collection... (34450 times)
+[2023-07-06 14:07:07,995][98493] InferenceWorker_p0-w0: resuming experience collection (34450 times)
+[2023-07-06 14:07:08,155][98493] Updated weights for policy 0, policy_version 667744 (0.0007)
+[2023-07-06 14:07:09,180][98493] Updated weights for policy 0, policy_version 667779 (0.0006)
+[2023-07-06 14:07:09,764][98243] Fps is (10 sec: 117966.3, 60 sec: 113596.1, 300 sec: 111633.4). Total num frames: 1367736320. Throughput: 0: 27773.2. Samples: 341935104. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:09,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:07:11,168][98493] Updated weights for policy 0, policy_version 667843 (0.0007)
+[2023-07-06 14:07:11,598][98493] Updated weights for policy 0, policy_version 667891 (0.0006)
+[2023-07-06 14:07:12,106][98493] Updated weights for policy 0, policy_version 667953 (0.0008)
+[2023-07-06 14:07:13,053][98493] Updated weights for policy 0, policy_version 668004 (0.0007)
+[2023-07-06 14:07:14,062][98493] Updated weights for policy 0, policy_version 668057 (0.0011)
+[2023-07-06 14:07:14,764][98243] Fps is (10 sec: 114684.6, 60 sec: 113049.1, 300 sec: 111522.3). Total num frames: 1368260608. Throughput: 0: 27761.8. Samples: 342104064. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:14,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:07:15,767][98493] Updated weights for policy 0, policy_version 668112 (0.0008)
+[2023-07-06 14:07:16,282][98493] Updated weights for policy 0, policy_version 668164 (0.0008)
+[2023-07-06 14:07:16,715][98493] Updated weights for policy 0, policy_version 668219 (0.0007)
+[2023-07-06 14:07:18,190][98493] Updated weights for policy 0, policy_version 668280 (0.0020)
+[2023-07-06 14:07:18,850][98493] Updated weights for policy 0, policy_version 668325 (0.0006)
+[2023-07-06 14:07:19,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111975.1, 300 sec: 111522.3). Total num frames: 1368784896. Throughput: 0: 27932.5. Samples: 342273024. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:19,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:07:20,425][98493] Updated weights for policy 0, policy_version 668373 (0.0007)
+[2023-07-06 14:07:21,033][98493] Updated weights for policy 0, policy_version 668437 (0.0029)
+[2023-07-06 14:07:21,368][98493] Updated weights for policy 0, policy_version 668476 (0.0007)
+[2023-07-06 14:07:22,746][98493] Updated weights for policy 0, policy_version 668539 (0.0008)
+[2023-07-06 14:07:23,748][98493] Updated weights for policy 0, policy_version 668604 (0.0006)
+[2023-07-06 14:07:24,764][98243] Fps is (10 sec: 104858.6, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 1369309184. Throughput: 0: 27864.1. Samples: 342355456. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:24,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:07:25,407][98493] Updated weights for policy 0, policy_version 668646 (0.0007)
+[2023-07-06 14:07:25,832][98449] Signal inference workers to stop experience collection... (34500 times)
+[2023-07-06 14:07:25,877][98493] InferenceWorker_p0-w0: stopping experience collection (34500 times)
+[2023-07-06 14:07:25,901][98493] Updated weights for policy 0, policy_version 668695 (0.0007)
+[2023-07-06 14:07:25,945][98449] Signal inference workers to resume experience collection... (34500 times)
+[2023-07-06 14:07:25,946][98493] InferenceWorker_p0-w0: resuming experience collection (34500 times)
+[2023-07-06 14:07:27,043][98493] Updated weights for policy 0, policy_version 668752 (0.0008)
+[2023-07-06 14:07:28,131][98493] Updated weights for policy 0, policy_version 668801 (0.0007)
+[2023-07-06 14:07:28,584][98493] Updated weights for policy 0, policy_version 668856 (0.0006)
+[2023-07-06 14:07:29,764][98243] Fps is (10 sec: 104856.0, 60 sec: 110865.1, 300 sec: 111411.1). Total num frames: 1369833472. Throughput: 0: 27864.0. Samples: 342520832. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:07:30,339][98493] Updated weights for policy 0, policy_version 668917 (0.0007)
+[2023-07-06 14:07:30,904][98493] Updated weights for policy 0, policy_version 668986 (0.0007)
+[2023-07-06 14:07:31,966][98493] Updated weights for policy 0, policy_version 669026 (0.0007)
+[2023-07-06 14:07:32,754][98493] Updated weights for policy 0, policy_version 669072 (0.0006)
+[2023-07-06 14:07:34,764][98243] Fps is (10 sec: 104858.4, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 1370357760. Throughput: 0: 28012.1. Samples: 342694400. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:07:34,806][98493] Updated weights for policy 0, policy_version 669122 (0.0007)
+[2023-07-06 14:07:35,484][98493] Updated weights for policy 0, policy_version 669203 (0.0009)
+[2023-07-06 14:07:35,849][98493] Updated weights for policy 0, policy_version 669248 (0.0007)
+[2023-07-06 14:07:36,731][98493] Updated weights for policy 0, policy_version 669304 (0.0007)
+[2023-07-06 14:07:37,642][98493] Updated weights for policy 0, policy_version 669360 (0.0006)
+[2023-07-06 14:07:39,663][98493] Updated weights for policy 0, policy_version 669401 (0.0006)
+[2023-07-06 14:07:39,764][98243] Fps is (10 sec: 111412.8, 60 sec: 109772.9, 300 sec: 111077.9). Total num frames: 1370947584. Throughput: 0: 27773.2. Samples: 342770176. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:07:40,063][98493] Updated weights for policy 0, policy_version 669447 (0.0007)
+[2023-07-06 14:07:40,492][98493] Updated weights for policy 0, policy_version 669499 (0.0007)
+[2023-07-06 14:07:41,290][98493] Updated weights for policy 0, policy_version 669552 (0.0007)
+[2023-07-06 14:07:41,966][98493] Updated weights for policy 0, policy_version 669590 (0.0006)
+[2023-07-06 14:07:44,063][98493] Updated weights for policy 0, policy_version 669633 (0.0008)
+[2023-07-06 14:07:44,470][98449] Signal inference workers to stop experience collection... (34550 times)
+[2023-07-06 14:07:44,506][98493] InferenceWorker_p0-w0: stopping experience collection (34550 times)
+[2023-07-06 14:07:44,551][98449] Signal inference workers to resume experience collection... (34550 times)
+[2023-07-06 14:07:44,551][98493] InferenceWorker_p0-w0: resuming experience collection (34550 times)
+[2023-07-06 14:07:44,647][98493] Updated weights for policy 0, policy_version 669704 (0.0008)
+[2023-07-06 14:07:44,764][98243] Fps is (10 sec: 121241.8, 60 sec: 109772.7, 300 sec: 111300.1). Total num frames: 1371570176. Throughput: 0: 28012.2. Samples: 342945280. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:07:45,894][98493] Updated weights for policy 0, policy_version 669764 (0.0007)
+[2023-07-06 14:07:46,325][98493] Updated weights for policy 0, policy_version 669819 (0.0008)
+[2023-07-06 14:07:46,989][98493] Updated weights for policy 0, policy_version 669873 (0.0007)
+[2023-07-06 14:07:48,945][98493] Updated weights for policy 0, policy_version 669920 (0.0007)
+[2023-07-06 14:07:49,438][98493] Updated weights for policy 0, policy_version 669973 (0.0007)
+[2023-07-06 14:07:49,764][98243] Fps is (10 sec: 124517.7, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1372192768. Throughput: 0: 27886.8. Samples: 343108096. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:49,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:07:50,752][98493] Updated weights for policy 0, policy_version 670032 (0.0007)
+[2023-07-06 14:07:51,273][98493] Updated weights for policy 0, policy_version 670090 (0.0007)
+[2023-07-06 14:07:53,522][98493] Updated weights for policy 0, policy_version 670151 (0.0008)
+[2023-07-06 14:07:54,078][98493] Updated weights for policy 0, policy_version 670212 (0.0007)
+[2023-07-06 14:07:54,523][98493] Updated weights for policy 0, policy_version 670268 (0.0007)
+[2023-07-06 14:07:54,764][98243] Fps is (10 sec: 114687.8, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1372717056. Throughput: 0: 27977.9. Samples: 343194112. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:54,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:07:55,837][98493] Updated weights for policy 0, policy_version 670322 (0.0007)
+[2023-07-06 14:07:56,425][98493] Updated weights for policy 0, policy_version 670394 (0.0009)
+[2023-07-06 14:07:58,614][98493] Updated weights for policy 0, policy_version 670437 (0.0013)
+[2023-07-06 14:07:59,206][98493] Updated weights for policy 0, policy_version 670505 (0.0008)
+[2023-07-06 14:07:59,764][98243] Fps is (10 sec: 104855.9, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1373241344. Throughput: 0: 28000.7. Samples: 343364096. Policy #0 lag: (min: 15.0, avg: 102.7, max: 271.0)
+[2023-07-06 14:07:59,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:08:00,057][98493] Updated weights for policy 0, policy_version 670560 (0.0007)
+[2023-07-06 14:08:00,861][98493] Updated weights for policy 0, policy_version 670617 (0.0007)
+[2023-07-06 14:08:00,947][98449] Signal inference workers to stop experience collection... (34600 times)
+[2023-07-06 14:08:00,989][98493] InferenceWorker_p0-w0: stopping experience collection (34600 times)
+[2023-07-06 14:08:01,043][98449] Signal inference workers to resume experience collection... (34600 times)
+[2023-07-06 14:08:01,043][98493] InferenceWorker_p0-w0: resuming experience collection (34600 times)
+[2023-07-06 14:08:01,190][98493] Updated weights for policy 0, policy_version 670656 (0.0007)
+[2023-07-06 14:08:03,405][98493] Updated weights for policy 0, policy_version 670725 (0.0008)
+[2023-07-06 14:08:03,855][98493] Updated weights for policy 0, policy_version 670778 (0.0007)
+[2023-07-06 14:08:04,764][98243] Fps is (10 sec: 111412.3, 60 sec: 111957.3, 300 sec: 111744.4). Total num frames: 1373831168. Throughput: 0: 27921.1. Samples: 343529472. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:04,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:08:04,848][98493] Updated weights for policy 0, policy_version 670825 (0.0007)
+[2023-07-06 14:08:05,807][98493] Updated weights for policy 0, policy_version 670869 (0.0006)
+[2023-07-06 14:08:07,576][98493] Updated weights for policy 0, policy_version 670944 (0.0007)
+[2023-07-06 14:08:08,240][98493] Updated weights for policy 0, policy_version 671015 (0.0008)
+[2023-07-06 14:08:09,417][98493] Updated weights for policy 0, policy_version 671059 (0.0006)
+[2023-07-06 14:08:09,764][98243] Fps is (10 sec: 117966.6, 60 sec: 111411.1, 300 sec: 111633.3). Total num frames: 1374420992. Throughput: 0: 27955.2. Samples: 343613440. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:09,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 14:08:10,495][98493] Updated weights for policy 0, policy_version 671120 (0.0006)
+[2023-07-06 14:08:12,169][98493] Updated weights for policy 0, policy_version 671173 (0.0007)
+[2023-07-06 14:08:12,727][98493] Updated weights for policy 0, policy_version 671236 (0.0008)
+[2023-07-06 14:08:13,247][98493] Updated weights for policy 0, policy_version 671296 (0.0007)
+[2023-07-06 14:08:14,444][98493] Updated weights for policy 0, policy_version 671346 (0.0007)
+[2023-07-06 14:08:14,764][98243] Fps is (10 sec: 111410.0, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 1374945280. Throughput: 0: 27909.8. Samples: 343776768. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:14,765][98243] Avg episode reward: [(0, '9.600')]
+[2023-07-06 14:08:15,356][98493] Updated weights for policy 0, policy_version 671380 (0.0007)
+[2023-07-06 14:08:16,871][98493] Updated weights for policy 0, policy_version 671448 (0.0006)
+[2023-07-06 14:08:17,418][98493] Updated weights for policy 0, policy_version 671511 (0.0007)
+[2023-07-06 14:08:19,048][98493] Updated weights for policy 0, policy_version 671568 (0.0007)
+[2023-07-06 14:08:19,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1375469568. Throughput: 0: 27784.5. Samples: 343944704. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:19,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:08:19,984][98449] Signal inference workers to stop experience collection... (34650 times)
+[2023-07-06 14:08:20,017][98493] InferenceWorker_p0-w0: stopping experience collection (34650 times)
+[2023-07-06 14:08:20,018][98493] Updated weights for policy 0, policy_version 671622 (0.0007)
+[2023-07-06 14:08:20,063][98449] Signal inference workers to resume experience collection... (34650 times)
+[2023-07-06 14:08:20,063][98493] InferenceWorker_p0-w0: resuming experience collection (34650 times)
+[2023-07-06 14:08:20,413][98493] Updated weights for policy 0, policy_version 671675 (0.0008)
+[2023-07-06 14:08:21,757][98493] Updated weights for policy 0, policy_version 671728 (0.0006)
+[2023-07-06 14:08:22,380][98493] Updated weights for policy 0, policy_version 671800 (0.0008)
+[2023-07-06 14:08:23,983][98493] Updated weights for policy 0, policy_version 671840 (0.0007)
+[2023-07-06 14:08:24,619][98493] Updated weights for policy 0, policy_version 671888 (0.0007)
+[2023-07-06 14:08:24,764][98243] Fps is (10 sec: 111409.3, 60 sec: 112503.3, 300 sec: 111744.4). Total num frames: 1376059392. Throughput: 0: 27886.8. Samples: 344025088. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:24,765][98243] Avg episode reward: [(0, '9.580')]
+[2023-07-06 14:08:24,875][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000671920_1376092160.pth...
+[2023-07-06 14:08:24,899][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000658816_1349255168.pth
+[2023-07-06 14:08:24,996][98493] Updated weights for policy 0, policy_version 671933 (0.0006)
+[2023-07-06 14:08:26,620][98493] Updated weights for policy 0, policy_version 671986 (0.0007)
+[2023-07-06 14:08:27,071][98493] Updated weights for policy 0, policy_version 672035 (0.0007)
+[2023-07-06 14:08:28,637][98493] Updated weights for policy 0, policy_version 672096 (0.0007)
+[2023-07-06 14:08:29,356][98493] Updated weights for policy 0, policy_version 672153 (0.0007)
+[2023-07-06 14:08:29,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113596.0, 300 sec: 111744.4). Total num frames: 1376649216. Throughput: 0: 27795.9. Samples: 344196096. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:29,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:08:30,873][98493] Updated weights for policy 0, policy_version 672208 (0.0008)
+[2023-07-06 14:08:31,365][98493] Updated weights for policy 0, policy_version 672259 (0.0008)
+[2023-07-06 14:08:31,820][98493] Updated weights for policy 0, policy_version 672315 (0.0007)
+[2023-07-06 14:08:33,536][98493] Updated weights for policy 0, policy_version 672377 (0.0007)
+[2023-07-06 14:08:34,008][98493] Updated weights for policy 0, policy_version 672416 (0.0006)
+[2023-07-06 14:08:34,764][98243] Fps is (10 sec: 111411.6, 60 sec: 113595.5, 300 sec: 111522.2). Total num frames: 1377173504. Throughput: 0: 27898.2. Samples: 344363520. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:34,769][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:08:35,797][98493] Updated weights for policy 0, policy_version 672480 (0.0008)
+[2023-07-06 14:08:36,435][98493] Updated weights for policy 0, policy_version 672546 (0.0008)
+[2023-07-06 14:08:37,812][98449] Signal inference workers to stop experience collection... (34700 times)
+[2023-07-06 14:08:37,832][98493] Updated weights for policy 0, policy_version 672594 (0.0006)
+[2023-07-06 14:08:37,850][98493] InferenceWorker_p0-w0: stopping experience collection (34700 times)
+[2023-07-06 14:08:37,911][98449] Signal inference workers to resume experience collection... (34700 times)
+[2023-07-06 14:08:37,912][98493] InferenceWorker_p0-w0: resuming experience collection (34700 times)
+[2023-07-06 14:08:38,575][98493] Updated weights for policy 0, policy_version 672642 (0.0007)
+[2023-07-06 14:08:39,073][98493] Updated weights for policy 0, policy_version 672704 (0.0008)
+[2023-07-06 14:08:39,764][98243] Fps is (10 sec: 104857.3, 60 sec: 112503.4, 300 sec: 111522.2). Total num frames: 1377697792. Throughput: 0: 27864.2. Samples: 344448000. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:08:40,930][98493] Updated weights for policy 0, policy_version 672773 (0.0031)
+[2023-07-06 14:08:41,346][98493] Updated weights for policy 0, policy_version 672830 (0.0006)
+[2023-07-06 14:08:42,912][98493] Updated weights for policy 0, policy_version 672880 (0.0007)
+[2023-07-06 14:08:43,911][98493] Updated weights for policy 0, policy_version 672929 (0.0007)
+[2023-07-06 14:08:44,764][98243] Fps is (10 sec: 104859.3, 60 sec: 110865.1, 300 sec: 111411.2). Total num frames: 1378222080. Throughput: 0: 27784.7. Samples: 344614400. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:44,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:08:45,123][98493] Updated weights for policy 0, policy_version 673001 (0.0007)
+[2023-07-06 14:08:45,581][98493] Updated weights for policy 0, policy_version 673056 (0.0007)
+[2023-07-06 14:08:46,980][98493] Updated weights for policy 0, policy_version 673105 (0.0007)
+[2023-07-06 14:08:48,180][98493] Updated weights for policy 0, policy_version 673154 (0.0007)
+[2023-07-06 14:08:48,645][98493] Updated weights for policy 0, policy_version 673213 (0.0006)
+[2023-07-06 14:08:49,764][98243] Fps is (10 sec: 104858.3, 60 sec: 109226.8, 300 sec: 111078.0). Total num frames: 1378746368. Throughput: 0: 27921.0. Samples: 344785920. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:49,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:08:50,171][98493] Updated weights for policy 0, policy_version 673268 (0.0007)
+[2023-07-06 14:08:50,580][98493] Updated weights for policy 0, policy_version 673315 (0.0006)
+[2023-07-06 14:08:51,753][98493] Updated weights for policy 0, policy_version 673376 (0.0007)
+[2023-07-06 14:08:52,842][98493] Updated weights for policy 0, policy_version 673413 (0.0007)
+[2023-07-06 14:08:53,266][98493] Updated weights for policy 0, policy_version 673467 (0.0008)
+[2023-07-06 14:08:54,764][98243] Fps is (10 sec: 111411.7, 60 sec: 110319.1, 300 sec: 111300.2). Total num frames: 1379336192. Throughput: 0: 27875.6. Samples: 344867840. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:54,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:08:54,776][98493] Updated weights for policy 0, policy_version 673520 (0.0008)
+[2023-07-06 14:08:55,242][98449] Signal inference workers to stop experience collection... (34750 times)
+[2023-07-06 14:08:55,263][98493] InferenceWorker_p0-w0: stopping experience collection (34750 times)
+[2023-07-06 14:08:55,334][98449] Signal inference workers to resume experience collection... (34750 times)
+[2023-07-06 14:08:55,334][98493] InferenceWorker_p0-w0: resuming experience collection (34750 times)
+[2023-07-06 14:08:55,335][98493] Updated weights for policy 0, policy_version 673584 (0.0007)
+[2023-07-06 14:08:56,401][98493] Updated weights for policy 0, policy_version 673632 (0.0007)
+[2023-07-06 14:08:57,541][98493] Updated weights for policy 0, policy_version 673667 (0.0006)
+[2023-07-06 14:08:57,953][98493] Updated weights for policy 0, policy_version 673726 (0.0006)
+[2023-07-06 14:08:59,534][98493] Updated weights for policy 0, policy_version 673792 (0.0006)
+[2023-07-06 14:08:59,764][98243] Fps is (10 sec: 121242.2, 60 sec: 111957.9, 300 sec: 111411.2). Total num frames: 1379958784. Throughput: 0: 27966.6. Samples: 345035264. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:08:59,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:09:00,068][98493] Updated weights for policy 0, policy_version 673856 (0.0009)
+[2023-07-06 14:09:01,416][98493] Updated weights for policy 0, policy_version 673913 (0.0007)
+[2023-07-06 14:09:02,453][98493] Updated weights for policy 0, policy_version 673952 (0.0007)
+[2023-07-06 14:09:04,053][98493] Updated weights for policy 0, policy_version 674018 (0.0006)
+[2023-07-06 14:09:04,407][98493] Updated weights for policy 0, policy_version 674064 (0.0007)
+[2023-07-06 14:09:04,764][98243] Fps is (10 sec: 121241.1, 60 sec: 111957.2, 300 sec: 111411.2). Total num frames: 1380548608. Throughput: 0: 27875.6. Samples: 345199104. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:04,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:09:04,835][98493] Updated weights for policy 0, policy_version 674111 (0.0006)
+[2023-07-06 14:09:06,090][98493] Updated weights for policy 0, policy_version 674170 (0.0008)
+[2023-07-06 14:09:07,438][98493] Updated weights for policy 0, policy_version 674224 (0.0007)
+[2023-07-06 14:09:08,737][98493] Updated weights for policy 0, policy_version 674275 (0.0006)
+[2023-07-06 14:09:09,245][98493] Updated weights for policy 0, policy_version 674336 (0.0007)
+[2023-07-06 14:09:09,764][98243] Fps is (10 sec: 114687.1, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1381105664. Throughput: 0: 28000.8. Samples: 345285120. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:09,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:09:10,576][98493] Updated weights for policy 0, policy_version 674400 (0.0006)
+[2023-07-06 14:09:12,041][98493] Updated weights for policy 0, policy_version 674464 (0.0007)
+[2023-07-06 14:09:13,231][98493] Updated weights for policy 0, policy_version 674528 (0.0007)
+[2023-07-06 14:09:13,811][98449] Signal inference workers to stop experience collection... (34800 times)
+[2023-07-06 14:09:13,827][98493] Updated weights for policy 0, policy_version 674577 (0.0007)
+[2023-07-06 14:09:13,850][98493] InferenceWorker_p0-w0: stopping experience collection (34800 times)
+[2023-07-06 14:09:13,903][98449] Signal inference workers to resume experience collection... (34800 times)
+[2023-07-06 14:09:13,903][98493] InferenceWorker_p0-w0: resuming experience collection (34800 times)
+[2023-07-06 14:09:14,764][98243] Fps is (10 sec: 108134.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1381629952. Throughput: 0: 27852.8. Samples: 345449472. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:09:15,155][98493] Updated weights for policy 0, policy_version 674628 (0.0028)
+[2023-07-06 14:09:15,637][98493] Updated weights for policy 0, policy_version 674688 (0.0007)
+[2023-07-06 14:09:17,031][98493] Updated weights for policy 0, policy_version 674747 (0.0007)
+[2023-07-06 14:09:17,926][98493] Updated weights for policy 0, policy_version 674790 (0.0006)
+[2023-07-06 14:09:18,440][98493] Updated weights for policy 0, policy_version 674832 (0.0008)
+[2023-07-06 14:09:18,889][98493] Updated weights for policy 0, policy_version 674880 (0.0006)
+[2023-07-06 14:09:19,764][98243] Fps is (10 sec: 104858.2, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1382154240. Throughput: 0: 27909.8. Samples: 345619456. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:19,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:09:20,199][98493] Updated weights for policy 0, policy_version 674940 (0.0007)
+[2023-07-06 14:09:21,672][98493] Updated weights for policy 0, policy_version 675003 (0.0008)
+[2023-07-06 14:09:22,460][98493] Updated weights for policy 0, policy_version 675043 (0.0006)
+[2023-07-06 14:09:23,324][98493] Updated weights for policy 0, policy_version 675104 (0.0009)
+[2023-07-06 14:09:24,598][98493] Updated weights for policy 0, policy_version 675141 (0.0006)
+[2023-07-06 14:09:24,764][98243] Fps is (10 sec: 108135.1, 60 sec: 110865.5, 300 sec: 111633.4). Total num frames: 1382711296. Throughput: 0: 27830.1. Samples: 345700352. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:24,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:09:25,018][98493] Updated weights for policy 0, policy_version 675193 (0.0007)
+[2023-07-06 14:09:26,359][98493] Updated weights for policy 0, policy_version 675248 (0.0008)
+[2023-07-06 14:09:26,909][98493] Updated weights for policy 0, policy_version 675296 (0.0006)
+[2023-07-06 14:09:28,020][98493] Updated weights for policy 0, policy_version 675368 (0.0006)
+[2023-07-06 14:09:29,346][98493] Updated weights for policy 0, policy_version 675412 (0.0007)
+[2023-07-06 14:09:29,764][98243] Fps is (10 sec: 117964.4, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1383333888. Throughput: 0: 27886.9. Samples: 345869312. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:29,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 14:09:30,966][98493] Updated weights for policy 0, policy_version 675460 (0.0007)
+[2023-07-06 14:09:31,538][98493] Updated weights for policy 0, policy_version 675524 (0.0007)
+[2023-07-06 14:09:31,976][98493] Updated weights for policy 0, policy_version 675580 (0.0007)
+[2023-07-06 14:09:32,628][98449] Signal inference workers to stop experience collection... (34850 times)
+[2023-07-06 14:09:32,674][98493] InferenceWorker_p0-w0: stopping experience collection (34850 times)
+[2023-07-06 14:09:32,732][98449] Signal inference workers to resume experience collection... (34850 times)
+[2023-07-06 14:09:32,732][98493] InferenceWorker_p0-w0: resuming experience collection (34850 times)
+[2023-07-06 14:09:32,734][98493] Updated weights for policy 0, policy_version 675632 (0.0008)
+[2023-07-06 14:09:34,166][98493] Updated weights for policy 0, policy_version 675688 (0.0006)
+[2023-07-06 14:09:34,764][98243] Fps is (10 sec: 114687.6, 60 sec: 111411.5, 300 sec: 111966.6). Total num frames: 1383858176. Throughput: 0: 27841.4. Samples: 346038784. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:34,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:09:35,773][98493] Updated weights for policy 0, policy_version 675736 (0.0006)
+[2023-07-06 14:09:36,340][98493] Updated weights for policy 0, policy_version 675801 (0.0007)
+[2023-07-06 14:09:37,101][98493] Updated weights for policy 0, policy_version 675856 (0.0007)
+[2023-07-06 14:09:37,480][98493] Updated weights for policy 0, policy_version 675900 (0.0006)
+[2023-07-06 14:09:39,220][98493] Updated weights for policy 0, policy_version 675963 (0.0007)
+[2023-07-06 14:09:39,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1384382464. Throughput: 0: 27830.0. Samples: 346120192. Policy #0 lag: (min: 3.0, avg: 80.8, max: 259.0)
+[2023-07-06 14:09:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:09:40,731][98493] Updated weights for policy 0, policy_version 676032 (0.0007)
+[2023-07-06 14:09:41,244][98493] Updated weights for policy 0, policy_version 676090 (0.0007)
+[2023-07-06 14:09:42,422][98493] Updated weights for policy 0, policy_version 676156 (0.0006)
+[2023-07-06 14:09:43,833][98493] Updated weights for policy 0, policy_version 676208 (0.0007)
+[2023-07-06 14:09:44,764][98243] Fps is (10 sec: 104855.3, 60 sec: 111410.8, 300 sec: 111855.4). Total num frames: 1384906752. Throughput: 0: 27818.5. Samples: 346287104. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:09:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:09:45,103][98493] Updated weights for policy 0, policy_version 676272 (0.0007)
+[2023-07-06 14:09:45,809][98493] Updated weights for policy 0, policy_version 676322 (0.0007)
+[2023-07-06 14:09:47,000][98493] Updated weights for policy 0, policy_version 676371 (0.0007)
+[2023-07-06 14:09:47,351][98493] Updated weights for policy 0, policy_version 676416 (0.0007)
+[2023-07-06 14:09:48,601][98493] Updated weights for policy 0, policy_version 676477 (0.0007)
+[2023-07-06 14:09:49,764][98243] Fps is (10 sec: 111411.1, 60 sec: 112503.5, 300 sec: 111633.4). Total num frames: 1385496576. Throughput: 0: 27886.9. Samples: 346454016. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:09:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:09:49,863][98493] Updated weights for policy 0, policy_version 676538 (0.0007)
+[2023-07-06 14:09:50,462][98493] Updated weights for policy 0, policy_version 676601 (0.0007)
+[2023-07-06 14:09:51,867][98449] Signal inference workers to stop experience collection... (34900 times)
+[2023-07-06 14:09:51,898][98493] InferenceWorker_p0-w0: stopping experience collection (34900 times)
+[2023-07-06 14:09:51,951][98449] Signal inference workers to resume experience collection... (34900 times)
+[2023-07-06 14:09:51,951][98493] InferenceWorker_p0-w0: resuming experience collection (34900 times)
+[2023-07-06 14:09:51,952][98493] Updated weights for policy 0, policy_version 676656 (0.0007)
+[2023-07-06 14:09:53,202][98493] Updated weights for policy 0, policy_version 676694 (0.0007)
+[2023-07-06 14:09:54,023][98493] Updated weights for policy 0, policy_version 676752 (0.0011)
+[2023-07-06 14:09:54,764][98243] Fps is (10 sec: 117965.6, 60 sec: 112503.1, 300 sec: 111522.2). Total num frames: 1386086400. Throughput: 0: 27875.5. Samples: 346539520. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:09:54,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:09:54,875][98493] Updated weights for policy 0, policy_version 676816 (0.0007)
+[2023-07-06 14:09:56,322][98493] Updated weights for policy 0, policy_version 676869 (0.0007)
+[2023-07-06 14:09:56,750][98493] Updated weights for policy 0, policy_version 676925 (0.0007)
+[2023-07-06 14:09:58,119][98493] Updated weights for policy 0, policy_version 676983 (0.0008)
+[2023-07-06 14:09:58,975][98493] Updated weights for policy 0, policy_version 677040 (0.0007)
+[2023-07-06 14:09:59,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111957.2, 300 sec: 111744.5). Total num frames: 1386676224. Throughput: 0: 27943.8. Samples: 346706944. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:09:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:09:59,782][98493] Updated weights for policy 0, policy_version 677091 (0.0007)
+[2023-07-06 14:10:01,081][98493] Updated weights for policy 0, policy_version 677136 (0.0007)
+[2023-07-06 14:10:01,482][98493] Updated weights for policy 0, policy_version 677184 (0.0008)
+[2023-07-06 14:10:02,823][98493] Updated weights for policy 0, policy_version 677240 (0.0006)
+[2023-07-06 14:10:03,573][98493] Updated weights for policy 0, policy_version 677283 (0.0007)
+[2023-07-06 14:10:04,341][98493] Updated weights for policy 0, policy_version 677344 (0.0007)
+[2023-07-06 14:10:04,765][98243] Fps is (10 sec: 117963.3, 60 sec: 111956.8, 300 sec: 111855.4). Total num frames: 1387266048. Throughput: 0: 27807.1. Samples: 346870784. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:04,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:10:05,924][98493] Updated weights for policy 0, policy_version 677414 (0.0007)
+[2023-07-06 14:10:07,619][98493] Updated weights for policy 0, policy_version 677475 (0.0007)
+[2023-07-06 14:10:08,122][98493] Updated weights for policy 0, policy_version 677520 (0.0007)
+[2023-07-06 14:10:09,008][98493] Updated weights for policy 0, policy_version 677575 (0.0007)
+[2023-07-06 14:10:09,456][98493] Updated weights for policy 0, policy_version 677627 (0.0006)
+[2023-07-06 14:10:09,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1387790336. Throughput: 0: 27921.0. Samples: 346956800. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:10:10,645][98493] Updated weights for policy 0, policy_version 677670 (0.0007)
+[2023-07-06 14:10:11,932][98449] Signal inference workers to stop experience collection... (34950 times)
+[2023-07-06 14:10:11,950][98493] InferenceWorker_p0-w0: stopping experience collection (34950 times)
+[2023-07-06 14:10:12,024][98449] Signal inference workers to resume experience collection... (34950 times)
+[2023-07-06 14:10:12,025][98493] InferenceWorker_p0-w0: resuming experience collection (34950 times)
+[2023-07-06 14:10:12,120][98493] Updated weights for policy 0, policy_version 677736 (0.0007)
+[2023-07-06 14:10:13,034][98493] Updated weights for policy 0, policy_version 677796 (0.0006)
+[2023-07-06 14:10:13,687][98493] Updated weights for policy 0, policy_version 677840 (0.0010)
+[2023-07-06 14:10:14,764][98243] Fps is (10 sec: 104860.2, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1388314624. Throughput: 0: 27864.2. Samples: 347123200. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:14,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:10:15,010][98493] Updated weights for policy 0, policy_version 677890 (0.0007)
+[2023-07-06 14:10:16,555][98493] Updated weights for policy 0, policy_version 677956 (0.0007)
+[2023-07-06 14:10:17,049][98493] Updated weights for policy 0, policy_version 678016 (0.0007)
+[2023-07-06 14:10:18,219][98493] Updated weights for policy 0, policy_version 678072 (0.0007)
+[2023-07-06 14:10:18,750][98493] Updated weights for policy 0, policy_version 678137 (0.0008)
+[2023-07-06 14:10:19,765][98243] Fps is (10 sec: 108130.6, 60 sec: 111956.6, 300 sec: 111522.1). Total num frames: 1388871680. Throughput: 0: 27829.8. Samples: 347291136. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:19,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:10:19,962][98493] Updated weights for policy 0, policy_version 678180 (0.0007)
+[2023-07-06 14:10:21,531][98493] Updated weights for policy 0, policy_version 678240 (0.0006)
+[2023-07-06 14:10:22,760][98493] Updated weights for policy 0, policy_version 678304 (0.0008)
+[2023-07-06 14:10:23,302][98493] Updated weights for policy 0, policy_version 678358 (0.0007)
+[2023-07-06 14:10:24,389][98493] Updated weights for policy 0, policy_version 678403 (0.0007)
+[2023-07-06 14:10:24,764][98243] Fps is (10 sec: 114688.2, 60 sec: 112503.4, 300 sec: 111411.2). Total num frames: 1389461504. Throughput: 0: 27886.9. Samples: 347375104. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:10:24,846][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000678464_1389494272.pth...
+[2023-07-06 14:10:24,882][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000665376_1362690048.pth
+[2023-07-06 14:10:26,202][98493] Updated weights for policy 0, policy_version 678467 (0.0007)
+[2023-07-06 14:10:27,132][98493] Updated weights for policy 0, policy_version 678530 (0.0007)
+[2023-07-06 14:10:27,491][98493] Updated weights for policy 0, policy_version 678576 (0.0006)
+[2023-07-06 14:10:28,044][98493] Updated weights for policy 0, policy_version 678640 (0.0008)
+[2023-07-06 14:10:29,085][98493] Updated weights for policy 0, policy_version 678688 (0.0007)
+[2023-07-06 14:10:29,764][98243] Fps is (10 sec: 114690.2, 60 sec: 111410.9, 300 sec: 111522.3). Total num frames: 1390018560. Throughput: 0: 27818.7. Samples: 347538944. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:29,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:10:31,156][98449] Signal inference workers to stop experience collection... (35000 times)
+[2023-07-06 14:10:31,188][98493] Updated weights for policy 0, policy_version 678725 (0.0007)
+[2023-07-06 14:10:31,200][98493] InferenceWorker_p0-w0: stopping experience collection (35000 times)
+[2023-07-06 14:10:31,249][98449] Signal inference workers to resume experience collection... (35000 times)
+[2023-07-06 14:10:31,249][98493] InferenceWorker_p0-w0: resuming experience collection (35000 times)
+[2023-07-06 14:10:31,675][98493] Updated weights for policy 0, policy_version 678784 (0.0007)
+[2023-07-06 14:10:32,431][98493] Updated weights for policy 0, policy_version 678853 (0.0006)
+[2023-07-06 14:10:32,908][98493] Updated weights for policy 0, policy_version 678912 (0.0006)
+[2023-07-06 14:10:34,128][98493] Updated weights for policy 0, policy_version 678968 (0.0007)
+[2023-07-06 14:10:34,764][98243] Fps is (10 sec: 108132.3, 60 sec: 111410.8, 300 sec: 111522.3). Total num frames: 1390542848. Throughput: 0: 27841.3. Samples: 347706880. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:10:36,129][98493] Updated weights for policy 0, policy_version 679014 (0.0007)
+[2023-07-06 14:10:36,759][98493] Updated weights for policy 0, policy_version 679061 (0.0007)
+[2023-07-06 14:10:37,202][98493] Updated weights for policy 0, policy_version 679105 (0.0007)
+[2023-07-06 14:10:37,648][98493] Updated weights for policy 0, policy_version 679164 (0.0007)
+[2023-07-06 14:10:38,687][98493] Updated weights for policy 0, policy_version 679216 (0.0007)
+[2023-07-06 14:10:39,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111411.1, 300 sec: 111522.2). Total num frames: 1391067136. Throughput: 0: 27807.4. Samples: 347790848. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:39,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:10:40,529][98493] Updated weights for policy 0, policy_version 679264 (0.0008)
+[2023-07-06 14:10:41,333][98493] Updated weights for policy 0, policy_version 679318 (0.0007)
+[2023-07-06 14:10:41,874][98493] Updated weights for policy 0, policy_version 679379 (0.0007)
+[2023-07-06 14:10:42,746][98493] Updated weights for policy 0, policy_version 679429 (0.0007)
+[2023-07-06 14:10:43,202][98493] Updated weights for policy 0, policy_version 679488 (0.0006)
+[2023-07-06 14:10:44,764][98243] Fps is (10 sec: 104859.8, 60 sec: 111411.6, 300 sec: 111522.4). Total num frames: 1391591424. Throughput: 0: 27909.7. Samples: 347962880. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:44,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:10:45,570][98493] Updated weights for policy 0, policy_version 679547 (0.0006)
+[2023-07-06 14:10:46,198][98493] Updated weights for policy 0, policy_version 679600 (0.0007)
+[2023-07-06 14:10:46,655][98493] Updated weights for policy 0, policy_version 679648 (0.0008)
+[2023-07-06 14:10:47,332][98493] Updated weights for policy 0, policy_version 679683 (0.0006)
+[2023-07-06 14:10:47,459][98449] Signal inference workers to stop experience collection... (35050 times)
+[2023-07-06 14:10:47,495][98493] InferenceWorker_p0-w0: stopping experience collection (35050 times)
+[2023-07-06 14:10:47,536][98449] Signal inference workers to resume experience collection... (35050 times)
+[2023-07-06 14:10:47,536][98493] InferenceWorker_p0-w0: resuming experience collection (35050 times)
+[2023-07-06 14:10:47,809][98493] Updated weights for policy 0, policy_version 679744 (0.0007)
+[2023-07-06 14:10:49,764][98243] Fps is (10 sec: 108135.6, 60 sec: 110865.2, 300 sec: 111300.2). Total num frames: 1392148480. Throughput: 0: 28114.7. Samples: 348135936. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:49,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:10:50,114][98493] Updated weights for policy 0, policy_version 679801 (0.0007)
+[2023-07-06 14:10:50,997][98493] Updated weights for policy 0, policy_version 679856 (0.0012)
+[2023-07-06 14:10:51,583][98493] Updated weights for policy 0, policy_version 679920 (0.0007)
+[2023-07-06 14:10:52,359][98493] Updated weights for policy 0, policy_version 679972 (0.0008)
+[2023-07-06 14:10:54,562][98493] Updated weights for policy 0, policy_version 680035 (0.0007)
+[2023-07-06 14:10:54,764][98243] Fps is (10 sec: 117965.0, 60 sec: 111411.5, 300 sec: 111522.4). Total num frames: 1392771072. Throughput: 0: 27864.2. Samples: 348210688. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:54,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:10:55,564][98493] Updated weights for policy 0, policy_version 680086 (0.0007)
+[2023-07-06 14:10:56,115][98493] Updated weights for policy 0, policy_version 680147 (0.0008)
+[2023-07-06 14:10:57,197][98493] Updated weights for policy 0, policy_version 680193 (0.0007)
+[2023-07-06 14:10:57,670][98493] Updated weights for policy 0, policy_version 680255 (0.0007)
+[2023-07-06 14:10:59,154][98493] Updated weights for policy 0, policy_version 680311 (0.0007)
+[2023-07-06 14:10:59,764][98243] Fps is (10 sec: 114686.1, 60 sec: 110318.8, 300 sec: 111522.3). Total num frames: 1393295360. Throughput: 0: 28000.7. Samples: 348383232. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:10:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:11:00,271][98493] Updated weights for policy 0, policy_version 680355 (0.0007)
+[2023-07-06 14:11:00,774][98493] Updated weights for policy 0, policy_version 680416 (0.0007)
+[2023-07-06 14:11:02,263][98493] Updated weights for policy 0, policy_version 680480 (0.0008)
+[2023-07-06 14:11:03,546][98493] Updated weights for policy 0, policy_version 680514 (0.0007)
+[2023-07-06 14:11:04,044][98493] Updated weights for policy 0, policy_version 680576 (0.0007)
+[2023-07-06 14:11:04,764][98243] Fps is (10 sec: 111411.2, 60 sec: 110319.5, 300 sec: 111744.5). Total num frames: 1393885184. Throughput: 0: 27944.1. Samples: 348548608. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:11:04,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:11:05,007][98493] Updated weights for policy 0, policy_version 680636 (0.0007)
+[2023-07-06 14:11:05,370][98449] Signal inference workers to stop experience collection... (35100 times)
+[2023-07-06 14:11:05,413][98493] InferenceWorker_p0-w0: stopping experience collection (35100 times)
+[2023-07-06 14:11:05,414][98493] Updated weights for policy 0, policy_version 680679 (0.0006)
+[2023-07-06 14:11:05,460][98449] Signal inference workers to resume experience collection... (35100 times)
+[2023-07-06 14:11:05,461][98493] InferenceWorker_p0-w0: resuming experience collection (35100 times)
+[2023-07-06 14:11:06,831][98493] Updated weights for policy 0, policy_version 680736 (0.0008)
+[2023-07-06 14:11:08,488][98493] Updated weights for policy 0, policy_version 680792 (0.0006)
+[2023-07-06 14:11:08,824][98493] Updated weights for policy 0, policy_version 680832 (0.0007)
+[2023-07-06 14:11:09,519][98493] Updated weights for policy 0, policy_version 680896 (0.0007)
+[2023-07-06 14:11:09,765][98243] Fps is (10 sec: 117958.7, 60 sec: 111410.1, 300 sec: 111855.3). Total num frames: 1394475008. Throughput: 0: 27943.5. Samples: 348632576. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:11:09,766][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:11:11,310][98493] Updated weights for policy 0, policy_version 680963 (0.0007)
+[2023-07-06 14:11:11,770][98493] Updated weights for policy 0, policy_version 681024 (0.0007)
+[2023-07-06 14:11:13,415][98493] Updated weights for policy 0, policy_version 681083 (0.0007)
+[2023-07-06 14:11:14,207][98493] Updated weights for policy 0, policy_version 681152 (0.0006)
+[2023-07-06 14:11:14,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111957.4, 300 sec: 111748.0). Total num frames: 1395032064. Throughput: 0: 28046.3. Samples: 348801024. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:11:14,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:11:15,040][98493] Updated weights for policy 0, policy_version 681213 (0.0006)
+[2023-07-06 14:11:16,451][98493] Updated weights for policy 0, policy_version 681264 (0.0008)
+[2023-07-06 14:11:18,086][98493] Updated weights for policy 0, policy_version 681315 (0.0007)
+[2023-07-06 14:11:18,829][98493] Updated weights for policy 0, policy_version 681368 (0.0007)
+[2023-07-06 14:11:19,299][98493] Updated weights for policy 0, policy_version 681424 (0.0007)
+[2023-07-06 14:11:19,696][98493] Updated weights for policy 0, policy_version 681469 (0.0006)
+[2023-07-06 14:11:19,764][98243] Fps is (10 sec: 117971.5, 60 sec: 113050.2, 300 sec: 111966.6). Total num frames: 1395654656. Throughput: 0: 27943.9. Samples: 348964352. Policy #0 lag: (min: 15.0, avg: 149.6, max: 271.0)
+[2023-07-06 14:11:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:11:20,915][98493] Updated weights for policy 0, policy_version 681521 (0.0007)
+[2023-07-06 14:11:22,784][98493] Updated weights for policy 0, policy_version 681570 (0.0007)
+[2023-07-06 14:11:23,683][98493] Updated weights for policy 0, policy_version 681636 (0.0007)
+[2023-07-06 14:11:24,175][98449] Signal inference workers to stop experience collection... (35150 times)
+[2023-07-06 14:11:24,220][98493] InferenceWorker_p0-w0: stopping experience collection (35150 times)
+[2023-07-06 14:11:24,224][98493] Updated weights for policy 0, policy_version 681705 (0.0008)
+[2023-07-06 14:11:24,253][98449] Signal inference workers to resume experience collection... (35150 times)
+[2023-07-06 14:11:24,253][98493] InferenceWorker_p0-w0: resuming experience collection (35150 times)
+[2023-07-06 14:11:24,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111957.5, 300 sec: 111855.6). Total num frames: 1396178944. Throughput: 0: 28080.4. Samples: 349054464. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:24,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:11:25,135][98493] Updated weights for policy 0, policy_version 681744 (0.0006)
+[2023-07-06 14:11:27,365][98493] Updated weights for policy 0, policy_version 681795 (0.0006)
+[2023-07-06 14:11:28,236][98493] Updated weights for policy 0, policy_version 681859 (0.0007)
+[2023-07-06 14:11:28,668][98493] Updated weights for policy 0, policy_version 681907 (0.0007)
+[2023-07-06 14:11:29,224][98493] Updated weights for policy 0, policy_version 681977 (0.0007)
+[2023-07-06 14:11:29,764][98243] Fps is (10 sec: 104858.7, 60 sec: 111411.7, 300 sec: 111522.4). Total num frames: 1396703232. Throughput: 0: 27909.7. Samples: 349218816. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:29,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:11:30,047][98493] Updated weights for policy 0, policy_version 682032 (0.0006)
+[2023-07-06 14:11:32,335][98493] Updated weights for policy 0, policy_version 682082 (0.0007)
+[2023-07-06 14:11:33,161][98493] Updated weights for policy 0, policy_version 682136 (0.0007)
+[2023-07-06 14:11:33,714][98493] Updated weights for policy 0, policy_version 682200 (0.0007)
+[2023-07-06 14:11:34,330][98493] Updated weights for policy 0, policy_version 682256 (0.0006)
+[2023-07-06 14:11:34,764][98243] Fps is (10 sec: 117962.9, 60 sec: 113595.9, 300 sec: 111855.5). Total num frames: 1397358592. Throughput: 0: 27647.9. Samples: 349380096. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:11:36,928][98493] Updated weights for policy 0, policy_version 682320 (0.0008)
+[2023-07-06 14:11:37,290][98493] Updated weights for policy 0, policy_version 682366 (0.0007)
+[2023-07-06 14:11:38,146][98493] Updated weights for policy 0, policy_version 682434 (0.0008)
+[2023-07-06 14:11:39,195][98493] Updated weights for policy 0, policy_version 682497 (0.0007)
+[2023-07-06 14:11:39,650][98493] Updated weights for policy 0, policy_version 682554 (0.0007)
+[2023-07-06 14:11:39,764][98243] Fps is (10 sec: 117963.5, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 1397882880. Throughput: 0: 28000.7. Samples: 349470720. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:11:42,011][98493] Updated weights for policy 0, policy_version 682595 (0.0008)
+[2023-07-06 14:11:42,577][98493] Updated weights for policy 0, policy_version 682658 (0.0007)
+[2023-07-06 14:11:42,713][98449] Signal inference workers to stop experience collection... (35200 times)
+[2023-07-06 14:11:42,751][98493] InferenceWorker_p0-w0: stopping experience collection (35200 times)
+[2023-07-06 14:11:42,795][98449] Signal inference workers to resume experience collection... (35200 times)
+[2023-07-06 14:11:42,795][98493] InferenceWorker_p0-w0: resuming experience collection (35200 times)
+[2023-07-06 14:11:43,030][98493] Updated weights for policy 0, policy_version 682709 (0.0007)
+[2023-07-06 14:11:43,323][98493] Updated weights for policy 0, policy_version 682750 (0.0006)
+[2023-07-06 14:11:44,459][98493] Updated weights for policy 0, policy_version 682810 (0.0007)
+[2023-07-06 14:11:44,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113595.5, 300 sec: 111522.2). Total num frames: 1398407168. Throughput: 0: 27704.9. Samples: 349629952. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:11:46,861][98493] Updated weights for policy 0, policy_version 682875 (0.0006)
+[2023-07-06 14:11:47,507][98493] Updated weights for policy 0, policy_version 682937 (0.0007)
+[2023-07-06 14:11:48,072][98493] Updated weights for policy 0, policy_version 683005 (0.0007)
+[2023-07-06 14:11:49,124][98493] Updated weights for policy 0, policy_version 683063 (0.0008)
+[2023-07-06 14:11:49,764][98243] Fps is (10 sec: 104857.9, 60 sec: 113049.4, 300 sec: 111522.3). Total num frames: 1398931456. Throughput: 0: 27670.7. Samples: 349793792. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:11:51,533][98493] Updated weights for policy 0, policy_version 683105 (0.0006)
+[2023-07-06 14:11:51,994][98493] Updated weights for policy 0, policy_version 683159 (0.0007)
+[2023-07-06 14:11:52,530][98493] Updated weights for policy 0, policy_version 683218 (0.0008)
+[2023-07-06 14:11:53,557][98493] Updated weights for policy 0, policy_version 683266 (0.0006)
+[2023-07-06 14:11:54,000][98493] Updated weights for policy 0, policy_version 683322 (0.0008)
+[2023-07-06 14:11:54,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1399455744. Throughput: 0: 27671.1. Samples: 349877760. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:54,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:11:56,379][98493] Updated weights for policy 0, policy_version 683392 (0.0007)
+[2023-07-06 14:11:56,888][98493] Updated weights for policy 0, policy_version 683453 (0.0007)
+[2023-07-06 14:11:57,570][98493] Updated weights for policy 0, policy_version 683515 (0.0006)
+[2023-07-06 14:11:58,672][98493] Updated weights for policy 0, policy_version 683557 (0.0006)
+[2023-07-06 14:11:59,764][98243] Fps is (10 sec: 104856.0, 60 sec: 111411.1, 300 sec: 111411.1). Total num frames: 1399980032. Throughput: 0: 27625.1. Samples: 350044160. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:11:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:12:00,813][98493] Updated weights for policy 0, policy_version 683622 (0.0008)
+[2023-07-06 14:12:00,907][98449] Signal inference workers to stop experience collection... (35250 times)
+[2023-07-06 14:12:00,954][98493] InferenceWorker_p0-w0: stopping experience collection (35250 times)
+[2023-07-06 14:12:00,991][98449] Signal inference workers to resume experience collection... (35250 times)
+[2023-07-06 14:12:00,991][98493] InferenceWorker_p0-w0: resuming experience collection (35250 times)
+[2023-07-06 14:12:01,248][98493] Updated weights for policy 0, policy_version 683670 (0.0007)
+[2023-07-06 14:12:02,120][98493] Updated weights for policy 0, policy_version 683736 (0.0007)
+[2023-07-06 14:12:03,047][98493] Updated weights for policy 0, policy_version 683780 (0.0008)
+[2023-07-06 14:12:03,538][98493] Updated weights for policy 0, policy_version 683840 (0.0007)
+[2023-07-06 14:12:04,764][98243] Fps is (10 sec: 104857.3, 60 sec: 110318.7, 300 sec: 111077.9). Total num frames: 1400504320. Throughput: 0: 27773.1. Samples: 350214144. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:12:05,947][98493] Updated weights for policy 0, policy_version 683913 (0.0007)
+[2023-07-06 14:12:06,487][98493] Updated weights for policy 0, policy_version 683969 (0.0007)
+[2023-07-06 14:12:06,936][98493] Updated weights for policy 0, policy_version 684025 (0.0006)
+[2023-07-06 14:12:08,096][98493] Updated weights for policy 0, policy_version 684070 (0.0007)
+[2023-07-06 14:12:09,764][98243] Fps is (10 sec: 104859.2, 60 sec: 109227.7, 300 sec: 111078.0). Total num frames: 1401028608. Throughput: 0: 27545.6. Samples: 350294016. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:12:10,463][98493] Updated weights for policy 0, policy_version 684114 (0.0006)
+[2023-07-06 14:12:11,038][98493] Updated weights for policy 0, policy_version 684177 (0.0007)
+[2023-07-06 14:12:11,526][98493] Updated weights for policy 0, policy_version 684240 (0.0007)
+[2023-07-06 14:12:11,932][98493] Updated weights for policy 0, policy_version 684286 (0.0007)
+[2023-07-06 14:12:12,748][98493] Updated weights for policy 0, policy_version 684341 (0.0007)
+[2023-07-06 14:12:14,764][98243] Fps is (10 sec: 104858.5, 60 sec: 108680.5, 300 sec: 111078.0). Total num frames: 1401552896. Throughput: 0: 27659.3. Samples: 350463488. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:12:15,175][98493] Updated weights for policy 0, policy_version 684384 (0.0008)
+[2023-07-06 14:12:15,826][98493] Updated weights for policy 0, policy_version 684454 (0.0008)
+[2023-07-06 14:12:16,371][98493] Updated weights for policy 0, policy_version 684514 (0.0007)
+[2023-07-06 14:12:17,244][98493] Updated weights for policy 0, policy_version 684550 (0.0007)
+[2023-07-06 14:12:17,360][98449] Signal inference workers to stop experience collection... (35300 times)
+[2023-07-06 14:12:17,383][98493] InferenceWorker_p0-w0: stopping experience collection (35300 times)
+[2023-07-06 14:12:17,438][98449] Signal inference workers to resume experience collection... (35300 times)
+[2023-07-06 14:12:17,439][98493] InferenceWorker_p0-w0: resuming experience collection (35300 times)
+[2023-07-06 14:12:17,687][98493] Updated weights for policy 0, policy_version 684602 (0.0009)
+[2023-07-06 14:12:19,764][98243] Fps is (10 sec: 108131.9, 60 sec: 107587.9, 300 sec: 111189.0). Total num frames: 1402109952. Throughput: 0: 27886.8. Samples: 350635008. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:12:20,019][98493] Updated weights for policy 0, policy_version 684645 (0.0007)
+[2023-07-06 14:12:20,580][98493] Updated weights for policy 0, policy_version 684707 (0.0006)
+[2023-07-06 14:12:21,047][98493] Updated weights for policy 0, policy_version 684755 (0.0007)
+[2023-07-06 14:12:21,958][98493] Updated weights for policy 0, policy_version 684816 (0.0007)
+[2023-07-06 14:12:24,465][98493] Updated weights for policy 0, policy_version 684867 (0.0007)
+[2023-07-06 14:12:24,764][98243] Fps is (10 sec: 111409.2, 60 sec: 108134.0, 300 sec: 111300.1). Total num frames: 1402667008. Throughput: 0: 27522.8. Samples: 350709248. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:24,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:12:24,963][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000684928_1402732544.pth...
+[2023-07-06 14:12:25,032][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000671920_1376092160.pth
+[2023-07-06 14:12:25,133][98493] Updated weights for policy 0, policy_version 684944 (0.0008)
+[2023-07-06 14:12:25,674][98493] Updated weights for policy 0, policy_version 685008 (0.0007)
+[2023-07-06 14:12:26,076][98493] Updated weights for policy 0, policy_version 685049 (0.0007)
+[2023-07-06 14:12:27,021][98493] Updated weights for policy 0, policy_version 685112 (0.0007)
+[2023-07-06 14:12:29,404][98493] Updated weights for policy 0, policy_version 685157 (0.0006)
+[2023-07-06 14:12:29,764][98243] Fps is (10 sec: 117968.1, 60 sec: 109772.7, 300 sec: 111633.4). Total num frames: 1403289600. Throughput: 0: 27807.4. Samples: 350881280. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:29,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:12:29,866][98493] Updated weights for policy 0, policy_version 685216 (0.0007)
+[2023-07-06 14:12:30,395][98493] Updated weights for policy 0, policy_version 685270 (0.0008)
+[2023-07-06 14:12:31,319][98493] Updated weights for policy 0, policy_version 685319 (0.0006)
+[2023-07-06 14:12:31,787][98493] Updated weights for policy 0, policy_version 685376 (0.0007)
+[2023-07-06 14:12:34,433][98493] Updated weights for policy 0, policy_version 685440 (0.0007)
+[2023-07-06 14:12:34,764][98243] Fps is (10 sec: 117965.8, 60 sec: 108134.4, 300 sec: 111522.2). Total num frames: 1403846656. Throughput: 0: 27830.0. Samples: 351046144. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:34,766][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:12:34,802][98449] Signal inference workers to stop experience collection... (35350 times)
+[2023-07-06 14:12:34,830][98493] InferenceWorker_p0-w0: stopping experience collection (35350 times)
+[2023-07-06 14:12:34,881][98449] Signal inference workers to resume experience collection... (35350 times)
+[2023-07-06 14:12:34,881][98493] InferenceWorker_p0-w0: resuming experience collection (35350 times)
+[2023-07-06 14:12:34,957][98493] Updated weights for policy 0, policy_version 685492 (0.0007)
+[2023-07-06 14:12:35,439][98493] Updated weights for policy 0, policy_version 685545 (0.0007)
+[2023-07-06 14:12:36,261][98493] Updated weights for policy 0, policy_version 685607 (0.0007)
+[2023-07-06 14:12:38,830][98493] Updated weights for policy 0, policy_version 685668 (0.0007)
+[2023-07-06 14:12:39,377][98493] Updated weights for policy 0, policy_version 685733 (0.0009)
+[2023-07-06 14:12:39,764][98243] Fps is (10 sec: 117964.4, 60 sec: 109772.9, 300 sec: 111522.3). Total num frames: 1404469248. Throughput: 0: 27852.8. Samples: 351131136. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:12:39,934][98493] Updated weights for policy 0, policy_version 685798 (0.0006)
+[2023-07-06 14:12:41,117][98493] Updated weights for policy 0, policy_version 685859 (0.0007)
+[2023-07-06 14:12:43,509][98493] Updated weights for policy 0, policy_version 685920 (0.0007)
+[2023-07-06 14:12:44,009][98493] Updated weights for policy 0, policy_version 685971 (0.0006)
+[2023-07-06 14:12:44,443][98493] Updated weights for policy 0, policy_version 686022 (0.0007)
+[2023-07-06 14:12:44,764][98243] Fps is (10 sec: 117965.7, 60 sec: 110319.2, 300 sec: 111300.1). Total num frames: 1405026304. Throughput: 0: 27841.5. Samples: 351297024. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:44,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:12:44,896][98493] Updated weights for policy 0, policy_version 686074 (0.0008)
+[2023-07-06 14:12:45,883][98493] Updated weights for policy 0, policy_version 686139 (0.0007)
+[2023-07-06 14:12:48,361][98493] Updated weights for policy 0, policy_version 686180 (0.0008)
+[2023-07-06 14:12:49,058][98493] Updated weights for policy 0, policy_version 686264 (0.0008)
+[2023-07-06 14:12:49,571][98493] Updated weights for policy 0, policy_version 686328 (0.0008)
+[2023-07-06 14:12:49,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1405616128. Throughput: 0: 27591.2. Samples: 351455744. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:49,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 14:12:50,363][98493] Updated weights for policy 0, policy_version 686357 (0.0007)
+[2023-07-06 14:12:52,863][98449] Signal inference workers to stop experience collection... (35400 times)
+[2023-07-06 14:12:52,885][98493] InferenceWorker_p0-w0: stopping experience collection (35400 times)
+[2023-07-06 14:12:52,961][98449] Signal inference workers to resume experience collection... (35400 times)
+[2023-07-06 14:12:52,962][98493] InferenceWorker_p0-w0: resuming experience collection (35400 times)
+[2023-07-06 14:12:53,057][98493] Updated weights for policy 0, policy_version 686425 (0.0007)
+[2023-07-06 14:12:53,596][98493] Updated weights for policy 0, policy_version 686484 (0.0007)
+[2023-07-06 14:12:54,170][98493] Updated weights for policy 0, policy_version 686549 (0.0007)
+[2023-07-06 14:12:54,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.3, 300 sec: 111522.4). Total num frames: 1406140416. Throughput: 0: 27898.3. Samples: 351549440. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:12:55,031][98493] Updated weights for policy 0, policy_version 686594 (0.0006)
+[2023-07-06 14:12:55,536][98493] Updated weights for policy 0, policy_version 686656 (0.0007)
+[2023-07-06 14:12:58,158][98493] Updated weights for policy 0, policy_version 686720 (0.0007)
+[2023-07-06 14:12:58,692][98493] Updated weights for policy 0, policy_version 686773 (0.0009)
+[2023-07-06 14:12:59,237][98493] Updated weights for policy 0, policy_version 686841 (0.0007)
+[2023-07-06 14:12:59,764][98243] Fps is (10 sec: 111411.7, 60 sec: 112503.8, 300 sec: 111522.3). Total num frames: 1406730240. Throughput: 0: 27750.4. Samples: 351712256. Policy #0 lag: (min: 50.0, avg: 180.2, max: 306.0)
+[2023-07-06 14:12:59,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:12:59,866][98493] Updated weights for policy 0, policy_version 686896 (0.0008)
+[2023-07-06 14:13:02,619][98493] Updated weights for policy 0, policy_version 686944 (0.0006)
+[2023-07-06 14:13:03,127][98493] Updated weights for policy 0, policy_version 686996 (0.0007)
+[2023-07-06 14:13:03,565][98493] Updated weights for policy 0, policy_version 687050 (0.0007)
+[2023-07-06 14:13:04,048][98493] Updated weights for policy 0, policy_version 687104 (0.0007)
+[2023-07-06 14:13:04,764][98243] Fps is (10 sec: 114688.3, 60 sec: 113049.8, 300 sec: 111411.2). Total num frames: 1407287296. Throughput: 0: 27557.1. Samples: 351875072. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:04,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:13:04,780][98493] Updated weights for policy 0, policy_version 687164 (0.0007)
+[2023-07-06 14:13:07,387][98493] Updated weights for policy 0, policy_version 687216 (0.0007)
+[2023-07-06 14:13:08,036][98493] Updated weights for policy 0, policy_version 687287 (0.0007)
+[2023-07-06 14:13:08,130][98449] Signal inference workers to stop experience collection... (35450 times)
+[2023-07-06 14:13:08,168][98493] InferenceWorker_p0-w0: stopping experience collection (35450 times)
+[2023-07-06 14:13:08,202][98449] Signal inference workers to resume experience collection... (35450 times)
+[2023-07-06 14:13:08,202][98493] InferenceWorker_p0-w0: resuming experience collection (35450 times)
+[2023-07-06 14:13:08,581][98493] Updated weights for policy 0, policy_version 687358 (0.0006)
+[2023-07-06 14:13:09,345][98493] Updated weights for policy 0, policy_version 687417 (0.0007)
+[2023-07-06 14:13:09,764][98243] Fps is (10 sec: 111409.7, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 1407844352. Throughput: 0: 27852.9. Samples: 351962624. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:13:12,164][98493] Updated weights for policy 0, policy_version 687472 (0.0013)
+[2023-07-06 14:13:12,678][98493] Updated weights for policy 0, policy_version 687527 (0.0007)
+[2023-07-06 14:13:13,176][98493] Updated weights for policy 0, policy_version 687584 (0.0007)
+[2023-07-06 14:13:13,785][98493] Updated weights for policy 0, policy_version 687632 (0.0007)
+[2023-07-06 14:13:14,242][98493] Updated weights for policy 0, policy_version 687680 (0.0006)
+[2023-07-06 14:13:14,764][98243] Fps is (10 sec: 108133.9, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1408368640. Throughput: 0: 27659.3. Samples: 352125952. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:14,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:13:16,952][98493] Updated weights for policy 0, policy_version 687733 (0.0007)
+[2023-07-06 14:13:17,410][98493] Updated weights for policy 0, policy_version 687792 (0.0007)
+[2023-07-06 14:13:17,921][98493] Updated weights for policy 0, policy_version 687843 (0.0007)
+[2023-07-06 14:13:18,597][98493] Updated weights for policy 0, policy_version 687912 (0.0007)
+[2023-07-06 14:13:19,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113049.9, 300 sec: 111300.2). Total num frames: 1408892928. Throughput: 0: 27739.0. Samples: 352294400. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:13:21,436][98493] Updated weights for policy 0, policy_version 687968 (0.0007)
+[2023-07-06 14:13:21,957][98493] Updated weights for policy 0, policy_version 688021 (0.0008)
+[2023-07-06 14:13:22,422][98493] Updated weights for policy 0, policy_version 688074 (0.0007)
+[2023-07-06 14:13:22,882][98493] Updated weights for policy 0, policy_version 688128 (0.0007)
+[2023-07-06 14:13:23,459][98493] Updated weights for policy 0, policy_version 688177 (0.0007)
+[2023-07-06 14:13:24,764][98243] Fps is (10 sec: 104858.1, 60 sec: 112503.8, 300 sec: 111078.0). Total num frames: 1409417216. Throughput: 0: 27704.9. Samples: 352377856. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:24,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:13:25,947][98493] Updated weights for policy 0, policy_version 688224 (0.0006)
+[2023-07-06 14:13:26,000][98449] Signal inference workers to stop experience collection... (35500 times)
+[2023-07-06 14:13:26,040][98493] InferenceWorker_p0-w0: stopping experience collection (35500 times)
+[2023-07-06 14:13:26,072][98449] Signal inference workers to resume experience collection... (35500 times)
+[2023-07-06 14:13:26,072][98493] InferenceWorker_p0-w0: resuming experience collection (35500 times)
+[2023-07-06 14:13:26,462][98493] Updated weights for policy 0, policy_version 688275 (0.0007)
+[2023-07-06 14:13:26,907][98493] Updated weights for policy 0, policy_version 688329 (0.0007)
+[2023-07-06 14:13:27,558][98493] Updated weights for policy 0, policy_version 688387 (0.0007)
+[2023-07-06 14:13:28,012][98493] Updated weights for policy 0, policy_version 688448 (0.0007)
+[2023-07-06 14:13:29,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110864.8, 300 sec: 111078.0). Total num frames: 1409941504. Throughput: 0: 27750.3. Samples: 352545792. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:29,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:13:30,866][98493] Updated weights for policy 0, policy_version 688505 (0.0007)
+[2023-07-06 14:13:31,292][98493] Updated weights for policy 0, policy_version 688550 (0.0008)
+[2023-07-06 14:13:31,708][98493] Updated weights for policy 0, policy_version 688597 (0.0007)
+[2023-07-06 14:13:32,491][98493] Updated weights for policy 0, policy_version 688666 (0.0007)
+[2023-07-06 14:13:32,800][98493] Updated weights for policy 0, policy_version 688704 (0.0006)
+[2023-07-06 14:13:34,764][98243] Fps is (10 sec: 104855.9, 60 sec: 110318.8, 300 sec: 111077.9). Total num frames: 1410465792. Throughput: 0: 28034.8. Samples: 352717312. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:13:35,696][98493] Updated weights for policy 0, policy_version 688768 (0.0009)
+[2023-07-06 14:13:36,284][98493] Updated weights for policy 0, policy_version 688832 (0.0008)
+[2023-07-06 14:13:36,805][98493] Updated weights for policy 0, policy_version 688889 (0.0008)
+[2023-07-06 14:13:37,302][98493] Updated weights for policy 0, policy_version 688944 (0.0010)
+[2023-07-06 14:13:39,764][98243] Fps is (10 sec: 104856.9, 60 sec: 108680.2, 300 sec: 111077.9). Total num frames: 1410990080. Throughput: 0: 27602.4. Samples: 352791552. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:39,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:13:40,217][98493] Updated weights for policy 0, policy_version 688979 (0.0008)
+[2023-07-06 14:13:40,679][98493] Updated weights for policy 0, policy_version 689033 (0.0007)
+[2023-07-06 14:13:41,281][98493] Updated weights for policy 0, policy_version 689104 (0.0007)
+[2023-07-06 14:13:41,340][98449] Signal inference workers to stop experience collection... (35550 times)
+[2023-07-06 14:13:41,384][98493] InferenceWorker_p0-w0: stopping experience collection (35550 times)
+[2023-07-06 14:13:41,439][98449] Signal inference workers to resume experience collection... (35550 times)
+[2023-07-06 14:13:41,440][98493] InferenceWorker_p0-w0: resuming experience collection (35550 times)
+[2023-07-06 14:13:41,738][98493] Updated weights for policy 0, policy_version 689152 (0.0007)
+[2023-07-06 14:13:42,247][98493] Updated weights for policy 0, policy_version 689211 (0.0007)
+[2023-07-06 14:13:44,764][98243] Fps is (10 sec: 108136.6, 60 sec: 108680.7, 300 sec: 111189.1). Total num frames: 1411547136. Throughput: 0: 27795.9. Samples: 352963072. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:44,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:13:45,046][98493] Updated weights for policy 0, policy_version 689264 (0.0007)
+[2023-07-06 14:13:45,535][98493] Updated weights for policy 0, policy_version 689318 (0.0006)
+[2023-07-06 14:13:45,987][98493] Updated weights for policy 0, policy_version 689368 (0.0007)
+[2023-07-06 14:13:46,578][98493] Updated weights for policy 0, policy_version 689440 (0.0007)
+[2023-07-06 14:13:49,625][98493] Updated weights for policy 0, policy_version 689505 (0.0007)
+[2023-07-06 14:13:49,764][98243] Fps is (10 sec: 114689.9, 60 sec: 108680.5, 300 sec: 111189.0). Total num frames: 1412136960. Throughput: 0: 27909.7. Samples: 353131008. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:49,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:13:50,203][98493] Updated weights for policy 0, policy_version 689562 (0.0006)
+[2023-07-06 14:13:50,751][98493] Updated weights for policy 0, policy_version 689624 (0.0007)
+[2023-07-06 14:13:51,100][98493] Updated weights for policy 0, policy_version 689663 (0.0006)
+[2023-07-06 14:13:51,617][98493] Updated weights for policy 0, policy_version 689719 (0.0007)
+[2023-07-06 14:13:54,301][98493] Updated weights for policy 0, policy_version 689761 (0.0006)
+[2023-07-06 14:13:54,668][98493] Updated weights for policy 0, policy_version 689798 (0.0008)
+[2023-07-06 14:13:54,764][98243] Fps is (10 sec: 117963.6, 60 sec: 109772.7, 300 sec: 111077.9). Total num frames: 1412726784. Throughput: 0: 27773.2. Samples: 353212416. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:13:55,274][98493] Updated weights for policy 0, policy_version 689872 (0.0007)
+[2023-07-06 14:13:55,717][98493] Updated weights for policy 0, policy_version 689918 (0.0007)
+[2023-07-06 14:13:56,251][98493] Updated weights for policy 0, policy_version 689977 (0.0008)
+[2023-07-06 14:13:58,518][98449] Signal inference workers to stop experience collection... (35600 times)
+[2023-07-06 14:13:58,543][98493] InferenceWorker_p0-w0: stopping experience collection (35600 times)
+[2023-07-06 14:13:58,607][98449] Signal inference workers to resume experience collection... (35600 times)
+[2023-07-06 14:13:58,608][98493] InferenceWorker_p0-w0: resuming experience collection (35600 times)
+[2023-07-06 14:13:58,831][98493] Updated weights for policy 0, policy_version 690023 (0.0007)
+[2023-07-06 14:13:59,604][98493] Updated weights for policy 0, policy_version 690082 (0.0008)
+[2023-07-06 14:13:59,764][98243] Fps is (10 sec: 117965.2, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 1413316608. Throughput: 0: 27989.4. Samples: 353385472. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:13:59,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:14:00,122][98493] Updated weights for policy 0, policy_version 690144 (0.0007)
+[2023-07-06 14:14:00,679][98493] Updated weights for policy 0, policy_version 690177 (0.0007)
+[2023-07-06 14:14:01,122][98493] Updated weights for policy 0, policy_version 690234 (0.0007)
+[2023-07-06 14:14:03,941][98493] Updated weights for policy 0, policy_version 690294 (0.0007)
+[2023-07-06 14:14:04,537][98493] Updated weights for policy 0, policy_version 690368 (0.0007)
+[2023-07-06 14:14:04,764][98243] Fps is (10 sec: 117965.5, 60 sec: 110318.9, 300 sec: 111189.1). Total num frames: 1413906432. Throughput: 0: 27807.4. Samples: 353545728. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:14:05,051][98493] Updated weights for policy 0, policy_version 690428 (0.0007)
+[2023-07-06 14:14:05,855][98493] Updated weights for policy 0, policy_version 690492 (0.0007)
+[2023-07-06 14:14:08,725][98493] Updated weights for policy 0, policy_version 690552 (0.0006)
+[2023-07-06 14:14:09,198][98493] Updated weights for policy 0, policy_version 690608 (0.0008)
+[2023-07-06 14:14:09,764][98243] Fps is (10 sec: 114685.2, 60 sec: 110318.7, 300 sec: 111300.1). Total num frames: 1414463488. Throughput: 0: 27875.4. Samples: 353632256. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:14:09,771][98493] Updated weights for policy 0, policy_version 690672 (0.0008)
+[2023-07-06 14:14:10,406][98493] Updated weights for policy 0, policy_version 690726 (0.0007)
+[2023-07-06 14:14:13,353][98493] Updated weights for policy 0, policy_version 690800 (0.0007)
+[2023-07-06 14:14:13,790][98493] Updated weights for policy 0, policy_version 690839 (0.0007)
+[2023-07-06 14:14:14,482][98493] Updated weights for policy 0, policy_version 690902 (0.0007)
+[2023-07-06 14:14:14,591][98449] Signal inference workers to stop experience collection... (35650 times)
+[2023-07-06 14:14:14,622][98493] InferenceWorker_p0-w0: stopping experience collection (35650 times)
+[2023-07-06 14:14:14,682][98449] Signal inference workers to resume experience collection... (35650 times)
+[2023-07-06 14:14:14,682][98493] InferenceWorker_p0-w0: resuming experience collection (35650 times)
+[2023-07-06 14:14:14,764][98243] Fps is (10 sec: 111409.9, 60 sec: 110864.9, 300 sec: 111411.1). Total num frames: 1415020544. Throughput: 0: 27773.2. Samples: 353795584. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:14,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:14:14,902][98493] Updated weights for policy 0, policy_version 690948 (0.0006)
+[2023-07-06 14:14:17,498][98493] Updated weights for policy 0, policy_version 691012 (0.0006)
+[2023-07-06 14:14:17,901][98493] Updated weights for policy 0, policy_version 691064 (0.0006)
+[2023-07-06 14:14:18,564][98493] Updated weights for policy 0, policy_version 691104 (0.0007)
+[2023-07-06 14:14:19,126][98493] Updated weights for policy 0, policy_version 691152 (0.0006)
+[2023-07-06 14:14:19,655][98493] Updated weights for policy 0, policy_version 691205 (0.0007)
+[2023-07-06 14:14:19,764][98243] Fps is (10 sec: 114690.8, 60 sec: 111957.6, 300 sec: 111522.3). Total num frames: 1415610368. Throughput: 0: 27579.8. Samples: 353958400. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:19,764][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 14:14:20,125][98493] Updated weights for policy 0, policy_version 691260 (0.0007)
+[2023-07-06 14:14:22,422][98493] Updated weights for policy 0, policy_version 691325 (0.0006)
+[2023-07-06 14:14:23,735][98493] Updated weights for policy 0, policy_version 691376 (0.0007)
+[2023-07-06 14:14:24,278][98493] Updated weights for policy 0, policy_version 691440 (0.0007)
+[2023-07-06 14:14:24,764][98243] Fps is (10 sec: 114689.0, 60 sec: 112503.4, 300 sec: 111300.1). Total num frames: 1416167424. Throughput: 0: 27864.3. Samples: 354045440. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:24,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:14:24,779][98493] Updated weights for policy 0, policy_version 691494 (0.0007)
+[2023-07-06 14:14:24,959][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000691520_1416232960.pth...
+[2023-07-06 14:14:24,995][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000678464_1389494272.pth
+[2023-07-06 14:14:26,665][98493] Updated weights for policy 0, policy_version 691552 (0.0007)
+[2023-07-06 14:14:28,331][98493] Updated weights for policy 0, policy_version 691616 (0.0007)
+[2023-07-06 14:14:28,853][98493] Updated weights for policy 0, policy_version 691672 (0.0007)
+[2023-07-06 14:14:29,390][98493] Updated weights for policy 0, policy_version 691731 (0.0007)
+[2023-07-06 14:14:29,764][98243] Fps is (10 sec: 114686.4, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 1416757248. Throughput: 0: 27750.3. Samples: 354211840. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:14:31,277][98493] Updated weights for policy 0, policy_version 691792 (0.0006)
+[2023-07-06 14:14:33,135][98449] Signal inference workers to stop experience collection... (35700 times)
+[2023-07-06 14:14:33,178][98493] InferenceWorker_p0-w0: stopping experience collection (35700 times)
+[2023-07-06 14:14:33,185][98493] Updated weights for policy 0, policy_version 691865 (0.0007)
+[2023-07-06 14:14:33,216][98449] Signal inference workers to resume experience collection... (35700 times)
+[2023-07-06 14:14:33,216][98493] InferenceWorker_p0-w0: resuming experience collection (35700 times)
+[2023-07-06 14:14:33,744][98493] Updated weights for policy 0, policy_version 691928 (0.0008)
+[2023-07-06 14:14:34,147][98493] Updated weights for policy 0, policy_version 691972 (0.0007)
+[2023-07-06 14:14:34,577][98493] Updated weights for policy 0, policy_version 692028 (0.0006)
+[2023-07-06 14:14:34,764][98243] Fps is (10 sec: 111411.3, 60 sec: 113596.0, 300 sec: 111522.3). Total num frames: 1417281536. Throughput: 0: 27602.5. Samples: 354373120. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:14:36,255][98493] Updated weights for policy 0, policy_version 692069 (0.0007)
+[2023-07-06 14:14:37,903][98493] Updated weights for policy 0, policy_version 692128 (0.0006)
+[2023-07-06 14:14:38,411][98493] Updated weights for policy 0, policy_version 692182 (0.0007)
+[2023-07-06 14:14:38,918][98493] Updated weights for policy 0, policy_version 692240 (0.0008)
+[2023-07-06 14:14:39,293][98493] Updated weights for policy 0, policy_version 692283 (0.0006)
+[2023-07-06 14:14:39,764][98243] Fps is (10 sec: 104858.7, 60 sec: 113596.0, 300 sec: 111522.4). Total num frames: 1417805824. Throughput: 0: 27841.4. Samples: 354465280. Policy #0 lag: (min: 15.0, avg: 73.8, max: 271.0)
+[2023-07-06 14:14:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:14:40,957][98493] Updated weights for policy 0, policy_version 692326 (0.0007)
+[2023-07-06 14:14:42,103][98493] Updated weights for policy 0, policy_version 692357 (0.0006)
+[2023-07-06 14:14:42,753][98493] Updated weights for policy 0, policy_version 692432 (0.0007)
+[2023-07-06 14:14:43,260][98493] Updated weights for policy 0, policy_version 692486 (0.0006)
+[2023-07-06 14:14:43,682][98493] Updated weights for policy 0, policy_version 692537 (0.0008)
+[2023-07-06 14:14:44,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113049.5, 300 sec: 111300.1). Total num frames: 1418330112. Throughput: 0: 27511.4. Samples: 354623488. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:14:44,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:14:45,657][98493] Updated weights for policy 0, policy_version 692581 (0.0006)
+[2023-07-06 14:14:46,967][98493] Updated weights for policy 0, policy_version 692631 (0.0007)
+[2023-07-06 14:14:47,808][98493] Updated weights for policy 0, policy_version 692694 (0.0007)
+[2023-07-06 14:14:48,230][98493] Updated weights for policy 0, policy_version 692737 (0.0008)
+[2023-07-06 14:14:48,490][98449] Signal inference workers to stop experience collection... (35750 times)
+[2023-07-06 14:14:48,533][98493] InferenceWorker_p0-w0: stopping experience collection (35750 times)
+[2023-07-06 14:14:48,569][98449] Signal inference workers to resume experience collection... (35750 times)
+[2023-07-06 14:14:48,570][98493] InferenceWorker_p0-w0: resuming experience collection (35750 times)
+[2023-07-06 14:14:49,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111957.1, 300 sec: 111078.0). Total num frames: 1418854400. Throughput: 0: 27761.7. Samples: 354795008. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:14:49,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:14:49,993][98493] Updated weights for policy 0, policy_version 692801 (0.0007)
+[2023-07-06 14:14:51,339][98493] Updated weights for policy 0, policy_version 692866 (0.0007)
+[2023-07-06 14:14:51,735][98493] Updated weights for policy 0, policy_version 692918 (0.0008)
+[2023-07-06 14:14:52,725][98493] Updated weights for policy 0, policy_version 692966 (0.0007)
+[2023-07-06 14:14:53,155][98493] Updated weights for policy 0, policy_version 693009 (0.0008)
+[2023-07-06 14:14:54,513][98493] Updated weights for policy 0, policy_version 693059 (0.0006)
+[2023-07-06 14:14:54,764][98243] Fps is (10 sec: 111411.1, 60 sec: 111957.4, 300 sec: 111078.0). Total num frames: 1419444224. Throughput: 0: 27705.0. Samples: 354878976. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:14:54,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:14:54,955][98493] Updated weights for policy 0, policy_version 693116 (0.0008)
+[2023-07-06 14:14:56,386][98493] Updated weights for policy 0, policy_version 693168 (0.0008)
+[2023-07-06 14:14:57,489][98493] Updated weights for policy 0, policy_version 693238 (0.0008)
+[2023-07-06 14:14:58,021][98493] Updated weights for policy 0, policy_version 693309 (0.0007)
+[2023-07-06 14:14:59,688][98493] Updated weights for policy 0, policy_version 693372 (0.0008)
+[2023-07-06 14:14:59,764][98243] Fps is (10 sec: 117965.2, 60 sec: 111957.1, 300 sec: 111078.0). Total num frames: 1420034048. Throughput: 0: 27784.5. Samples: 355045888. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:14:59,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 14:15:01,135][98493] Updated weights for policy 0, policy_version 693434 (0.0008)
+[2023-07-06 14:15:02,038][98493] Updated weights for policy 0, policy_version 693476 (0.0007)
+[2023-07-06 14:15:02,551][98493] Updated weights for policy 0, policy_version 693536 (0.0007)
+[2023-07-06 14:15:04,176][98493] Updated weights for policy 0, policy_version 693600 (0.0007)
+[2023-07-06 14:15:04,434][98493] Updated weights for policy 0, policy_version 693631 (0.0006)
+[2023-07-06 14:15:04,764][98243] Fps is (10 sec: 111410.2, 60 sec: 110864.8, 300 sec: 111077.9). Total num frames: 1420558336. Throughput: 0: 27898.2. Samples: 355213824. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:04,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 14:15:05,905][98493] Updated weights for policy 0, policy_version 693668 (0.0007)
+[2023-07-06 14:15:06,585][98493] Updated weights for policy 0, policy_version 693720 (0.0006)
+[2023-07-06 14:15:06,932][98449] Signal inference workers to stop experience collection... (35800 times)
+[2023-07-06 14:15:06,970][98493] InferenceWorker_p0-w0: stopping experience collection (35800 times)
+[2023-07-06 14:15:07,023][98449] Signal inference workers to resume experience collection... (35800 times)
+[2023-07-06 14:15:07,023][98493] InferenceWorker_p0-w0: resuming experience collection (35800 times)
+[2023-07-06 14:15:07,120][98493] Updated weights for policy 0, policy_version 693784 (0.0007)
+[2023-07-06 14:15:07,396][98493] Updated weights for policy 0, policy_version 693822 (0.0006)
+[2023-07-06 14:15:08,856][98493] Updated weights for policy 0, policy_version 693888 (0.0007)
+[2023-07-06 14:15:09,764][98243] Fps is (10 sec: 104856.3, 60 sec: 110319.0, 300 sec: 111077.9). Total num frames: 1421082624. Throughput: 0: 27795.8. Samples: 355296256. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:09,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:15:10,673][98493] Updated weights for policy 0, policy_version 693945 (0.0008)
+[2023-07-06 14:15:11,808][98493] Updated weights for policy 0, policy_version 694022 (0.0007)
+[2023-07-06 14:15:13,006][98493] Updated weights for policy 0, policy_version 694081 (0.0007)
+[2023-07-06 14:15:13,471][98493] Updated weights for policy 0, policy_version 694140 (0.0007)
+[2023-07-06 14:15:14,765][98243] Fps is (10 sec: 104855.5, 60 sec: 109772.4, 300 sec: 110966.9). Total num frames: 1421606912. Throughput: 0: 27773.0. Samples: 355461632. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:14,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:15:15,301][98493] Updated weights for policy 0, policy_version 694200 (0.0007)
+[2023-07-06 14:15:16,339][98493] Updated weights for policy 0, policy_version 694250 (0.0007)
+[2023-07-06 14:15:16,812][98493] Updated weights for policy 0, policy_version 694304 (0.0007)
+[2023-07-06 14:15:17,811][98493] Updated weights for policy 0, policy_version 694354 (0.0007)
+[2023-07-06 14:15:19,410][98493] Updated weights for policy 0, policy_version 694405 (0.0007)
+[2023-07-06 14:15:19,764][98243] Fps is (10 sec: 111414.0, 60 sec: 109772.8, 300 sec: 110966.9). Total num frames: 1422196736. Throughput: 0: 27978.0. Samples: 355632128. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:19,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:15:19,902][98493] Updated weights for policy 0, policy_version 694464 (0.0007)
+[2023-07-06 14:15:21,317][98493] Updated weights for policy 0, policy_version 694528 (0.0007)
+[2023-07-06 14:15:21,831][98493] Updated weights for policy 0, policy_version 694586 (0.0008)
+[2023-07-06 14:15:22,825][98493] Updated weights for policy 0, policy_version 694649 (0.0007)
+[2023-07-06 14:15:24,303][98493] Updated weights for policy 0, policy_version 694688 (0.0008)
+[2023-07-06 14:15:24,764][98243] Fps is (10 sec: 117966.2, 60 sec: 110318.6, 300 sec: 111078.0). Total num frames: 1422786560. Throughput: 0: 27704.8. Samples: 355712000. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:15:25,535][98493] Updated weights for policy 0, policy_version 694725 (0.0006)
+[2023-07-06 14:15:25,787][98449] Signal inference workers to stop experience collection... (35850 times)
+[2023-07-06 14:15:25,815][98493] InferenceWorker_p0-w0: stopping experience collection (35850 times)
+[2023-07-06 14:15:25,850][98449] Signal inference workers to resume experience collection... (35850 times)
+[2023-07-06 14:15:25,850][98493] InferenceWorker_p0-w0: resuming experience collection (35850 times)
+[2023-07-06 14:15:25,944][98493] Updated weights for policy 0, policy_version 694772 (0.0006)
+[2023-07-06 14:15:26,502][98493] Updated weights for policy 0, policy_version 694841 (0.0008)
+[2023-07-06 14:15:27,139][98493] Updated weights for policy 0, policy_version 694869 (0.0005)
+[2023-07-06 14:15:28,559][98493] Updated weights for policy 0, policy_version 694915 (0.0007)
+[2023-07-06 14:15:29,074][98493] Updated weights for policy 0, policy_version 694976 (0.0008)
+[2023-07-06 14:15:29,764][98243] Fps is (10 sec: 111410.6, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 1423310848. Throughput: 0: 28046.2. Samples: 355885568. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:15:30,684][98493] Updated weights for policy 0, policy_version 695031 (0.0006)
+[2023-07-06 14:15:31,198][98493] Updated weights for policy 0, policy_version 695097 (0.0007)
+[2023-07-06 14:15:31,715][98493] Updated weights for policy 0, policy_version 695138 (0.0007)
+[2023-07-06 14:15:33,274][98493] Updated weights for policy 0, policy_version 695193 (0.0007)
+[2023-07-06 14:15:33,578][98493] Updated weights for policy 0, policy_version 695232 (0.0007)
+[2023-07-06 14:15:34,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 1423835136. Throughput: 0: 28034.8. Samples: 356056576. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:15:35,295][98493] Updated weights for policy 0, policy_version 695280 (0.0007)
+[2023-07-06 14:15:35,710][98493] Updated weights for policy 0, policy_version 695319 (0.0006)
+[2023-07-06 14:15:36,275][98493] Updated weights for policy 0, policy_version 695383 (0.0008)
+[2023-07-06 14:15:37,645][98493] Updated weights for policy 0, policy_version 695428 (0.0008)
+[2023-07-06 14:15:38,114][98493] Updated weights for policy 0, policy_version 695488 (0.0007)
+[2023-07-06 14:15:39,764][98243] Fps is (10 sec: 108134.3, 60 sec: 109772.8, 300 sec: 111189.0). Total num frames: 1424392192. Throughput: 0: 27989.3. Samples: 356138496. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:39,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:15:40,108][98493] Updated weights for policy 0, policy_version 695552 (0.0007)
+[2023-07-06 14:15:40,611][98493] Updated weights for policy 0, policy_version 695606 (0.0007)
+[2023-07-06 14:15:41,055][98493] Updated weights for policy 0, policy_version 695653 (0.0007)
+[2023-07-06 14:15:42,514][98449] Signal inference workers to stop experience collection... (35900 times)
+[2023-07-06 14:15:42,547][98493] InferenceWorker_p0-w0: stopping experience collection (35900 times)
+[2023-07-06 14:15:42,595][98449] Signal inference workers to resume experience collection... (35900 times)
+[2023-07-06 14:15:42,595][98493] InferenceWorker_p0-w0: resuming experience collection (35900 times)
+[2023-07-06 14:15:42,596][98493] Updated weights for policy 0, policy_version 695712 (0.0007)
+[2023-07-06 14:15:44,716][98493] Updated weights for policy 0, policy_version 695762 (0.0007)
+[2023-07-06 14:15:44,764][98243] Fps is (10 sec: 108136.0, 60 sec: 109772.8, 300 sec: 111077.9). Total num frames: 1424916480. Throughput: 0: 28012.1. Samples: 356306432. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:44,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:15:45,317][98493] Updated weights for policy 0, policy_version 695833 (0.0008)
+[2023-07-06 14:15:45,783][98493] Updated weights for policy 0, policy_version 695888 (0.0007)
+[2023-07-06 14:15:46,196][98493] Updated weights for policy 0, policy_version 695933 (0.0007)
+[2023-07-06 14:15:47,473][98493] Updated weights for policy 0, policy_version 695984 (0.0007)
+[2023-07-06 14:15:49,115][98493] Updated weights for policy 0, policy_version 696016 (0.0007)
+[2023-07-06 14:15:49,619][98493] Updated weights for policy 0, policy_version 696067 (0.0008)
+[2023-07-06 14:15:49,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111957.6, 300 sec: 111189.0). Total num frames: 1425571840. Throughput: 0: 28023.5. Samples: 356474880. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:15:50,213][98493] Updated weights for policy 0, policy_version 696137 (0.0006)
+[2023-07-06 14:15:50,684][98493] Updated weights for policy 0, policy_version 696192 (0.0007)
+[2023-07-06 14:15:52,230][98493] Updated weights for policy 0, policy_version 696250 (0.0007)
+[2023-07-06 14:15:53,942][98493] Updated weights for policy 0, policy_version 696288 (0.0006)
+[2023-07-06 14:15:54,443][98493] Updated weights for policy 0, policy_version 696342 (0.0007)
+[2023-07-06 14:15:54,764][98243] Fps is (10 sec: 124519.0, 60 sec: 111957.4, 300 sec: 111411.2). Total num frames: 1426161664. Throughput: 0: 28046.4. Samples: 356558336. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:54,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:15:54,997][98493] Updated weights for policy 0, policy_version 696405 (0.0006)
+[2023-07-06 14:15:56,838][98493] Updated weights for policy 0, policy_version 696464 (0.0007)
+[2023-07-06 14:15:58,326][98493] Updated weights for policy 0, policy_version 696514 (0.0007)
+[2023-07-06 14:15:58,809][98493] Updated weights for policy 0, policy_version 696576 (0.0007)
+[2023-07-06 14:15:59,132][98449] Signal inference workers to stop experience collection... (35950 times)
+[2023-07-06 14:15:59,168][98493] InferenceWorker_p0-w0: stopping experience collection (35950 times)
+[2023-07-06 14:15:59,211][98449] Signal inference workers to resume experience collection... (35950 times)
+[2023-07-06 14:15:59,211][98493] InferenceWorker_p0-w0: resuming experience collection (35950 times)
+[2023-07-06 14:15:59,313][98493] Updated weights for policy 0, policy_version 696637 (0.0014)
+[2023-07-06 14:15:59,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111411.5, 300 sec: 111300.1). Total num frames: 1426718720. Throughput: 0: 28148.9. Samples: 356728320. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:15:59,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:16:00,137][98493] Updated weights for policy 0, policy_version 696696 (0.0007)
+[2023-07-06 14:16:01,986][98493] Updated weights for policy 0, policy_version 696752 (0.0007)
+[2023-07-06 14:16:03,364][98493] Updated weights for policy 0, policy_version 696816 (0.0007)
+[2023-07-06 14:16:03,881][98493] Updated weights for policy 0, policy_version 696871 (0.0008)
+[2023-07-06 14:16:04,515][98493] Updated weights for policy 0, policy_version 696921 (0.0008)
+[2023-07-06 14:16:04,764][98243] Fps is (10 sec: 117965.1, 60 sec: 113049.9, 300 sec: 111411.5). Total num frames: 1427341312. Throughput: 0: 27909.7. Samples: 356888064. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:16:04,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:16:06,332][98493] Updated weights for policy 0, policy_version 696976 (0.0008)
+[2023-07-06 14:16:07,852][98493] Updated weights for policy 0, policy_version 697040 (0.0007)
+[2023-07-06 14:16:08,461][98493] Updated weights for policy 0, policy_version 697108 (0.0007)
+[2023-07-06 14:16:09,032][98493] Updated weights for policy 0, policy_version 697168 (0.0007)
+[2023-07-06 14:16:09,764][98243] Fps is (10 sec: 117962.9, 60 sec: 113595.9, 300 sec: 111411.2). Total num frames: 1427898368. Throughput: 0: 28182.8. Samples: 356980224. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:16:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:16:10,791][98493] Updated weights for policy 0, policy_version 697239 (0.0007)
+[2023-07-06 14:16:12,733][98493] Updated weights for policy 0, policy_version 697296 (0.0006)
+[2023-07-06 14:16:13,131][98493] Updated weights for policy 0, policy_version 697336 (0.0007)
+[2023-07-06 14:16:13,719][98493] Updated weights for policy 0, policy_version 697396 (0.0007)
+[2023-07-06 14:16:14,149][98493] Updated weights for policy 0, policy_version 697445 (0.0007)
+[2023-07-06 14:16:14,764][98243] Fps is (10 sec: 108134.1, 60 sec: 113596.4, 300 sec: 111078.0). Total num frames: 1428422656. Throughput: 0: 27875.6. Samples: 357139968. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:16:14,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:16:15,352][98493] Updated weights for policy 0, policy_version 697488 (0.0007)
+[2023-07-06 14:16:17,217][98493] Updated weights for policy 0, policy_version 697541 (0.0007)
+[2023-07-06 14:16:17,619][98449] Signal inference workers to stop experience collection... (36000 times)
+[2023-07-06 14:16:17,655][98493] InferenceWorker_p0-w0: stopping experience collection (36000 times)
+[2023-07-06 14:16:17,656][98493] Updated weights for policy 0, policy_version 697588 (0.0007)
+[2023-07-06 14:16:17,716][98449] Signal inference workers to resume experience collection... (36000 times)
+[2023-07-06 14:16:17,717][98493] InferenceWorker_p0-w0: resuming experience collection (36000 times)
+[2023-07-06 14:16:18,236][98493] Updated weights for policy 0, policy_version 697659 (0.0008)
+[2023-07-06 14:16:19,188][98493] Updated weights for policy 0, policy_version 697723 (0.0008)
+[2023-07-06 14:16:19,764][98243] Fps is (10 sec: 104858.6, 60 sec: 112503.4, 300 sec: 111077.9). Total num frames: 1428946944. Throughput: 0: 27796.0. Samples: 357307392. Policy #0 lag: (min: 15.0, avg: 97.7, max: 271.0)
+[2023-07-06 14:16:19,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:16:20,227][98493] Updated weights for policy 0, policy_version 697762 (0.0007)
+[2023-07-06 14:16:22,136][98493] Updated weights for policy 0, policy_version 697824 (0.0007)
+[2023-07-06 14:16:22,706][98493] Updated weights for policy 0, policy_version 697888 (0.0008)
+[2023-07-06 14:16:23,431][98493] Updated weights for policy 0, policy_version 697936 (0.0006)
+[2023-07-06 14:16:24,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.6, 300 sec: 111077.9). Total num frames: 1429471232. Throughput: 0: 27841.4. Samples: 357391360. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:24,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:16:24,877][98493] Updated weights for policy 0, policy_version 698010 (0.0009)
+[2023-07-06 14:16:24,910][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000698016_1429536768.pth...
+[2023-07-06 14:16:24,983][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000684928_1402732544.pth
+[2023-07-06 14:16:26,952][98493] Updated weights for policy 0, policy_version 698073 (0.0007)
+[2023-07-06 14:16:27,346][98493] Updated weights for policy 0, policy_version 698116 (0.0007)
+[2023-07-06 14:16:27,826][98493] Updated weights for policy 0, policy_version 698176 (0.0006)
+[2023-07-06 14:16:28,433][98493] Updated weights for policy 0, policy_version 698234 (0.0007)
+[2023-07-06 14:16:29,762][98493] Updated weights for policy 0, policy_version 698277 (0.0007)
+[2023-07-06 14:16:29,764][98243] Fps is (10 sec: 111410.9, 60 sec: 112503.4, 300 sec: 110855.8). Total num frames: 1430061056. Throughput: 0: 27750.4. Samples: 357555200. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:16:31,767][98493] Updated weights for policy 0, policy_version 698337 (0.0007)
+[2023-07-06 14:16:32,193][98493] Updated weights for policy 0, policy_version 698387 (0.0006)
+[2023-07-06 14:16:32,562][98493] Updated weights for policy 0, policy_version 698432 (0.0006)
+[2023-07-06 14:16:33,130][98493] Updated weights for policy 0, policy_version 698495 (0.0006)
+[2023-07-06 14:16:34,377][98493] Updated weights for policy 0, policy_version 698532 (0.0007)
+[2023-07-06 14:16:34,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113596.0, 300 sec: 111078.0). Total num frames: 1430650880. Throughput: 0: 27795.9. Samples: 357725696. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:34,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:16:36,113][98449] Signal inference workers to stop experience collection... (36050 times)
+[2023-07-06 14:16:36,161][98493] InferenceWorker_p0-w0: stopping experience collection (36050 times)
+[2023-07-06 14:16:36,198][98449] Signal inference workers to resume experience collection... (36050 times)
+[2023-07-06 14:16:36,198][98493] InferenceWorker_p0-w0: resuming experience collection (36050 times)
+[2023-07-06 14:16:36,274][98493] Updated weights for policy 0, policy_version 698595 (0.0007)
+[2023-07-06 14:16:36,737][98493] Updated weights for policy 0, policy_version 698656 (0.0006)
+[2023-07-06 14:16:37,331][98493] Updated weights for policy 0, policy_version 698704 (0.0008)
+[2023-07-06 14:16:37,692][98493] Updated weights for policy 0, policy_version 698748 (0.0007)
+[2023-07-06 14:16:38,897][98493] Updated weights for policy 0, policy_version 698809 (0.0007)
+[2023-07-06 14:16:39,764][98243] Fps is (10 sec: 111409.6, 60 sec: 113049.3, 300 sec: 111078.0). Total num frames: 1431175168. Throughput: 0: 27773.0. Samples: 357808128. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:39,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:16:41,525][98493] Updated weights for policy 0, policy_version 698880 (0.0007)
+[2023-07-06 14:16:42,101][98493] Updated weights for policy 0, policy_version 698943 (0.0007)
+[2023-07-06 14:16:42,605][98493] Updated weights for policy 0, policy_version 699004 (0.0006)
+[2023-07-06 14:16:43,402][98493] Updated weights for policy 0, policy_version 699049 (0.0007)
+[2023-07-06 14:16:44,764][98243] Fps is (10 sec: 104857.6, 60 sec: 113049.6, 300 sec: 111078.0). Total num frames: 1431699456. Throughput: 0: 27613.8. Samples: 357970944. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:16:46,143][98493] Updated weights for policy 0, policy_version 699112 (0.0007)
+[2023-07-06 14:16:46,690][98493] Updated weights for policy 0, policy_version 699173 (0.0007)
+[2023-07-06 14:16:47,269][98493] Updated weights for policy 0, policy_version 699248 (0.0006)
+[2023-07-06 14:16:48,292][98493] Updated weights for policy 0, policy_version 699290 (0.0006)
+[2023-07-06 14:16:49,764][98243] Fps is (10 sec: 104859.4, 60 sec: 110865.0, 300 sec: 111078.0). Total num frames: 1432223744. Throughput: 0: 27875.5. Samples: 358142464. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:16:50,498][98493] Updated weights for policy 0, policy_version 699344 (0.0006)
+[2023-07-06 14:16:51,119][98493] Updated weights for policy 0, policy_version 699415 (0.0008)
+[2023-07-06 14:16:51,446][98493] Updated weights for policy 0, policy_version 699456 (0.0006)
+[2023-07-06 14:16:52,717][98449] Signal inference workers to stop experience collection... (36100 times)
+[2023-07-06 14:16:52,729][98493] Updated weights for policy 0, policy_version 699522 (0.0007)
+[2023-07-06 14:16:52,736][98493] InferenceWorker_p0-w0: stopping experience collection (36100 times)
+[2023-07-06 14:16:52,818][98449] Signal inference workers to resume experience collection... (36100 times)
+[2023-07-06 14:16:52,819][98493] InferenceWorker_p0-w0: resuming experience collection (36100 times)
+[2023-07-06 14:16:54,764][98243] Fps is (10 sec: 104855.7, 60 sec: 109772.4, 300 sec: 111078.0). Total num frames: 1432748032. Throughput: 0: 27625.2. Samples: 358223360. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:16:55,164][98493] Updated weights for policy 0, policy_version 699588 (0.0007)
+[2023-07-06 14:16:55,805][98493] Updated weights for policy 0, policy_version 699664 (0.0007)
+[2023-07-06 14:16:56,627][98493] Updated weights for policy 0, policy_version 699714 (0.0007)
+[2023-07-06 14:16:57,052][98493] Updated weights for policy 0, policy_version 699767 (0.0007)
+[2023-07-06 14:16:57,562][98493] Updated weights for policy 0, policy_version 699808 (0.0007)
+[2023-07-06 14:16:59,756][98493] Updated weights for policy 0, policy_version 699856 (0.0008)
+[2023-07-06 14:16:59,764][98243] Fps is (10 sec: 108135.2, 60 sec: 109772.8, 300 sec: 111189.1). Total num frames: 1433305088. Throughput: 0: 27795.9. Samples: 358390784. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:16:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:17:00,244][98493] Updated weights for policy 0, policy_version 699904 (0.0008)
+[2023-07-06 14:17:00,771][98493] Updated weights for policy 0, policy_version 699961 (0.0008)
+[2023-07-06 14:17:01,768][98493] Updated weights for policy 0, policy_version 700007 (0.0012)
+[2023-07-06 14:17:02,242][98493] Updated weights for policy 0, policy_version 700057 (0.0008)
+[2023-07-06 14:17:04,203][98493] Updated weights for policy 0, policy_version 700097 (0.0006)
+[2023-07-06 14:17:04,649][98493] Updated weights for policy 0, policy_version 700155 (0.0007)
+[2023-07-06 14:17:04,764][98243] Fps is (10 sec: 117965.0, 60 sec: 109772.4, 300 sec: 111522.2). Total num frames: 1433927680. Throughput: 0: 27807.2. Samples: 358558720. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:17:05,431][98493] Updated weights for policy 0, policy_version 700217 (0.0007)
+[2023-07-06 14:17:06,525][98493] Updated weights for policy 0, policy_version 700258 (0.0007)
+[2023-07-06 14:17:07,026][98493] Updated weights for policy 0, policy_version 700320 (0.0008)
+[2023-07-06 14:17:09,231][98493] Updated weights for policy 0, policy_version 700384 (0.0007)
+[2023-07-06 14:17:09,764][98243] Fps is (10 sec: 121240.8, 60 sec: 110319.1, 300 sec: 111744.4). Total num frames: 1434517504. Throughput: 0: 27773.1. Samples: 358641152. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:09,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:17:09,765][98493] Updated weights for policy 0, policy_version 700448 (0.0007)
+[2023-07-06 14:17:10,995][98449] Signal inference workers to stop experience collection... (36150 times)
+[2023-07-06 14:17:11,003][98493] InferenceWorker_p0-w0: stopping experience collection (36150 times)
+[2023-07-06 14:17:11,087][98449] Signal inference workers to resume experience collection... (36150 times)
+[2023-07-06 14:17:11,087][98493] InferenceWorker_p0-w0: resuming experience collection (36150 times)
+[2023-07-06 14:17:11,088][98493] Updated weights for policy 0, policy_version 700496 (0.0006)
+[2023-07-06 14:17:11,787][98493] Updated weights for policy 0, policy_version 700576 (0.0009)
+[2023-07-06 14:17:13,884][98493] Updated weights for policy 0, policy_version 700640 (0.0007)
+[2023-07-06 14:17:14,406][98493] Updated weights for policy 0, policy_version 700692 (0.0006)
+[2023-07-06 14:17:14,764][98243] Fps is (10 sec: 117965.9, 60 sec: 111411.0, 300 sec: 111855.6). Total num frames: 1435107328. Throughput: 0: 27921.0. Samples: 358811648. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:17:16,259][98493] Updated weights for policy 0, policy_version 700768 (0.0009)
+[2023-07-06 14:17:16,679][98493] Updated weights for policy 0, policy_version 700816 (0.0007)
+[2023-07-06 14:17:17,054][98493] Updated weights for policy 0, policy_version 700860 (0.0006)
+[2023-07-06 14:17:18,457][98493] Updated weights for policy 0, policy_version 700912 (0.0007)
+[2023-07-06 14:17:19,138][98493] Updated weights for policy 0, policy_version 700986 (0.0007)
+[2023-07-06 14:17:19,764][98243] Fps is (10 sec: 111411.5, 60 sec: 111411.3, 300 sec: 111744.5). Total num frames: 1435631616. Throughput: 0: 27761.8. Samples: 358974976. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:17:20,976][98493] Updated weights for policy 0, policy_version 701031 (0.0006)
+[2023-07-06 14:17:21,465][98493] Updated weights for policy 0, policy_version 701088 (0.0008)
+[2023-07-06 14:17:22,651][98493] Updated weights for policy 0, policy_version 701126 (0.0007)
+[2023-07-06 14:17:23,089][98493] Updated weights for policy 0, policy_version 701183 (0.0010)
+[2023-07-06 14:17:23,756][98493] Updated weights for policy 0, policy_version 701243 (0.0008)
+[2023-07-06 14:17:24,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.0, 300 sec: 111411.2). Total num frames: 1436155904. Throughput: 0: 27887.0. Samples: 359063040. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:24,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:17:26,047][98493] Updated weights for policy 0, policy_version 701305 (0.0007)
+[2023-07-06 14:17:26,560][98493] Updated weights for policy 0, policy_version 701369 (0.0007)
+[2023-07-06 14:17:27,877][98493] Updated weights for policy 0, policy_version 701418 (0.0008)
+[2023-07-06 14:17:28,169][98449] Signal inference workers to stop experience collection... (36200 times)
+[2023-07-06 14:17:28,215][98493] InferenceWorker_p0-w0: stopping experience collection (36200 times)
+[2023-07-06 14:17:28,253][98449] Signal inference workers to resume experience collection... (36200 times)
+[2023-07-06 14:17:28,254][98493] InferenceWorker_p0-w0: resuming experience collection (36200 times)
+[2023-07-06 14:17:28,427][98493] Updated weights for policy 0, policy_version 701472 (0.0008)
+[2023-07-06 14:17:29,764][98243] Fps is (10 sec: 104857.0, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 1436680192. Throughput: 0: 27852.8. Samples: 359224320. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:17:30,333][98493] Updated weights for policy 0, policy_version 701529 (0.0007)
+[2023-07-06 14:17:30,828][98493] Updated weights for policy 0, policy_version 701584 (0.0007)
+[2023-07-06 14:17:31,250][98493] Updated weights for policy 0, policy_version 701632 (0.0007)
+[2023-07-06 14:17:32,764][98493] Updated weights for policy 0, policy_version 701687 (0.0007)
+[2023-07-06 14:17:33,298][98493] Updated weights for policy 0, policy_version 701751 (0.0008)
+[2023-07-06 14:17:34,764][98243] Fps is (10 sec: 104858.6, 60 sec: 109226.7, 300 sec: 110966.9). Total num frames: 1437204480. Throughput: 0: 27909.7. Samples: 359398400. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:34,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:17:35,006][98493] Updated weights for policy 0, policy_version 701796 (0.0006)
+[2023-07-06 14:17:35,377][98493] Updated weights for policy 0, policy_version 701840 (0.0007)
+[2023-07-06 14:17:36,975][98493] Updated weights for policy 0, policy_version 701904 (0.0007)
+[2023-07-06 14:17:37,415][98493] Updated weights for policy 0, policy_version 701952 (0.0007)
+[2023-07-06 14:17:37,889][98493] Updated weights for policy 0, policy_version 702010 (0.0006)
+[2023-07-06 14:17:39,745][98493] Updated weights for policy 0, policy_version 702073 (0.0007)
+[2023-07-06 14:17:39,764][98243] Fps is (10 sec: 114687.7, 60 sec: 110865.3, 300 sec: 111189.0). Total num frames: 1437827072. Throughput: 0: 27921.1. Samples: 359479808. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:17:40,147][98493] Updated weights for policy 0, policy_version 702112 (0.0008)
+[2023-07-06 14:17:41,693][98493] Updated weights for policy 0, policy_version 702167 (0.0007)
+[2023-07-06 14:17:42,295][98493] Updated weights for policy 0, policy_version 702224 (0.0007)
+[2023-07-06 14:17:43,821][98493] Updated weights for policy 0, policy_version 702275 (0.0008)
+[2023-07-06 14:17:44,255][98493] Updated weights for policy 0, policy_version 702330 (0.0006)
+[2023-07-06 14:17:44,764][98243] Fps is (10 sec: 124517.1, 60 sec: 112503.3, 300 sec: 111300.1). Total num frames: 1438449664. Throughput: 0: 28012.0. Samples: 359651328. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:17:44,960][98493] Updated weights for policy 0, policy_version 702392 (0.0007)
+[2023-07-06 14:17:46,042][98449] Signal inference workers to stop experience collection... (36250 times)
+[2023-07-06 14:17:46,077][98493] InferenceWorker_p0-w0: stopping experience collection (36250 times)
+[2023-07-06 14:17:46,138][98449] Signal inference workers to resume experience collection... (36250 times)
+[2023-07-06 14:17:46,138][98493] InferenceWorker_p0-w0: resuming experience collection (36250 times)
+[2023-07-06 14:17:46,402][98493] Updated weights for policy 0, policy_version 702448 (0.0007)
+[2023-07-06 14:17:47,028][98493] Updated weights for policy 0, policy_version 702480 (0.0007)
+[2023-07-06 14:17:47,395][98493] Updated weights for policy 0, policy_version 702524 (0.0006)
+[2023-07-06 14:17:49,002][98493] Updated weights for policy 0, policy_version 702586 (0.0007)
+[2023-07-06 14:17:49,758][98493] Updated weights for policy 0, policy_version 702651 (0.0007)
+[2023-07-06 14:17:49,764][98243] Fps is (10 sec: 117966.1, 60 sec: 113049.7, 300 sec: 111411.2). Total num frames: 1439006720. Throughput: 0: 27909.8. Samples: 359814656. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:49,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:17:50,926][98493] Updated weights for policy 0, policy_version 702713 (0.0007)
+[2023-07-06 14:17:51,832][98493] Updated weights for policy 0, policy_version 702768 (0.0006)
+[2023-07-06 14:17:53,959][98493] Updated weights for policy 0, policy_version 702822 (0.0007)
+[2023-07-06 14:17:54,530][98493] Updated weights for policy 0, policy_version 702886 (0.0008)
+[2023-07-06 14:17:54,764][98243] Fps is (10 sec: 111411.2, 60 sec: 113595.9, 300 sec: 111300.1). Total num frames: 1439563776. Throughput: 0: 27989.3. Samples: 359900672. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:17:55,046][98493] Updated weights for policy 0, policy_version 702914 (0.0006)
+[2023-07-06 14:17:55,496][98493] Updated weights for policy 0, policy_version 702970 (0.0007)
+[2023-07-06 14:17:56,188][98493] Updated weights for policy 0, policy_version 703015 (0.0006)
+[2023-07-06 14:17:58,553][98493] Updated weights for policy 0, policy_version 703064 (0.0007)
+[2023-07-06 14:17:59,284][98493] Updated weights for policy 0, policy_version 703140 (0.0007)
+[2023-07-06 14:17:59,741][98493] Updated weights for policy 0, policy_version 703184 (0.0007)
+[2023-07-06 14:17:59,764][98243] Fps is (10 sec: 111411.2, 60 sec: 113595.7, 300 sec: 111300.1). Total num frames: 1440120832. Throughput: 0: 28023.5. Samples: 360072704. Policy #0 lag: (min: 31.0, avg: 114.7, max: 287.0)
+[2023-07-06 14:17:59,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:18:00,149][98493] Updated weights for policy 0, policy_version 703232 (0.0008)
+[2023-07-06 14:18:01,027][98493] Updated weights for policy 0, policy_version 703291 (0.0008)
+[2023-07-06 14:18:03,373][98493] Updated weights for policy 0, policy_version 703336 (0.0007)
+[2023-07-06 14:18:03,941][98493] Updated weights for policy 0, policy_version 703376 (0.0007)
+[2023-07-06 14:18:04,396][98449] Signal inference workers to stop experience collection... (36300 times)
+[2023-07-06 14:18:04,434][98493] InferenceWorker_p0-w0: stopping experience collection (36300 times)
+[2023-07-06 14:18:04,435][98493] Updated weights for policy 0, policy_version 703429 (0.0006)
+[2023-07-06 14:18:04,488][98449] Signal inference workers to resume experience collection... (36300 times)
+[2023-07-06 14:18:04,489][98493] InferenceWorker_p0-w0: resuming experience collection (36300 times)
+[2023-07-06 14:18:04,764][98243] Fps is (10 sec: 114688.6, 60 sec: 113049.9, 300 sec: 111411.2). Total num frames: 1440710656. Throughput: 0: 27966.5. Samples: 360233472. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:04,765][98243] Avg episode reward: [(0, '9.610')]
+[2023-07-06 14:18:04,839][98493] Updated weights for policy 0, policy_version 703480 (0.0007)
+[2023-07-06 14:18:05,498][98493] Updated weights for policy 0, policy_version 703527 (0.0007)
+[2023-07-06 14:18:07,775][98493] Updated weights for policy 0, policy_version 703556 (0.0006)
+[2023-07-06 14:18:08,219][98493] Updated weights for policy 0, policy_version 703612 (0.0008)
+[2023-07-06 14:18:08,919][98493] Updated weights for policy 0, policy_version 703664 (0.0007)
+[2023-07-06 14:18:09,465][98493] Updated weights for policy 0, policy_version 703728 (0.0008)
+[2023-07-06 14:18:09,765][98243] Fps is (10 sec: 114682.9, 60 sec: 112502.7, 300 sec: 111522.1). Total num frames: 1441267712. Throughput: 0: 28068.8. Samples: 360326144. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:09,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:18:10,074][98493] Updated weights for policy 0, policy_version 703777 (0.0007)
+[2023-07-06 14:18:12,695][98493] Updated weights for policy 0, policy_version 703840 (0.0008)
+[2023-07-06 14:18:13,534][98493] Updated weights for policy 0, policy_version 703920 (0.0008)
+[2023-07-06 14:18:14,160][98493] Updated weights for policy 0, policy_version 703995 (0.0007)
+[2023-07-06 14:18:14,764][98243] Fps is (10 sec: 111412.0, 60 sec: 111957.5, 300 sec: 111633.4). Total num frames: 1441824768. Throughput: 0: 28069.0. Samples: 360487424. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:14,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:18:14,907][98493] Updated weights for policy 0, policy_version 704040 (0.0007)
+[2023-07-06 14:18:17,526][98493] Updated weights for policy 0, policy_version 704096 (0.0007)
+[2023-07-06 14:18:18,286][98493] Updated weights for policy 0, policy_version 704169 (0.0007)
+[2023-07-06 14:18:18,866][98493] Updated weights for policy 0, policy_version 704240 (0.0007)
+[2023-07-06 14:18:19,764][98243] Fps is (10 sec: 111415.1, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 1442381824. Throughput: 0: 27818.6. Samples: 360650240. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:18:19,850][98493] Updated weights for policy 0, policy_version 704311 (0.0008)
+[2023-07-06 14:18:22,225][98493] Updated weights for policy 0, policy_version 704357 (0.0007)
+[2023-07-06 14:18:22,743][98493] Updated weights for policy 0, policy_version 704400 (0.0006)
+[2023-07-06 14:18:22,936][98449] Signal inference workers to stop experience collection... (36350 times)
+[2023-07-06 14:18:22,959][98493] InferenceWorker_p0-w0: stopping experience collection (36350 times)
+[2023-07-06 14:18:23,021][98449] Signal inference workers to resume experience collection... (36350 times)
+[2023-07-06 14:18:23,021][98493] InferenceWorker_p0-w0: resuming experience collection (36350 times)
+[2023-07-06 14:18:23,302][98493] Updated weights for policy 0, policy_version 704464 (0.0007)
+[2023-07-06 14:18:24,145][98493] Updated weights for policy 0, policy_version 704516 (0.0009)
+[2023-07-06 14:18:24,583][98493] Updated weights for policy 0, policy_version 704571 (0.0007)
+[2023-07-06 14:18:24,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1442971648. Throughput: 0: 28034.8. Samples: 360741376. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:24,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:18:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000704576_1442971648.pth...
+[2023-07-06 14:18:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000691520_1416232960.pth
+[2023-07-06 14:18:26,997][98493] Updated weights for policy 0, policy_version 704632 (0.0007)
+[2023-07-06 14:18:27,860][98493] Updated weights for policy 0, policy_version 704691 (0.0008)
+[2023-07-06 14:18:28,367][98493] Updated weights for policy 0, policy_version 704753 (0.0007)
+[2023-07-06 14:18:29,157][98493] Updated weights for policy 0, policy_version 704816 (0.0007)
+[2023-07-06 14:18:29,764][98243] Fps is (10 sec: 111411.2, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1443495936. Throughput: 0: 27807.3. Samples: 360902656. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:29,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:18:31,479][98493] Updated weights for policy 0, policy_version 704868 (0.0007)
+[2023-07-06 14:18:32,421][98493] Updated weights for policy 0, policy_version 704928 (0.0007)
+[2023-07-06 14:18:32,918][98493] Updated weights for policy 0, policy_version 704981 (0.0008)
+[2023-07-06 14:18:33,732][98493] Updated weights for policy 0, policy_version 705027 (0.0007)
+[2023-07-06 14:18:34,764][98243] Fps is (10 sec: 104856.7, 60 sec: 113595.4, 300 sec: 111966.6). Total num frames: 1444020224. Throughput: 0: 27864.0. Samples: 361068544. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:34,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 14:18:35,924][98493] Updated weights for policy 0, policy_version 705104 (0.0007)
+[2023-07-06 14:18:36,886][98493] Updated weights for policy 0, policy_version 705154 (0.0008)
+[2023-07-06 14:18:37,386][98493] Updated weights for policy 0, policy_version 705216 (0.0008)
+[2023-07-06 14:18:37,936][98493] Updated weights for policy 0, policy_version 705277 (0.0031)
+[2023-07-06 14:18:38,910][98493] Updated weights for policy 0, policy_version 705340 (0.0007)
+[2023-07-06 14:18:39,764][98243] Fps is (10 sec: 104857.9, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 1444544512. Throughput: 0: 27852.9. Samples: 361154048. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:39,764][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 14:18:40,878][98493] Updated weights for policy 0, policy_version 705392 (0.0007)
+[2023-07-06 14:18:41,585][98449] Signal inference workers to stop experience collection... (36400 times)
+[2023-07-06 14:18:41,598][98493] InferenceWorker_p0-w0: stopping experience collection (36400 times)
+[2023-07-06 14:18:41,670][98449] Signal inference workers to resume experience collection... (36400 times)
+[2023-07-06 14:18:41,670][98493] InferenceWorker_p0-w0: resuming experience collection (36400 times)
+[2023-07-06 14:18:41,963][98493] Updated weights for policy 0, policy_version 705456 (0.0009)
+[2023-07-06 14:18:42,389][98493] Updated weights for policy 0, policy_version 705504 (0.0009)
+[2023-07-06 14:18:43,399][98493] Updated weights for policy 0, policy_version 705568 (0.0007)
+[2023-07-06 14:18:44,764][98243] Fps is (10 sec: 104858.7, 60 sec: 110319.0, 300 sec: 111633.3). Total num frames: 1445068800. Throughput: 0: 27659.3. Samples: 361317376. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:44,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:18:45,220][98493] Updated weights for policy 0, policy_version 705605 (0.0008)
+[2023-07-06 14:18:45,675][98493] Updated weights for policy 0, policy_version 705664 (0.0007)
+[2023-07-06 14:18:46,700][98493] Updated weights for policy 0, policy_version 705701 (0.0008)
+[2023-07-06 14:18:47,303][98493] Updated weights for policy 0, policy_version 705776 (0.0007)
+[2023-07-06 14:18:47,946][98493] Updated weights for policy 0, policy_version 705814 (0.0007)
+[2023-07-06 14:18:49,735][98493] Updated weights for policy 0, policy_version 705858 (0.0007)
+[2023-07-06 14:18:49,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109772.8, 300 sec: 111411.2). Total num frames: 1445593088. Throughput: 0: 28023.5. Samples: 361494528. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:18:50,923][98493] Updated weights for policy 0, policy_version 705922 (0.0007)
+[2023-07-06 14:18:51,401][98493] Updated weights for policy 0, policy_version 705977 (0.0007)
+[2023-07-06 14:18:51,877][98493] Updated weights for policy 0, policy_version 706032 (0.0007)
+[2023-07-06 14:18:52,661][98493] Updated weights for policy 0, policy_version 706085 (0.0006)
+[2023-07-06 14:18:54,639][98493] Updated weights for policy 0, policy_version 706132 (0.0007)
+[2023-07-06 14:18:54,764][98243] Fps is (10 sec: 111411.7, 60 sec: 110319.1, 300 sec: 111411.2). Total num frames: 1446182912. Throughput: 0: 27693.7. Samples: 361572352. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:54,765][98243] Avg episode reward: [(0, '9.650')]
+[2023-07-06 14:18:55,818][98493] Updated weights for policy 0, policy_version 706208 (0.0007)
+[2023-07-06 14:18:56,348][98493] Updated weights for policy 0, policy_version 706256 (0.0006)
+[2023-07-06 14:18:56,743][98493] Updated weights for policy 0, policy_version 706303 (0.0006)
+[2023-07-06 14:18:57,383][98493] Updated weights for policy 0, policy_version 706363 (0.0007)
+[2023-07-06 14:18:59,328][98449] Signal inference workers to stop experience collection... (36450 times)
+[2023-07-06 14:18:59,360][98493] InferenceWorker_p0-w0: stopping experience collection (36450 times)
+[2023-07-06 14:18:59,409][98449] Signal inference workers to resume experience collection... (36450 times)
+[2023-07-06 14:18:59,410][98493] InferenceWorker_p0-w0: resuming experience collection (36450 times)
+[2023-07-06 14:18:59,506][98493] Updated weights for policy 0, policy_version 706428 (0.0007)
+[2023-07-06 14:18:59,764][98243] Fps is (10 sec: 117962.5, 60 sec: 110864.7, 300 sec: 111411.1). Total num frames: 1446772736. Throughput: 0: 27932.3. Samples: 361744384. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:18:59,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:19:00,570][98493] Updated weights for policy 0, policy_version 706488 (0.0007)
+[2023-07-06 14:19:01,258][98493] Updated weights for policy 0, policy_version 706533 (0.0007)
+[2023-07-06 14:19:01,957][98493] Updated weights for policy 0, policy_version 706580 (0.0007)
+[2023-07-06 14:19:02,281][98493] Updated weights for policy 0, policy_version 706624 (0.0007)
+[2023-07-06 14:19:04,399][98493] Updated weights for policy 0, policy_version 706688 (0.0006)
+[2023-07-06 14:19:04,765][98243] Fps is (10 sec: 111403.6, 60 sec: 109771.6, 300 sec: 111299.9). Total num frames: 1447297024. Throughput: 0: 28057.2. Samples: 361912832. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:04,766][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:19:05,251][98493] Updated weights for policy 0, policy_version 706746 (0.0007)
+[2023-07-06 14:19:05,920][98493] Updated weights for policy 0, policy_version 706812 (0.0006)
+[2023-07-06 14:19:06,857][98493] Updated weights for policy 0, policy_version 706876 (0.0007)
+[2023-07-06 14:19:08,921][98493] Updated weights for policy 0, policy_version 706928 (0.0007)
+[2023-07-06 14:19:09,527][98493] Updated weights for policy 0, policy_version 706960 (0.0017)
+[2023-07-06 14:19:09,764][98243] Fps is (10 sec: 111412.2, 60 sec: 110319.5, 300 sec: 111411.2). Total num frames: 1447886848. Throughput: 0: 27864.2. Samples: 361995264. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:09,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 14:19:10,267][98493] Updated weights for policy 0, policy_version 707017 (0.0007)
+[2023-07-06 14:19:10,673][98493] Updated weights for policy 0, policy_version 707066 (0.0006)
+[2023-07-06 14:19:11,161][98493] Updated weights for policy 0, policy_version 707113 (0.0007)
+[2023-07-06 14:19:13,429][98493] Updated weights for policy 0, policy_version 707161 (0.0008)
+[2023-07-06 14:19:13,740][98493] Updated weights for policy 0, policy_version 707199 (0.0007)
+[2023-07-06 14:19:14,439][98493] Updated weights for policy 0, policy_version 707240 (0.0007)
+[2023-07-06 14:19:14,764][98243] Fps is (10 sec: 117972.9, 60 sec: 110865.0, 300 sec: 111411.2). Total num frames: 1448476672. Throughput: 0: 28069.0. Samples: 362165760. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:14,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 14:19:15,070][98493] Updated weights for policy 0, policy_version 707289 (0.0006)
+[2023-07-06 14:19:15,503][98493] Updated weights for policy 0, policy_version 707334 (0.0007)
+[2023-07-06 14:19:15,963][98493] Updated weights for policy 0, policy_version 707386 (0.0007)
+[2023-07-06 14:19:18,424][98493] Updated weights for policy 0, policy_version 707440 (0.0007)
+[2023-07-06 14:19:18,884][98449] Signal inference workers to stop experience collection... (36500 times)
+[2023-07-06 14:19:18,907][98493] InferenceWorker_p0-w0: stopping experience collection (36500 times)
+[2023-07-06 14:19:18,970][98449] Signal inference workers to resume experience collection... (36500 times)
+[2023-07-06 14:19:18,970][98493] InferenceWorker_p0-w0: resuming experience collection (36500 times)
+[2023-07-06 14:19:19,184][98493] Updated weights for policy 0, policy_version 707490 (0.0007)
+[2023-07-06 14:19:19,764][98243] Fps is (10 sec: 111411.6, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 1449000960. Throughput: 0: 28103.2. Samples: 362333184. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:19:19,824][98493] Updated weights for policy 0, policy_version 707522 (0.0006)
+[2023-07-06 14:19:20,394][98493] Updated weights for policy 0, policy_version 707591 (0.0011)
+[2023-07-06 14:19:20,813][98493] Updated weights for policy 0, policy_version 707647 (0.0007)
+[2023-07-06 14:19:23,026][98493] Updated weights for policy 0, policy_version 707706 (0.0007)
+[2023-07-06 14:19:23,939][98493] Updated weights for policy 0, policy_version 707748 (0.0007)
+[2023-07-06 14:19:24,764][98243] Fps is (10 sec: 108134.8, 60 sec: 109773.0, 300 sec: 111189.1). Total num frames: 1449558016. Throughput: 0: 28034.9. Samples: 362415616. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:24,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:19:24,847][98493] Updated weights for policy 0, policy_version 707808 (0.0007)
+[2023-07-06 14:19:25,368][98493] Updated weights for policy 0, policy_version 707867 (0.0007)
+[2023-07-06 14:19:27,247][98493] Updated weights for policy 0, policy_version 707909 (0.0007)
+[2023-07-06 14:19:27,735][98493] Updated weights for policy 0, policy_version 707968 (0.0006)
+[2023-07-06 14:19:28,920][98493] Updated weights for policy 0, policy_version 708026 (0.0007)
+[2023-07-06 14:19:29,357][98493] Updated weights for policy 0, policy_version 708065 (0.0007)
+[2023-07-06 14:19:29,764][98243] Fps is (10 sec: 121242.1, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1450213376. Throughput: 0: 28160.0. Samples: 362584576. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:29,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:19:29,871][98493] Updated weights for policy 0, policy_version 708128 (0.0008)
+[2023-07-06 14:19:31,870][98493] Updated weights for policy 0, policy_version 708163 (0.0006)
+[2023-07-06 14:19:33,355][98493] Updated weights for policy 0, policy_version 708240 (0.0009)
+[2023-07-06 14:19:33,990][98493] Updated weights for policy 0, policy_version 708306 (0.0008)
+[2023-07-06 14:19:34,448][98493] Updated weights for policy 0, policy_version 708353 (0.0007)
+[2023-07-06 14:19:34,721][98449] Signal inference workers to stop experience collection... (36550 times)
+[2023-07-06 14:19:34,750][98493] InferenceWorker_p0-w0: stopping experience collection (36550 times)
+[2023-07-06 14:19:34,760][98493] Updated weights for policy 0, policy_version 708390 (0.0008)
+[2023-07-06 14:19:34,764][98243] Fps is (10 sec: 121241.4, 60 sec: 112503.8, 300 sec: 111744.4). Total num frames: 1450770432. Throughput: 0: 27841.4. Samples: 362747392. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:34,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:19:34,804][98449] Signal inference workers to resume experience collection... (36550 times)
+[2023-07-06 14:19:34,804][98493] InferenceWorker_p0-w0: resuming experience collection (36550 times)
+[2023-07-06 14:19:36,642][98493] Updated weights for policy 0, policy_version 708455 (0.0008)
+[2023-07-06 14:19:38,264][98493] Updated weights for policy 0, policy_version 708512 (0.0007)
+[2023-07-06 14:19:38,825][98493] Updated weights for policy 0, policy_version 708576 (0.0007)
+[2023-07-06 14:19:39,326][98493] Updated weights for policy 0, policy_version 708628 (0.0007)
+[2023-07-06 14:19:39,640][98493] Updated weights for policy 0, policy_version 708670 (0.0007)
+[2023-07-06 14:19:39,764][98243] Fps is (10 sec: 114686.3, 60 sec: 113595.5, 300 sec: 111966.5). Total num frames: 1451360256. Throughput: 0: 28148.6. Samples: 362839040. Policy #0 lag: (min: 15.0, avg: 86.8, max: 271.0)
+[2023-07-06 14:19:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:19:41,527][98493] Updated weights for policy 0, policy_version 708729 (0.0007)
+[2023-07-06 14:19:43,137][98493] Updated weights for policy 0, policy_version 708773 (0.0006)
+[2023-07-06 14:19:43,572][98493] Updated weights for policy 0, policy_version 708820 (0.0007)
+[2023-07-06 14:19:44,071][98493] Updated weights for policy 0, policy_version 708880 (0.0008)
+[2023-07-06 14:19:44,764][98243] Fps is (10 sec: 111410.7, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1451884544. Throughput: 0: 28012.2. Samples: 363004928. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:19:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:19:45,682][98493] Updated weights for policy 0, policy_version 708930 (0.0007)
+[2023-07-06 14:19:46,130][98493] Updated weights for policy 0, policy_version 708985 (0.0007)
+[2023-07-06 14:19:47,655][98493] Updated weights for policy 0, policy_version 709010 (0.0006)
+[2023-07-06 14:19:48,215][98493] Updated weights for policy 0, policy_version 709076 (0.0007)
+[2023-07-06 14:19:48,806][98493] Updated weights for policy 0, policy_version 709152 (0.0007)
+[2023-07-06 14:19:49,764][98243] Fps is (10 sec: 104859.1, 60 sec: 113595.7, 300 sec: 111744.4). Total num frames: 1452408832. Throughput: 0: 27978.4. Samples: 363171840. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:19:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:19:50,276][98493] Updated weights for policy 0, policy_version 709216 (0.0007)
+[2023-07-06 14:19:52,249][98493] Updated weights for policy 0, policy_version 709251 (0.0007)
+[2023-07-06 14:19:52,774][98449] Signal inference workers to stop experience collection... (36600 times)
+[2023-07-06 14:19:52,818][98493] InferenceWorker_p0-w0: stopping experience collection (36600 times)
+[2023-07-06 14:19:52,824][98493] Updated weights for policy 0, policy_version 709320 (0.0006)
+[2023-07-06 14:19:52,859][98449] Signal inference workers to resume experience collection... (36600 times)
+[2023-07-06 14:19:52,859][98493] InferenceWorker_p0-w0: resuming experience collection (36600 times)
+[2023-07-06 14:19:53,345][98493] Updated weights for policy 0, policy_version 709380 (0.0026)
+[2023-07-06 14:19:53,798][98493] Updated weights for policy 0, policy_version 709436 (0.0008)
+[2023-07-06 14:19:54,764][98243] Fps is (10 sec: 108134.7, 60 sec: 113049.6, 300 sec: 111633.4). Total num frames: 1452965888. Throughput: 0: 28091.8. Samples: 363259392. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:19:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:19:55,011][98493] Updated weights for policy 0, policy_version 709488 (0.0008)
+[2023-07-06 14:19:57,288][98493] Updated weights for policy 0, policy_version 709552 (0.0007)
+[2023-07-06 14:19:57,828][98493] Updated weights for policy 0, policy_version 709606 (0.0010)
+[2023-07-06 14:19:58,424][98493] Updated weights for policy 0, policy_version 709670 (0.0008)
+[2023-07-06 14:19:59,529][98493] Updated weights for policy 0, policy_version 709744 (0.0007)
+[2023-07-06 14:19:59,765][98243] Fps is (10 sec: 117960.4, 60 sec: 113595.3, 300 sec: 111966.5). Total num frames: 1453588480. Throughput: 0: 27841.2. Samples: 363418624. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:19:59,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:20:02,045][98493] Updated weights for policy 0, policy_version 709797 (0.0007)
+[2023-07-06 14:20:02,610][98493] Updated weights for policy 0, policy_version 709866 (0.0007)
+[2023-07-06 14:20:03,133][98493] Updated weights for policy 0, policy_version 709922 (0.0007)
+[2023-07-06 14:20:04,154][98493] Updated weights for policy 0, policy_version 709976 (0.0015)
+[2023-07-06 14:20:04,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113597.0, 300 sec: 111966.7). Total num frames: 1454112768. Throughput: 0: 27830.0. Samples: 363585536. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:04,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:20:06,465][98493] Updated weights for policy 0, policy_version 710019 (0.0006)
+[2023-07-06 14:20:07,135][98493] Updated weights for policy 0, policy_version 710084 (0.0007)
+[2023-07-06 14:20:07,682][98493] Updated weights for policy 0, policy_version 710148 (0.0007)
+[2023-07-06 14:20:08,132][98493] Updated weights for policy 0, policy_version 710203 (0.0007)
+[2023-07-06 14:20:08,809][98449] Signal inference workers to stop experience collection... (36650 times)
+[2023-07-06 14:20:08,856][98493] InferenceWorker_p0-w0: stopping experience collection (36650 times)
+[2023-07-06 14:20:08,905][98449] Signal inference workers to resume experience collection... (36650 times)
+[2023-07-06 14:20:08,906][98493] InferenceWorker_p0-w0: resuming experience collection (36650 times)
+[2023-07-06 14:20:08,932][98493] Updated weights for policy 0, policy_version 710257 (0.0007)
+[2023-07-06 14:20:09,764][98243] Fps is (10 sec: 104860.8, 60 sec: 112503.5, 300 sec: 111966.7). Total num frames: 1454637056. Throughput: 0: 27875.5. Samples: 363670016. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:20:11,471][98493] Updated weights for policy 0, policy_version 710309 (0.0007)
+[2023-07-06 14:20:11,945][98493] Updated weights for policy 0, policy_version 710353 (0.0008)
+[2023-07-06 14:20:12,510][98493] Updated weights for policy 0, policy_version 710419 (0.0007)
+[2023-07-06 14:20:12,957][98493] Updated weights for policy 0, policy_version 710465 (0.0007)
+[2023-07-06 14:20:13,376][98493] Updated weights for policy 0, policy_version 710521 (0.0006)
+[2023-07-06 14:20:14,764][98243] Fps is (10 sec: 104855.6, 60 sec: 111410.8, 300 sec: 111744.3). Total num frames: 1455161344. Throughput: 0: 27784.4. Samples: 363834880. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:20:16,406][98493] Updated weights for policy 0, policy_version 710568 (0.0007)
+[2023-07-06 14:20:17,012][98493] Updated weights for policy 0, policy_version 710640 (0.0007)
+[2023-07-06 14:20:17,556][98493] Updated weights for policy 0, policy_version 710704 (0.0007)
+[2023-07-06 14:20:18,161][98493] Updated weights for policy 0, policy_version 710768 (0.0007)
+[2023-07-06 14:20:19,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1455685632. Throughput: 0: 27921.0. Samples: 364003840. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:20:21,088][98493] Updated weights for policy 0, policy_version 710822 (0.0006)
+[2023-07-06 14:20:21,713][98493] Updated weights for policy 0, policy_version 710896 (0.0008)
+[2023-07-06 14:20:22,360][98493] Updated weights for policy 0, policy_version 710970 (0.0007)
+[2023-07-06 14:20:22,970][98493] Updated weights for policy 0, policy_version 711024 (0.0007)
+[2023-07-06 14:20:24,764][98243] Fps is (10 sec: 104859.7, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 1456209920. Throughput: 0: 27545.7. Samples: 364078592. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:20:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000711040_1456209920.pth...
+[2023-07-06 14:20:24,808][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000698016_1429536768.pth
+[2023-07-06 14:20:26,105][98493] Updated weights for policy 0, policy_version 711088 (0.0007)
+[2023-07-06 14:20:26,687][98449] Signal inference workers to stop experience collection... (36700 times)
+[2023-07-06 14:20:26,706][98493] Updated weights for policy 0, policy_version 711155 (0.0007)
+[2023-07-06 14:20:26,715][98493] InferenceWorker_p0-w0: stopping experience collection (36700 times)
+[2023-07-06 14:20:26,783][98449] Signal inference workers to resume experience collection... (36700 times)
+[2023-07-06 14:20:26,783][98493] InferenceWorker_p0-w0: resuming experience collection (36700 times)
+[2023-07-06 14:20:27,145][98493] Updated weights for policy 0, policy_version 711204 (0.0006)
+[2023-07-06 14:20:27,632][98493] Updated weights for policy 0, policy_version 711252 (0.0007)
+[2023-07-06 14:20:27,940][98493] Updated weights for policy 0, policy_version 711292 (0.0007)
+[2023-07-06 14:20:29,764][98243] Fps is (10 sec: 104856.3, 60 sec: 108680.2, 300 sec: 111522.3). Total num frames: 1456734208. Throughput: 0: 27579.7. Samples: 364246016. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:20:30,890][98493] Updated weights for policy 0, policy_version 711345 (0.0007)
+[2023-07-06 14:20:31,505][98493] Updated weights for policy 0, policy_version 711416 (0.0007)
+[2023-07-06 14:20:31,931][98493] Updated weights for policy 0, policy_version 711458 (0.0008)
+[2023-07-06 14:20:32,437][98493] Updated weights for policy 0, policy_version 711506 (0.0006)
+[2023-07-06 14:20:34,765][98243] Fps is (10 sec: 104853.3, 60 sec: 108133.6, 300 sec: 111411.0). Total num frames: 1457258496. Throughput: 0: 27693.2. Samples: 364418048. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:34,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:20:35,286][98493] Updated weights for policy 0, policy_version 711568 (0.0006)
+[2023-07-06 14:20:35,913][98493] Updated weights for policy 0, policy_version 711637 (0.0007)
+[2023-07-06 14:20:36,385][98493] Updated weights for policy 0, policy_version 711696 (0.0008)
+[2023-07-06 14:20:36,759][98493] Updated weights for policy 0, policy_version 711743 (0.0006)
+[2023-07-06 14:20:37,450][98493] Updated weights for policy 0, policy_version 711800 (0.0007)
+[2023-07-06 14:20:39,765][98243] Fps is (10 sec: 104852.1, 60 sec: 107041.2, 300 sec: 111411.0). Total num frames: 1457782784. Throughput: 0: 27397.3. Samples: 364492288. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:39,766][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:20:40,105][98493] Updated weights for policy 0, policy_version 711843 (0.0007)
+[2023-07-06 14:20:40,868][98493] Updated weights for policy 0, policy_version 711936 (0.0008)
+[2023-07-06 14:20:41,382][98493] Updated weights for policy 0, policy_version 711999 (0.0007)
+[2023-07-06 14:20:42,158][98449] Signal inference workers to stop experience collection... (36750 times)
+[2023-07-06 14:20:42,203][98493] InferenceWorker_p0-w0: stopping experience collection (36750 times)
+[2023-07-06 14:20:42,251][98449] Signal inference workers to resume experience collection... (36750 times)
+[2023-07-06 14:20:42,251][98493] InferenceWorker_p0-w0: resuming experience collection (36750 times)
+[2023-07-06 14:20:42,390][98493] Updated weights for policy 0, policy_version 712064 (0.0008)
+[2023-07-06 14:20:44,764][98243] Fps is (10 sec: 108139.6, 60 sec: 107588.4, 300 sec: 111078.0). Total num frames: 1458339840. Throughput: 0: 27625.5. Samples: 364661760. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:44,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:20:44,947][98493] Updated weights for policy 0, policy_version 712112 (0.0007)
+[2023-07-06 14:20:45,566][98493] Updated weights for policy 0, policy_version 712185 (0.0008)
+[2023-07-06 14:20:46,069][98493] Updated weights for policy 0, policy_version 712231 (0.0006)
+[2023-07-06 14:20:46,912][98493] Updated weights for policy 0, policy_version 712275 (0.0007)
+[2023-07-06 14:20:49,311][98493] Updated weights for policy 0, policy_version 712336 (0.0031)
+[2023-07-06 14:20:49,764][98243] Fps is (10 sec: 117973.4, 60 sec: 109226.8, 300 sec: 111189.1). Total num frames: 1458962432. Throughput: 0: 27636.7. Samples: 364829184. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:49,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:20:49,881][98493] Updated weights for policy 0, policy_version 712400 (0.0007)
+[2023-07-06 14:20:50,338][98493] Updated weights for policy 0, policy_version 712448 (0.0008)
+[2023-07-06 14:20:50,833][98493] Updated weights for policy 0, policy_version 712506 (0.0007)
+[2023-07-06 14:20:52,026][98493] Updated weights for policy 0, policy_version 712569 (0.0007)
+[2023-07-06 14:20:53,984][98493] Updated weights for policy 0, policy_version 712616 (0.0022)
+[2023-07-06 14:20:54,343][98493] Updated weights for policy 0, policy_version 712647 (0.0007)
+[2023-07-06 14:20:54,764][98243] Fps is (10 sec: 124515.2, 60 sec: 110318.6, 300 sec: 111411.1). Total num frames: 1459585024. Throughput: 0: 27568.3. Samples: 364910592. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:20:55,058][98493] Updated weights for policy 0, policy_version 712706 (0.0007)
+[2023-07-06 14:20:56,479][98493] Updated weights for policy 0, policy_version 712769 (0.0007)
+[2023-07-06 14:20:56,928][98493] Updated weights for policy 0, policy_version 712830 (0.0008)
+[2023-07-06 14:20:58,778][98493] Updated weights for policy 0, policy_version 712888 (0.0007)
+[2023-07-06 14:20:59,458][98493] Updated weights for policy 0, policy_version 712953 (0.0007)
+[2023-07-06 14:20:59,764][98243] Fps is (10 sec: 117964.1, 60 sec: 109227.3, 300 sec: 111189.0). Total num frames: 1460142080. Throughput: 0: 27670.9. Samples: 365080064. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:20:59,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:21:00,138][98493] Updated weights for policy 0, policy_version 713019 (0.0007)
+[2023-07-06 14:21:01,270][98449] Signal inference workers to stop experience collection... (36800 times)
+[2023-07-06 14:21:01,296][98493] InferenceWorker_p0-w0: stopping experience collection (36800 times)
+[2023-07-06 14:21:01,360][98449] Signal inference workers to resume experience collection... (36800 times)
+[2023-07-06 14:21:01,360][98493] InferenceWorker_p0-w0: resuming experience collection (36800 times)
+[2023-07-06 14:21:01,600][98493] Updated weights for policy 0, policy_version 713059 (0.0007)
+[2023-07-06 14:21:03,244][98493] Updated weights for policy 0, policy_version 713107 (0.0006)
+[2023-07-06 14:21:04,012][98493] Updated weights for policy 0, policy_version 713168 (0.0007)
+[2023-07-06 14:21:04,544][98493] Updated weights for policy 0, policy_version 713232 (0.0009)
+[2023-07-06 14:21:04,764][98243] Fps is (10 sec: 114690.2, 60 sec: 110319.0, 300 sec: 111300.2). Total num frames: 1460731904. Throughput: 0: 27534.2. Samples: 365242880. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:21:04,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:21:04,945][98493] Updated weights for policy 0, policy_version 713280 (0.0007)
+[2023-07-06 14:21:06,339][98493] Updated weights for policy 0, policy_version 713337 (0.0012)
+[2023-07-06 14:21:08,180][98493] Updated weights for policy 0, policy_version 713401 (0.0008)
+[2023-07-06 14:21:09,003][98493] Updated weights for policy 0, policy_version 713472 (0.0007)
+[2023-07-06 14:21:09,417][98493] Updated weights for policy 0, policy_version 713520 (0.0006)
+[2023-07-06 14:21:09,764][98243] Fps is (10 sec: 117964.2, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 1461321728. Throughput: 0: 27864.2. Samples: 365332480. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:21:09,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 14:21:11,077][98493] Updated weights for policy 0, policy_version 713576 (0.0008)
+[2023-07-06 14:21:12,514][98493] Updated weights for policy 0, policy_version 713625 (0.0007)
+[2023-07-06 14:21:13,134][98493] Updated weights for policy 0, policy_version 713669 (0.0006)
+[2023-07-06 14:21:13,750][98493] Updated weights for policy 0, policy_version 713744 (0.0008)
+[2023-07-06 14:21:14,184][98493] Updated weights for policy 0, policy_version 713792 (0.0007)
+[2023-07-06 14:21:14,764][98243] Fps is (10 sec: 111411.3, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 1461846016. Throughput: 0: 27773.2. Samples: 365495808. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:21:14,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:21:15,858][98493] Updated weights for policy 0, policy_version 713852 (0.0008)
+[2023-07-06 14:21:17,488][98493] Updated weights for policy 0, policy_version 713891 (0.0008)
+[2023-07-06 14:21:17,881][98493] Updated weights for policy 0, policy_version 713936 (0.0007)
+[2023-07-06 14:21:18,334][98449] Signal inference workers to stop experience collection... (36850 times)
+[2023-07-06 14:21:18,372][98493] InferenceWorker_p0-w0: stopping experience collection (36850 times)
+[2023-07-06 14:21:18,438][98449] Signal inference workers to resume experience collection... (36850 times)
+[2023-07-06 14:21:18,439][98493] InferenceWorker_p0-w0: resuming experience collection (36850 times)
+[2023-07-06 14:21:18,532][98493] Updated weights for policy 0, policy_version 714009 (0.0008)
+[2023-07-06 14:21:19,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1462370304. Throughput: 0: 27682.4. Samples: 365663744. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:21:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:21:20,227][98493] Updated weights for policy 0, policy_version 714053 (0.0007)
+[2023-07-06 14:21:20,642][98493] Updated weights for policy 0, policy_version 714110 (0.0006)
+[2023-07-06 14:21:22,212][98493] Updated weights for policy 0, policy_version 714161 (0.0006)
+[2023-07-06 14:21:22,805][98493] Updated weights for policy 0, policy_version 714216 (0.0007)
+[2023-07-06 14:21:23,271][98493] Updated weights for policy 0, policy_version 714260 (0.0007)
+[2023-07-06 14:21:24,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 1462894592. Throughput: 0: 27910.1. Samples: 365748224. Policy #0 lag: (min: 111.0, avg: 176.3, max: 300.0)
+[2023-07-06 14:21:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:21:24,965][98493] Updated weights for policy 0, policy_version 714307 (0.0007)
+[2023-07-06 14:21:25,460][98493] Updated weights for policy 0, policy_version 714368 (0.0008)
+[2023-07-06 14:21:27,061][98493] Updated weights for policy 0, policy_version 714428 (0.0006)
+[2023-07-06 14:21:27,692][98493] Updated weights for policy 0, policy_version 714493 (0.0007)
+[2023-07-06 14:21:28,293][98493] Updated weights for policy 0, policy_version 714554 (0.0007)
+[2023-07-06 14:21:29,764][98243] Fps is (10 sec: 104856.3, 60 sec: 111411.2, 300 sec: 111077.9). Total num frames: 1463418880. Throughput: 0: 27693.4. Samples: 365907968. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:29,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:21:30,225][98493] Updated weights for policy 0, policy_version 714608 (0.0007)
+[2023-07-06 14:21:31,406][98493] Updated weights for policy 0, policy_version 714649 (0.0008)
+[2023-07-06 14:21:31,705][98493] Updated weights for policy 0, policy_version 714684 (0.0006)
+[2023-07-06 14:21:32,316][98493] Updated weights for policy 0, policy_version 714737 (0.0007)
+[2023-07-06 14:21:32,822][98493] Updated weights for policy 0, policy_version 714784 (0.0007)
+[2023-07-06 14:21:33,084][98493] Updated weights for policy 0, policy_version 714814 (0.0007)
+[2023-07-06 14:21:34,764][98243] Fps is (10 sec: 111411.0, 60 sec: 112504.1, 300 sec: 111300.2). Total num frames: 1464008704. Throughput: 0: 27830.0. Samples: 366081536. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:34,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:21:34,941][98493] Updated weights for policy 0, policy_version 714874 (0.0007)
+[2023-07-06 14:21:36,363][98493] Updated weights for policy 0, policy_version 714937 (0.0007)
+[2023-07-06 14:21:36,849][98493] Updated weights for policy 0, policy_version 714992 (0.0007)
+[2023-07-06 14:21:37,566][98449] Signal inference workers to stop experience collection... (36900 times)
+[2023-07-06 14:21:37,587][98493] InferenceWorker_p0-w0: stopping experience collection (36900 times)
+[2023-07-06 14:21:37,661][98449] Signal inference workers to resume experience collection... (36900 times)
+[2023-07-06 14:21:37,661][98493] InferenceWorker_p0-w0: resuming experience collection (36900 times)
+[2023-07-06 14:21:37,876][98493] Updated weights for policy 0, policy_version 715045 (0.0007)
+[2023-07-06 14:21:38,899][98493] Updated weights for policy 0, policy_version 715075 (0.0006)
+[2023-07-06 14:21:39,764][98243] Fps is (10 sec: 117966.4, 60 sec: 113597.0, 300 sec: 111522.3). Total num frames: 1464598528. Throughput: 0: 27830.2. Samples: 366162944. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:39,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:21:40,598][98493] Updated weights for policy 0, policy_version 715139 (0.0007)
+[2023-07-06 14:21:41,043][98493] Updated weights for policy 0, policy_version 715194 (0.0007)
+[2023-07-06 14:21:41,590][98493] Updated weights for policy 0, policy_version 715240 (0.0007)
+[2023-07-06 14:21:42,587][98493] Updated weights for policy 0, policy_version 715300 (0.0007)
+[2023-07-06 14:21:43,832][98493] Updated weights for policy 0, policy_version 715351 (0.0006)
+[2023-07-06 14:21:44,764][98243] Fps is (10 sec: 111412.3, 60 sec: 113049.5, 300 sec: 111522.3). Total num frames: 1465122816. Throughput: 0: 27830.0. Samples: 366332416. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:44,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:21:45,255][98493] Updated weights for policy 0, policy_version 715395 (0.0007)
+[2023-07-06 14:21:46,247][98493] Updated weights for policy 0, policy_version 715459 (0.0007)
+[2023-07-06 14:21:46,693][98493] Updated weights for policy 0, policy_version 715514 (0.0007)
+[2023-07-06 14:21:47,437][98493] Updated weights for policy 0, policy_version 715579 (0.0007)
+[2023-07-06 14:21:48,677][98493] Updated weights for policy 0, policy_version 715640 (0.0008)
+[2023-07-06 14:21:49,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1465647104. Throughput: 0: 27898.3. Samples: 366498304. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:21:50,452][98493] Updated weights for policy 0, policy_version 715696 (0.0006)
+[2023-07-06 14:21:51,466][98493] Updated weights for policy 0, policy_version 715751 (0.0008)
+[2023-07-06 14:21:52,034][98493] Updated weights for policy 0, policy_version 715812 (0.0008)
+[2023-07-06 14:21:52,979][98493] Updated weights for policy 0, policy_version 715862 (0.0007)
+[2023-07-06 14:21:53,296][98493] Updated weights for policy 0, policy_version 715904 (0.0007)
+[2023-07-06 14:21:54,764][98243] Fps is (10 sec: 104857.1, 60 sec: 109773.1, 300 sec: 111411.2). Total num frames: 1466171392. Throughput: 0: 27716.3. Samples: 366579712. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:21:55,071][98493] Updated weights for policy 0, policy_version 715952 (0.0007)
+[2023-07-06 14:21:56,233][98493] Updated weights for policy 0, policy_version 716005 (0.0007)
+[2023-07-06 14:21:56,477][98449] Signal inference workers to stop experience collection... (36950 times)
+[2023-07-06 14:21:56,515][98493] InferenceWorker_p0-w0: stopping experience collection (36950 times)
+[2023-07-06 14:21:56,572][98449] Signal inference workers to resume experience collection... (36950 times)
+[2023-07-06 14:21:56,572][98493] InferenceWorker_p0-w0: resuming experience collection (36950 times)
+[2023-07-06 14:21:56,795][98493] Updated weights for policy 0, policy_version 716071 (0.0007)
+[2023-07-06 14:21:57,512][98493] Updated weights for policy 0, policy_version 716112 (0.0006)
+[2023-07-06 14:21:59,442][98493] Updated weights for policy 0, policy_version 716164 (0.0007)
+[2023-07-06 14:21:59,764][98243] Fps is (10 sec: 111412.6, 60 sec: 110319.0, 300 sec: 111300.2). Total num frames: 1466761216. Throughput: 0: 27875.6. Samples: 366750208. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:21:59,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:22:00,626][98493] Updated weights for policy 0, policy_version 716225 (0.0007)
+[2023-07-06 14:22:01,200][98493] Updated weights for policy 0, policy_version 716296 (0.0008)
+[2023-07-06 14:22:01,590][98493] Updated weights for policy 0, policy_version 716344 (0.0007)
+[2023-07-06 14:22:02,376][98493] Updated weights for policy 0, policy_version 716371 (0.0006)
+[2023-07-06 14:22:02,690][98493] Updated weights for policy 0, policy_version 716410 (0.0007)
+[2023-07-06 14:22:04,375][98493] Updated weights for policy 0, policy_version 716452 (0.0007)
+[2023-07-06 14:22:04,764][98243] Fps is (10 sec: 117965.2, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 1467351040. Throughput: 0: 27898.3. Samples: 366919168. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:04,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:22:05,454][98493] Updated weights for policy 0, policy_version 716512 (0.0006)
+[2023-07-06 14:22:05,976][98493] Updated weights for policy 0, policy_version 716564 (0.0007)
+[2023-07-06 14:22:06,991][98493] Updated weights for policy 0, policy_version 716640 (0.0006)
+[2023-07-06 14:22:07,264][98493] Updated weights for policy 0, policy_version 716672 (0.0006)
+[2023-07-06 14:22:09,125][98493] Updated weights for policy 0, policy_version 716733 (0.0006)
+[2023-07-06 14:22:09,764][98243] Fps is (10 sec: 111410.2, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1467875328. Throughput: 0: 27818.7. Samples: 367000064. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:09,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:22:10,500][98493] Updated weights for policy 0, policy_version 716800 (0.0007)
+[2023-07-06 14:22:11,019][98493] Updated weights for policy 0, policy_version 716858 (0.0008)
+[2023-07-06 14:22:11,819][98493] Updated weights for policy 0, policy_version 716912 (0.0011)
+[2023-07-06 14:22:13,595][98493] Updated weights for policy 0, policy_version 716976 (0.0007)
+[2023-07-06 14:22:14,764][98243] Fps is (10 sec: 104856.7, 60 sec: 109226.5, 300 sec: 111077.9). Total num frames: 1468399616. Throughput: 0: 28023.5. Samples: 367169024. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:22:15,028][98449] Signal inference workers to stop experience collection... (37000 times)
+[2023-07-06 14:22:15,060][98493] Updated weights for policy 0, policy_version 717030 (0.0007)
+[2023-07-06 14:22:15,069][98493] InferenceWorker_p0-w0: stopping experience collection (37000 times)
+[2023-07-06 14:22:15,107][98449] Signal inference workers to resume experience collection... (37000 times)
+[2023-07-06 14:22:15,108][98493] InferenceWorker_p0-w0: resuming experience collection (37000 times)
+[2023-07-06 14:22:15,507][98493] Updated weights for policy 0, policy_version 717088 (0.0007)
+[2023-07-06 14:22:16,073][98493] Updated weights for policy 0, policy_version 717125 (0.0006)
+[2023-07-06 14:22:16,528][98493] Updated weights for policy 0, policy_version 717184 (0.0007)
+[2023-07-06 14:22:19,491][98493] Updated weights for policy 0, policy_version 717249 (0.0006)
+[2023-07-06 14:22:19,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110319.0, 300 sec: 111300.2). Total num frames: 1468989440. Throughput: 0: 27966.7. Samples: 367340032. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:19,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:22:19,954][98493] Updated weights for policy 0, policy_version 717301 (0.0007)
+[2023-07-06 14:22:20,546][98493] Updated weights for policy 0, policy_version 717372 (0.0007)
+[2023-07-06 14:22:20,991][98493] Updated weights for policy 0, policy_version 717410 (0.0008)
+[2023-07-06 14:22:22,678][98493] Updated weights for policy 0, policy_version 717472 (0.0007)
+[2023-07-06 14:22:24,130][98493] Updated weights for policy 0, policy_version 717505 (0.0006)
+[2023-07-06 14:22:24,568][98493] Updated weights for policy 0, policy_version 717561 (0.0008)
+[2023-07-06 14:22:24,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1469579264. Throughput: 0: 27943.8. Samples: 367420416. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:22:24,961][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000717600_1469644800.pth...
+[2023-07-06 14:22:24,975][98493] Updated weights for policy 0, policy_version 717600 (0.0009)
+[2023-07-06 14:22:25,036][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000704576_1442971648.pth
+[2023-07-06 14:22:25,039][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000717600_1469644800.pth
+[2023-07-06 14:22:25,596][98493] Updated weights for policy 0, policy_version 717664 (0.0008)
+[2023-07-06 14:22:26,997][98493] Updated weights for policy 0, policy_version 717699 (0.0009)
+[2023-07-06 14:22:27,485][98493] Updated weights for policy 0, policy_version 717760 (0.0010)
+[2023-07-06 14:22:29,256][98493] Updated weights for policy 0, policy_version 717808 (0.0008)
+[2023-07-06 14:22:29,764][98243] Fps is (10 sec: 117964.2, 60 sec: 112503.7, 300 sec: 111744.4). Total num frames: 1470169088. Throughput: 0: 28000.7. Samples: 367592448. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:22:29,769][98493] Updated weights for policy 0, policy_version 717858 (0.0007)
+[2023-07-06 14:22:30,206][98493] Updated weights for policy 0, policy_version 717908 (0.0006)
+[2023-07-06 14:22:31,766][98449] Signal inference workers to stop experience collection... (37050 times)
+[2023-07-06 14:22:31,787][98493] Updated weights for policy 0, policy_version 717955 (0.0016)
+[2023-07-06 14:22:31,796][98493] InferenceWorker_p0-w0: stopping experience collection (37050 times)
+[2023-07-06 14:22:31,853][98449] Signal inference workers to resume experience collection... (37050 times)
+[2023-07-06 14:22:31,853][98493] InferenceWorker_p0-w0: resuming experience collection (37050 times)
+[2023-07-06 14:22:32,224][98493] Updated weights for policy 0, policy_version 718010 (0.0007)
+[2023-07-06 14:22:34,006][98493] Updated weights for policy 0, policy_version 718072 (0.0007)
+[2023-07-06 14:22:34,410][98493] Updated weights for policy 0, policy_version 718115 (0.0007)
+[2023-07-06 14:22:34,764][98243] Fps is (10 sec: 117965.8, 60 sec: 112503.6, 300 sec: 111633.4). Total num frames: 1470758912. Throughput: 0: 27875.6. Samples: 367752704. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:34,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:22:34,975][98493] Updated weights for policy 0, policy_version 718180 (0.0006)
+[2023-07-06 14:22:36,522][98493] Updated weights for policy 0, policy_version 718224 (0.0007)
+[2023-07-06 14:22:38,244][98493] Updated weights for policy 0, policy_version 718273 (0.0007)
+[2023-07-06 14:22:38,724][98493] Updated weights for policy 0, policy_version 718333 (0.0028)
+[2023-07-06 14:22:39,196][98493] Updated weights for policy 0, policy_version 718384 (0.0008)
+[2023-07-06 14:22:39,695][98493] Updated weights for policy 0, policy_version 718437 (0.0008)
+[2023-07-06 14:22:39,764][98243] Fps is (10 sec: 121242.4, 60 sec: 113049.7, 300 sec: 111633.4). Total num frames: 1471381504. Throughput: 0: 28034.9. Samples: 367841280. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:39,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:22:41,460][98493] Updated weights for policy 0, policy_version 718486 (0.0008)
+[2023-07-06 14:22:42,943][98493] Updated weights for policy 0, policy_version 718529 (0.0007)
+[2023-07-06 14:22:43,564][98493] Updated weights for policy 0, policy_version 718601 (0.0007)
+[2023-07-06 14:22:44,015][98493] Updated weights for policy 0, policy_version 718656 (0.0007)
+[2023-07-06 14:22:44,491][98493] Updated weights for policy 0, policy_version 718706 (0.0007)
+[2023-07-06 14:22:44,764][98243] Fps is (10 sec: 117963.6, 60 sec: 113595.5, 300 sec: 111633.3). Total num frames: 1471938560. Throughput: 0: 27966.5. Samples: 368008704. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:22:45,994][98493] Updated weights for policy 0, policy_version 718739 (0.0007)
+[2023-07-06 14:22:46,298][98493] Updated weights for policy 0, policy_version 718779 (0.0006)
+[2023-07-06 14:22:47,801][98493] Updated weights for policy 0, policy_version 718816 (0.0006)
+[2023-07-06 14:22:48,511][98493] Updated weights for policy 0, policy_version 718880 (0.0008)
+[2023-07-06 14:22:48,566][98449] Signal inference workers to stop experience collection... (37100 times)
+[2023-07-06 14:22:48,595][98493] InferenceWorker_p0-w0: stopping experience collection (37100 times)
+[2023-07-06 14:22:48,649][98449] Signal inference workers to resume experience collection... (37100 times)
+[2023-07-06 14:22:48,650][98493] InferenceWorker_p0-w0: resuming experience collection (37100 times)
+[2023-07-06 14:22:49,036][98493] Updated weights for policy 0, policy_version 718931 (0.0007)
+[2023-07-06 14:22:49,403][98493] Updated weights for policy 0, policy_version 718976 (0.0006)
+[2023-07-06 14:22:49,764][98243] Fps is (10 sec: 108133.4, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 1472462848. Throughput: 0: 27886.9. Samples: 368174080. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:49,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:22:50,764][98493] Updated weights for policy 0, policy_version 719016 (0.0006)
+[2023-07-06 14:22:52,281][98493] Updated weights for policy 0, policy_version 719072 (0.0007)
+[2023-07-06 14:22:53,297][98493] Updated weights for policy 0, policy_version 719120 (0.0007)
+[2023-07-06 14:22:53,832][98493] Updated weights for policy 0, policy_version 719172 (0.0008)
+[2023-07-06 14:22:54,272][98493] Updated weights for policy 0, policy_version 719225 (0.0007)
+[2023-07-06 14:22:54,764][98243] Fps is (10 sec: 104858.2, 60 sec: 113595.7, 300 sec: 111411.2). Total num frames: 1472987136. Throughput: 0: 28046.2. Samples: 368262144. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:54,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:22:55,453][98493] Updated weights for policy 0, policy_version 719289 (0.0006)
+[2023-07-06 14:22:56,777][98493] Updated weights for policy 0, policy_version 719332 (0.0006)
+[2023-07-06 14:22:58,208][98493] Updated weights for policy 0, policy_version 719395 (0.0007)
+[2023-07-06 14:22:58,734][98493] Updated weights for policy 0, policy_version 719456 (0.0027)
+[2023-07-06 14:22:59,764][98243] Fps is (10 sec: 104857.3, 60 sec: 112503.2, 300 sec: 111189.0). Total num frames: 1473511424. Throughput: 0: 27978.0. Samples: 368428032. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:22:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:23:00,033][98493] Updated weights for policy 0, policy_version 719525 (0.0008)
+[2023-07-06 14:23:01,542][98493] Updated weights for policy 0, policy_version 719587 (0.0007)
+[2023-07-06 14:23:02,830][98493] Updated weights for policy 0, policy_version 719623 (0.0007)
+[2023-07-06 14:23:03,411][98493] Updated weights for policy 0, policy_version 719688 (0.0007)
+[2023-07-06 14:23:03,824][98493] Updated weights for policy 0, policy_version 719739 (0.0007)
+[2023-07-06 14:23:04,639][98493] Updated weights for policy 0, policy_version 719801 (0.0007)
+[2023-07-06 14:23:04,764][98243] Fps is (10 sec: 117965.2, 60 sec: 113595.7, 300 sec: 111522.4). Total num frames: 1474166784. Throughput: 0: 27852.8. Samples: 368593408. Policy #0 lag: (min: 4.0, avg: 118.6, max: 260.0)
+[2023-07-06 14:23:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:23:06,320][98493] Updated weights for policy 0, policy_version 719868 (0.0007)
+[2023-07-06 14:23:07,368][98449] Signal inference workers to stop experience collection... (37150 times)
+[2023-07-06 14:23:07,392][98493] InferenceWorker_p0-w0: stopping experience collection (37150 times)
+[2023-07-06 14:23:07,462][98449] Signal inference workers to resume experience collection... (37150 times)
+[2023-07-06 14:23:07,462][98493] InferenceWorker_p0-w0: resuming experience collection (37150 times)
+[2023-07-06 14:23:07,689][98493] Updated weights for policy 0, policy_version 719907 (0.0007)
+[2023-07-06 14:23:08,156][98493] Updated weights for policy 0, policy_version 719962 (0.0008)
+[2023-07-06 14:23:09,167][98493] Updated weights for policy 0, policy_version 720024 (0.0007)
+[2023-07-06 14:23:09,764][98243] Fps is (10 sec: 117965.3, 60 sec: 113595.7, 300 sec: 111411.2). Total num frames: 1474691072. Throughput: 0: 28012.1. Samples: 368680960. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:09,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:23:10,659][98493] Updated weights for policy 0, policy_version 720067 (0.0007)
+[2023-07-06 14:23:11,153][98493] Updated weights for policy 0, policy_version 720128 (0.0008)
+[2023-07-06 14:23:12,380][98493] Updated weights for policy 0, policy_version 720185 (0.0034)
+[2023-07-06 14:23:12,799][98493] Updated weights for policy 0, policy_version 720230 (0.0008)
+[2023-07-06 14:23:13,922][98493] Updated weights for policy 0, policy_version 720294 (0.0007)
+[2023-07-06 14:23:14,764][98243] Fps is (10 sec: 104857.3, 60 sec: 113595.8, 300 sec: 111300.1). Total num frames: 1475215360. Throughput: 0: 27875.6. Samples: 368846848. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:14,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:23:15,879][98493] Updated weights for policy 0, policy_version 720358 (0.0007)
+[2023-07-06 14:23:16,549][98493] Updated weights for policy 0, policy_version 720400 (0.0007)
+[2023-07-06 14:23:16,947][98493] Updated weights for policy 0, policy_version 720445 (0.0008)
+[2023-07-06 14:23:17,533][98493] Updated weights for policy 0, policy_version 720505 (0.0008)
+[2023-07-06 14:23:18,626][98493] Updated weights for policy 0, policy_version 720545 (0.0007)
+[2023-07-06 14:23:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 112503.4, 300 sec: 111078.0). Total num frames: 1475739648. Throughput: 0: 28171.4. Samples: 369020416. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:19,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:23:20,279][98493] Updated weights for policy 0, policy_version 720608 (0.0007)
+[2023-07-06 14:23:20,989][98493] Updated weights for policy 0, policy_version 720656 (0.0007)
+[2023-07-06 14:23:21,793][98493] Updated weights for policy 0, policy_version 720720 (0.0007)
+[2023-07-06 14:23:22,171][98493] Updated weights for policy 0, policy_version 720764 (0.0007)
+[2023-07-06 14:23:23,254][98493] Updated weights for policy 0, policy_version 720800 (0.0006)
+[2023-07-06 14:23:24,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.5, 300 sec: 111078.0). Total num frames: 1476263936. Throughput: 0: 28034.9. Samples: 369102848. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:24,764][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:23:24,910][98493] Updated weights for policy 0, policy_version 720864 (0.0007)
+[2023-07-06 14:23:25,431][98449] Signal inference workers to stop experience collection... (37200 times)
+[2023-07-06 14:23:25,451][98493] InferenceWorker_p0-w0: stopping experience collection (37200 times)
+[2023-07-06 14:23:25,524][98449] Signal inference workers to resume experience collection... (37200 times)
+[2023-07-06 14:23:25,524][98493] InferenceWorker_p0-w0: resuming experience collection (37200 times)
+[2023-07-06 14:23:25,619][98493] Updated weights for policy 0, policy_version 720920 (0.0006)
+[2023-07-06 14:23:26,659][98493] Updated weights for policy 0, policy_version 720962 (0.0007)
+[2023-07-06 14:23:27,767][98493] Updated weights for policy 0, policy_version 721040 (0.0007)
+[2023-07-06 14:23:29,359][98493] Updated weights for policy 0, policy_version 721091 (0.0006)
+[2023-07-06 14:23:29,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111957.4, 300 sec: 111411.3). Total num frames: 1476886528. Throughput: 0: 28012.1. Samples: 369269248. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:23:29,803][98493] Updated weights for policy 0, policy_version 721147 (0.0008)
+[2023-07-06 14:23:30,517][98493] Updated weights for policy 0, policy_version 721186 (0.0006)
+[2023-07-06 14:23:31,747][98493] Updated weights for policy 0, policy_version 721253 (0.0007)
+[2023-07-06 14:23:32,792][98493] Updated weights for policy 0, policy_version 721317 (0.0007)
+[2023-07-06 14:23:34,072][98493] Updated weights for policy 0, policy_version 721361 (0.0007)
+[2023-07-06 14:23:34,764][98243] Fps is (10 sec: 117963.4, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1477443584. Throughput: 0: 28091.7. Samples: 369438208. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:34,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:23:34,987][98493] Updated weights for policy 0, policy_version 721413 (0.0007)
+[2023-07-06 14:23:35,420][98493] Updated weights for policy 0, policy_version 721467 (0.0007)
+[2023-07-06 14:23:36,419][98493] Updated weights for policy 0, policy_version 721509 (0.0007)
+[2023-07-06 14:23:36,626][98493] Updated weights for policy 0, policy_version 721536 (0.0007)
+[2023-07-06 14:23:37,456][98493] Updated weights for policy 0, policy_version 721596 (0.0007)
+[2023-07-06 14:23:38,972][98493] Updated weights for policy 0, policy_version 721660 (0.0007)
+[2023-07-06 14:23:39,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110318.8, 300 sec: 111633.4). Total num frames: 1478000640. Throughput: 0: 28000.7. Samples: 369522176. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:23:40,082][98493] Updated weights for policy 0, policy_version 721728 (0.0007)
+[2023-07-06 14:23:41,349][98493] Updated weights for policy 0, policy_version 721788 (0.0007)
+[2023-07-06 14:23:42,193][98493] Updated weights for policy 0, policy_version 721855 (0.0007)
+[2023-07-06 14:23:43,645][98493] Updated weights for policy 0, policy_version 721904 (0.0007)
+[2023-07-06 14:23:44,751][98449] Signal inference workers to stop experience collection... (37250 times)
+[2023-07-06 14:23:44,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110319.1, 300 sec: 111744.4). Total num frames: 1478557696. Throughput: 0: 28023.5. Samples: 369689088. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:23:44,766][98493] Updated weights for policy 0, policy_version 721956 (0.0007)
+[2023-07-06 14:23:44,782][98493] InferenceWorker_p0-w0: stopping experience collection (37250 times)
+[2023-07-06 14:23:44,850][98449] Signal inference workers to resume experience collection... (37250 times)
+[2023-07-06 14:23:44,850][98493] InferenceWorker_p0-w0: resuming experience collection (37250 times)
+[2023-07-06 14:23:45,526][98493] Updated weights for policy 0, policy_version 722003 (0.0006)
+[2023-07-06 14:23:46,506][98493] Updated weights for policy 0, policy_version 722053 (0.0006)
+[2023-07-06 14:23:48,088][98493] Updated weights for policy 0, policy_version 722118 (0.0007)
+[2023-07-06 14:23:48,555][98493] Updated weights for policy 0, policy_version 722176 (0.0006)
+[2023-07-06 14:23:49,586][98493] Updated weights for policy 0, policy_version 722231 (0.0007)
+[2023-07-06 14:23:49,765][98243] Fps is (10 sec: 114684.4, 60 sec: 111410.7, 300 sec: 111744.3). Total num frames: 1479147520. Throughput: 0: 28068.8. Samples: 369856512. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:49,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:23:50,427][98493] Updated weights for policy 0, policy_version 722277 (0.0007)
+[2023-07-06 14:23:51,365][98493] Updated weights for policy 0, policy_version 722322 (0.0007)
+[2023-07-06 14:23:51,724][98493] Updated weights for policy 0, policy_version 722368 (0.0006)
+[2023-07-06 14:23:52,902][98493] Updated weights for policy 0, policy_version 722416 (0.0007)
+[2023-07-06 14:23:54,140][98493] Updated weights for policy 0, policy_version 722480 (0.0008)
+[2023-07-06 14:23:54,764][98243] Fps is (10 sec: 111409.5, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1479671808. Throughput: 0: 28012.0. Samples: 369941504. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:23:55,120][98493] Updated weights for policy 0, policy_version 722535 (0.0007)
+[2023-07-06 14:23:55,879][98493] Updated weights for policy 0, policy_version 722564 (0.0007)
+[2023-07-06 14:23:56,357][98493] Updated weights for policy 0, policy_version 722624 (0.0007)
+[2023-07-06 14:23:57,707][98493] Updated weights for policy 0, policy_version 722678 (0.0008)
+[2023-07-06 14:23:58,620][98493] Updated weights for policy 0, policy_version 722728 (0.0007)
+[2023-07-06 14:23:59,744][98493] Updated weights for policy 0, policy_version 722789 (0.0007)
+[2023-07-06 14:23:59,764][98243] Fps is (10 sec: 111414.9, 60 sec: 112503.6, 300 sec: 111744.7). Total num frames: 1480261632. Throughput: 0: 28034.9. Samples: 370108416. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:23:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:24:01,013][98493] Updated weights for policy 0, policy_version 722848 (0.0007)
+[2023-07-06 14:24:02,264][98493] Updated weights for policy 0, policy_version 722912 (0.0006)
+[2023-07-06 14:24:02,957][98493] Updated weights for policy 0, policy_version 722948 (0.0006)
+[2023-07-06 14:24:04,133][98493] Updated weights for policy 0, policy_version 723012 (0.0007)
+[2023-07-06 14:24:04,244][98449] Signal inference workers to stop experience collection... (37300 times)
+[2023-07-06 14:24:04,299][98493] InferenceWorker_p0-w0: stopping experience collection (37300 times)
+[2023-07-06 14:24:04,355][98449] Signal inference workers to resume experience collection... (37300 times)
+[2023-07-06 14:24:04,355][98493] InferenceWorker_p0-w0: resuming experience collection (37300 times)
+[2023-07-06 14:24:04,584][98493] Updated weights for policy 0, policy_version 723064 (0.0007)
+[2023-07-06 14:24:04,764][98243] Fps is (10 sec: 117966.9, 60 sec: 111411.3, 300 sec: 111744.5). Total num frames: 1480851456. Throughput: 0: 27887.0. Samples: 370275328. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:24:06,008][98493] Updated weights for policy 0, policy_version 723120 (0.0006)
+[2023-07-06 14:24:07,062][98493] Updated weights for policy 0, policy_version 723171 (0.0007)
+[2023-07-06 14:24:07,688][98493] Updated weights for policy 0, policy_version 723232 (0.0007)
+[2023-07-06 14:24:08,777][98493] Updated weights for policy 0, policy_version 723280 (0.0006)
+[2023-07-06 14:24:09,164][98493] Updated weights for policy 0, policy_version 723326 (0.0007)
+[2023-07-06 14:24:09,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1481375744. Throughput: 0: 27921.0. Samples: 370359296. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:09,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:24:10,930][98493] Updated weights for policy 0, policy_version 723387 (0.0027)
+[2023-07-06 14:24:11,709][98493] Updated weights for policy 0, policy_version 723430 (0.0007)
+[2023-07-06 14:24:12,370][98493] Updated weights for policy 0, policy_version 723491 (0.0007)
+[2023-07-06 14:24:13,457][98493] Updated weights for policy 0, policy_version 723536 (0.0007)
+[2023-07-06 14:24:13,843][98493] Updated weights for policy 0, policy_version 723579 (0.0007)
+[2023-07-06 14:24:14,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1481900032. Throughput: 0: 27989.3. Samples: 370528768. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:14,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:24:15,512][98493] Updated weights for policy 0, policy_version 723620 (0.0007)
+[2023-07-06 14:24:16,268][98493] Updated weights for policy 0, policy_version 723672 (0.0007)
+[2023-07-06 14:24:16,841][98493] Updated weights for policy 0, policy_version 723729 (0.0007)
+[2023-07-06 14:24:18,420][98493] Updated weights for policy 0, policy_version 723778 (0.0007)
+[2023-07-06 14:24:18,884][98493] Updated weights for policy 0, policy_version 723835 (0.0007)
+[2023-07-06 14:24:19,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.2, 300 sec: 111411.2). Total num frames: 1482424320. Throughput: 0: 27943.9. Samples: 370695680. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:24:20,311][98493] Updated weights for policy 0, policy_version 723878 (0.0007)
+[2023-07-06 14:24:20,679][98493] Updated weights for policy 0, policy_version 723908 (0.0014)
+[2023-07-06 14:24:21,154][98493] Updated weights for policy 0, policy_version 723968 (0.0007)
+[2023-07-06 14:24:21,764][98493] Updated weights for policy 0, policy_version 724025 (0.0007)
+[2023-07-06 14:24:23,170][98493] Updated weights for policy 0, policy_version 724065 (0.0007)
+[2023-07-06 14:24:23,174][98449] Signal inference workers to stop experience collection... (37350 times)
+[2023-07-06 14:24:23,201][98493] InferenceWorker_p0-w0: stopping experience collection (37350 times)
+[2023-07-06 14:24:23,259][98449] Signal inference workers to resume experience collection... (37350 times)
+[2023-07-06 14:24:23,259][98493] InferenceWorker_p0-w0: resuming experience collection (37350 times)
+[2023-07-06 14:24:24,693][98493] Updated weights for policy 0, policy_version 724098 (0.0010)
+[2023-07-06 14:24:24,764][98243] Fps is (10 sec: 108135.2, 60 sec: 111957.3, 300 sec: 111078.0). Total num frames: 1482981376. Throughput: 0: 27943.9. Samples: 370779648. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:24,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:24:24,899][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000724128_1483014144.pth...
+[2023-07-06 14:24:24,970][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000711040_1456209920.pth
+[2023-07-06 14:24:25,345][98493] Updated weights for policy 0, policy_version 724163 (0.0007)
+[2023-07-06 14:24:25,862][98493] Updated weights for policy 0, policy_version 724224 (0.0008)
+[2023-07-06 14:24:27,829][98493] Updated weights for policy 0, policy_version 724304 (0.0007)
+[2023-07-06 14:24:29,647][98493] Updated weights for policy 0, policy_version 724368 (0.0007)
+[2023-07-06 14:24:29,764][98243] Fps is (10 sec: 108135.4, 60 sec: 110319.1, 300 sec: 110966.9). Total num frames: 1483505664. Throughput: 0: 27898.4. Samples: 370944512. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:29,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:24:30,222][98493] Updated weights for policy 0, policy_version 724432 (0.0008)
+[2023-07-06 14:24:30,602][98493] Updated weights for policy 0, policy_version 724474 (0.0007)
+[2023-07-06 14:24:31,175][98493] Updated weights for policy 0, policy_version 724539 (0.0007)
+[2023-07-06 14:24:32,716][98493] Updated weights for policy 0, policy_version 724581 (0.0007)
+[2023-07-06 14:24:34,642][98493] Updated weights for policy 0, policy_version 724656 (0.0006)
+[2023-07-06 14:24:34,764][98243] Fps is (10 sec: 111410.5, 60 sec: 110865.1, 300 sec: 110966.9). Total num frames: 1484095488. Throughput: 0: 27921.3. Samples: 371112960. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:24:35,063][98493] Updated weights for policy 0, policy_version 724690 (0.0007)
+[2023-07-06 14:24:35,690][98493] Updated weights for policy 0, policy_version 724768 (0.0007)
+[2023-07-06 14:24:35,975][98493] Updated weights for policy 0, policy_version 724800 (0.0006)
+[2023-07-06 14:24:37,649][98493] Updated weights for policy 0, policy_version 724863 (0.0006)
+[2023-07-06 14:24:39,273][98493] Updated weights for policy 0, policy_version 724901 (0.0007)
+[2023-07-06 14:24:39,764][98243] Fps is (10 sec: 121240.1, 60 sec: 111957.3, 300 sec: 111300.1). Total num frames: 1484718080. Throughput: 0: 27818.7. Samples: 371193344. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:24:39,833][98493] Updated weights for policy 0, policy_version 724962 (0.0007)
+[2023-07-06 14:24:40,434][98493] Updated weights for policy 0, policy_version 725010 (0.0007)
+[2023-07-06 14:24:40,559][98449] Signal inference workers to stop experience collection... (37400 times)
+[2023-07-06 14:24:40,591][98493] InferenceWorker_p0-w0: stopping experience collection (37400 times)
+[2023-07-06 14:24:40,627][98449] Signal inference workers to resume experience collection... (37400 times)
+[2023-07-06 14:24:40,628][98493] InferenceWorker_p0-w0: resuming experience collection (37400 times)
+[2023-07-06 14:24:41,942][98493] Updated weights for policy 0, policy_version 725072 (0.0006)
+[2023-07-06 14:24:43,582][98493] Updated weights for policy 0, policy_version 725121 (0.0007)
+[2023-07-06 14:24:44,005][98493] Updated weights for policy 0, policy_version 725179 (0.0007)
+[2023-07-06 14:24:44,644][98493] Updated weights for policy 0, policy_version 725243 (0.0008)
+[2023-07-06 14:24:44,764][98243] Fps is (10 sec: 121241.9, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 1485307904. Throughput: 0: 27932.5. Samples: 371365376. Policy #0 lag: (min: 13.0, avg: 101.4, max: 269.0)
+[2023-07-06 14:24:44,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:24:45,465][98493] Updated weights for policy 0, policy_version 725291 (0.0007)
+[2023-07-06 14:24:46,674][98493] Updated weights for policy 0, policy_version 725344 (0.0007)
+[2023-07-06 14:24:48,280][98493] Updated weights for policy 0, policy_version 725392 (0.0007)
+[2023-07-06 14:24:48,981][98493] Updated weights for policy 0, policy_version 725450 (0.0007)
+[2023-07-06 14:24:49,389][98493] Updated weights for policy 0, policy_version 725500 (0.0007)
+[2023-07-06 14:24:49,764][98243] Fps is (10 sec: 111411.3, 60 sec: 111411.8, 300 sec: 111411.2). Total num frames: 1485832192. Throughput: 0: 27886.9. Samples: 371530240. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:24:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:24:50,150][98493] Updated weights for policy 0, policy_version 725561 (0.0007)
+[2023-07-06 14:24:51,439][98493] Updated weights for policy 0, policy_version 725616 (0.0008)
+[2023-07-06 14:24:53,126][98493] Updated weights for policy 0, policy_version 725656 (0.0007)
+[2023-07-06 14:24:53,700][98493] Updated weights for policy 0, policy_version 725697 (0.0006)
+[2023-07-06 14:24:54,117][98493] Updated weights for policy 0, policy_version 725751 (0.0007)
+[2023-07-06 14:24:54,650][98493] Updated weights for policy 0, policy_version 725797 (0.0006)
+[2023-07-06 14:24:54,764][98243] Fps is (10 sec: 114687.8, 60 sec: 113049.9, 300 sec: 111411.3). Total num frames: 1486454784. Throughput: 0: 27955.2. Samples: 371617280. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:24:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:24:55,720][98493] Updated weights for policy 0, policy_version 725848 (0.0007)
+[2023-07-06 14:24:57,405][98493] Updated weights for policy 0, policy_version 725889 (0.0006)
+[2023-07-06 14:24:57,823][98493] Updated weights for policy 0, policy_version 725943 (0.0007)
+[2023-07-06 14:24:58,552][98493] Updated weights for policy 0, policy_version 725989 (0.0006)
+[2023-07-06 14:24:59,451][98493] Updated weights for policy 0, policy_version 726040 (0.0007)
+[2023-07-06 14:24:59,764][98243] Fps is (10 sec: 117964.0, 60 sec: 112503.3, 300 sec: 111522.2). Total num frames: 1487011840. Throughput: 0: 27886.9. Samples: 371783680. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:24:59,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:25:00,301][98493] Updated weights for policy 0, policy_version 726096 (0.0007)
+[2023-07-06 14:25:00,360][98449] Signal inference workers to stop experience collection... (37450 times)
+[2023-07-06 14:25:00,396][98493] InferenceWorker_p0-w0: stopping experience collection (37450 times)
+[2023-07-06 14:25:00,458][98449] Signal inference workers to resume experience collection... (37450 times)
+[2023-07-06 14:25:00,458][98493] InferenceWorker_p0-w0: resuming experience collection (37450 times)
+[2023-07-06 14:25:02,327][98493] Updated weights for policy 0, policy_version 726169 (0.0007)
+[2023-07-06 14:25:02,874][98493] Updated weights for policy 0, policy_version 726209 (0.0006)
+[2023-07-06 14:25:03,340][98493] Updated weights for policy 0, policy_version 726268 (0.0007)
+[2023-07-06 14:25:04,341][98493] Updated weights for policy 0, policy_version 726330 (0.0007)
+[2023-07-06 14:25:04,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1487536128. Throughput: 0: 27875.6. Samples: 371950080. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:25:05,345][98493] Updated weights for policy 0, policy_version 726385 (0.0006)
+[2023-07-06 14:25:07,090][98493] Updated weights for policy 0, policy_version 726424 (0.0008)
+[2023-07-06 14:25:07,492][98493] Updated weights for policy 0, policy_version 726466 (0.0006)
+[2023-07-06 14:25:08,696][98493] Updated weights for policy 0, policy_version 726544 (0.0007)
+[2023-07-06 14:25:09,596][98493] Updated weights for policy 0, policy_version 726608 (0.0007)
+[2023-07-06 14:25:09,764][98243] Fps is (10 sec: 111412.5, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 1488125952. Throughput: 0: 27932.4. Samples: 372036608. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:09,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:25:09,958][98493] Updated weights for policy 0, policy_version 726652 (0.0007)
+[2023-07-06 14:25:11,993][98493] Updated weights for policy 0, policy_version 726704 (0.0007)
+[2023-07-06 14:25:12,248][98493] Updated weights for policy 0, policy_version 726727 (0.0006)
+[2023-07-06 14:25:13,177][98493] Updated weights for policy 0, policy_version 726785 (0.0007)
+[2023-07-06 14:25:13,597][98493] Updated weights for policy 0, policy_version 726842 (0.0008)
+[2023-07-06 14:25:14,359][98493] Updated weights for policy 0, policy_version 726906 (0.0007)
+[2023-07-06 14:25:14,764][98243] Fps is (10 sec: 117962.0, 60 sec: 113595.3, 300 sec: 111966.5). Total num frames: 1488715776. Throughput: 0: 28000.5. Samples: 372204544. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:25:16,751][98493] Updated weights for policy 0, policy_version 726945 (0.0007)
+[2023-07-06 14:25:17,196][98493] Updated weights for policy 0, policy_version 726995 (0.0007)
+[2023-07-06 14:25:17,759][98493] Updated weights for policy 0, policy_version 727042 (0.0007)
+[2023-07-06 14:25:18,196][98493] Updated weights for policy 0, policy_version 727096 (0.0006)
+[2023-07-06 14:25:18,476][98449] Signal inference workers to stop experience collection... (37500 times)
+[2023-07-06 14:25:18,493][98493] InferenceWorker_p0-w0: stopping experience collection (37500 times)
+[2023-07-06 14:25:18,568][98449] Signal inference workers to resume experience collection... (37500 times)
+[2023-07-06 14:25:18,569][98493] InferenceWorker_p0-w0: resuming experience collection (37500 times)
+[2023-07-06 14:25:18,873][98493] Updated weights for policy 0, policy_version 727153 (0.0007)
+[2023-07-06 14:25:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1489240064. Throughput: 0: 28057.6. Samples: 372375552. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:19,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:25:21,230][98493] Updated weights for policy 0, policy_version 727191 (0.0007)
+[2023-07-06 14:25:21,800][98493] Updated weights for policy 0, policy_version 727238 (0.0007)
+[2023-07-06 14:25:22,206][98493] Updated weights for policy 0, policy_version 727290 (0.0008)
+[2023-07-06 14:25:22,726][98493] Updated weights for policy 0, policy_version 727344 (0.0007)
+[2023-07-06 14:25:23,253][98493] Updated weights for policy 0, policy_version 727397 (0.0008)
+[2023-07-06 14:25:24,764][98243] Fps is (10 sec: 104859.8, 60 sec: 113049.4, 300 sec: 111966.6). Total num frames: 1489764352. Throughput: 0: 28137.2. Samples: 372459520. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:24,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:25:25,889][98493] Updated weights for policy 0, policy_version 727456 (0.0007)
+[2023-07-06 14:25:26,162][98493] Updated weights for policy 0, policy_version 727488 (0.0006)
+[2023-07-06 14:25:27,003][98493] Updated weights for policy 0, policy_version 727544 (0.0008)
+[2023-07-06 14:25:27,453][98493] Updated weights for policy 0, policy_version 727586 (0.0007)
+[2023-07-06 14:25:27,897][98493] Updated weights for policy 0, policy_version 727636 (0.0007)
+[2023-07-06 14:25:29,764][98243] Fps is (10 sec: 104856.0, 60 sec: 113049.1, 300 sec: 111966.7). Total num frames: 1490288640. Throughput: 0: 28103.0. Samples: 372630016. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:25:30,374][98493] Updated weights for policy 0, policy_version 727696 (0.0007)
+[2023-07-06 14:25:30,777][98493] Updated weights for policy 0, policy_version 727744 (0.0008)
+[2023-07-06 14:25:31,671][98493] Updated weights for policy 0, policy_version 727808 (0.0008)
+[2023-07-06 14:25:32,200][98493] Updated weights for policy 0, policy_version 727872 (0.0007)
+[2023-07-06 14:25:32,797][98493] Updated weights for policy 0, policy_version 727930 (0.0007)
+[2023-07-06 14:25:34,764][98243] Fps is (10 sec: 104856.1, 60 sec: 111957.0, 300 sec: 111966.8). Total num frames: 1490812928. Throughput: 0: 28262.3. Samples: 372802048. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:25:35,085][98493] Updated weights for policy 0, policy_version 727975 (0.0007)
+[2023-07-06 14:25:36,035][98493] Updated weights for policy 0, policy_version 728026 (0.0008)
+[2023-07-06 14:25:36,346][98493] Updated weights for policy 0, policy_version 728064 (0.0008)
+[2023-07-06 14:25:36,393][98449] Signal inference workers to stop experience collection... (37550 times)
+[2023-07-06 14:25:36,394][98449] Signal inference workers to resume experience collection... (37550 times)
+[2023-07-06 14:25:36,408][98493] InferenceWorker_p0-w0: stopping experience collection (37550 times)
+[2023-07-06 14:25:36,409][98493] InferenceWorker_p0-w0: resuming experience collection (37550 times)
+[2023-07-06 14:25:36,910][98493] Updated weights for policy 0, policy_version 728115 (0.0008)
+[2023-07-06 14:25:37,449][98493] Updated weights for policy 0, policy_version 728185 (0.0007)
+[2023-07-06 14:25:39,764][98243] Fps is (10 sec: 111412.3, 60 sec: 111411.2, 300 sec: 112077.6). Total num frames: 1491402752. Throughput: 0: 28000.7. Samples: 372877312. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:25:39,858][98493] Updated weights for policy 0, policy_version 728230 (0.0006)
+[2023-07-06 14:25:40,854][98493] Updated weights for policy 0, policy_version 728281 (0.0007)
+[2023-07-06 14:25:41,359][98493] Updated weights for policy 0, policy_version 728340 (0.0007)
+[2023-07-06 14:25:41,855][98493] Updated weights for policy 0, policy_version 728400 (0.0007)
+[2023-07-06 14:25:42,273][98493] Updated weights for policy 0, policy_version 728448 (0.0007)
+[2023-07-06 14:25:44,490][98493] Updated weights for policy 0, policy_version 728504 (0.0006)
+[2023-07-06 14:25:44,764][98243] Fps is (10 sec: 117966.3, 60 sec: 111411.1, 300 sec: 111966.5). Total num frames: 1491992576. Throughput: 0: 28182.8. Samples: 373051904. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:25:45,280][98493] Updated weights for policy 0, policy_version 728544 (0.0007)
+[2023-07-06 14:25:45,907][98493] Updated weights for policy 0, policy_version 728580 (0.0007)
+[2023-07-06 14:25:46,431][98493] Updated weights for policy 0, policy_version 728640 (0.0008)
+[2023-07-06 14:25:48,640][98493] Updated weights for policy 0, policy_version 728705 (0.0007)
+[2023-07-06 14:25:49,090][98493] Updated weights for policy 0, policy_version 728764 (0.0007)
+[2023-07-06 14:25:49,764][98243] Fps is (10 sec: 114688.8, 60 sec: 111957.4, 300 sec: 111744.5). Total num frames: 1492549632. Throughput: 0: 28273.8. Samples: 373222400. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:25:49,939][98493] Updated weights for policy 0, policy_version 728806 (0.0006)
+[2023-07-06 14:25:50,772][98493] Updated weights for policy 0, policy_version 728850 (0.0007)
+[2023-07-06 14:25:51,402][98493] Updated weights for policy 0, policy_version 728928 (0.0007)
+[2023-07-06 14:25:53,390][98493] Updated weights for policy 0, policy_version 728968 (0.0008)
+[2023-07-06 14:25:53,645][98449] Signal inference workers to stop experience collection... (37600 times)
+[2023-07-06 14:25:53,680][98493] InferenceWorker_p0-w0: stopping experience collection (37600 times)
+[2023-07-06 14:25:53,717][98449] Signal inference workers to resume experience collection... (37600 times)
+[2023-07-06 14:25:53,717][98493] InferenceWorker_p0-w0: resuming experience collection (37600 times)
+[2023-07-06 14:25:53,812][98493] Updated weights for policy 0, policy_version 729021 (0.0006)
+[2023-07-06 14:25:54,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1493139456. Throughput: 0: 28194.1. Samples: 373305344. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:25:54,805][98493] Updated weights for policy 0, policy_version 729083 (0.0007)
+[2023-07-06 14:25:55,360][98493] Updated weights for policy 0, policy_version 729141 (0.0008)
+[2023-07-06 14:25:55,922][98493] Updated weights for policy 0, policy_version 729190 (0.0006)
+[2023-07-06 14:25:58,496][98493] Updated weights for policy 0, policy_version 729250 (0.0007)
+[2023-07-06 14:25:59,188][98493] Updated weights for policy 0, policy_version 729288 (0.0008)
+[2023-07-06 14:25:59,631][98493] Updated weights for policy 0, policy_version 729331 (0.0009)
+[2023-07-06 14:25:59,764][98243] Fps is (10 sec: 114687.6, 60 sec: 111411.3, 300 sec: 111744.4). Total num frames: 1493696512. Throughput: 0: 28262.5. Samples: 373476352. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:25:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:26:00,099][98493] Updated weights for policy 0, policy_version 729384 (0.0008)
+[2023-07-06 14:26:00,684][98493] Updated weights for policy 0, policy_version 729456 (0.0007)
+[2023-07-06 14:26:02,915][98493] Updated weights for policy 0, policy_version 729495 (0.0006)
+[2023-07-06 14:26:03,854][98493] Updated weights for policy 0, policy_version 729561 (0.0006)
+[2023-07-06 14:26:04,491][98493] Updated weights for policy 0, policy_version 729604 (0.0007)
+[2023-07-06 14:26:04,765][98243] Fps is (10 sec: 114682.1, 60 sec: 112502.5, 300 sec: 111744.2). Total num frames: 1494286336. Throughput: 0: 28102.8. Samples: 373640192. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:26:04,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:26:04,966][98493] Updated weights for policy 0, policy_version 729664 (0.0007)
+[2023-07-06 14:26:05,401][98493] Updated weights for policy 0, policy_version 729714 (0.0007)
+[2023-07-06 14:26:07,571][98493] Updated weights for policy 0, policy_version 729760 (0.0008)
+[2023-07-06 14:26:08,743][98493] Updated weights for policy 0, policy_version 729814 (0.0007)
+[2023-07-06 14:26:09,369][98493] Updated weights for policy 0, policy_version 729888 (0.0007)
+[2023-07-06 14:26:09,764][98243] Fps is (10 sec: 117964.9, 60 sec: 112503.4, 300 sec: 111966.6). Total num frames: 1494876160. Throughput: 0: 28160.0. Samples: 373726720. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:26:09,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:26:10,064][98493] Updated weights for policy 0, policy_version 729939 (0.0007)
+[2023-07-06 14:26:10,172][98449] Signal inference workers to stop experience collection... (37650 times)
+[2023-07-06 14:26:10,218][98493] InferenceWorker_p0-w0: stopping experience collection (37650 times)
+[2023-07-06 14:26:10,255][98449] Signal inference workers to resume experience collection... (37650 times)
+[2023-07-06 14:26:10,256][98493] InferenceWorker_p0-w0: resuming experience collection (37650 times)
+[2023-07-06 14:26:12,186][98493] Updated weights for policy 0, policy_version 729991 (0.0006)
+[2023-07-06 14:26:12,631][98493] Updated weights for policy 0, policy_version 730042 (0.0006)
+[2023-07-06 14:26:13,426][98493] Updated weights for policy 0, policy_version 730083 (0.0007)
+[2023-07-06 14:26:13,893][98493] Updated weights for policy 0, policy_version 730137 (0.0007)
+[2023-07-06 14:26:14,597][98493] Updated weights for policy 0, policy_version 730179 (0.0008)
+[2023-07-06 14:26:14,764][98243] Fps is (10 sec: 114694.2, 60 sec: 111957.8, 300 sec: 112077.7). Total num frames: 1495433216. Throughput: 0: 28080.5. Samples: 373893632. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:26:14,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:26:14,959][98493] Updated weights for policy 0, policy_version 730224 (0.0007)
+[2023-07-06 14:26:16,660][98493] Updated weights for policy 0, policy_version 730256 (0.0006)
+[2023-07-06 14:26:17,047][98493] Updated weights for policy 0, policy_version 730300 (0.0008)
+[2023-07-06 14:26:18,066][98493] Updated weights for policy 0, policy_version 730357 (0.0007)
+[2023-07-06 14:26:18,722][98493] Updated weights for policy 0, policy_version 730400 (0.0007)
+[2023-07-06 14:26:19,174][98493] Updated weights for policy 0, policy_version 730448 (0.0009)
+[2023-07-06 14:26:19,764][98243] Fps is (10 sec: 117963.7, 60 sec: 113595.5, 300 sec: 112410.9). Total num frames: 1496055808. Throughput: 0: 27909.7. Samples: 374057984. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:26:19,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:26:21,585][98493] Updated weights for policy 0, policy_version 730520 (0.0007)
+[2023-07-06 14:26:22,633][98493] Updated weights for policy 0, policy_version 730564 (0.0009)
+[2023-07-06 14:26:23,266][98493] Updated weights for policy 0, policy_version 730626 (0.0007)
+[2023-07-06 14:26:23,728][98493] Updated weights for policy 0, policy_version 730681 (0.0008)
+[2023-07-06 14:26:24,202][98493] Updated weights for policy 0, policy_version 730738 (0.0008)
+[2023-07-06 14:26:24,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113595.7, 300 sec: 112410.9). Total num frames: 1496580096. Throughput: 0: 28251.0. Samples: 374148608. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:26:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:26:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000730752_1496580096.pth...
+[2023-07-06 14:26:24,801][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000717600_1469644800.pth
+[2023-07-06 14:26:26,496][98493] Updated weights for policy 0, policy_version 730775 (0.0007)
+[2023-07-06 14:26:27,435][98493] Updated weights for policy 0, policy_version 730820 (0.0008)
+[2023-07-06 14:26:27,932][98493] Updated weights for policy 0, policy_version 730880 (0.0008)
+[2023-07-06 14:26:28,384][98449] Signal inference workers to stop experience collection... (37700 times)
+[2023-07-06 14:26:28,430][98493] Updated weights for policy 0, policy_version 730930 (0.0007)
+[2023-07-06 14:26:28,437][98493] InferenceWorker_p0-w0: stopping experience collection (37700 times)
+[2023-07-06 14:26:28,498][98449] Signal inference workers to resume experience collection... (37700 times)
+[2023-07-06 14:26:28,498][98493] InferenceWorker_p0-w0: resuming experience collection (37700 times)
+[2023-07-06 14:26:28,990][98493] Updated weights for policy 0, policy_version 731004 (0.0007)
+[2023-07-06 14:26:29,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113595.9, 300 sec: 112188.7). Total num frames: 1497104384. Throughput: 0: 27921.0. Samples: 374308352. Policy #0 lag: (min: 47.0, avg: 160.6, max: 303.0)
+[2023-07-06 14:26:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:26:31,578][98493] Updated weights for policy 0, policy_version 731066 (0.0008)
+[2023-07-06 14:26:32,605][98493] Updated weights for policy 0, policy_version 731109 (0.0011)
+[2023-07-06 14:26:33,239][98493] Updated weights for policy 0, policy_version 731170 (0.0008)
+[2023-07-06 14:26:33,813][98493] Updated weights for policy 0, policy_version 731234 (0.0009)
+[2023-07-06 14:26:34,764][98243] Fps is (10 sec: 104858.7, 60 sec: 113596.2, 300 sec: 111966.6). Total num frames: 1497628672. Throughput: 0: 27761.8. Samples: 374471680. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:26:34,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:26:36,132][98493] Updated weights for policy 0, policy_version 731280 (0.0006)
+[2023-07-06 14:26:36,952][98493] Updated weights for policy 0, policy_version 731331 (0.0007)
+[2023-07-06 14:26:37,588][98493] Updated weights for policy 0, policy_version 731396 (0.0006)
+[2023-07-06 14:26:38,167][98493] Updated weights for policy 0, policy_version 731465 (0.0007)
+[2023-07-06 14:26:38,611][98493] Updated weights for policy 0, policy_version 731520 (0.0007)
+[2023-07-06 14:26:39,764][98243] Fps is (10 sec: 104858.2, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 1498152960. Throughput: 0: 27784.5. Samples: 374555648. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:26:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:26:41,080][98493] Updated weights for policy 0, policy_version 731568 (0.0006)
+[2023-07-06 14:26:42,040][98493] Updated weights for policy 0, policy_version 731616 (0.0007)
+[2023-07-06 14:26:42,557][98493] Updated weights for policy 0, policy_version 731667 (0.0007)
+[2023-07-06 14:26:43,008][98493] Updated weights for policy 0, policy_version 731721 (0.0008)
+[2023-07-06 14:26:44,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.3, 300 sec: 111966.6). Total num frames: 1498677248. Throughput: 0: 27648.0. Samples: 374720512. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:26:44,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:26:45,447][98493] Updated weights for policy 0, policy_version 731779 (0.0007)
+[2023-07-06 14:26:46,694][98493] Updated weights for policy 0, policy_version 731844 (0.0007)
+[2023-07-06 14:26:46,932][98449] Signal inference workers to stop experience collection... (37750 times)
+[2023-07-06 14:26:46,985][98493] InferenceWorker_p0-w0: stopping experience collection (37750 times)
+[2023-07-06 14:26:47,052][98449] Signal inference workers to resume experience collection... (37750 times)
+[2023-07-06 14:26:47,052][98493] InferenceWorker_p0-w0: resuming experience collection (37750 times)
+[2023-07-06 14:26:47,192][98493] Updated weights for policy 0, policy_version 731904 (0.0007)
+[2023-07-06 14:26:47,702][98493] Updated weights for policy 0, policy_version 731955 (0.0007)
+[2023-07-06 14:26:48,184][98493] Updated weights for policy 0, policy_version 732016 (0.0008)
+[2023-07-06 14:26:49,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110865.0, 300 sec: 111966.6). Total num frames: 1499201536. Throughput: 0: 27784.9. Samples: 374890496. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:26:49,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:26:50,523][98493] Updated weights for policy 0, policy_version 732080 (0.0008)
+[2023-07-06 14:26:51,546][98493] Updated weights for policy 0, policy_version 732118 (0.0006)
+[2023-07-06 14:26:52,101][98493] Updated weights for policy 0, policy_version 732180 (0.0008)
+[2023-07-06 14:26:52,585][98493] Updated weights for policy 0, policy_version 732240 (0.0008)
+[2023-07-06 14:26:54,765][98243] Fps is (10 sec: 104845.1, 60 sec: 109770.7, 300 sec: 111744.0). Total num frames: 1499725824. Throughput: 0: 27635.9. Samples: 374970368. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:26:54,766][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:26:54,843][98493] Updated weights for policy 0, policy_version 732291 (0.0007)
+[2023-07-06 14:26:55,289][98493] Updated weights for policy 0, policy_version 732348 (0.0007)
+[2023-07-06 14:26:56,404][98493] Updated weights for policy 0, policy_version 732400 (0.0007)
+[2023-07-06 14:26:56,960][98493] Updated weights for policy 0, policy_version 732456 (0.0006)
+[2023-07-06 14:26:57,495][98493] Updated weights for policy 0, policy_version 732516 (0.0007)
+[2023-07-06 14:26:59,764][98243] Fps is (10 sec: 108133.4, 60 sec: 109772.6, 300 sec: 111633.3). Total num frames: 1500282880. Throughput: 0: 27670.7. Samples: 375138816. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:26:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:26:59,844][98493] Updated weights for policy 0, policy_version 732569 (0.0008)
+[2023-07-06 14:27:00,851][98493] Updated weights for policy 0, policy_version 732609 (0.0007)
+[2023-07-06 14:27:01,362][98493] Updated weights for policy 0, policy_version 732672 (0.0007)
+[2023-07-06 14:27:01,912][98493] Updated weights for policy 0, policy_version 732736 (0.0007)
+[2023-07-06 14:27:02,245][98449] Signal inference workers to stop experience collection... (37800 times)
+[2023-07-06 14:27:02,288][98493] InferenceWorker_p0-w0: stopping experience collection (37800 times)
+[2023-07-06 14:27:02,364][98449] Signal inference workers to resume experience collection... (37800 times)
+[2023-07-06 14:27:02,364][98493] InferenceWorker_p0-w0: resuming experience collection (37800 times)
+[2023-07-06 14:27:02,465][98493] Updated weights for policy 0, policy_version 732794 (0.0008)
+[2023-07-06 14:27:04,764][98243] Fps is (10 sec: 108147.0, 60 sec: 108681.5, 300 sec: 111633.4). Total num frames: 1500807168. Throughput: 0: 27773.2. Samples: 375307776. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:27:04,971][98493] Updated weights for policy 0, policy_version 732838 (0.0007)
+[2023-07-06 14:27:05,810][98493] Updated weights for policy 0, policy_version 732896 (0.0007)
+[2023-07-06 14:27:06,441][98493] Updated weights for policy 0, policy_version 732967 (0.0008)
+[2023-07-06 14:27:06,979][98493] Updated weights for policy 0, policy_version 733028 (0.0007)
+[2023-07-06 14:27:09,603][98493] Updated weights for policy 0, policy_version 733072 (0.0006)
+[2023-07-06 14:27:09,765][98243] Fps is (10 sec: 108133.1, 60 sec: 108134.0, 300 sec: 111744.4). Total num frames: 1501364224. Throughput: 0: 27443.1. Samples: 375383552. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:09,766][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:27:10,212][98493] Updated weights for policy 0, policy_version 733136 (0.0007)
+[2023-07-06 14:27:10,856][98493] Updated weights for policy 0, policy_version 733202 (0.0008)
+[2023-07-06 14:27:11,302][98493] Updated weights for policy 0, policy_version 733251 (0.0007)
+[2023-07-06 14:27:11,815][98493] Updated weights for policy 0, policy_version 733312 (0.0007)
+[2023-07-06 14:27:14,764][98243] Fps is (10 sec: 111412.1, 60 sec: 108134.5, 300 sec: 111633.4). Total num frames: 1501921280. Throughput: 0: 27716.4. Samples: 375555584. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:27:14,980][98493] Updated weights for policy 0, policy_version 733381 (0.0007)
+[2023-07-06 14:27:15,550][98493] Updated weights for policy 0, policy_version 733443 (0.0007)
+[2023-07-06 14:27:16,091][98493] Updated weights for policy 0, policy_version 733507 (0.0007)
+[2023-07-06 14:27:16,504][98493] Updated weights for policy 0, policy_version 733561 (0.0007)
+[2023-07-06 14:27:19,343][98493] Updated weights for policy 0, policy_version 733606 (0.0007)
+[2023-07-06 14:27:19,750][98449] Signal inference workers to stop experience collection... (37850 times)
+[2023-07-06 14:27:19,764][98243] Fps is (10 sec: 114688.5, 60 sec: 107588.1, 300 sec: 111633.3). Total num frames: 1502511104. Throughput: 0: 27761.6. Samples: 375720960. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:27:19,781][98493] InferenceWorker_p0-w0: stopping experience collection (37850 times)
+[2023-07-06 14:27:19,782][98493] Updated weights for policy 0, policy_version 733653 (0.0008)
+[2023-07-06 14:27:19,837][98449] Signal inference workers to resume experience collection... (37850 times)
+[2023-07-06 14:27:19,838][98493] InferenceWorker_p0-w0: resuming experience collection (37850 times)
+[2023-07-06 14:27:20,264][98493] Updated weights for policy 0, policy_version 733712 (0.0007)
+[2023-07-06 14:27:20,695][98493] Updated weights for policy 0, policy_version 733760 (0.0008)
+[2023-07-06 14:27:21,200][98493] Updated weights for policy 0, policy_version 733821 (0.0007)
+[2023-07-06 14:27:24,161][98493] Updated weights for policy 0, policy_version 733872 (0.0007)
+[2023-07-06 14:27:24,710][98493] Updated weights for policy 0, policy_version 733936 (0.0009)
+[2023-07-06 14:27:24,764][98243] Fps is (10 sec: 117963.6, 60 sec: 108680.5, 300 sec: 111633.3). Total num frames: 1503100928. Throughput: 0: 27739.0. Samples: 375803904. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:24,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:27:25,259][98493] Updated weights for policy 0, policy_version 733991 (0.0008)
+[2023-07-06 14:27:25,784][98493] Updated weights for policy 0, policy_version 734048 (0.0009)
+[2023-07-06 14:27:28,533][98493] Updated weights for policy 0, policy_version 734085 (0.0007)
+[2023-07-06 14:27:29,098][98493] Updated weights for policy 0, policy_version 734149 (0.0007)
+[2023-07-06 14:27:29,567][98493] Updated weights for policy 0, policy_version 734208 (0.0007)
+[2023-07-06 14:27:29,764][98243] Fps is (10 sec: 117968.3, 60 sec: 109773.2, 300 sec: 111633.4). Total num frames: 1503690752. Throughput: 0: 27841.5. Samples: 375973376. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:29,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:27:30,167][98493] Updated weights for policy 0, policy_version 734272 (0.0008)
+[2023-07-06 14:27:30,664][98493] Updated weights for policy 0, policy_version 734329 (0.0007)
+[2023-07-06 14:27:33,543][98493] Updated weights for policy 0, policy_version 734375 (0.0007)
+[2023-07-06 14:27:34,006][98493] Updated weights for policy 0, policy_version 734432 (0.0009)
+[2023-07-06 14:27:34,526][98493] Updated weights for policy 0, policy_version 734485 (0.0008)
+[2023-07-06 14:27:34,645][98449] Signal inference workers to stop experience collection... (37900 times)
+[2023-07-06 14:27:34,680][98493] InferenceWorker_p0-w0: stopping experience collection (37900 times)
+[2023-07-06 14:27:34,744][98449] Signal inference workers to resume experience collection... (37900 times)
+[2023-07-06 14:27:34,745][98493] InferenceWorker_p0-w0: resuming experience collection (37900 times)
+[2023-07-06 14:27:34,764][98243] Fps is (10 sec: 117966.5, 60 sec: 110865.1, 300 sec: 111522.3). Total num frames: 1504280576. Throughput: 0: 27625.3. Samples: 376133632. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:34,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:27:35,168][98493] Updated weights for policy 0, policy_version 734532 (0.0007)
+[2023-07-06 14:27:35,624][98493] Updated weights for policy 0, policy_version 734591 (0.0006)
+[2023-07-06 14:27:38,192][98493] Updated weights for policy 0, policy_version 734646 (0.0008)
+[2023-07-06 14:27:38,756][98493] Updated weights for policy 0, policy_version 734710 (0.0007)
+[2023-07-06 14:27:39,232][98493] Updated weights for policy 0, policy_version 734758 (0.0007)
+[2023-07-06 14:27:39,764][98243] Fps is (10 sec: 117963.1, 60 sec: 111957.3, 300 sec: 111633.4). Total num frames: 1504870400. Throughput: 0: 27864.9. Samples: 376224256. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:27:39,874][98493] Updated weights for policy 0, policy_version 734816 (0.0007)
+[2023-07-06 14:27:42,566][98493] Updated weights for policy 0, policy_version 734864 (0.0007)
+[2023-07-06 14:27:43,194][98493] Updated weights for policy 0, policy_version 734931 (0.0008)
+[2023-07-06 14:27:43,680][98493] Updated weights for policy 0, policy_version 734980 (0.0006)
+[2023-07-06 14:27:44,134][98493] Updated weights for policy 0, policy_version 735038 (0.0007)
+[2023-07-06 14:27:44,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113049.7, 300 sec: 111855.6). Total num frames: 1505460224. Throughput: 0: 27693.6. Samples: 376385024. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:44,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:27:44,832][98493] Updated weights for policy 0, policy_version 735095 (0.0008)
+[2023-07-06 14:27:47,563][98493] Updated weights for policy 0, policy_version 735144 (0.0006)
+[2023-07-06 14:27:47,978][98493] Updated weights for policy 0, policy_version 735188 (0.0007)
+[2023-07-06 14:27:48,475][98493] Updated weights for policy 0, policy_version 735248 (0.0007)
+[2023-07-06 14:27:49,274][98493] Updated weights for policy 0, policy_version 735312 (0.0007)
+[2023-07-06 14:27:49,693][98493] Updated weights for policy 0, policy_version 735360 (0.0006)
+[2023-07-06 14:27:49,764][98243] Fps is (10 sec: 114688.2, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1506017280. Throughput: 0: 27557.0. Samples: 376547840. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:49,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:27:52,354][98493] Updated weights for policy 0, policy_version 735413 (0.0007)
+[2023-07-06 14:27:52,584][98449] Signal inference workers to stop experience collection... (37950 times)
+[2023-07-06 14:27:52,626][98493] InferenceWorker_p0-w0: stopping experience collection (37950 times)
+[2023-07-06 14:27:52,696][98449] Signal inference workers to resume experience collection... (37950 times)
+[2023-07-06 14:27:52,696][98493] InferenceWorker_p0-w0: resuming experience collection (37950 times)
+[2023-07-06 14:27:52,897][98493] Updated weights for policy 0, policy_version 735479 (0.0007)
+[2023-07-06 14:27:53,501][98493] Updated weights for policy 0, policy_version 735525 (0.0007)
+[2023-07-06 14:27:54,146][98493] Updated weights for policy 0, policy_version 735587 (0.0007)
+[2023-07-06 14:27:54,764][98243] Fps is (10 sec: 108132.0, 60 sec: 113597.7, 300 sec: 111966.6). Total num frames: 1506541568. Throughput: 0: 27841.5. Samples: 376636416. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:27:56,649][98493] Updated weights for policy 0, policy_version 735632 (0.0007)
+[2023-07-06 14:27:57,188][98493] Updated weights for policy 0, policy_version 735696 (0.0009)
+[2023-07-06 14:27:57,653][98493] Updated weights for policy 0, policy_version 735744 (0.0029)
+[2023-07-06 14:27:58,134][98493] Updated weights for policy 0, policy_version 735801 (0.0008)
+[2023-07-06 14:27:58,942][98493] Updated weights for policy 0, policy_version 735856 (0.0007)
+[2023-07-06 14:27:59,764][98243] Fps is (10 sec: 104857.1, 60 sec: 113049.7, 300 sec: 111522.3). Total num frames: 1507065856. Throughput: 0: 27682.1. Samples: 376801280. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:27:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:28:01,473][98493] Updated weights for policy 0, policy_version 735907 (0.0006)
+[2023-07-06 14:28:01,987][98493] Updated weights for policy 0, policy_version 735968 (0.0007)
+[2023-07-06 14:28:02,810][98493] Updated weights for policy 0, policy_version 736034 (0.0007)
+[2023-07-06 14:28:03,589][98493] Updated weights for policy 0, policy_version 736096 (0.0007)
+[2023-07-06 14:28:04,764][98243] Fps is (10 sec: 104859.3, 60 sec: 113049.7, 300 sec: 111522.3). Total num frames: 1507590144. Throughput: 0: 27727.8. Samples: 376968704. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:28:04,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:28:05,839][98493] Updated weights for policy 0, policy_version 736131 (0.0006)
+[2023-07-06 14:28:06,470][98493] Updated weights for policy 0, policy_version 736193 (0.0006)
+[2023-07-06 14:28:06,980][98493] Updated weights for policy 0, policy_version 736256 (0.0007)
+[2023-07-06 14:28:07,505][98493] Updated weights for policy 0, policy_version 736314 (0.0007)
+[2023-07-06 14:28:08,605][98493] Updated weights for policy 0, policy_version 736377 (0.0007)
+[2023-07-06 14:28:09,764][98243] Fps is (10 sec: 104856.5, 60 sec: 112503.6, 300 sec: 111522.2). Total num frames: 1508114432. Throughput: 0: 27670.7. Samples: 377049088. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:28:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:28:10,806][98493] Updated weights for policy 0, policy_version 736416 (0.0007)
+[2023-07-06 14:28:11,204][98449] Signal inference workers to stop experience collection... (38000 times)
+[2023-07-06 14:28:11,239][98493] InferenceWorker_p0-w0: stopping experience collection (38000 times)
+[2023-07-06 14:28:11,305][98449] Signal inference workers to resume experience collection... (38000 times)
+[2023-07-06 14:28:11,306][98493] InferenceWorker_p0-w0: resuming experience collection (38000 times)
+[2023-07-06 14:28:11,402][98493] Updated weights for policy 0, policy_version 736471 (0.0008)
+[2023-07-06 14:28:11,839][98493] Updated weights for policy 0, policy_version 736516 (0.0007)
+[2023-07-06 14:28:12,978][98493] Updated weights for policy 0, policy_version 736579 (0.0007)
+[2023-07-06 14:28:13,402][98493] Updated weights for policy 0, policy_version 736637 (0.0006)
+[2023-07-06 14:28:14,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111957.1, 300 sec: 111522.3). Total num frames: 1508638720. Throughput: 0: 27625.2. Samples: 377216512. Policy #0 lag: (min: 47.0, avg: 123.1, max: 303.0)
+[2023-07-06 14:28:14,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:28:15,717][98493] Updated weights for policy 0, policy_version 736698 (0.0007)
+[2023-07-06 14:28:16,324][98493] Updated weights for policy 0, policy_version 736752 (0.0007)
+[2023-07-06 14:28:16,895][98493] Updated weights for policy 0, policy_version 736803 (0.0007)
+[2023-07-06 14:28:17,924][98493] Updated weights for policy 0, policy_version 736852 (0.0007)
+[2023-07-06 14:28:19,764][98243] Fps is (10 sec: 104858.8, 60 sec: 110865.3, 300 sec: 111522.2). Total num frames: 1509163008. Throughput: 0: 27875.5. Samples: 377388032. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:28:20,139][98493] Updated weights for policy 0, policy_version 736900 (0.0007)
+[2023-07-06 14:28:20,636][98493] Updated weights for policy 0, policy_version 736960 (0.0008)
+[2023-07-06 14:28:21,092][98493] Updated weights for policy 0, policy_version 737008 (0.0007)
+[2023-07-06 14:28:21,607][98493] Updated weights for policy 0, policy_version 737058 (0.0008)
+[2023-07-06 14:28:22,655][98493] Updated weights for policy 0, policy_version 737125 (0.0007)
+[2023-07-06 14:28:24,764][98243] Fps is (10 sec: 104855.9, 60 sec: 109772.5, 300 sec: 111189.0). Total num frames: 1509687296. Throughput: 0: 27591.0. Samples: 377465856. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:28:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000737152_1509687296.pth...
+[2023-07-06 14:28:24,881][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000724128_1483014144.pth
+[2023-07-06 14:28:25,201][98493] Updated weights for policy 0, policy_version 737189 (0.0007)
+[2023-07-06 14:28:25,647][98493] Updated weights for policy 0, policy_version 737239 (0.0009)
+[2023-07-06 14:28:26,287][98493] Updated weights for policy 0, policy_version 737312 (0.0008)
+[2023-07-06 14:28:27,274][98493] Updated weights for policy 0, policy_version 737366 (0.0008)
+[2023-07-06 14:28:27,391][98449] Signal inference workers to stop experience collection... (38050 times)
+[2023-07-06 14:28:27,433][98493] InferenceWorker_p0-w0: stopping experience collection (38050 times)
+[2023-07-06 14:28:27,481][98449] Signal inference workers to resume experience collection... (38050 times)
+[2023-07-06 14:28:27,482][98493] InferenceWorker_p0-w0: resuming experience collection (38050 times)
+[2023-07-06 14:28:29,573][98493] Updated weights for policy 0, policy_version 737409 (0.0017)
+[2023-07-06 14:28:29,764][98243] Fps is (10 sec: 108135.0, 60 sec: 109226.5, 300 sec: 111189.1). Total num frames: 1510244352. Throughput: 0: 27830.0. Samples: 377637376. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:29,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:28:30,023][98493] Updated weights for policy 0, policy_version 737460 (0.0007)
+[2023-07-06 14:28:30,625][98493] Updated weights for policy 0, policy_version 737536 (0.0007)
+[2023-07-06 14:28:31,128][98493] Updated weights for policy 0, policy_version 737596 (0.0007)
+[2023-07-06 14:28:32,295][98493] Updated weights for policy 0, policy_version 737648 (0.0009)
+[2023-07-06 14:28:34,764][98243] Fps is (10 sec: 114690.3, 60 sec: 109226.5, 300 sec: 111300.1). Total num frames: 1510834176. Throughput: 0: 27909.7. Samples: 377803776. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:28:34,774][98493] Updated weights for policy 0, policy_version 737720 (0.0009)
+[2023-07-06 14:28:35,220][98493] Updated weights for policy 0, policy_version 737776 (0.0007)
+[2023-07-06 14:28:35,655][98493] Updated weights for policy 0, policy_version 737816 (0.0008)
+[2023-07-06 14:28:36,418][98493] Updated weights for policy 0, policy_version 737863 (0.0007)
+[2023-07-06 14:28:36,850][98493] Updated weights for policy 0, policy_version 737913 (0.0006)
+[2023-07-06 14:28:39,103][98493] Updated weights for policy 0, policy_version 737968 (0.0007)
+[2023-07-06 14:28:39,764][98243] Fps is (10 sec: 114687.7, 60 sec: 108680.6, 300 sec: 111300.1). Total num frames: 1511391232. Throughput: 0: 27716.3. Samples: 377883648. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:39,772][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:28:39,975][98493] Updated weights for policy 0, policy_version 738016 (0.0008)
+[2023-07-06 14:28:40,537][98493] Updated weights for policy 0, policy_version 738080 (0.0027)
+[2023-07-06 14:28:41,339][98493] Updated weights for policy 0, policy_version 738134 (0.0007)
+[2023-07-06 14:28:43,581][98493] Updated weights for policy 0, policy_version 738201 (0.0007)
+[2023-07-06 14:28:44,522][98493] Updated weights for policy 0, policy_version 738256 (0.0006)
+[2023-07-06 14:28:44,764][98243] Fps is (10 sec: 114688.2, 60 sec: 108680.4, 300 sec: 111300.3). Total num frames: 1511981056. Throughput: 0: 27784.6. Samples: 378051584. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:44,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:28:45,036][98493] Updated weights for policy 0, policy_version 738307 (0.0008)
+[2023-07-06 14:28:45,166][98449] Signal inference workers to stop experience collection... (38100 times)
+[2023-07-06 14:28:45,197][98493] InferenceWorker_p0-w0: stopping experience collection (38100 times)
+[2023-07-06 14:28:45,255][98449] Signal inference workers to resume experience collection... (38100 times)
+[2023-07-06 14:28:45,256][98493] InferenceWorker_p0-w0: resuming experience collection (38100 times)
+[2023-07-06 14:28:45,475][98493] Updated weights for policy 0, policy_version 738361 (0.0007)
+[2023-07-06 14:28:46,245][98493] Updated weights for policy 0, policy_version 738408 (0.0007)
+[2023-07-06 14:28:48,394][98493] Updated weights for policy 0, policy_version 738455 (0.0007)
+[2023-07-06 14:28:49,536][98493] Updated weights for policy 0, policy_version 738528 (0.0008)
+[2023-07-06 14:28:49,764][98243] Fps is (10 sec: 114687.4, 60 sec: 108680.4, 300 sec: 111411.2). Total num frames: 1512538112. Throughput: 0: 27727.6. Samples: 378216448. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:49,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:28:50,077][98493] Updated weights for policy 0, policy_version 738583 (0.0007)
+[2023-07-06 14:28:50,567][98493] Updated weights for policy 0, policy_version 738627 (0.0007)
+[2023-07-06 14:28:50,998][98493] Updated weights for policy 0, policy_version 738680 (0.0006)
+[2023-07-06 14:28:53,530][98493] Updated weights for policy 0, policy_version 738747 (0.0007)
+[2023-07-06 14:28:54,615][98493] Updated weights for policy 0, policy_version 738803 (0.0007)
+[2023-07-06 14:28:54,764][98243] Fps is (10 sec: 111409.7, 60 sec: 109226.7, 300 sec: 111300.1). Total num frames: 1513095168. Throughput: 0: 27875.6. Samples: 378303488. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:28:54,961][98493] Updated weights for policy 0, policy_version 738848 (0.0006)
+[2023-07-06 14:28:55,531][98493] Updated weights for policy 0, policy_version 738912 (0.0007)
+[2023-07-06 14:28:58,050][98493] Updated weights for policy 0, policy_version 738967 (0.0008)
+[2023-07-06 14:28:58,378][98493] Updated weights for policy 0, policy_version 739008 (0.0007)
+[2023-07-06 14:28:59,197][98493] Updated weights for policy 0, policy_version 739074 (0.0008)
+[2023-07-06 14:28:59,764][98243] Fps is (10 sec: 121242.9, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1513750528. Throughput: 0: 27818.7. Samples: 378468352. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:28:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:29:00,253][98493] Updated weights for policy 0, policy_version 739137 (0.0007)
+[2023-07-06 14:29:00,712][98493] Updated weights for policy 0, policy_version 739197 (0.0008)
+[2023-07-06 14:29:03,186][98493] Updated weights for policy 0, policy_version 739260 (0.0006)
+[2023-07-06 14:29:03,633][98449] Signal inference workers to stop experience collection... (38150 times)
+[2023-07-06 14:29:03,685][98493] InferenceWorker_p0-w0: stopping experience collection (38150 times)
+[2023-07-06 14:29:03,750][98449] Signal inference workers to resume experience collection... (38150 times)
+[2023-07-06 14:29:03,750][98493] InferenceWorker_p0-w0: resuming experience collection (38150 times)
+[2023-07-06 14:29:03,850][98493] Updated weights for policy 0, policy_version 739320 (0.0007)
+[2023-07-06 14:29:04,376][98493] Updated weights for policy 0, policy_version 739385 (0.0008)
+[2023-07-06 14:29:04,764][98243] Fps is (10 sec: 117965.0, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1514274816. Throughput: 0: 27545.6. Samples: 378627584. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:29:05,268][98493] Updated weights for policy 0, policy_version 739440 (0.0007)
+[2023-07-06 14:29:07,694][98493] Updated weights for policy 0, policy_version 739488 (0.0006)
+[2023-07-06 14:29:08,365][98493] Updated weights for policy 0, policy_version 739544 (0.0008)
+[2023-07-06 14:29:08,834][98493] Updated weights for policy 0, policy_version 739600 (0.0007)
+[2023-07-06 14:29:09,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1514799104. Throughput: 0: 27796.0. Samples: 378716672. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:29:09,876][98493] Updated weights for policy 0, policy_version 739664 (0.0007)
+[2023-07-06 14:29:10,257][98493] Updated weights for policy 0, policy_version 739711 (0.0007)
+[2023-07-06 14:29:12,726][98493] Updated weights for policy 0, policy_version 739769 (0.0006)
+[2023-07-06 14:29:13,326][98493] Updated weights for policy 0, policy_version 739833 (0.0008)
+[2023-07-06 14:29:13,866][98493] Updated weights for policy 0, policy_version 739899 (0.0008)
+[2023-07-06 14:29:14,764][98243] Fps is (10 sec: 114690.5, 60 sec: 113049.9, 300 sec: 111855.6). Total num frames: 1515421696. Throughput: 0: 27568.4. Samples: 378877952. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:14,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:29:14,830][98493] Updated weights for policy 0, policy_version 739960 (0.0006)
+[2023-07-06 14:29:17,281][98493] Updated weights for policy 0, policy_version 740026 (0.0006)
+[2023-07-06 14:29:18,002][98493] Updated weights for policy 0, policy_version 740070 (0.0008)
+[2023-07-06 14:29:18,574][98493] Updated weights for policy 0, policy_version 740133 (0.0008)
+[2023-07-06 14:29:19,538][98493] Updated weights for policy 0, policy_version 740217 (0.0026)
+[2023-07-06 14:29:19,764][98243] Fps is (10 sec: 117965.5, 60 sec: 113595.9, 300 sec: 111855.5). Total num frames: 1515978752. Throughput: 0: 27477.3. Samples: 379040256. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:29:21,845][98449] Signal inference workers to stop experience collection... (38200 times)
+[2023-07-06 14:29:21,878][98493] InferenceWorker_p0-w0: stopping experience collection (38200 times)
+[2023-07-06 14:29:21,879][98493] Updated weights for policy 0, policy_version 740264 (0.0007)
+[2023-07-06 14:29:21,918][98449] Signal inference workers to resume experience collection... (38200 times)
+[2023-07-06 14:29:21,918][98493] InferenceWorker_p0-w0: resuming experience collection (38200 times)
+[2023-07-06 14:29:22,510][98493] Updated weights for policy 0, policy_version 740320 (0.0007)
+[2023-07-06 14:29:23,074][98493] Updated weights for policy 0, policy_version 740384 (0.0008)
+[2023-07-06 14:29:24,116][98493] Updated weights for policy 0, policy_version 740432 (0.0006)
+[2023-07-06 14:29:24,764][98243] Fps is (10 sec: 108133.3, 60 sec: 113596.1, 300 sec: 111855.5). Total num frames: 1516503040. Throughput: 0: 27636.6. Samples: 379127296. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:29:26,415][98493] Updated weights for policy 0, policy_version 740484 (0.0007)
+[2023-07-06 14:29:26,848][98493] Updated weights for policy 0, policy_version 740535 (0.0009)
+[2023-07-06 14:29:27,404][98493] Updated weights for policy 0, policy_version 740595 (0.0007)
+[2023-07-06 14:29:27,829][98493] Updated weights for policy 0, policy_version 740646 (0.0009)
+[2023-07-06 14:29:29,080][98493] Updated weights for policy 0, policy_version 740706 (0.0007)
+[2023-07-06 14:29:29,764][98243] Fps is (10 sec: 104855.9, 60 sec: 113049.3, 300 sec: 111633.3). Total num frames: 1517027328. Throughput: 0: 27659.3. Samples: 379296256. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:29:31,102][98493] Updated weights for policy 0, policy_version 740752 (0.0006)
+[2023-07-06 14:29:31,683][98493] Updated weights for policy 0, policy_version 740816 (0.0008)
+[2023-07-06 14:29:32,147][98493] Updated weights for policy 0, policy_version 740864 (0.0035)
+[2023-07-06 14:29:32,549][98493] Updated weights for policy 0, policy_version 740902 (0.0007)
+[2023-07-06 14:29:33,843][98493] Updated weights for policy 0, policy_version 740950 (0.0007)
+[2023-07-06 14:29:34,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111957.3, 300 sec: 111300.1). Total num frames: 1517551616. Throughput: 0: 27761.8. Samples: 379465728. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:34,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:29:35,602][98493] Updated weights for policy 0, policy_version 741008 (0.0007)
+[2023-07-06 14:29:36,233][98493] Updated weights for policy 0, policy_version 741077 (0.0007)
+[2023-07-06 14:29:36,895][98493] Updated weights for policy 0, policy_version 741124 (0.0006)
+[2023-07-06 14:29:37,345][98493] Updated weights for policy 0, policy_version 741184 (0.0007)
+[2023-07-06 14:29:38,790][98449] Signal inference workers to stop experience collection... (38250 times)
+[2023-07-06 14:29:38,823][98493] InferenceWorker_p0-w0: stopping experience collection (38250 times)
+[2023-07-06 14:29:38,877][98449] Signal inference workers to resume experience collection... (38250 times)
+[2023-07-06 14:29:38,878][98493] InferenceWorker_p0-w0: resuming experience collection (38250 times)
+[2023-07-06 14:29:39,114][98493] Updated weights for policy 0, policy_version 741245 (0.0007)
+[2023-07-06 14:29:39,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.1, 300 sec: 111077.9). Total num frames: 1518075904. Throughput: 0: 27613.9. Samples: 379546112. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:29:40,591][98493] Updated weights for policy 0, policy_version 741283 (0.0007)
+[2023-07-06 14:29:41,138][98493] Updated weights for policy 0, policy_version 741345 (0.0008)
+[2023-07-06 14:29:41,571][98493] Updated weights for policy 0, policy_version 741398 (0.0007)
+[2023-07-06 14:29:43,646][98493] Updated weights for policy 0, policy_version 741472 (0.0006)
+[2023-07-06 14:29:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110318.9, 300 sec: 111078.0). Total num frames: 1518600192. Throughput: 0: 27659.3. Samples: 379713024. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:44,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:29:44,854][98493] Updated weights for policy 0, policy_version 741505 (0.0006)
+[2023-07-06 14:29:45,307][98493] Updated weights for policy 0, policy_version 741561 (0.0007)
+[2023-07-06 14:29:45,836][98493] Updated weights for policy 0, policy_version 741602 (0.0008)
+[2023-07-06 14:29:46,414][98493] Updated weights for policy 0, policy_version 741672 (0.0008)
+[2023-07-06 14:29:48,442][98493] Updated weights for policy 0, policy_version 741712 (0.0007)
+[2023-07-06 14:29:48,819][98493] Updated weights for policy 0, policy_version 741753 (0.0007)
+[2023-07-06 14:29:49,765][98243] Fps is (10 sec: 108121.8, 60 sec: 110316.8, 300 sec: 110855.3). Total num frames: 1519157248. Throughput: 0: 27931.7. Samples: 379884544. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:49,766][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:29:49,803][98493] Updated weights for policy 0, policy_version 741792 (0.0007)
+[2023-07-06 14:29:50,108][98493] Updated weights for policy 0, policy_version 741824 (0.0007)
+[2023-07-06 14:29:50,733][98493] Updated weights for policy 0, policy_version 741888 (0.0007)
+[2023-07-06 14:29:51,257][98493] Updated weights for policy 0, policy_version 741948 (0.0009)
+[2023-07-06 14:29:53,223][98493] Updated weights for policy 0, policy_version 741985 (0.0007)
+[2023-07-06 14:29:54,234][98493] Updated weights for policy 0, policy_version 742040 (0.0007)
+[2023-07-06 14:29:54,764][98243] Fps is (10 sec: 117962.4, 60 sec: 111411.0, 300 sec: 111077.9). Total num frames: 1519779840. Throughput: 0: 27795.8. Samples: 379967488. Policy #0 lag: (min: 15.0, avg: 87.0, max: 271.0)
+[2023-07-06 14:29:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:29:55,409][98493] Updated weights for policy 0, policy_version 742113 (0.0007)
+[2023-07-06 14:29:55,807][98449] Signal inference workers to stop experience collection... (38300 times)
+[2023-07-06 14:29:55,854][98493] InferenceWorker_p0-w0: stopping experience collection (38300 times)
+[2023-07-06 14:29:55,904][98449] Signal inference workers to resume experience collection... (38300 times)
+[2023-07-06 14:29:55,904][98493] InferenceWorker_p0-w0: resuming experience collection (38300 times)
+[2023-07-06 14:29:55,985][98493] Updated weights for policy 0, policy_version 742179 (0.0007)
+[2023-07-06 14:29:57,718][98493] Updated weights for policy 0, policy_version 742224 (0.0007)
+[2023-07-06 14:29:58,727][98493] Updated weights for policy 0, policy_version 742273 (0.0007)
+[2023-07-06 14:29:59,173][98493] Updated weights for policy 0, policy_version 742331 (0.0006)
+[2023-07-06 14:29:59,764][98243] Fps is (10 sec: 114702.2, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 1520304128. Throughput: 0: 27898.2. Samples: 380133376. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:29:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:30:00,378][98493] Updated weights for policy 0, policy_version 742387 (0.0007)
+[2023-07-06 14:30:00,884][98493] Updated weights for policy 0, policy_version 742448 (0.0007)
+[2023-07-06 14:30:02,976][98493] Updated weights for policy 0, policy_version 742501 (0.0006)
+[2023-07-06 14:30:03,530][98493] Updated weights for policy 0, policy_version 742548 (0.0006)
+[2023-07-06 14:30:03,829][98493] Updated weights for policy 0, policy_version 742587 (0.0007)
+[2023-07-06 14:30:04,764][98243] Fps is (10 sec: 111413.6, 60 sec: 110319.1, 300 sec: 111078.0). Total num frames: 1520893952. Throughput: 0: 27955.2. Samples: 380298240. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:30:04,966][98493] Updated weights for policy 0, policy_version 742647 (0.0009)
+[2023-07-06 14:30:05,511][98493] Updated weights for policy 0, policy_version 742713 (0.0007)
+[2023-07-06 14:30:07,894][98493] Updated weights for policy 0, policy_version 742781 (0.0007)
+[2023-07-06 14:30:08,410][98493] Updated weights for policy 0, policy_version 742822 (0.0007)
+[2023-07-06 14:30:09,449][98493] Updated weights for policy 0, policy_version 742867 (0.0007)
+[2023-07-06 14:30:09,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110865.2, 300 sec: 110967.0). Total num frames: 1521451008. Throughput: 0: 27898.3. Samples: 380382720. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:30:09,964][98493] Updated weights for policy 0, policy_version 742928 (0.0008)
+[2023-07-06 14:30:12,303][98493] Updated weights for policy 0, policy_version 742979 (0.0006)
+[2023-07-06 14:30:12,925][98493] Updated weights for policy 0, policy_version 743056 (0.0008)
+[2023-07-06 14:30:13,340][98493] Updated weights for policy 0, policy_version 743104 (0.0007)
+[2023-07-06 14:30:14,119][98449] Signal inference workers to stop experience collection... (38350 times)
+[2023-07-06 14:30:14,158][98493] InferenceWorker_p0-w0: stopping experience collection (38350 times)
+[2023-07-06 14:30:14,209][98449] Signal inference workers to resume experience collection... (38350 times)
+[2023-07-06 14:30:14,210][98493] InferenceWorker_p0-w0: resuming experience collection (38350 times)
+[2023-07-06 14:30:14,306][98493] Updated weights for policy 0, policy_version 743157 (0.0007)
+[2023-07-06 14:30:14,750][98493] Updated weights for policy 0, policy_version 743208 (0.0007)
+[2023-07-06 14:30:14,764][98243] Fps is (10 sec: 117965.3, 60 sec: 110864.9, 300 sec: 111300.1). Total num frames: 1522073600. Throughput: 0: 27796.0. Samples: 380547072. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:30:17,397][98493] Updated weights for policy 0, policy_version 743266 (0.0007)
+[2023-07-06 14:30:17,880][98493] Updated weights for policy 0, policy_version 743328 (0.0006)
+[2023-07-06 14:30:18,757][98493] Updated weights for policy 0, policy_version 743385 (0.0007)
+[2023-07-06 14:30:19,201][98493] Updated weights for policy 0, policy_version 743430 (0.0007)
+[2023-07-06 14:30:19,665][98493] Updated weights for policy 0, policy_version 743488 (0.0007)
+[2023-07-06 14:30:19,764][98243] Fps is (10 sec: 121240.4, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1522663424. Throughput: 0: 27682.1. Samples: 380711424. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:19,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:30:22,204][98493] Updated weights for policy 0, policy_version 743546 (0.0008)
+[2023-07-06 14:30:22,749][98493] Updated weights for policy 0, policy_version 743610 (0.0007)
+[2023-07-06 14:30:23,725][98493] Updated weights for policy 0, policy_version 743656 (0.0006)
+[2023-07-06 14:30:24,302][98493] Updated weights for policy 0, policy_version 743721 (0.0008)
+[2023-07-06 14:30:24,764][98243] Fps is (10 sec: 111410.2, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1523187712. Throughput: 0: 27784.5. Samples: 380796416. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:30:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000743744_1523187712.pth...
+[2023-07-06 14:30:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000730752_1496580096.pth
+[2023-07-06 14:30:26,928][98493] Updated weights for policy 0, policy_version 743782 (0.0007)
+[2023-07-06 14:30:27,547][98493] Updated weights for policy 0, policy_version 743856 (0.0007)
+[2023-07-06 14:30:28,301][98493] Updated weights for policy 0, policy_version 743898 (0.0006)
+[2023-07-06 14:30:28,833][98493] Updated weights for policy 0, policy_version 743957 (0.0008)
+[2023-07-06 14:30:29,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1523712000. Throughput: 0: 27693.5. Samples: 380959232. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:29,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:30:31,547][98493] Updated weights for policy 0, policy_version 744032 (0.0007)
+[2023-07-06 14:30:31,959][98449] Signal inference workers to stop experience collection... (38400 times)
+[2023-07-06 14:30:31,978][98493] Updated weights for policy 0, policy_version 744066 (0.0006)
+[2023-07-06 14:30:31,994][98493] InferenceWorker_p0-w0: stopping experience collection (38400 times)
+[2023-07-06 14:30:32,055][98449] Signal inference workers to resume experience collection... (38400 times)
+[2023-07-06 14:30:32,056][98493] InferenceWorker_p0-w0: resuming experience collection (38400 times)
+[2023-07-06 14:30:32,441][98493] Updated weights for policy 0, policy_version 744124 (0.0007)
+[2023-07-06 14:30:32,988][98493] Updated weights for policy 0, policy_version 744162 (0.0007)
+[2023-07-06 14:30:33,568][98493] Updated weights for policy 0, policy_version 744229 (0.0007)
+[2023-07-06 14:30:34,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 1524236288. Throughput: 0: 27637.3. Samples: 381128192. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:34,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:30:36,245][98493] Updated weights for policy 0, policy_version 744288 (0.0007)
+[2023-07-06 14:30:37,057][98493] Updated weights for policy 0, policy_version 744345 (0.0007)
+[2023-07-06 14:30:37,507][98493] Updated weights for policy 0, policy_version 744400 (0.0007)
+[2023-07-06 14:30:38,143][98493] Updated weights for policy 0, policy_version 744468 (0.0009)
+[2023-07-06 14:30:39,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 1524760576. Throughput: 0: 27636.8. Samples: 381211136. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:30:40,966][98493] Updated weights for policy 0, policy_version 744517 (0.0007)
+[2023-07-06 14:30:41,563][98493] Updated weights for policy 0, policy_version 744578 (0.0007)
+[2023-07-06 14:30:41,993][98493] Updated weights for policy 0, policy_version 744629 (0.0007)
+[2023-07-06 14:30:42,561][98493] Updated weights for policy 0, policy_version 744691 (0.0007)
+[2023-07-06 14:30:42,986][98493] Updated weights for policy 0, policy_version 744741 (0.0008)
+[2023-07-06 14:30:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111411.1, 300 sec: 110966.9). Total num frames: 1525284864. Throughput: 0: 27636.6. Samples: 381377024. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:44,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:30:45,798][98493] Updated weights for policy 0, policy_version 744784 (0.0006)
+[2023-07-06 14:30:46,242][98493] Updated weights for policy 0, policy_version 744832 (0.0007)
+[2023-07-06 14:30:46,779][98493] Updated weights for policy 0, policy_version 744887 (0.0007)
+[2023-07-06 14:30:47,288][98449] Signal inference workers to stop experience collection... (38450 times)
+[2023-07-06 14:30:47,328][98493] InferenceWorker_p0-w0: stopping experience collection (38450 times)
+[2023-07-06 14:30:47,336][98493] Updated weights for policy 0, policy_version 744952 (0.0007)
+[2023-07-06 14:30:47,375][98449] Signal inference workers to resume experience collection... (38450 times)
+[2023-07-06 14:30:47,375][98493] InferenceWorker_p0-w0: resuming experience collection (38450 times)
+[2023-07-06 14:30:47,865][98493] Updated weights for policy 0, policy_version 745021 (0.0007)
+[2023-07-06 14:30:49,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110867.3, 300 sec: 110744.7). Total num frames: 1525809152. Throughput: 0: 27727.6. Samples: 381545984. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:30:50,968][98493] Updated weights for policy 0, policy_version 745075 (0.0010)
+[2023-07-06 14:30:51,547][98493] Updated weights for policy 0, policy_version 745140 (0.0007)
+[2023-07-06 14:30:52,134][98493] Updated weights for policy 0, policy_version 745209 (0.0009)
+[2023-07-06 14:30:52,596][98493] Updated weights for policy 0, policy_version 745264 (0.0007)
+[2023-07-06 14:30:54,764][98243] Fps is (10 sec: 104858.3, 60 sec: 109227.0, 300 sec: 110633.7). Total num frames: 1526333440. Throughput: 0: 27500.1. Samples: 381620224. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:30:55,426][98493] Updated weights for policy 0, policy_version 745296 (0.0006)
+[2023-07-06 14:30:55,985][98493] Updated weights for policy 0, policy_version 745360 (0.0007)
+[2023-07-06 14:30:56,480][98493] Updated weights for policy 0, policy_version 745409 (0.0007)
+[2023-07-06 14:30:56,930][98493] Updated weights for policy 0, policy_version 745468 (0.0007)
+[2023-07-06 14:30:57,492][98493] Updated weights for policy 0, policy_version 745527 (0.0008)
+[2023-07-06 14:30:59,764][98243] Fps is (10 sec: 104857.8, 60 sec: 109226.7, 300 sec: 110411.7). Total num frames: 1526857728. Throughput: 0: 27682.1. Samples: 381792768. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:30:59,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:31:00,426][98493] Updated weights for policy 0, policy_version 745584 (0.0006)
+[2023-07-06 14:31:00,931][98493] Updated weights for policy 0, policy_version 745640 (0.0007)
+[2023-07-06 14:31:01,391][98493] Updated weights for policy 0, policy_version 745696 (0.0006)
+[2023-07-06 14:31:01,876][98493] Updated weights for policy 0, policy_version 745744 (0.0007)
+[2023-07-06 14:31:02,270][98493] Updated weights for policy 0, policy_version 745791 (0.0008)
+[2023-07-06 14:31:04,764][98243] Fps is (10 sec: 104858.4, 60 sec: 108134.5, 300 sec: 110189.4). Total num frames: 1527382016. Throughput: 0: 27796.0. Samples: 381962240. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:04,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:31:04,989][98449] Signal inference workers to stop experience collection... (38500 times)
+[2023-07-06 14:31:05,012][98493] InferenceWorker_p0-w0: stopping experience collection (38500 times)
+[2023-07-06 14:31:05,075][98449] Signal inference workers to resume experience collection... (38500 times)
+[2023-07-06 14:31:05,076][98493] InferenceWorker_p0-w0: resuming experience collection (38500 times)
+[2023-07-06 14:31:05,173][98493] Updated weights for policy 0, policy_version 745849 (0.0007)
+[2023-07-06 14:31:05,708][98493] Updated weights for policy 0, policy_version 745907 (0.0007)
+[2023-07-06 14:31:06,200][98493] Updated weights for policy 0, policy_version 745968 (0.0007)
+[2023-07-06 14:31:06,888][98493] Updated weights for policy 0, policy_version 746021 (0.0007)
+[2023-07-06 14:31:09,746][98493] Updated weights for policy 0, policy_version 746083 (0.0007)
+[2023-07-06 14:31:09,765][98243] Fps is (10 sec: 111408.2, 60 sec: 108680.0, 300 sec: 110300.3). Total num frames: 1527971840. Throughput: 0: 27579.6. Samples: 382037504. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:09,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:31:10,275][98493] Updated weights for policy 0, policy_version 746144 (0.0007)
+[2023-07-06 14:31:10,784][98493] Updated weights for policy 0, policy_version 746193 (0.0007)
+[2023-07-06 14:31:11,398][98493] Updated weights for policy 0, policy_version 746256 (0.0007)
+[2023-07-06 14:31:14,449][98493] Updated weights for policy 0, policy_version 746325 (0.0006)
+[2023-07-06 14:31:14,764][98243] Fps is (10 sec: 114686.8, 60 sec: 107588.1, 300 sec: 110078.3). Total num frames: 1528528896. Throughput: 0: 27784.5. Samples: 382209536. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:14,765][98243] Avg episode reward: [(0, '9.990')]
+[2023-07-06 14:31:14,938][98449] Saving new best policy, reward=9.990!
+[2023-07-06 14:31:14,939][98493] Updated weights for policy 0, policy_version 746384 (0.0007)
+[2023-07-06 14:31:15,673][98493] Updated weights for policy 0, policy_version 746457 (0.0007)
+[2023-07-06 14:31:16,231][98493] Updated weights for policy 0, policy_version 746516 (0.0009)
+[2023-07-06 14:31:19,132][98493] Updated weights for policy 0, policy_version 746563 (0.0029)
+[2023-07-06 14:31:19,573][98493] Updated weights for policy 0, policy_version 746612 (0.0007)
+[2023-07-06 14:31:19,764][98243] Fps is (10 sec: 111414.4, 60 sec: 107042.3, 300 sec: 110189.4). Total num frames: 1529085952. Throughput: 0: 27693.6. Samples: 382374400. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:19,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:31:20,126][98493] Updated weights for policy 0, policy_version 746675 (0.0008)
+[2023-07-06 14:31:20,386][98449] Signal inference workers to stop experience collection... (38550 times)
+[2023-07-06 14:31:20,425][98493] InferenceWorker_p0-w0: stopping experience collection (38550 times)
+[2023-07-06 14:31:20,469][98449] Signal inference workers to resume experience collection... (38550 times)
+[2023-07-06 14:31:20,470][98493] InferenceWorker_p0-w0: resuming experience collection (38550 times)
+[2023-07-06 14:31:20,707][98493] Updated weights for policy 0, policy_version 746744 (0.0010)
+[2023-07-06 14:31:21,238][98493] Updated weights for policy 0, policy_version 746810 (0.0007)
+[2023-07-06 14:31:24,176][98493] Updated weights for policy 0, policy_version 746853 (0.0007)
+[2023-07-06 14:31:24,765][98243] Fps is (10 sec: 114685.2, 60 sec: 108134.0, 300 sec: 110411.4). Total num frames: 1529675776. Throughput: 0: 27613.7. Samples: 382453760. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:31:24,800][98493] Updated weights for policy 0, policy_version 746928 (0.0007)
+[2023-07-06 14:31:25,320][98493] Updated weights for policy 0, policy_version 746982 (0.0008)
+[2023-07-06 14:31:25,870][98493] Updated weights for policy 0, policy_version 747046 (0.0007)
+[2023-07-06 14:31:29,095][98493] Updated weights for policy 0, policy_version 747107 (0.0007)
+[2023-07-06 14:31:29,748][98493] Updated weights for policy 0, policy_version 747184 (0.0007)
+[2023-07-06 14:31:29,764][98243] Fps is (10 sec: 114686.4, 60 sec: 108680.3, 300 sec: 110522.5). Total num frames: 1530232832. Throughput: 0: 27716.2. Samples: 382624256. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:31:30,289][98493] Updated weights for policy 0, policy_version 747248 (0.0007)
+[2023-07-06 14:31:30,927][98493] Updated weights for policy 0, policy_version 747322 (0.0008)
+[2023-07-06 14:31:34,068][98493] Updated weights for policy 0, policy_version 747383 (0.0007)
+[2023-07-06 14:31:34,593][98493] Updated weights for policy 0, policy_version 747441 (0.0007)
+[2023-07-06 14:31:34,764][98243] Fps is (10 sec: 111414.6, 60 sec: 109226.8, 300 sec: 110633.7). Total num frames: 1530789888. Throughput: 0: 27318.1. Samples: 382775296. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:31:35,036][98493] Updated weights for policy 0, policy_version 747493 (0.0007)
+[2023-07-06 14:31:35,564][98449] Signal inference workers to stop experience collection... (38600 times)
+[2023-07-06 14:31:35,592][98493] Updated weights for policy 0, policy_version 747555 (0.0007)
+[2023-07-06 14:31:35,602][98493] InferenceWorker_p0-w0: stopping experience collection (38600 times)
+[2023-07-06 14:31:35,658][98449] Signal inference workers to resume experience collection... (38600 times)
+[2023-07-06 14:31:35,659][98493] InferenceWorker_p0-w0: resuming experience collection (38600 times)
+[2023-07-06 14:31:38,449][98493] Updated weights for policy 0, policy_version 747592 (0.0007)
+[2023-07-06 14:31:39,044][98493] Updated weights for policy 0, policy_version 747664 (0.0008)
+[2023-07-06 14:31:39,591][98493] Updated weights for policy 0, policy_version 747714 (0.0006)
+[2023-07-06 14:31:39,764][98243] Fps is (10 sec: 111413.0, 60 sec: 109772.9, 300 sec: 110744.7). Total num frames: 1531346944. Throughput: 0: 27613.9. Samples: 382862848. Policy #0 lag: (min: 0.0, avg: 103.3, max: 256.0)
+[2023-07-06 14:31:39,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:31:40,172][98493] Updated weights for policy 0, policy_version 747783 (0.0007)
+[2023-07-06 14:31:43,216][98493] Updated weights for policy 0, policy_version 747842 (0.0007)
+[2023-07-06 14:31:43,754][98493] Updated weights for policy 0, policy_version 747904 (0.0007)
+[2023-07-06 14:31:44,252][98493] Updated weights for policy 0, policy_version 747957 (0.0008)
+[2023-07-06 14:31:44,764][98243] Fps is (10 sec: 114685.6, 60 sec: 110864.9, 300 sec: 110966.8). Total num frames: 1531936768. Throughput: 0: 27397.6. Samples: 383025664. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:31:44,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:31:44,883][98493] Updated weights for policy 0, policy_version 748032 (0.0008)
+[2023-07-06 14:31:45,369][98493] Updated weights for policy 0, policy_version 748091 (0.0007)
+[2023-07-06 14:31:48,486][98493] Updated weights for policy 0, policy_version 748136 (0.0006)
+[2023-07-06 14:31:49,082][98493] Updated weights for policy 0, policy_version 748198 (0.0007)
+[2023-07-06 14:31:49,671][98493] Updated weights for policy 0, policy_version 748260 (0.0007)
+[2023-07-06 14:31:49,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110865.2, 300 sec: 110967.4). Total num frames: 1532461056. Throughput: 0: 27079.1. Samples: 383180800. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:31:49,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:31:50,408][98493] Updated weights for policy 0, policy_version 748346 (0.0007)
+[2023-07-06 14:31:53,843][98493] Updated weights for policy 0, policy_version 748407 (0.0007)
+[2023-07-06 14:31:53,937][98449] Signal inference workers to stop experience collection... (38650 times)
+[2023-07-06 14:31:53,981][98493] InferenceWorker_p0-w0: stopping experience collection (38650 times)
+[2023-07-06 14:31:54,037][98449] Signal inference workers to resume experience collection... (38650 times)
+[2023-07-06 14:31:54,037][98493] InferenceWorker_p0-w0: resuming experience collection (38650 times)
+[2023-07-06 14:31:54,395][98493] Updated weights for policy 0, policy_version 748469 (0.0007)
+[2023-07-06 14:31:54,764][98243] Fps is (10 sec: 101582.2, 60 sec: 110318.9, 300 sec: 110744.8). Total num frames: 1532952576. Throughput: 0: 27329.6. Samples: 383267328. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:31:54,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:31:54,973][98493] Updated weights for policy 0, policy_version 748535 (0.0008)
+[2023-07-06 14:31:55,511][98493] Updated weights for policy 0, policy_version 748600 (0.0007)
+[2023-07-06 14:31:58,232][98493] Updated weights for policy 0, policy_version 748640 (0.0007)
+[2023-07-06 14:31:58,760][98493] Updated weights for policy 0, policy_version 748694 (0.0007)
+[2023-07-06 14:31:59,348][98493] Updated weights for policy 0, policy_version 748768 (0.0008)
+[2023-07-06 14:31:59,764][98243] Fps is (10 sec: 111409.4, 60 sec: 111957.1, 300 sec: 111077.9). Total num frames: 1533575168. Throughput: 0: 27056.3. Samples: 383427072. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:31:59,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:31:59,880][98493] Updated weights for policy 0, policy_version 748832 (0.0008)
+[2023-07-06 14:32:02,920][98493] Updated weights for policy 0, policy_version 748880 (0.0006)
+[2023-07-06 14:32:03,522][98493] Updated weights for policy 0, policy_version 748944 (0.0006)
+[2023-07-06 14:32:03,956][98493] Updated weights for policy 0, policy_version 748992 (0.0007)
+[2023-07-06 14:32:04,576][98493] Updated weights for policy 0, policy_version 749061 (0.0007)
+[2023-07-06 14:32:04,764][98243] Fps is (10 sec: 114688.8, 60 sec: 111957.3, 300 sec: 110967.0). Total num frames: 1534099456. Throughput: 0: 26954.0. Samples: 383587328. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:04,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:32:05,060][98493] Updated weights for policy 0, policy_version 749120 (0.0006)
+[2023-07-06 14:32:07,788][98493] Updated weights for policy 0, policy_version 749168 (0.0007)
+[2023-07-06 14:32:08,292][98493] Updated weights for policy 0, policy_version 749218 (0.0007)
+[2023-07-06 14:32:08,691][98449] Signal inference workers to stop experience collection... (38700 times)
+[2023-07-06 14:32:08,730][98493] InferenceWorker_p0-w0: stopping experience collection (38700 times)
+[2023-07-06 14:32:08,783][98449] Signal inference workers to resume experience collection... (38700 times)
+[2023-07-06 14:32:08,783][98493] InferenceWorker_p0-w0: resuming experience collection (38700 times)
+[2023-07-06 14:32:08,882][98493] Updated weights for policy 0, policy_version 749288 (0.0006)
+[2023-07-06 14:32:09,422][98493] Updated weights for policy 0, policy_version 749347 (0.0007)
+[2023-07-06 14:32:09,764][98243] Fps is (10 sec: 114688.8, 60 sec: 112503.9, 300 sec: 111189.0). Total num frames: 1534722048. Throughput: 0: 27215.8. Samples: 383678464. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:09,765][98243] Avg episode reward: [(0, '9.960')]
+[2023-07-06 14:32:12,051][98493] Updated weights for policy 0, policy_version 749401 (0.0006)
+[2023-07-06 14:32:12,526][98493] Updated weights for policy 0, policy_version 749456 (0.0007)
+[2023-07-06 14:32:13,345][98493] Updated weights for policy 0, policy_version 749506 (0.0007)
+[2023-07-06 14:32:13,857][98493] Updated weights for policy 0, policy_version 749568 (0.0008)
+[2023-07-06 14:32:14,281][98493] Updated weights for policy 0, policy_version 749616 (0.0007)
+[2023-07-06 14:32:14,764][98243] Fps is (10 sec: 114687.7, 60 sec: 111957.4, 300 sec: 110967.0). Total num frames: 1535246336. Throughput: 0: 26954.0. Samples: 383837184. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:14,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 14:32:17,117][98493] Updated weights for policy 0, policy_version 749664 (0.0008)
+[2023-07-06 14:32:17,781][98493] Updated weights for policy 0, policy_version 749734 (0.0008)
+[2023-07-06 14:32:18,339][98493] Updated weights for policy 0, policy_version 749765 (0.0007)
+[2023-07-06 14:32:18,925][98493] Updated weights for policy 0, policy_version 749827 (0.0008)
+[2023-07-06 14:32:19,448][98493] Updated weights for policy 0, policy_version 749888 (0.0008)
+[2023-07-06 14:32:19,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.2, 300 sec: 110744.8). Total num frames: 1535770624. Throughput: 0: 27045.0. Samples: 383992320. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:19,765][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:32:22,399][98493] Updated weights for policy 0, policy_version 749952 (0.0007)
+[2023-07-06 14:32:23,201][98493] Updated weights for policy 0, policy_version 750032 (0.0007)
+[2023-07-06 14:32:23,886][98493] Updated weights for policy 0, policy_version 750103 (0.0008)
+[2023-07-06 14:32:24,764][98243] Fps is (10 sec: 104857.0, 60 sec: 110319.3, 300 sec: 110522.5). Total num frames: 1536294912. Throughput: 0: 26965.3. Samples: 384076288. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:24,765][98243] Avg episode reward: [(0, '9.960')]
+[2023-07-06 14:32:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000750144_1536294912.pth...
+[2023-07-06 14:32:24,809][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000737152_1509687296.pth
+[2023-07-06 14:32:27,019][98493] Updated weights for policy 0, policy_version 750162 (0.0008)
+[2023-07-06 14:32:27,148][98449] Signal inference workers to stop experience collection... (38750 times)
+[2023-07-06 14:32:27,176][98493] InferenceWorker_p0-w0: stopping experience collection (38750 times)
+[2023-07-06 14:32:27,233][98449] Signal inference workers to resume experience collection... (38750 times)
+[2023-07-06 14:32:27,233][98493] InferenceWorker_p0-w0: resuming experience collection (38750 times)
+[2023-07-06 14:32:27,611][98493] Updated weights for policy 0, policy_version 750227 (0.0008)
+[2023-07-06 14:32:28,264][98493] Updated weights for policy 0, policy_version 750288 (0.0007)
+[2023-07-06 14:32:28,959][98493] Updated weights for policy 0, policy_version 750368 (0.0007)
+[2023-07-06 14:32:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 109773.0, 300 sec: 110300.4). Total num frames: 1536819200. Throughput: 0: 26817.5. Samples: 384232448. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:29,765][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:32:31,766][98493] Updated weights for policy 0, policy_version 750421 (0.0007)
+[2023-07-06 14:32:32,207][98493] Updated weights for policy 0, policy_version 750471 (0.0007)
+[2023-07-06 14:32:32,707][98493] Updated weights for policy 0, policy_version 750528 (0.0007)
+[2023-07-06 14:32:33,643][98493] Updated weights for policy 0, policy_version 750601 (0.0028)
+[2023-07-06 14:32:34,086][98493] Updated weights for policy 0, policy_version 750656 (0.0007)
+[2023-07-06 14:32:34,764][98243] Fps is (10 sec: 104858.9, 60 sec: 109226.7, 300 sec: 110078.3). Total num frames: 1537343488. Throughput: 0: 27045.0. Samples: 384397824. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:34,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:32:37,000][98493] Updated weights for policy 0, policy_version 750720 (0.0007)
+[2023-07-06 14:32:37,502][98493] Updated weights for policy 0, policy_version 750778 (0.0007)
+[2023-07-06 14:32:38,046][98493] Updated weights for policy 0, policy_version 750819 (0.0007)
+[2023-07-06 14:32:38,661][98493] Updated weights for policy 0, policy_version 750890 (0.0007)
+[2023-07-06 14:32:39,765][98243] Fps is (10 sec: 104853.2, 60 sec: 108679.7, 300 sec: 109855.9). Total num frames: 1537867776. Throughput: 0: 26999.2. Samples: 384482304. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:39,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:32:41,146][98493] Updated weights for policy 0, policy_version 750928 (0.0008)
+[2023-07-06 14:32:41,731][98493] Updated weights for policy 0, policy_version 750992 (0.0008)
+[2023-07-06 14:32:42,707][98493] Updated weights for policy 0, policy_version 751044 (0.0006)
+[2023-07-06 14:32:43,116][98449] Signal inference workers to stop experience collection... (38800 times)
+[2023-07-06 14:32:43,142][98493] InferenceWorker_p0-w0: stopping experience collection (38800 times)
+[2023-07-06 14:32:43,205][98449] Signal inference workers to resume experience collection... (38800 times)
+[2023-07-06 14:32:43,206][98493] InferenceWorker_p0-w0: resuming experience collection (38800 times)
+[2023-07-06 14:32:43,207][98493] Updated weights for policy 0, policy_version 751104 (0.0007)
+[2023-07-06 14:32:43,796][98493] Updated weights for policy 0, policy_version 751168 (0.0007)
+[2023-07-06 14:32:44,764][98243] Fps is (10 sec: 104857.2, 60 sec: 107588.7, 300 sec: 109745.0). Total num frames: 1538392064. Throughput: 0: 26988.2. Samples: 384641536. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:44,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:32:46,315][98493] Updated weights for policy 0, policy_version 751217 (0.0008)
+[2023-07-06 14:32:46,806][98493] Updated weights for policy 0, policy_version 751280 (0.0008)
+[2023-07-06 14:32:47,760][98493] Updated weights for policy 0, policy_version 751332 (0.0008)
+[2023-07-06 14:32:48,258][98493] Updated weights for policy 0, policy_version 751392 (0.0007)
+[2023-07-06 14:32:49,764][98243] Fps is (10 sec: 104861.6, 60 sec: 107588.1, 300 sec: 109745.1). Total num frames: 1538916352. Throughput: 0: 27204.2. Samples: 384811520. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:49,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:32:50,776][98493] Updated weights for policy 0, policy_version 751450 (0.0008)
+[2023-07-06 14:32:51,314][98493] Updated weights for policy 0, policy_version 751507 (0.0007)
+[2023-07-06 14:32:52,301][98493] Updated weights for policy 0, policy_version 751556 (0.0006)
+[2023-07-06 14:32:52,966][98493] Updated weights for policy 0, policy_version 751637 (0.0007)
+[2023-07-06 14:32:53,283][98493] Updated weights for policy 0, policy_version 751679 (0.0006)
+[2023-07-06 14:32:54,765][98243] Fps is (10 sec: 104853.8, 60 sec: 108133.9, 300 sec: 109744.9). Total num frames: 1539440640. Throughput: 0: 26931.0. Samples: 384890368. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:54,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:32:55,703][98493] Updated weights for policy 0, policy_version 751728 (0.0007)
+[2023-07-06 14:32:56,314][98493] Updated weights for policy 0, policy_version 751780 (0.0008)
+[2023-07-06 14:32:56,894][98493] Updated weights for policy 0, policy_version 751824 (0.0006)
+[2023-07-06 14:32:57,541][98493] Updated weights for policy 0, policy_version 751892 (0.0008)
+[2023-07-06 14:32:59,764][98243] Fps is (10 sec: 104858.0, 60 sec: 106496.2, 300 sec: 109745.0). Total num frames: 1539964928. Throughput: 0: 27045.0. Samples: 385054208. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:32:59,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:33:00,256][98493] Updated weights for policy 0, policy_version 751961 (0.0007)
+[2023-07-06 14:33:00,713][98493] Updated weights for policy 0, policy_version 752003 (0.0007)
+[2023-07-06 14:33:00,831][98449] Signal inference workers to stop experience collection... (38850 times)
+[2023-07-06 14:33:00,868][98493] InferenceWorker_p0-w0: stopping experience collection (38850 times)
+[2023-07-06 14:33:00,915][98449] Signal inference workers to resume experience collection... (38850 times)
+[2023-07-06 14:33:00,915][98493] InferenceWorker_p0-w0: resuming experience collection (38850 times)
+[2023-07-06 14:33:01,225][98493] Updated weights for policy 0, policy_version 752064 (0.0007)
+[2023-07-06 14:33:01,982][98493] Updated weights for policy 0, policy_version 752101 (0.0010)
+[2023-07-06 14:33:02,490][98493] Updated weights for policy 0, policy_version 752160 (0.0017)
+[2023-07-06 14:33:04,764][98243] Fps is (10 sec: 104860.9, 60 sec: 106495.9, 300 sec: 109745.1). Total num frames: 1540489216. Throughput: 0: 27409.0. Samples: 385225728. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:33:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:33:04,941][98493] Updated weights for policy 0, policy_version 752214 (0.0007)
+[2023-07-06 14:33:05,566][98493] Updated weights for policy 0, policy_version 752261 (0.0006)
+[2023-07-06 14:33:06,033][98493] Updated weights for policy 0, policy_version 752320 (0.0006)
+[2023-07-06 14:33:06,943][98493] Updated weights for policy 0, policy_version 752370 (0.0007)
+[2023-07-06 14:33:07,530][98493] Updated weights for policy 0, policy_version 752441 (0.0007)
+[2023-07-06 14:33:09,752][98493] Updated weights for policy 0, policy_version 752505 (0.0007)
+[2023-07-06 14:33:09,764][98243] Fps is (10 sec: 114686.7, 60 sec: 106495.8, 300 sec: 110078.2). Total num frames: 1541111808. Throughput: 0: 27215.6. Samples: 385300992. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:33:09,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:33:10,660][98493] Updated weights for policy 0, policy_version 752548 (0.0006)
+[2023-07-06 14:33:11,500][98493] Updated weights for policy 0, policy_version 752613 (0.0006)
+[2023-07-06 14:33:11,982][98493] Updated weights for policy 0, policy_version 752672 (0.0007)
+[2023-07-06 14:33:13,973][98493] Updated weights for policy 0, policy_version 752720 (0.0007)
+[2023-07-06 14:33:14,380][98493] Updated weights for policy 0, policy_version 752768 (0.0007)
+[2023-07-06 14:33:14,765][98243] Fps is (10 sec: 117953.5, 60 sec: 107040.4, 300 sec: 110189.0). Total num frames: 1541668864. Throughput: 0: 27545.0. Samples: 385472000. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:33:14,766][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:33:15,272][98493] Updated weights for policy 0, policy_version 752817 (0.0008)
+[2023-07-06 14:33:16,282][98493] Updated weights for policy 0, policy_version 752848 (0.0007)
+[2023-07-06 14:33:16,921][98493] Updated weights for policy 0, policy_version 752919 (0.0007)
+[2023-07-06 14:33:18,445][98493] Updated weights for policy 0, policy_version 752961 (0.0007)
+[2023-07-06 14:33:18,758][98449] Signal inference workers to stop experience collection... (38900 times)
+[2023-07-06 14:33:18,782][98493] InferenceWorker_p0-w0: stopping experience collection (38900 times)
+[2023-07-06 14:33:18,850][98449] Signal inference workers to resume experience collection... (38900 times)
+[2023-07-06 14:33:18,850][98493] InferenceWorker_p0-w0: resuming experience collection (38900 times)
+[2023-07-06 14:33:19,500][98493] Updated weights for policy 0, policy_version 753025 (0.0008)
+[2023-07-06 14:33:19,764][98243] Fps is (10 sec: 114691.0, 60 sec: 108134.6, 300 sec: 110411.6). Total num frames: 1542258688. Throughput: 0: 27579.8. Samples: 385638912. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:33:19,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:33:20,010][98493] Updated weights for policy 0, policy_version 753088 (0.0007)
+[2023-07-06 14:33:21,566][98493] Updated weights for policy 0, policy_version 753155 (0.0007)
+[2023-07-06 14:33:22,002][98493] Updated weights for policy 0, policy_version 753212 (0.0006)
+[2023-07-06 14:33:23,733][98493] Updated weights for policy 0, policy_version 753273 (0.0008)
+[2023-07-06 14:33:24,408][98493] Updated weights for policy 0, policy_version 753317 (0.0007)
+[2023-07-06 14:33:24,764][98243] Fps is (10 sec: 117975.7, 60 sec: 109226.7, 300 sec: 110522.6). Total num frames: 1542848512. Throughput: 0: 27511.7. Samples: 385720320. Policy #0 lag: (min: 15.0, avg: 63.6, max: 271.0)
+[2023-07-06 14:33:24,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:33:26,012][98493] Updated weights for policy 0, policy_version 753364 (0.0008)
+[2023-07-06 14:33:26,477][98493] Updated weights for policy 0, policy_version 753412 (0.0008)
+[2023-07-06 14:33:26,921][98493] Updated weights for policy 0, policy_version 753468 (0.0007)
+[2023-07-06 14:33:28,308][98493] Updated weights for policy 0, policy_version 753511 (0.0007)
+[2023-07-06 14:33:29,187][98493] Updated weights for policy 0, policy_version 753568 (0.0007)
+[2023-07-06 14:33:29,764][98243] Fps is (10 sec: 111409.8, 60 sec: 109226.7, 300 sec: 110300.4). Total num frames: 1543372800. Throughput: 0: 27602.5. Samples: 385883648. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:29,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:33:30,647][98493] Updated weights for policy 0, policy_version 753617 (0.0008)
+[2023-07-06 14:33:31,241][98493] Updated weights for policy 0, policy_version 753687 (0.0007)
+[2023-07-06 14:33:32,834][98493] Updated weights for policy 0, policy_version 753731 (0.0007)
+[2023-07-06 14:33:33,272][98493] Updated weights for policy 0, policy_version 753789 (0.0006)
+[2023-07-06 14:33:34,027][98493] Updated weights for policy 0, policy_version 753831 (0.0008)
+[2023-07-06 14:33:34,764][98243] Fps is (10 sec: 104856.7, 60 sec: 109226.3, 300 sec: 110189.3). Total num frames: 1543897088. Throughput: 0: 27545.5. Samples: 386051072. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:34,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:33:35,393][98493] Updated weights for policy 0, policy_version 753888 (0.0007)
+[2023-07-06 14:33:35,799][98493] Updated weights for policy 0, policy_version 753923 (0.0030)
+[2023-07-06 14:33:36,244][98493] Updated weights for policy 0, policy_version 753979 (0.0007)
+[2023-07-06 14:33:37,577][98449] Signal inference workers to stop experience collection... (38950 times)
+[2023-07-06 14:33:37,595][98493] InferenceWorker_p0-w0: stopping experience collection (38950 times)
+[2023-07-06 14:33:37,661][98449] Signal inference workers to resume experience collection... (38950 times)
+[2023-07-06 14:33:37,661][98493] InferenceWorker_p0-w0: resuming experience collection (38950 times)
+[2023-07-06 14:33:37,882][98493] Updated weights for policy 0, policy_version 754019 (0.0006)
+[2023-07-06 14:33:38,625][98493] Updated weights for policy 0, policy_version 754073 (0.0006)
+[2023-07-06 14:33:39,609][98493] Updated weights for policy 0, policy_version 754114 (0.0007)
+[2023-07-06 14:33:39,764][98243] Fps is (10 sec: 108134.2, 60 sec: 109773.5, 300 sec: 110078.3). Total num frames: 1544454144. Throughput: 0: 27727.8. Samples: 386138112. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:39,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:33:40,409][98493] Updated weights for policy 0, policy_version 754177 (0.0007)
+[2023-07-06 14:33:42,457][98493] Updated weights for policy 0, policy_version 754242 (0.0007)
+[2023-07-06 14:33:42,920][98493] Updated weights for policy 0, policy_version 754298 (0.0006)
+[2023-07-06 14:33:43,530][98493] Updated weights for policy 0, policy_version 754338 (0.0007)
+[2023-07-06 14:33:44,343][98493] Updated weights for policy 0, policy_version 754384 (0.0008)
+[2023-07-06 14:33:44,711][98493] Updated weights for policy 0, policy_version 754426 (0.0006)
+[2023-07-06 14:33:44,764][98243] Fps is (10 sec: 117966.5, 60 sec: 111411.2, 300 sec: 110300.4). Total num frames: 1545076736. Throughput: 0: 27704.9. Samples: 386300928. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:44,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:33:45,284][98493] Updated weights for policy 0, policy_version 754469 (0.0007)
+[2023-07-06 14:33:47,173][98493] Updated weights for policy 0, policy_version 754521 (0.0007)
+[2023-07-06 14:33:47,479][98493] Updated weights for policy 0, policy_version 754559 (0.0006)
+[2023-07-06 14:33:47,972][98493] Updated weights for policy 0, policy_version 754597 (0.0006)
+[2023-07-06 14:33:49,145][98493] Updated weights for policy 0, policy_version 754640 (0.0006)
+[2023-07-06 14:33:49,680][98493] Updated weights for policy 0, policy_version 754690 (0.0006)
+[2023-07-06 14:33:49,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111411.4, 300 sec: 110189.4). Total num frames: 1545601024. Throughput: 0: 27670.8. Samples: 386470912. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:49,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:33:50,133][98493] Updated weights for policy 0, policy_version 754744 (0.0007)
+[2023-07-06 14:33:52,211][98493] Updated weights for policy 0, policy_version 754800 (0.0008)
+[2023-07-06 14:33:52,709][98493] Updated weights for policy 0, policy_version 754850 (0.0008)
+[2023-07-06 14:33:54,090][98493] Updated weights for policy 0, policy_version 754904 (0.0007)
+[2023-07-06 14:33:54,568][98493] Updated weights for policy 0, policy_version 754960 (0.0009)
+[2023-07-06 14:33:54,764][98243] Fps is (10 sec: 111410.9, 60 sec: 112504.0, 300 sec: 109967.2). Total num frames: 1546190848. Throughput: 0: 27818.7. Samples: 386552832. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:54,765][98243] Avg episode reward: [(0, '9.970')]
+[2023-07-06 14:33:56,530][98449] Signal inference workers to stop experience collection... (39000 times)
+[2023-07-06 14:33:56,547][98493] InferenceWorker_p0-w0: stopping experience collection (39000 times)
+[2023-07-06 14:33:56,619][98449] Signal inference workers to resume experience collection... (39000 times)
+[2023-07-06 14:33:56,619][98493] InferenceWorker_p0-w0: resuming experience collection (39000 times)
+[2023-07-06 14:33:56,722][98493] Updated weights for policy 0, policy_version 755032 (0.0007)
+[2023-07-06 14:33:57,164][98493] Updated weights for policy 0, policy_version 755080 (0.0007)
+[2023-07-06 14:33:58,541][98493] Updated weights for policy 0, policy_version 755141 (0.0007)
+[2023-07-06 14:33:58,989][98493] Updated weights for policy 0, policy_version 755196 (0.0007)
+[2023-07-06 14:33:59,659][98493] Updated weights for policy 0, policy_version 755255 (0.0008)
+[2023-07-06 14:33:59,764][98243] Fps is (10 sec: 117964.3, 60 sec: 113595.8, 300 sec: 110189.4). Total num frames: 1546780672. Throughput: 0: 27796.5. Samples: 386722816. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:33:59,764][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:34:01,605][98493] Updated weights for policy 0, policy_version 755312 (0.0006)
+[2023-07-06 14:34:02,387][98493] Updated weights for policy 0, policy_version 755364 (0.0006)
+[2023-07-06 14:34:03,475][98493] Updated weights for policy 0, policy_version 755424 (0.0007)
+[2023-07-06 14:34:04,183][98493] Updated weights for policy 0, policy_version 755488 (0.0007)
+[2023-07-06 14:34:04,765][98243] Fps is (10 sec: 111408.3, 60 sec: 113595.2, 300 sec: 110189.2). Total num frames: 1547304960. Throughput: 0: 27556.7. Samples: 386878976. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:04,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 14:34:06,403][98493] Updated weights for policy 0, policy_version 755544 (0.0007)
+[2023-07-06 14:34:07,017][98493] Updated weights for policy 0, policy_version 755600 (0.0007)
+[2023-07-06 14:34:08,274][98493] Updated weights for policy 0, policy_version 755651 (0.0006)
+[2023-07-06 14:34:08,630][98493] Updated weights for policy 0, policy_version 755696 (0.0007)
+[2023-07-06 14:34:09,280][98493] Updated weights for policy 0, policy_version 755771 (0.0008)
+[2023-07-06 14:34:09,764][98243] Fps is (10 sec: 104856.5, 60 sec: 111957.4, 300 sec: 109856.0). Total num frames: 1547829248. Throughput: 0: 27625.2. Samples: 386963456. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:09,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:34:11,173][98493] Updated weights for policy 0, policy_version 755831 (0.0006)
+[2023-07-06 14:34:12,181][98493] Updated weights for policy 0, policy_version 755897 (0.0007)
+[2023-07-06 14:34:13,554][98493] Updated weights for policy 0, policy_version 755959 (0.0007)
+[2023-07-06 14:34:13,782][98449] Signal inference workers to stop experience collection... (39050 times)
+[2023-07-06 14:34:13,826][98493] InferenceWorker_p0-w0: stopping experience collection (39050 times)
+[2023-07-06 14:34:13,868][98449] Signal inference workers to resume experience collection... (39050 times)
+[2023-07-06 14:34:13,869][98493] InferenceWorker_p0-w0: resuming experience collection (39050 times)
+[2023-07-06 14:34:14,086][98493] Updated weights for policy 0, policy_version 756024 (0.0007)
+[2023-07-06 14:34:14,764][98243] Fps is (10 sec: 104860.7, 60 sec: 111413.0, 300 sec: 109745.0). Total num frames: 1548353536. Throughput: 0: 27625.2. Samples: 387126784. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:14,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:34:15,819][98493] Updated weights for policy 0, policy_version 756090 (0.0007)
+[2023-07-06 14:34:16,729][98493] Updated weights for policy 0, policy_version 756128 (0.0007)
+[2023-07-06 14:34:18,094][98493] Updated weights for policy 0, policy_version 756164 (0.0008)
+[2023-07-06 14:34:18,716][98493] Updated weights for policy 0, policy_version 756240 (0.0006)
+[2023-07-06 14:34:19,088][98493] Updated weights for policy 0, policy_version 756281 (0.0006)
+[2023-07-06 14:34:19,764][98243] Fps is (10 sec: 104858.5, 60 sec: 110318.7, 300 sec: 109745.0). Total num frames: 1548877824. Throughput: 0: 27613.9. Samples: 387293696. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:34:20,455][98493] Updated weights for policy 0, policy_version 756345 (0.0008)
+[2023-07-06 14:34:21,893][98493] Updated weights for policy 0, policy_version 756408 (0.0007)
+[2023-07-06 14:34:22,928][98493] Updated weights for policy 0, policy_version 756454 (0.0006)
+[2023-07-06 14:34:23,521][98493] Updated weights for policy 0, policy_version 756528 (0.0007)
+[2023-07-06 14:34:24,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109226.8, 300 sec: 109745.1). Total num frames: 1549402112. Throughput: 0: 27579.7. Samples: 387379200. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:24,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:34:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000756544_1549402112.pth...
+[2023-07-06 14:34:24,882][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000743744_1523187712.pth
+[2023-07-06 14:34:25,343][98493] Updated weights for policy 0, policy_version 756602 (0.0007)
+[2023-07-06 14:34:26,345][98493] Updated weights for policy 0, policy_version 756647 (0.0006)
+[2023-07-06 14:34:27,446][98493] Updated weights for policy 0, policy_version 756705 (0.0007)
+[2023-07-06 14:34:28,253][98493] Updated weights for policy 0, policy_version 756768 (0.0021)
+[2023-07-06 14:34:29,764][98243] Fps is (10 sec: 104856.3, 60 sec: 109226.4, 300 sec: 109745.0). Total num frames: 1549926400. Throughput: 0: 27556.9. Samples: 387540992. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:34:29,889][98493] Updated weights for policy 0, policy_version 756816 (0.0007)
+[2023-07-06 14:34:30,593][98493] Updated weights for policy 0, policy_version 756869 (0.0006)
+[2023-07-06 14:34:31,832][98493] Updated weights for policy 0, policy_version 756932 (0.0008)
+[2023-07-06 14:34:32,310][98493] Updated weights for policy 0, policy_version 756988 (0.0007)
+[2023-07-06 14:34:32,949][98449] Signal inference workers to stop experience collection... (39100 times)
+[2023-07-06 14:34:32,994][98493] InferenceWorker_p0-w0: stopping experience collection (39100 times)
+[2023-07-06 14:34:33,060][98449] Signal inference workers to resume experience collection... (39100 times)
+[2023-07-06 14:34:33,060][98493] InferenceWorker_p0-w0: resuming experience collection (39100 times)
+[2023-07-06 14:34:33,197][98493] Updated weights for policy 0, policy_version 757040 (0.0008)
+[2023-07-06 14:34:34,702][98493] Updated weights for policy 0, policy_version 757075 (0.0007)
+[2023-07-06 14:34:34,764][98243] Fps is (10 sec: 108135.4, 60 sec: 109773.2, 300 sec: 109856.2). Total num frames: 1550483456. Throughput: 0: 27579.8. Samples: 387712000. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:34,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:34:35,213][98493] Updated weights for policy 0, policy_version 757136 (0.0007)
+[2023-07-06 14:34:36,690][98493] Updated weights for policy 0, policy_version 757187 (0.0006)
+[2023-07-06 14:34:37,159][98493] Updated weights for policy 0, policy_version 757248 (0.0006)
+[2023-07-06 14:34:38,114][98493] Updated weights for policy 0, policy_version 757308 (0.0008)
+[2023-07-06 14:34:39,611][98493] Updated weights for policy 0, policy_version 757370 (0.0007)
+[2023-07-06 14:34:39,764][98243] Fps is (10 sec: 117966.2, 60 sec: 110865.1, 300 sec: 110189.3). Total num frames: 1551106048. Throughput: 0: 27568.4. Samples: 387793408. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:39,765][98243] Avg episode reward: [(0, '9.970')]
+[2023-07-06 14:34:40,237][98493] Updated weights for policy 0, policy_version 757424 (0.0006)
+[2023-07-06 14:34:41,796][98493] Updated weights for policy 0, policy_version 757497 (0.0007)
+[2023-07-06 14:34:42,782][98493] Updated weights for policy 0, policy_version 757545 (0.0006)
+[2023-07-06 14:34:44,367][98493] Updated weights for policy 0, policy_version 757601 (0.0006)
+[2023-07-06 14:34:44,764][98243] Fps is (10 sec: 114687.7, 60 sec: 109226.8, 300 sec: 110078.7). Total num frames: 1551630336. Throughput: 0: 27466.0. Samples: 387958784. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:44,764][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:34:45,000][98493] Updated weights for policy 0, policy_version 757673 (0.0007)
+[2023-07-06 14:34:46,508][98493] Updated weights for policy 0, policy_version 757733 (0.0007)
+[2023-07-06 14:34:47,443][98493] Updated weights for policy 0, policy_version 757795 (0.0007)
+[2023-07-06 14:34:49,036][98493] Updated weights for policy 0, policy_version 757858 (0.0007)
+[2023-07-06 14:34:49,499][98493] Updated weights for policy 0, policy_version 757910 (0.0007)
+[2023-07-06 14:34:49,764][98243] Fps is (10 sec: 114688.2, 60 sec: 110865.0, 300 sec: 110078.3). Total num frames: 1552252928. Throughput: 0: 27659.6. Samples: 388123648. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:49,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:34:50,817][98493] Updated weights for policy 0, policy_version 757953 (0.0007)
+[2023-07-06 14:34:51,283][98493] Updated weights for policy 0, policy_version 758009 (0.0007)
+[2023-07-06 14:34:52,041][98449] Signal inference workers to stop experience collection... (39150 times)
+[2023-07-06 14:34:52,087][98493] InferenceWorker_p0-w0: stopping experience collection (39150 times)
+[2023-07-06 14:34:52,138][98449] Signal inference workers to resume experience collection... (39150 times)
+[2023-07-06 14:34:52,139][98493] InferenceWorker_p0-w0: resuming experience collection (39150 times)
+[2023-07-06 14:34:52,358][98493] Updated weights for policy 0, policy_version 758074 (0.0007)
+[2023-07-06 14:34:53,808][98493] Updated weights for policy 0, policy_version 758128 (0.0006)
+[2023-07-06 14:34:54,306][98493] Updated weights for policy 0, policy_version 758182 (0.0007)
+[2023-07-06 14:34:54,764][98243] Fps is (10 sec: 117962.0, 60 sec: 110318.7, 300 sec: 110189.3). Total num frames: 1552809984. Throughput: 0: 27659.3. Samples: 388208128. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:54,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:34:55,745][98493] Updated weights for policy 0, policy_version 758210 (0.0006)
+[2023-07-06 14:34:56,247][98493] Updated weights for policy 0, policy_version 758272 (0.0008)
+[2023-07-06 14:34:57,047][98493] Updated weights for policy 0, policy_version 758331 (0.0007)
+[2023-07-06 14:34:58,491][98493] Updated weights for policy 0, policy_version 758376 (0.0008)
+[2023-07-06 14:34:59,024][98493] Updated weights for policy 0, policy_version 758437 (0.0007)
+[2023-07-06 14:34:59,764][98243] Fps is (10 sec: 108134.6, 60 sec: 109226.7, 300 sec: 109967.2). Total num frames: 1553334272. Throughput: 0: 27704.9. Samples: 388373504. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:34:59,764][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:35:00,775][98493] Updated weights for policy 0, policy_version 758496 (0.0008)
+[2023-07-06 14:35:01,363][98493] Updated weights for policy 0, policy_version 758552 (0.0007)
+[2023-07-06 14:35:03,235][98493] Updated weights for policy 0, policy_version 758608 (0.0008)
+[2023-07-06 14:35:03,766][98493] Updated weights for policy 0, policy_version 758665 (0.0007)
+[2023-07-06 14:35:04,764][98243] Fps is (10 sec: 104859.6, 60 sec: 109227.2, 300 sec: 109856.1). Total num frames: 1553858560. Throughput: 0: 27659.4. Samples: 388538368. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:35:04,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:35:05,285][98493] Updated weights for policy 0, policy_version 758721 (0.0008)
+[2023-07-06 14:35:05,727][98493] Updated weights for policy 0, policy_version 758777 (0.0007)
+[2023-07-06 14:35:06,234][98493] Updated weights for policy 0, policy_version 758820 (0.0006)
+[2023-07-06 14:35:07,932][98493] Updated weights for policy 0, policy_version 758871 (0.0007)
+[2023-07-06 14:35:08,373][98493] Updated weights for policy 0, policy_version 758917 (0.0007)
+[2023-07-06 14:35:08,806][98493] Updated weights for policy 0, policy_version 758970 (0.0007)
+[2023-07-06 14:35:09,764][98243] Fps is (10 sec: 104856.2, 60 sec: 109226.7, 300 sec: 109522.8). Total num frames: 1554382848. Throughput: 0: 27704.8. Samples: 388625920. Policy #0 lag: (min: 12.0, avg: 121.7, max: 268.0)
+[2023-07-06 14:35:09,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:35:10,159][98449] Signal inference workers to stop experience collection... (39200 times)
+[2023-07-06 14:35:10,187][98493] InferenceWorker_p0-w0: stopping experience collection (39200 times)
+[2023-07-06 14:35:10,237][98449] Signal inference workers to resume experience collection... (39200 times)
+[2023-07-06 14:35:10,238][98493] InferenceWorker_p0-w0: resuming experience collection (39200 times)
+[2023-07-06 14:35:10,328][98493] Updated weights for policy 0, policy_version 759033 (0.0008)
+[2023-07-06 14:35:11,178][98493] Updated weights for policy 0, policy_version 759098 (0.0011)
+[2023-07-06 14:35:12,859][98493] Updated weights for policy 0, policy_version 759141 (0.0008)
+[2023-07-06 14:35:13,346][98493] Updated weights for policy 0, policy_version 759200 (0.0007)
+[2023-07-06 14:35:14,764][98243] Fps is (10 sec: 108134.2, 60 sec: 109772.8, 300 sec: 109411.8). Total num frames: 1554939904. Throughput: 0: 27693.6. Samples: 388787200. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:14,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:35:14,780][98493] Updated weights for policy 0, policy_version 759257 (0.0006)
+[2023-07-06 14:35:15,090][98493] Updated weights for policy 0, policy_version 759296 (0.0007)
+[2023-07-06 14:35:15,818][98493] Updated weights for policy 0, policy_version 759360 (0.0007)
+[2023-07-06 14:35:17,700][98493] Updated weights for policy 0, policy_version 759424 (0.0007)
+[2023-07-06 14:35:18,231][98493] Updated weights for policy 0, policy_version 759483 (0.0007)
+[2023-07-06 14:35:19,763][98493] Updated weights for policy 0, policy_version 759536 (0.0006)
+[2023-07-06 14:35:19,764][98243] Fps is (10 sec: 114690.4, 60 sec: 110865.3, 300 sec: 109634.0). Total num frames: 1555529728. Throughput: 0: 27670.8. Samples: 388957184. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:19,771][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:35:20,347][98493] Updated weights for policy 0, policy_version 759584 (0.0007)
+[2023-07-06 14:35:21,837][98493] Updated weights for policy 0, policy_version 759617 (0.0006)
+[2023-07-06 14:35:22,431][98493] Updated weights for policy 0, policy_version 759687 (0.0007)
+[2023-07-06 14:35:24,278][98493] Updated weights for policy 0, policy_version 759747 (0.0007)
+[2023-07-06 14:35:24,714][98493] Updated weights for policy 0, policy_version 759805 (0.0007)
+[2023-07-06 14:35:24,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110865.1, 300 sec: 109634.0). Total num frames: 1556054016. Throughput: 0: 27682.1. Samples: 389039104. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:24,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:35:25,173][98493] Updated weights for policy 0, policy_version 759848 (0.0007)
+[2023-07-06 14:35:26,715][98493] Updated weights for policy 0, policy_version 759911 (0.0007)
+[2023-07-06 14:35:27,269][98449] Signal inference workers to stop experience collection... (39250 times)
+[2023-07-06 14:35:27,288][98493] Updated weights for policy 0, policy_version 759969 (0.0008)
+[2023-07-06 14:35:27,296][98493] InferenceWorker_p0-w0: stopping experience collection (39250 times)
+[2023-07-06 14:35:27,374][98449] Signal inference workers to resume experience collection... (39250 times)
+[2023-07-06 14:35:27,375][98493] InferenceWorker_p0-w0: resuming experience collection (39250 times)
+[2023-07-06 14:35:29,190][98493] Updated weights for policy 0, policy_version 760022 (0.0006)
+[2023-07-06 14:35:29,632][98493] Updated weights for policy 0, policy_version 760071 (0.0007)
+[2023-07-06 14:35:29,764][98243] Fps is (10 sec: 111410.8, 60 sec: 111957.7, 300 sec: 109856.2). Total num frames: 1556643840. Throughput: 0: 27761.8. Samples: 389208064. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:29,764][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:35:31,214][98493] Updated weights for policy 0, policy_version 760129 (0.0030)
+[2023-07-06 14:35:31,751][98493] Updated weights for policy 0, policy_version 760192 (0.0007)
+[2023-07-06 14:35:32,306][98493] Updated weights for policy 0, policy_version 760256 (0.0008)
+[2023-07-06 14:35:34,288][98493] Updated weights for policy 0, policy_version 760320 (0.0007)
+[2023-07-06 14:35:34,764][98243] Fps is (10 sec: 114688.1, 60 sec: 111957.2, 300 sec: 109967.2). Total num frames: 1557200896. Throughput: 0: 27716.3. Samples: 389370880. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:34,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 14:35:34,931][98493] Updated weights for policy 0, policy_version 760381 (0.0007)
+[2023-07-06 14:35:36,309][98493] Updated weights for policy 0, policy_version 760434 (0.0007)
+[2023-07-06 14:35:36,809][98493] Updated weights for policy 0, policy_version 760496 (0.0008)
+[2023-07-06 14:35:38,681][98493] Updated weights for policy 0, policy_version 760544 (0.0006)
+[2023-07-06 14:35:39,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109773.0, 300 sec: 109856.2). Total num frames: 1557692416. Throughput: 0: 27705.1. Samples: 389454848. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:39,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:35:39,882][98493] Updated weights for policy 0, policy_version 760608 (0.0008)
+[2023-07-06 14:35:40,902][98493] Updated weights for policy 0, policy_version 760672 (0.0007)
+[2023-07-06 14:35:41,603][98493] Updated weights for policy 0, policy_version 760742 (0.0007)
+[2023-07-06 14:35:43,983][98493] Updated weights for policy 0, policy_version 760793 (0.0007)
+[2023-07-06 14:35:44,303][98493] Updated weights for policy 0, policy_version 760832 (0.0007)
+[2023-07-06 14:35:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110318.8, 300 sec: 109967.2). Total num frames: 1558249472. Throughput: 0: 27557.0. Samples: 389613568. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:44,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:35:44,952][98493] Updated weights for policy 0, policy_version 760888 (0.0008)
+[2023-07-06 14:35:46,127][98493] Updated weights for policy 0, policy_version 760937 (0.0007)
+[2023-07-06 14:35:46,211][98449] Signal inference workers to stop experience collection... (39300 times)
+[2023-07-06 14:35:46,246][98493] InferenceWorker_p0-w0: stopping experience collection (39300 times)
+[2023-07-06 14:35:46,298][98449] Signal inference workers to resume experience collection... (39300 times)
+[2023-07-06 14:35:46,298][98493] InferenceWorker_p0-w0: resuming experience collection (39300 times)
+[2023-07-06 14:35:46,656][98493] Updated weights for policy 0, policy_version 760996 (0.0007)
+[2023-07-06 14:35:48,654][98493] Updated weights for policy 0, policy_version 761056 (0.0007)
+[2023-07-06 14:35:49,412][98493] Updated weights for policy 0, policy_version 761104 (0.0007)
+[2023-07-06 14:35:49,764][98243] Fps is (10 sec: 111410.2, 60 sec: 109226.7, 300 sec: 110078.3). Total num frames: 1558806528. Throughput: 0: 27557.0. Samples: 389778432. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:49,765][98243] Avg episode reward: [(0, '9.990')]
+[2023-07-06 14:35:50,369][98493] Updated weights for policy 0, policy_version 761161 (0.0007)
+[2023-07-06 14:35:50,851][98493] Updated weights for policy 0, policy_version 761216 (0.0009)
+[2023-07-06 14:35:51,347][98493] Updated weights for policy 0, policy_version 761268 (0.0007)
+[2023-07-06 14:35:53,558][98493] Updated weights for policy 0, policy_version 761314 (0.0007)
+[2023-07-06 14:35:54,343][98493] Updated weights for policy 0, policy_version 761368 (0.0007)
+[2023-07-06 14:35:54,764][98243] Fps is (10 sec: 111410.2, 60 sec: 109226.8, 300 sec: 110189.3). Total num frames: 1559363584. Throughput: 0: 27488.7. Samples: 389862912. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:54,765][98243] Avg episode reward: [(0, '9.970')]
+[2023-07-06 14:35:55,143][98493] Updated weights for policy 0, policy_version 761429 (0.0007)
+[2023-07-06 14:35:55,584][98493] Updated weights for policy 0, policy_version 761480 (0.0007)
+[2023-07-06 14:35:58,031][98493] Updated weights for policy 0, policy_version 761537 (0.0008)
+[2023-07-06 14:35:58,546][98493] Updated weights for policy 0, policy_version 761600 (0.0007)
+[2023-07-06 14:35:59,453][98493] Updated weights for policy 0, policy_version 761652 (0.0007)
+[2023-07-06 14:35:59,764][98243] Fps is (10 sec: 111411.7, 60 sec: 109772.9, 300 sec: 110300.4). Total num frames: 1559920640. Throughput: 0: 27591.1. Samples: 390028800. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:35:59,764][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 14:36:00,051][98493] Updated weights for policy 0, policy_version 761715 (0.0008)
+[2023-07-06 14:36:00,638][98493] Updated weights for policy 0, policy_version 761782 (0.0007)
+[2023-07-06 14:36:03,118][98493] Updated weights for policy 0, policy_version 761833 (0.0009)
+[2023-07-06 14:36:03,917][98493] Updated weights for policy 0, policy_version 761872 (0.0007)
+[2023-07-06 14:36:04,477][98449] Signal inference workers to stop experience collection... (39350 times)
+[2023-07-06 14:36:04,511][98493] InferenceWorker_p0-w0: stopping experience collection (39350 times)
+[2023-07-06 14:36:04,572][98449] Signal inference workers to resume experience collection... (39350 times)
+[2023-07-06 14:36:04,572][98493] InferenceWorker_p0-w0: resuming experience collection (39350 times)
+[2023-07-06 14:36:04,574][98493] Updated weights for policy 0, policy_version 761936 (0.0007)
+[2023-07-06 14:36:04,765][98243] Fps is (10 sec: 111407.1, 60 sec: 110318.1, 300 sec: 110189.3). Total num frames: 1560477696. Throughput: 0: 27329.1. Samples: 390187008. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:04,766][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:36:05,117][98493] Updated weights for policy 0, policy_version 761988 (0.0008)
+[2023-07-06 14:36:05,569][98493] Updated weights for policy 0, policy_version 762045 (0.0007)
+[2023-07-06 14:36:07,938][98493] Updated weights for policy 0, policy_version 762087 (0.0007)
+[2023-07-06 14:36:08,847][98493] Updated weights for policy 0, policy_version 762128 (0.0006)
+[2023-07-06 14:36:09,366][98493] Updated weights for policy 0, policy_version 762179 (0.0008)
+[2023-07-06 14:36:09,764][98243] Fps is (10 sec: 111410.5, 60 sec: 110865.3, 300 sec: 110189.4). Total num frames: 1561034752. Throughput: 0: 27397.7. Samples: 390272000. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:09,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:36:09,779][98493] Updated weights for policy 0, policy_version 762228 (0.0007)
+[2023-07-06 14:36:10,196][98493] Updated weights for policy 0, policy_version 762274 (0.0007)
+[2023-07-06 14:36:12,546][98493] Updated weights for policy 0, policy_version 762328 (0.0007)
+[2023-07-06 14:36:13,881][98493] Updated weights for policy 0, policy_version 762386 (0.0007)
+[2023-07-06 14:36:14,360][98493] Updated weights for policy 0, policy_version 762448 (0.0008)
+[2023-07-06 14:36:14,764][98243] Fps is (10 sec: 108139.3, 60 sec: 110318.9, 300 sec: 110078.3). Total num frames: 1561559040. Throughput: 0: 27374.9. Samples: 390439936. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:14,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:36:14,877][98493] Updated weights for policy 0, policy_version 762498 (0.0007)
+[2023-07-06 14:36:15,350][98493] Updated weights for policy 0, policy_version 762555 (0.0007)
+[2023-07-06 14:36:17,642][98493] Updated weights for policy 0, policy_version 762608 (0.0019)
+[2023-07-06 14:36:18,726][98493] Updated weights for policy 0, policy_version 762662 (0.0012)
+[2023-07-06 14:36:19,314][98493] Updated weights for policy 0, policy_version 762736 (0.0008)
+[2023-07-06 14:36:19,764][98243] Fps is (10 sec: 114686.4, 60 sec: 110864.6, 300 sec: 110189.4). Total num frames: 1562181632. Throughput: 0: 27283.8. Samples: 390598656. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:19,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:36:19,810][98493] Updated weights for policy 0, policy_version 762788 (0.0008)
+[2023-07-06 14:36:22,244][98493] Updated weights for policy 0, policy_version 762832 (0.0006)
+[2023-07-06 14:36:22,309][98449] Signal inference workers to stop experience collection... (39400 times)
+[2023-07-06 14:36:22,338][98493] InferenceWorker_p0-w0: stopping experience collection (39400 times)
+[2023-07-06 14:36:22,393][98449] Signal inference workers to resume experience collection... (39400 times)
+[2023-07-06 14:36:22,393][98493] InferenceWorker_p0-w0: resuming experience collection (39400 times)
+[2023-07-06 14:36:23,185][98493] Updated weights for policy 0, policy_version 762888 (0.0007)
+[2023-07-06 14:36:23,726][98493] Updated weights for policy 0, policy_version 762949 (0.0007)
+[2023-07-06 14:36:24,275][98493] Updated weights for policy 0, policy_version 763011 (0.0007)
+[2023-07-06 14:36:24,764][98243] Fps is (10 sec: 121239.2, 60 sec: 111957.0, 300 sec: 110300.4). Total num frames: 1562771456. Throughput: 0: 27317.9. Samples: 390684160. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:36:24,770][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000763072_1562771456.pth...
+[2023-07-06 14:36:24,799][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000750144_1536294912.pth
+[2023-07-06 14:36:27,083][98493] Updated weights for policy 0, policy_version 763077 (0.0007)
+[2023-07-06 14:36:28,027][98493] Updated weights for policy 0, policy_version 763141 (0.0008)
+[2023-07-06 14:36:28,724][98493] Updated weights for policy 0, policy_version 763224 (0.0007)
+[2023-07-06 14:36:29,219][98493] Updated weights for policy 0, policy_version 763280 (0.0007)
+[2023-07-06 14:36:29,636][98493] Updated weights for policy 0, policy_version 763323 (0.0008)
+[2023-07-06 14:36:29,764][98243] Fps is (10 sec: 111412.3, 60 sec: 110864.9, 300 sec: 110189.3). Total num frames: 1563295744. Throughput: 0: 27374.9. Samples: 390845440. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:29,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:36:32,234][98493] Updated weights for policy 0, policy_version 763367 (0.0008)
+[2023-07-06 14:36:33,220][98493] Updated weights for policy 0, policy_version 763429 (0.0011)
+[2023-07-06 14:36:33,712][98493] Updated weights for policy 0, policy_version 763478 (0.0009)
+[2023-07-06 14:36:34,315][98493] Updated weights for policy 0, policy_version 763543 (0.0008)
+[2023-07-06 14:36:34,764][98243] Fps is (10 sec: 104859.4, 60 sec: 110318.9, 300 sec: 110078.2). Total num frames: 1563820032. Throughput: 0: 27181.5. Samples: 391001600. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:34,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:36:36,910][98493] Updated weights for policy 0, policy_version 763608 (0.0011)
+[2023-07-06 14:36:37,695][98493] Updated weights for policy 0, policy_version 763664 (0.0007)
+[2023-07-06 14:36:38,345][98493] Updated weights for policy 0, policy_version 763733 (0.0007)
+[2023-07-06 14:36:38,456][98449] Signal inference workers to stop experience collection... (39450 times)
+[2023-07-06 14:36:38,475][98493] InferenceWorker_p0-w0: stopping experience collection (39450 times)
+[2023-07-06 14:36:38,540][98449] Signal inference workers to resume experience collection... (39450 times)
+[2023-07-06 14:36:38,541][98493] InferenceWorker_p0-w0: resuming experience collection (39450 times)
+[2023-07-06 14:36:38,764][98493] Updated weights for policy 0, policy_version 763782 (0.0006)
+[2023-07-06 14:36:39,764][98243] Fps is (10 sec: 104857.8, 60 sec: 110864.8, 300 sec: 109856.2). Total num frames: 1564344320. Throughput: 0: 27249.8. Samples: 391089152. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:39,770][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:36:41,669][98493] Updated weights for policy 0, policy_version 763843 (0.0007)
+[2023-07-06 14:36:42,226][98493] Updated weights for policy 0, policy_version 763900 (0.0007)
+[2023-07-06 14:36:42,989][98493] Updated weights for policy 0, policy_version 763955 (0.0009)
+[2023-07-06 14:36:43,494][98493] Updated weights for policy 0, policy_version 764016 (0.0009)
+[2023-07-06 14:36:44,159][98493] Updated weights for policy 0, policy_version 764089 (0.0008)
+[2023-07-06 14:36:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 110318.9, 300 sec: 109856.1). Total num frames: 1564868608. Throughput: 0: 26988.0. Samples: 391243264. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:44,765][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:36:46,932][98493] Updated weights for policy 0, policy_version 764134 (0.0007)
+[2023-07-06 14:36:47,557][98493] Updated weights for policy 0, policy_version 764182 (0.0008)
+[2023-07-06 14:36:48,117][98493] Updated weights for policy 0, policy_version 764247 (0.0007)
+[2023-07-06 14:36:48,700][98493] Updated weights for policy 0, policy_version 764320 (0.0007)
+[2023-07-06 14:36:49,764][98243] Fps is (10 sec: 104856.5, 60 sec: 109772.5, 300 sec: 109967.2). Total num frames: 1565392896. Throughput: 0: 27124.8. Samples: 391407616. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:49,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 14:36:51,336][98493] Updated weights for policy 0, policy_version 764353 (0.0006)
+[2023-07-06 14:36:51,869][98493] Updated weights for policy 0, policy_version 764409 (0.0007)
+[2023-07-06 14:36:52,945][98493] Updated weights for policy 0, policy_version 764480 (0.0008)
+[2023-07-06 14:36:53,543][98493] Updated weights for policy 0, policy_version 764544 (0.0008)
+[2023-07-06 14:36:54,057][98493] Updated weights for policy 0, policy_version 764602 (0.0007)
+[2023-07-06 14:36:54,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.8, 300 sec: 109634.0). Total num frames: 1565917184. Throughput: 0: 27079.1. Samples: 391490560. Policy #0 lag: (min: 14.0, avg: 103.9, max: 270.0)
+[2023-07-06 14:36:54,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:36:56,582][98493] Updated weights for policy 0, policy_version 764646 (0.0008)
+[2023-07-06 14:36:57,235][98449] Signal inference workers to stop experience collection... (39500 times)
+[2023-07-06 14:36:57,260][98493] InferenceWorker_p0-w0: stopping experience collection (39500 times)
+[2023-07-06 14:36:57,332][98449] Signal inference workers to resume experience collection... (39500 times)
+[2023-07-06 14:36:57,333][98493] InferenceWorker_p0-w0: resuming experience collection (39500 times)
+[2023-07-06 14:36:57,334][98493] Updated weights for policy 0, policy_version 764688 (0.0007)
+[2023-07-06 14:36:57,846][98493] Updated weights for policy 0, policy_version 764742 (0.0007)
+[2023-07-06 14:36:58,454][98493] Updated weights for policy 0, policy_version 764802 (0.0007)
+[2023-07-06 14:36:59,764][98243] Fps is (10 sec: 104857.2, 60 sec: 108680.1, 300 sec: 109633.9). Total num frames: 1566441472. Throughput: 0: 26874.2. Samples: 391649280. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:36:59,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:37:01,097][98493] Updated weights for policy 0, policy_version 764866 (0.0009)
+[2023-07-06 14:37:01,615][98493] Updated weights for policy 0, policy_version 764922 (0.0008)
+[2023-07-06 14:37:02,379][98493] Updated weights for policy 0, policy_version 764962 (0.0008)
+[2023-07-06 14:37:02,878][98493] Updated weights for policy 0, policy_version 765024 (0.0007)
+[2023-07-06 14:37:03,549][98493] Updated weights for policy 0, policy_version 765094 (0.0007)
+[2023-07-06 14:37:04,764][98243] Fps is (10 sec: 104857.6, 60 sec: 108135.2, 300 sec: 109300.7). Total num frames: 1566965760. Throughput: 0: 26999.5. Samples: 391813632. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:04,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:37:06,111][98493] Updated weights for policy 0, policy_version 765142 (0.0008)
+[2023-07-06 14:37:06,757][98493] Updated weights for policy 0, policy_version 765188 (0.0007)
+[2023-07-06 14:37:07,329][98493] Updated weights for policy 0, policy_version 765253 (0.0009)
+[2023-07-06 14:37:07,771][98493] Updated weights for policy 0, policy_version 765298 (0.0008)
+[2023-07-06 14:37:08,348][98493] Updated weights for policy 0, policy_version 765368 (0.0008)
+[2023-07-06 14:37:09,765][98243] Fps is (10 sec: 104855.7, 60 sec: 107587.7, 300 sec: 109300.6). Total num frames: 1567490048. Throughput: 0: 26874.2. Samples: 391893504. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:09,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:37:10,992][98493] Updated weights for policy 0, policy_version 765416 (0.0007)
+[2023-07-06 14:37:11,636][98493] Updated weights for policy 0, policy_version 765475 (0.0007)
+[2023-07-06 14:37:12,039][98493] Updated weights for policy 0, policy_version 765520 (0.0007)
+[2023-07-06 14:37:12,647][98449] Signal inference workers to stop experience collection... (39550 times)
+[2023-07-06 14:37:12,664][98493] Updated weights for policy 0, policy_version 765585 (0.0007)
+[2023-07-06 14:37:12,690][98493] InferenceWorker_p0-w0: stopping experience collection (39550 times)
+[2023-07-06 14:37:12,751][98449] Signal inference workers to resume experience collection... (39550 times)
+[2023-07-06 14:37:12,751][98493] InferenceWorker_p0-w0: resuming experience collection (39550 times)
+[2023-07-06 14:37:13,028][98493] Updated weights for policy 0, policy_version 765632 (0.0006)
+[2023-07-06 14:37:14,764][98243] Fps is (10 sec: 104857.3, 60 sec: 107588.2, 300 sec: 109300.7). Total num frames: 1568014336. Throughput: 0: 26988.1. Samples: 392059904. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:37:15,915][98493] Updated weights for policy 0, policy_version 765690 (0.0007)
+[2023-07-06 14:37:16,424][98493] Updated weights for policy 0, policy_version 765744 (0.0007)
+[2023-07-06 14:37:17,010][98493] Updated weights for policy 0, policy_version 765808 (0.0007)
+[2023-07-06 14:37:17,694][98493] Updated weights for policy 0, policy_version 765872 (0.0007)
+[2023-07-06 14:37:19,764][98243] Fps is (10 sec: 104861.1, 60 sec: 105950.1, 300 sec: 109300.7). Total num frames: 1568538624. Throughput: 0: 27340.8. Samples: 392231936. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:37:20,344][98493] Updated weights for policy 0, policy_version 765925 (0.0007)
+[2023-07-06 14:37:20,980][98493] Updated weights for policy 0, policy_version 765972 (0.0006)
+[2023-07-06 14:37:21,565][98493] Updated weights for policy 0, policy_version 766048 (0.0007)
+[2023-07-06 14:37:22,163][98493] Updated weights for policy 0, policy_version 766112 (0.0007)
+[2023-07-06 14:37:24,576][98493] Updated weights for policy 0, policy_version 766145 (0.0008)
+[2023-07-06 14:37:24,764][98243] Fps is (10 sec: 108134.4, 60 sec: 105404.0, 300 sec: 109411.8). Total num frames: 1569095680. Throughput: 0: 27090.5. Samples: 392308224. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:37:25,022][98493] Updated weights for policy 0, policy_version 766205 (0.0007)
+[2023-07-06 14:37:25,811][98493] Updated weights for policy 0, policy_version 766248 (0.0007)
+[2023-07-06 14:37:26,381][98493] Updated weights for policy 0, policy_version 766307 (0.0008)
+[2023-07-06 14:37:27,059][98493] Updated weights for policy 0, policy_version 766368 (0.0008)
+[2023-07-06 14:37:29,536][98493] Updated weights for policy 0, policy_version 766425 (0.0008)
+[2023-07-06 14:37:29,764][98243] Fps is (10 sec: 114688.0, 60 sec: 106496.0, 300 sec: 109633.9). Total num frames: 1569685504. Throughput: 0: 27511.5. Samples: 392481280. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:37:30,188][98493] Updated weights for policy 0, policy_version 766466 (0.0007)
+[2023-07-06 14:37:30,809][98493] Updated weights for policy 0, policy_version 766529 (0.0007)
+[2023-07-06 14:37:30,945][98449] Signal inference workers to stop experience collection... (39600 times)
+[2023-07-06 14:37:30,983][98493] InferenceWorker_p0-w0: stopping experience collection (39600 times)
+[2023-07-06 14:37:31,049][98449] Signal inference workers to resume experience collection... (39600 times)
+[2023-07-06 14:37:31,049][98493] InferenceWorker_p0-w0: resuming experience collection (39600 times)
+[2023-07-06 14:37:31,286][98493] Updated weights for policy 0, policy_version 766582 (0.0007)
+[2023-07-06 14:37:31,990][98493] Updated weights for policy 0, policy_version 766640 (0.0007)
+[2023-07-06 14:37:34,354][98493] Updated weights for policy 0, policy_version 766695 (0.0007)
+[2023-07-06 14:37:34,764][98243] Fps is (10 sec: 114688.4, 60 sec: 107042.2, 300 sec: 109745.2). Total num frames: 1570242560. Throughput: 0: 27534.3. Samples: 392646656. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:37:35,039][98493] Updated weights for policy 0, policy_version 766758 (0.0007)
+[2023-07-06 14:37:35,750][98493] Updated weights for policy 0, policy_version 766801 (0.0006)
+[2023-07-06 14:37:36,488][98493] Updated weights for policy 0, policy_version 766853 (0.0007)
+[2023-07-06 14:37:38,914][98493] Updated weights for policy 0, policy_version 766913 (0.0007)
+[2023-07-06 14:37:39,294][98493] Updated weights for policy 0, policy_version 766960 (0.0007)
+[2023-07-06 14:37:39,764][98243] Fps is (10 sec: 114687.4, 60 sec: 108134.3, 300 sec: 109967.2). Total num frames: 1570832384. Throughput: 0: 27488.7. Samples: 392727552. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:39,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:37:39,827][98493] Updated weights for policy 0, policy_version 767012 (0.0008)
+[2023-07-06 14:37:40,577][98493] Updated weights for policy 0, policy_version 767082 (0.0007)
+[2023-07-06 14:37:41,293][98493] Updated weights for policy 0, policy_version 767120 (0.0007)
+[2023-07-06 14:37:41,727][98493] Updated weights for policy 0, policy_version 767168 (0.0007)
+[2023-07-06 14:37:44,153][98493] Updated weights for policy 0, policy_version 767232 (0.0008)
+[2023-07-06 14:37:44,711][98493] Updated weights for policy 0, policy_version 767291 (0.0007)
+[2023-07-06 14:37:44,764][98243] Fps is (10 sec: 117963.2, 60 sec: 109226.4, 300 sec: 110189.3). Total num frames: 1571422208. Throughput: 0: 27818.7. Samples: 392901120. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:44,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:37:45,264][98493] Updated weights for policy 0, policy_version 767345 (0.0007)
+[2023-07-06 14:37:46,448][98493] Updated weights for policy 0, policy_version 767395 (0.0007)
+[2023-07-06 14:37:48,645][98493] Updated weights for policy 0, policy_version 767456 (0.0007)
+[2023-07-06 14:37:49,162][98493] Updated weights for policy 0, policy_version 767507 (0.0008)
+[2023-07-06 14:37:49,706][98449] Signal inference workers to stop experience collection... (39650 times)
+[2023-07-06 14:37:49,713][98493] InferenceWorker_p0-w0: stopping experience collection (39650 times)
+[2023-07-06 14:37:49,764][98243] Fps is (10 sec: 111412.1, 60 sec: 109226.9, 300 sec: 110189.5). Total num frames: 1571946496. Throughput: 0: 27716.3. Samples: 393060864. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:49,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:37:49,810][98449] Signal inference workers to resume experience collection... (39650 times)
+[2023-07-06 14:37:49,811][98493] InferenceWorker_p0-w0: resuming experience collection (39650 times)
+[2023-07-06 14:37:49,812][98493] Updated weights for policy 0, policy_version 767568 (0.0007)
+[2023-07-06 14:37:50,869][98493] Updated weights for policy 0, policy_version 767617 (0.0006)
+[2023-07-06 14:37:51,324][98493] Updated weights for policy 0, policy_version 767676 (0.0007)
+[2023-07-06 14:37:53,609][98493] Updated weights for policy 0, policy_version 767728 (0.0007)
+[2023-07-06 14:37:54,154][98493] Updated weights for policy 0, policy_version 767784 (0.0007)
+[2023-07-06 14:37:54,720][98493] Updated weights for policy 0, policy_version 767840 (0.0008)
+[2023-07-06 14:37:54,764][98243] Fps is (10 sec: 111412.5, 60 sec: 110318.9, 300 sec: 110411.5). Total num frames: 1572536320. Throughput: 0: 27818.9. Samples: 393145344. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:37:55,860][98493] Updated weights for policy 0, policy_version 767898 (0.0007)
+[2023-07-06 14:37:58,012][98493] Updated weights for policy 0, policy_version 767952 (0.0007)
+[2023-07-06 14:37:58,610][98493] Updated weights for policy 0, policy_version 768016 (0.0008)
+[2023-07-06 14:37:59,126][98493] Updated weights for policy 0, policy_version 768065 (0.0009)
+[2023-07-06 14:37:59,666][98493] Updated weights for policy 0, policy_version 768128 (0.0007)
+[2023-07-06 14:37:59,764][98243] Fps is (10 sec: 117963.7, 60 sec: 111411.4, 300 sec: 110633.6). Total num frames: 1573126144. Throughput: 0: 27704.9. Samples: 393306624. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:37:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:38:02,847][98493] Updated weights for policy 0, policy_version 768194 (0.0007)
+[2023-07-06 14:38:03,371][98493] Updated weights for policy 0, policy_version 768256 (0.0008)
+[2023-07-06 14:38:03,749][98493] Updated weights for policy 0, policy_version 768293 (0.0007)
+[2023-07-06 14:38:04,440][98493] Updated weights for policy 0, policy_version 768375 (0.0007)
+[2023-07-06 14:38:04,765][98243] Fps is (10 sec: 111401.9, 60 sec: 111409.6, 300 sec: 110300.2). Total num frames: 1573650432. Throughput: 0: 27419.9. Samples: 393465856. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:04,766][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:38:05,797][98493] Updated weights for policy 0, policy_version 768421 (0.0007)
+[2023-07-06 14:38:07,741][98493] Updated weights for policy 0, policy_version 768464 (0.0007)
+[2023-07-06 14:38:08,094][98449] Signal inference workers to stop experience collection... (39700 times)
+[2023-07-06 14:38:08,128][98493] InferenceWorker_p0-w0: stopping experience collection (39700 times)
+[2023-07-06 14:38:08,162][98449] Signal inference workers to resume experience collection... (39700 times)
+[2023-07-06 14:38:08,162][98493] InferenceWorker_p0-w0: resuming experience collection (39700 times)
+[2023-07-06 14:38:08,297][98493] Updated weights for policy 0, policy_version 768528 (0.0008)
+[2023-07-06 14:38:08,885][98493] Updated weights for policy 0, policy_version 768592 (0.0008)
+[2023-07-06 14:38:09,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.8, 300 sec: 110189.7). Total num frames: 1574174720. Throughput: 0: 27761.8. Samples: 393557504. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:09,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:38:10,152][98493] Updated weights for policy 0, policy_version 768642 (0.0007)
+[2023-07-06 14:38:10,588][98493] Updated weights for policy 0, policy_version 768698 (0.0007)
+[2023-07-06 14:38:12,790][98493] Updated weights for policy 0, policy_version 768752 (0.0008)
+[2023-07-06 14:38:13,234][98493] Updated weights for policy 0, policy_version 768800 (0.0010)
+[2023-07-06 14:38:13,727][98493] Updated weights for policy 0, policy_version 768853 (0.0007)
+[2023-07-06 14:38:14,072][98493] Updated weights for policy 0, policy_version 768896 (0.0010)
+[2023-07-06 14:38:14,764][98243] Fps is (10 sec: 104866.6, 60 sec: 111411.3, 300 sec: 109967.1). Total num frames: 1574699008. Throughput: 0: 27500.1. Samples: 393718784. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:14,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:38:15,253][98493] Updated weights for policy 0, policy_version 768947 (0.0008)
+[2023-07-06 14:38:17,041][98493] Updated weights for policy 0, policy_version 768980 (0.0006)
+[2023-07-06 14:38:17,578][98493] Updated weights for policy 0, policy_version 769040 (0.0008)
+[2023-07-06 14:38:18,137][98493] Updated weights for policy 0, policy_version 769104 (0.0008)
+[2023-07-06 14:38:19,487][98493] Updated weights for policy 0, policy_version 769157 (0.0008)
+[2023-07-06 14:38:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 112503.4, 300 sec: 109967.2). Total num frames: 1575288832. Throughput: 0: 27591.1. Samples: 393888256. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:38:19,929][98493] Updated weights for policy 0, policy_version 769209 (0.0007)
+[2023-07-06 14:38:21,987][98493] Updated weights for policy 0, policy_version 769264 (0.0007)
+[2023-07-06 14:38:22,448][98493] Updated weights for policy 0, policy_version 769312 (0.0008)
+[2023-07-06 14:38:22,863][98493] Updated weights for policy 0, policy_version 769360 (0.0006)
+[2023-07-06 14:38:23,268][98493] Updated weights for policy 0, policy_version 769408 (0.0007)
+[2023-07-06 14:38:24,293][98449] Signal inference workers to stop experience collection... (39750 times)
+[2023-07-06 14:38:24,340][98493] InferenceWorker_p0-w0: stopping experience collection (39750 times)
+[2023-07-06 14:38:24,396][98449] Signal inference workers to resume experience collection... (39750 times)
+[2023-07-06 14:38:24,397][98493] InferenceWorker_p0-w0: resuming experience collection (39750 times)
+[2023-07-06 14:38:24,628][98493] Updated weights for policy 0, policy_version 769468 (0.0007)
+[2023-07-06 14:38:24,764][98243] Fps is (10 sec: 117964.2, 60 sec: 113049.6, 300 sec: 110189.3). Total num frames: 1575878656. Throughput: 0: 27704.9. Samples: 393974272. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:38:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000769472_1575878656.pth...
+[2023-07-06 14:38:24,806][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000756544_1549402112.pth
+[2023-07-06 14:38:26,532][98493] Updated weights for policy 0, policy_version 769508 (0.0007)
+[2023-07-06 14:38:27,213][98493] Updated weights for policy 0, policy_version 769559 (0.0007)
+[2023-07-06 14:38:27,736][98493] Updated weights for policy 0, policy_version 769621 (0.0008)
+[2023-07-06 14:38:29,045][98493] Updated weights for policy 0, policy_version 769669 (0.0007)
+[2023-07-06 14:38:29,764][98243] Fps is (10 sec: 111409.7, 60 sec: 111957.1, 300 sec: 110189.3). Total num frames: 1576402944. Throughput: 0: 27511.5. Samples: 394139136. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:38:30,881][98493] Updated weights for policy 0, policy_version 769730 (0.0008)
+[2023-07-06 14:38:31,658][98493] Updated weights for policy 0, policy_version 769795 (0.0006)
+[2023-07-06 14:38:32,245][98493] Updated weights for policy 0, policy_version 769858 (0.0007)
+[2023-07-06 14:38:32,630][98493] Updated weights for policy 0, policy_version 769904 (0.0007)
+[2023-07-06 14:38:34,087][98493] Updated weights for policy 0, policy_version 769952 (0.0006)
+[2023-07-06 14:38:34,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111410.9, 300 sec: 110078.2). Total num frames: 1576927232. Throughput: 0: 27659.3. Samples: 394305536. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:34,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:38:35,975][98493] Updated weights for policy 0, policy_version 770016 (0.0006)
+[2023-07-06 14:38:36,509][98493] Updated weights for policy 0, policy_version 770064 (0.0006)
+[2023-07-06 14:38:37,022][98493] Updated weights for policy 0, policy_version 770116 (0.0007)
+[2023-07-06 14:38:38,570][98493] Updated weights for policy 0, policy_version 770192 (0.0007)
+[2023-07-06 14:38:39,765][98243] Fps is (10 sec: 104853.6, 60 sec: 110318.1, 300 sec: 109744.8). Total num frames: 1577451520. Throughput: 0: 27545.3. Samples: 394384896. Policy #0 lag: (min: 15.0, avg: 100.8, max: 271.0)
+[2023-07-06 14:38:39,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:38:40,614][98493] Updated weights for policy 0, policy_version 770265 (0.0007)
+[2023-07-06 14:38:41,233][98493] Updated weights for policy 0, policy_version 770307 (0.0006)
+[2023-07-06 14:38:41,892][98493] Updated weights for policy 0, policy_version 770384 (0.0008)
+[2023-07-06 14:38:42,102][98449] Signal inference workers to stop experience collection... (39800 times)
+[2023-07-06 14:38:42,136][98493] InferenceWorker_p0-w0: stopping experience collection (39800 times)
+[2023-07-06 14:38:42,183][98449] Signal inference workers to resume experience collection... (39800 times)
+[2023-07-06 14:38:42,184][98493] InferenceWorker_p0-w0: resuming experience collection (39800 times)
+[2023-07-06 14:38:43,322][98493] Updated weights for policy 0, policy_version 770433 (0.0007)
+[2023-07-06 14:38:44,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109226.7, 300 sec: 109745.0). Total num frames: 1577975808. Throughput: 0: 27613.8. Samples: 394549248. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:38:44,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:38:45,340][98493] Updated weights for policy 0, policy_version 770501 (0.0007)
+[2023-07-06 14:38:45,763][98493] Updated weights for policy 0, policy_version 770553 (0.0006)
+[2023-07-06 14:38:46,396][98493] Updated weights for policy 0, policy_version 770608 (0.0008)
+[2023-07-06 14:38:46,908][98493] Updated weights for policy 0, policy_version 770659 (0.0008)
+[2023-07-06 14:38:48,274][98493] Updated weights for policy 0, policy_version 770724 (0.0008)
+[2023-07-06 14:38:49,764][98243] Fps is (10 sec: 104862.8, 60 sec: 109226.6, 300 sec: 109522.9). Total num frames: 1578500096. Throughput: 0: 27819.2. Samples: 394717696. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:38:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:38:50,285][98493] Updated weights for policy 0, policy_version 770768 (0.0007)
+[2023-07-06 14:38:51,123][98493] Updated weights for policy 0, policy_version 770822 (0.0007)
+[2023-07-06 14:38:51,727][98493] Updated weights for policy 0, policy_version 770896 (0.0007)
+[2023-07-06 14:38:52,664][98493] Updated weights for policy 0, policy_version 770946 (0.0006)
+[2023-07-06 14:38:53,136][98493] Updated weights for policy 0, policy_version 771001 (0.0008)
+[2023-07-06 14:38:54,764][98243] Fps is (10 sec: 104858.4, 60 sec: 108134.4, 300 sec: 109300.7). Total num frames: 1579024384. Throughput: 0: 27477.3. Samples: 394793984. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:38:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:38:55,459][98493] Updated weights for policy 0, policy_version 771062 (0.0008)
+[2023-07-06 14:38:56,212][98493] Updated weights for policy 0, policy_version 771120 (0.0007)
+[2023-07-06 14:38:56,664][98493] Updated weights for policy 0, policy_version 771168 (0.0008)
+[2023-07-06 14:38:57,891][98493] Updated weights for policy 0, policy_version 771232 (0.0007)
+[2023-07-06 14:38:59,764][98243] Fps is (10 sec: 104857.7, 60 sec: 107042.2, 300 sec: 109300.8). Total num frames: 1579548672. Throughput: 0: 27500.1. Samples: 394956288. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:38:59,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:38:59,907][98493] Updated weights for policy 0, policy_version 771265 (0.0006)
+[2023-07-06 14:39:00,425][98493] Updated weights for policy 0, policy_version 771321 (0.0008)
+[2023-07-06 14:39:01,309][98493] Updated weights for policy 0, policy_version 771385 (0.0009)
+[2023-07-06 14:39:01,404][98449] Signal inference workers to stop experience collection... (39850 times)
+[2023-07-06 14:39:01,437][98493] InferenceWorker_p0-w0: stopping experience collection (39850 times)
+[2023-07-06 14:39:01,499][98449] Signal inference workers to resume experience collection... (39850 times)
+[2023-07-06 14:39:01,500][98493] InferenceWorker_p0-w0: resuming experience collection (39850 times)
+[2023-07-06 14:39:01,771][98493] Updated weights for policy 0, policy_version 771433 (0.0006)
+[2023-07-06 14:39:02,829][98493] Updated weights for policy 0, policy_version 771461 (0.0008)
+[2023-07-06 14:39:03,269][98493] Updated weights for policy 0, policy_version 771519 (0.0006)
+[2023-07-06 14:39:04,764][98243] Fps is (10 sec: 104858.2, 60 sec: 107043.7, 300 sec: 109300.8). Total num frames: 1580072960. Throughput: 0: 27329.4. Samples: 395118080. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:39:05,423][98493] Updated weights for policy 0, policy_version 771579 (0.0007)
+[2023-07-06 14:39:06,032][98493] Updated weights for policy 0, policy_version 771620 (0.0007)
+[2023-07-06 14:39:06,525][98493] Updated weights for policy 0, policy_version 771680 (0.0007)
+[2023-07-06 14:39:07,615][98493] Updated weights for policy 0, policy_version 771720 (0.0007)
+[2023-07-06 14:39:09,764][98243] Fps is (10 sec: 104855.7, 60 sec: 107041.8, 300 sec: 109300.6). Total num frames: 1580597248. Throughput: 0: 27147.3. Samples: 395195904. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:09,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:39:09,936][98493] Updated weights for policy 0, policy_version 771777 (0.0007)
+[2023-07-06 14:39:10,452][98493] Updated weights for policy 0, policy_version 771840 (0.0008)
+[2023-07-06 14:39:11,053][98493] Updated weights for policy 0, policy_version 771896 (0.0012)
+[2023-07-06 14:39:11,536][98493] Updated weights for policy 0, policy_version 771952 (0.0007)
+[2023-07-06 14:39:12,455][98493] Updated weights for policy 0, policy_version 772000 (0.0007)
+[2023-07-06 14:39:14,765][98243] Fps is (10 sec: 104851.8, 60 sec: 107041.2, 300 sec: 109300.5). Total num frames: 1581121536. Throughput: 0: 27147.1. Samples: 395360768. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:14,766][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:39:14,875][98493] Updated weights for policy 0, policy_version 772037 (0.0008)
+[2023-07-06 14:39:15,488][98493] Updated weights for policy 0, policy_version 772098 (0.0008)
+[2023-07-06 14:39:16,080][98493] Updated weights for policy 0, policy_version 772167 (0.0008)
+[2023-07-06 14:39:17,045][98493] Updated weights for policy 0, policy_version 772226 (0.0007)
+[2023-07-06 14:39:17,493][98493] Updated weights for policy 0, policy_version 772283 (0.0006)
+[2023-07-06 14:39:19,764][98243] Fps is (10 sec: 111412.6, 60 sec: 107042.0, 300 sec: 109522.8). Total num frames: 1581711360. Throughput: 0: 27158.8. Samples: 395527680. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:19,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:39:19,841][98493] Updated weights for policy 0, policy_version 772325 (0.0006)
+[2023-07-06 14:39:20,081][98449] Signal inference workers to stop experience collection... (39900 times)
+[2023-07-06 14:39:20,124][98493] InferenceWorker_p0-w0: stopping experience collection (39900 times)
+[2023-07-06 14:39:20,167][98449] Signal inference workers to resume experience collection... (39900 times)
+[2023-07-06 14:39:20,167][98493] InferenceWorker_p0-w0: resuming experience collection (39900 times)
+[2023-07-06 14:39:20,419][98493] Updated weights for policy 0, policy_version 772390 (0.0008)
+[2023-07-06 14:39:21,017][98493] Updated weights for policy 0, policy_version 772464 (0.0006)
+[2023-07-06 14:39:22,191][98493] Updated weights for policy 0, policy_version 772520 (0.0008)
+[2023-07-06 14:39:24,483][98493] Updated weights for policy 0, policy_version 772567 (0.0008)
+[2023-07-06 14:39:24,765][98243] Fps is (10 sec: 114690.0, 60 sec: 106495.4, 300 sec: 109633.9). Total num frames: 1582268416. Throughput: 0: 27045.1. Samples: 395601920. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:24,766][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:39:25,081][98493] Updated weights for policy 0, policy_version 772630 (0.0013)
+[2023-07-06 14:39:25,643][98493] Updated weights for policy 0, policy_version 772693 (0.0007)
+[2023-07-06 14:39:26,785][98493] Updated weights for policy 0, policy_version 772752 (0.0007)
+[2023-07-06 14:39:29,036][98493] Updated weights for policy 0, policy_version 772802 (0.0007)
+[2023-07-06 14:39:29,671][98493] Updated weights for policy 0, policy_version 772880 (0.0008)
+[2023-07-06 14:39:29,764][98243] Fps is (10 sec: 114688.7, 60 sec: 107588.5, 300 sec: 109745.0). Total num frames: 1582858240. Throughput: 0: 27249.8. Samples: 395775488. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:39:30,289][98493] Updated weights for policy 0, policy_version 772950 (0.0007)
+[2023-07-06 14:39:31,502][98493] Updated weights for policy 0, policy_version 772995 (0.0006)
+[2023-07-06 14:39:32,012][98493] Updated weights for policy 0, policy_version 773056 (0.0007)
+[2023-07-06 14:39:34,531][98493] Updated weights for policy 0, policy_version 773120 (0.0009)
+[2023-07-06 14:39:34,764][98243] Fps is (10 sec: 111415.5, 60 sec: 107588.6, 300 sec: 109411.8). Total num frames: 1583382528. Throughput: 0: 26999.5. Samples: 395932672. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:34,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:39:35,067][98493] Updated weights for policy 0, policy_version 773173 (0.0008)
+[2023-07-06 14:39:35,624][98493] Updated weights for policy 0, policy_version 773241 (0.0007)
+[2023-07-06 14:39:36,617][98449] Signal inference workers to stop experience collection... (39950 times)
+[2023-07-06 14:39:36,645][98493] InferenceWorker_p0-w0: stopping experience collection (39950 times)
+[2023-07-06 14:39:36,705][98449] Signal inference workers to resume experience collection... (39950 times)
+[2023-07-06 14:39:36,706][98493] InferenceWorker_p0-w0: resuming experience collection (39950 times)
+[2023-07-06 14:39:36,916][98493] Updated weights for policy 0, policy_version 773300 (0.0007)
+[2023-07-06 14:39:39,282][98493] Updated weights for policy 0, policy_version 773350 (0.0006)
+[2023-07-06 14:39:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 107589.1, 300 sec: 109411.8). Total num frames: 1583906816. Throughput: 0: 27045.0. Samples: 396011008. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:39,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:39:39,785][98493] Updated weights for policy 0, policy_version 773408 (0.0008)
+[2023-07-06 14:39:40,336][98493] Updated weights for policy 0, policy_version 773459 (0.0008)
+[2023-07-06 14:39:40,728][98493] Updated weights for policy 0, policy_version 773504 (0.0008)
+[2023-07-06 14:39:41,784][98493] Updated weights for policy 0, policy_version 773568 (0.0008)
+[2023-07-06 14:39:44,311][98493] Updated weights for policy 0, policy_version 773623 (0.0008)
+[2023-07-06 14:39:44,764][98243] Fps is (10 sec: 108135.2, 60 sec: 108134.8, 300 sec: 109189.7). Total num frames: 1584463872. Throughput: 0: 27113.3. Samples: 396176384. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:44,764][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 14:39:44,868][98493] Updated weights for policy 0, policy_version 773685 (0.0007)
+[2023-07-06 14:39:45,383][98493] Updated weights for policy 0, policy_version 773744 (0.0007)
+[2023-07-06 14:39:46,198][98493] Updated weights for policy 0, policy_version 773782 (0.0007)
+[2023-07-06 14:39:48,934][98493] Updated weights for policy 0, policy_version 773848 (0.0007)
+[2023-07-06 14:39:49,540][98493] Updated weights for policy 0, policy_version 773911 (0.0007)
+[2023-07-06 14:39:49,765][98243] Fps is (10 sec: 111409.1, 60 sec: 108680.2, 300 sec: 109189.6). Total num frames: 1585020928. Throughput: 0: 27010.7. Samples: 396333568. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:39:50,101][98493] Updated weights for policy 0, policy_version 773970 (0.0008)
+[2023-07-06 14:39:50,456][98493] Updated weights for policy 0, policy_version 774014 (0.0006)
+[2023-07-06 14:39:51,259][98493] Updated weights for policy 0, policy_version 774071 (0.0008)
+[2023-07-06 14:39:53,747][98493] Updated weights for policy 0, policy_version 774119 (0.0008)
+[2023-07-06 14:39:54,085][98493] Updated weights for policy 0, policy_version 774145 (0.0007)
+[2023-07-06 14:39:54,396][98449] Signal inference workers to stop experience collection... (40000 times)
+[2023-07-06 14:39:54,427][98493] InferenceWorker_p0-w0: stopping experience collection (40000 times)
+[2023-07-06 14:39:54,488][98449] Signal inference workers to resume experience collection... (40000 times)
+[2023-07-06 14:39:54,488][98493] InferenceWorker_p0-w0: resuming experience collection (40000 times)
+[2023-07-06 14:39:54,712][98493] Updated weights for policy 0, policy_version 774212 (0.0008)
+[2023-07-06 14:39:54,764][98243] Fps is (10 sec: 111410.4, 60 sec: 109226.8, 300 sec: 109300.7). Total num frames: 1585577984. Throughput: 0: 27090.6. Samples: 396414976. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:54,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:39:55,166][98493] Updated weights for policy 0, policy_version 774266 (0.0007)
+[2023-07-06 14:39:56,066][98493] Updated weights for policy 0, policy_version 774330 (0.0008)
+[2023-07-06 14:39:58,750][98493] Updated weights for policy 0, policy_version 774384 (0.0006)
+[2023-07-06 14:39:59,236][98493] Updated weights for policy 0, policy_version 774432 (0.0009)
+[2023-07-06 14:39:59,764][98243] Fps is (10 sec: 111414.0, 60 sec: 109772.9, 300 sec: 109411.8). Total num frames: 1586135040. Throughput: 0: 27033.9. Samples: 396577280. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:39:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:39:59,803][98493] Updated weights for policy 0, policy_version 774488 (0.0007)
+[2023-07-06 14:40:00,538][98493] Updated weights for policy 0, policy_version 774530 (0.0006)
+[2023-07-06 14:40:01,095][98493] Updated weights for policy 0, policy_version 774592 (0.0008)
+[2023-07-06 14:40:03,619][98493] Updated weights for policy 0, policy_version 774656 (0.0008)
+[2023-07-06 14:40:04,139][98493] Updated weights for policy 0, policy_version 774704 (0.0008)
+[2023-07-06 14:40:04,729][98493] Updated weights for policy 0, policy_version 774768 (0.0008)
+[2023-07-06 14:40:04,764][98243] Fps is (10 sec: 114688.0, 60 sec: 110865.1, 300 sec: 109634.0). Total num frames: 1586724864. Throughput: 0: 26874.4. Samples: 396737024. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:40:04,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:40:05,593][98493] Updated weights for policy 0, policy_version 774809 (0.0006)
+[2023-07-06 14:40:08,273][98493] Updated weights for policy 0, policy_version 774880 (0.0007)
+[2023-07-06 14:40:08,936][98493] Updated weights for policy 0, policy_version 774945 (0.0007)
+[2023-07-06 14:40:09,415][98493] Updated weights for policy 0, policy_version 775001 (0.0007)
+[2023-07-06 14:40:09,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111411.6, 300 sec: 109633.9). Total num frames: 1587281920. Throughput: 0: 27193.1. Samples: 396825600. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:40:09,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 14:40:10,499][98493] Updated weights for policy 0, policy_version 775064 (0.0008)
+[2023-07-06 14:40:12,983][98493] Updated weights for policy 0, policy_version 775120 (0.0006)
+[2023-07-06 14:40:13,029][98449] Signal inference workers to stop experience collection... (40050 times)
+[2023-07-06 14:40:13,071][98493] InferenceWorker_p0-w0: stopping experience collection (40050 times)
+[2023-07-06 14:40:13,122][98449] Signal inference workers to resume experience collection... (40050 times)
+[2023-07-06 14:40:13,122][98493] InferenceWorker_p0-w0: resuming experience collection (40050 times)
+[2023-07-06 14:40:13,650][98493] Updated weights for policy 0, policy_version 775170 (0.0006)
+[2023-07-06 14:40:14,227][98493] Updated weights for policy 0, policy_version 775236 (0.0007)
+[2023-07-06 14:40:14,680][98493] Updated weights for policy 0, policy_version 775291 (0.0008)
+[2023-07-06 14:40:14,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111412.2, 300 sec: 109411.8). Total num frames: 1587806208. Throughput: 0: 26885.7. Samples: 396985344. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:40:14,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:40:15,341][98493] Updated weights for policy 0, policy_version 775334 (0.0007)
+[2023-07-06 14:40:17,701][98493] Updated weights for policy 0, policy_version 775366 (0.0006)
+[2023-07-06 14:40:18,193][98493] Updated weights for policy 0, policy_version 775423 (0.0007)
+[2023-07-06 14:40:18,806][98493] Updated weights for policy 0, policy_version 775478 (0.0008)
+[2023-07-06 14:40:19,280][98493] Updated weights for policy 0, policy_version 775527 (0.0007)
+[2023-07-06 14:40:19,764][98243] Fps is (10 sec: 104857.3, 60 sec: 110319.0, 300 sec: 109411.8). Total num frames: 1588330496. Throughput: 0: 26919.8. Samples: 397144064. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:40:19,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:40:20,015][98493] Updated weights for policy 0, policy_version 775586 (0.0007)
+[2023-07-06 14:40:22,474][98493] Updated weights for policy 0, policy_version 775622 (0.0005)
+[2023-07-06 14:40:22,940][98493] Updated weights for policy 0, policy_version 775678 (0.0006)
+[2023-07-06 14:40:23,548][98493] Updated weights for policy 0, policy_version 775728 (0.0009)
+[2023-07-06 14:40:24,074][98493] Updated weights for policy 0, policy_version 775778 (0.0007)
+[2023-07-06 14:40:24,764][98243] Fps is (10 sec: 108134.1, 60 sec: 110319.6, 300 sec: 109300.7). Total num frames: 1588887552. Throughput: 0: 27158.8. Samples: 397233152. Policy #0 lag: (min: 111.0, avg: 212.2, max: 351.0)
+[2023-07-06 14:40:24,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:40:24,784][98493] Updated weights for policy 0, policy_version 775827 (0.0008)
+[2023-07-06 14:40:24,999][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000775856_1588953088.pth...
+[2023-07-06 14:40:25,022][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000763072_1562771456.pth
+[2023-07-06 14:40:27,333][98493] Updated weights for policy 0, policy_version 775888 (0.0006)
+[2023-07-06 14:40:27,930][98493] Updated weights for policy 0, policy_version 775952 (0.0009)
+[2023-07-06 14:40:28,546][98493] Updated weights for policy 0, policy_version 776016 (0.0008)
+[2023-07-06 14:40:29,623][98493] Updated weights for policy 0, policy_version 776067 (0.0008)
+[2023-07-06 14:40:29,752][98449] Signal inference workers to stop experience collection... (40100 times)
+[2023-07-06 14:40:29,764][98243] Fps is (10 sec: 108134.7, 60 sec: 109226.7, 300 sec: 109189.6). Total num frames: 1589411840. Throughput: 0: 26988.0. Samples: 397390848. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:40:29,791][98493] InferenceWorker_p0-w0: stopping experience collection (40100 times)
+[2023-07-06 14:40:29,849][98449] Signal inference workers to resume experience collection... (40100 times)
+[2023-07-06 14:40:29,850][98493] InferenceWorker_p0-w0: resuming experience collection (40100 times)
+[2023-07-06 14:40:31,897][98493] Updated weights for policy 0, policy_version 776129 (0.0008)
+[2023-07-06 14:40:32,407][98493] Updated weights for policy 0, policy_version 776192 (0.0009)
+[2023-07-06 14:40:33,412][98493] Updated weights for policy 0, policy_version 776256 (0.0007)
+[2023-07-06 14:40:33,948][98493] Updated weights for policy 0, policy_version 776320 (0.0007)
+[2023-07-06 14:40:34,764][98243] Fps is (10 sec: 104857.7, 60 sec: 109226.6, 300 sec: 109300.7). Total num frames: 1589936128. Throughput: 0: 27045.1. Samples: 397550592. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:40:35,091][98493] Updated weights for policy 0, policy_version 776372 (0.0008)
+[2023-07-06 14:40:37,156][98493] Updated weights for policy 0, policy_version 776416 (0.0008)
+[2023-07-06 14:40:37,446][98493] Updated weights for policy 0, policy_version 776448 (0.0007)
+[2023-07-06 14:40:38,191][98493] Updated weights for policy 0, policy_version 776528 (0.0007)
+[2023-07-06 14:40:39,577][98493] Updated weights for policy 0, policy_version 776579 (0.0007)
+[2023-07-06 14:40:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109226.7, 300 sec: 109189.6). Total num frames: 1590460416. Throughput: 0: 27124.6. Samples: 397635584. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:40:40,010][98493] Updated weights for policy 0, policy_version 776633 (0.0007)
+[2023-07-06 14:40:42,214][98493] Updated weights for policy 0, policy_version 776704 (0.0007)
+[2023-07-06 14:40:42,848][98493] Updated weights for policy 0, policy_version 776776 (0.0007)
+[2023-07-06 14:40:43,269][98493] Updated weights for policy 0, policy_version 776826 (0.0006)
+[2023-07-06 14:40:44,764][98243] Fps is (10 sec: 101579.5, 60 sec: 108134.0, 300 sec: 108967.4). Total num frames: 1590951936. Throughput: 0: 27010.8. Samples: 397792768. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:44,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:40:45,117][98493] Updated weights for policy 0, policy_version 776864 (0.0007)
+[2023-07-06 14:40:46,694][98493] Updated weights for policy 0, policy_version 776921 (0.0007)
+[2023-07-06 14:40:47,191][98493] Updated weights for policy 0, policy_version 776976 (0.0008)
+[2023-07-06 14:40:47,570][98493] Updated weights for policy 0, policy_version 777011 (0.0007)
+[2023-07-06 14:40:47,712][98449] Signal inference workers to stop experience collection... (40150 times)
+[2023-07-06 14:40:47,746][98493] InferenceWorker_p0-w0: stopping experience collection (40150 times)
+[2023-07-06 14:40:47,792][98449] Signal inference workers to resume experience collection... (40150 times)
+[2023-07-06 14:40:47,792][98493] InferenceWorker_p0-w0: resuming experience collection (40150 times)
+[2023-07-06 14:40:48,151][98493] Updated weights for policy 0, policy_version 777083 (0.0008)
+[2023-07-06 14:40:49,764][98243] Fps is (10 sec: 101578.9, 60 sec: 107588.3, 300 sec: 108856.4). Total num frames: 1591476224. Throughput: 0: 27215.5. Samples: 397961728. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:49,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:40:50,371][98493] Updated weights for policy 0, policy_version 777144 (0.0009)
+[2023-07-06 14:40:51,800][98493] Updated weights for policy 0, policy_version 777176 (0.0008)
+[2023-07-06 14:40:52,471][98493] Updated weights for policy 0, policy_version 777248 (0.0009)
+[2023-07-06 14:40:53,042][98493] Updated weights for policy 0, policy_version 777312 (0.0008)
+[2023-07-06 14:40:54,764][98243] Fps is (10 sec: 104857.9, 60 sec: 107041.9, 300 sec: 108745.3). Total num frames: 1592000512. Throughput: 0: 26828.7. Samples: 398032896. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:54,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:40:55,143][98493] Updated weights for policy 0, policy_version 777360 (0.0007)
+[2023-07-06 14:40:55,543][98493] Updated weights for policy 0, policy_version 777404 (0.0006)
+[2023-07-06 14:40:56,667][98493] Updated weights for policy 0, policy_version 777468 (0.0008)
+[2023-07-06 14:40:57,607][98493] Updated weights for policy 0, policy_version 777524 (0.0007)
+[2023-07-06 14:40:58,150][98493] Updated weights for policy 0, policy_version 777585 (0.0007)
+[2023-07-06 14:40:59,764][98243] Fps is (10 sec: 104858.2, 60 sec: 106495.7, 300 sec: 108634.4). Total num frames: 1592524800. Throughput: 0: 26737.7. Samples: 398188544. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:40:59,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:40:59,976][98493] Updated weights for policy 0, policy_version 777616 (0.0008)
+[2023-07-06 14:41:01,127][98493] Updated weights for policy 0, policy_version 777667 (0.0007)
+[2023-07-06 14:41:01,568][98493] Updated weights for policy 0, policy_version 777722 (0.0007)
+[2023-07-06 14:41:02,484][98493] Updated weights for policy 0, policy_version 777776 (0.0007)
+[2023-07-06 14:41:03,052][98493] Updated weights for policy 0, policy_version 777840 (0.0007)
+[2023-07-06 14:41:04,765][98243] Fps is (10 sec: 104855.5, 60 sec: 105403.1, 300 sec: 108523.1). Total num frames: 1593049088. Throughput: 0: 26931.0. Samples: 398355968. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:04,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:41:05,191][98493] Updated weights for policy 0, policy_version 777905 (0.0007)
+[2023-07-06 14:41:06,053][98493] Updated weights for policy 0, policy_version 777952 (0.0007)
+[2023-07-06 14:41:07,190][98449] Signal inference workers to stop experience collection... (40200 times)
+[2023-07-06 14:41:07,224][98493] InferenceWorker_p0-w0: stopping experience collection (40200 times)
+[2023-07-06 14:41:07,233][98493] Updated weights for policy 0, policy_version 778008 (0.0007)
+[2023-07-06 14:41:07,277][98449] Signal inference workers to resume experience collection... (40200 times)
+[2023-07-06 14:41:07,277][98493] InferenceWorker_p0-w0: resuming experience collection (40200 times)
+[2023-07-06 14:41:07,667][98493] Updated weights for policy 0, policy_version 778053 (0.0007)
+[2023-07-06 14:41:08,146][98493] Updated weights for policy 0, policy_version 778107 (0.0007)
+[2023-07-06 14:41:09,765][98243] Fps is (10 sec: 104855.9, 60 sec: 104857.0, 300 sec: 108523.0). Total num frames: 1593573376. Throughput: 0: 26646.6. Samples: 398432256. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:09,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:41:10,183][98493] Updated weights for policy 0, policy_version 778149 (0.0008)
+[2023-07-06 14:41:11,132][98493] Updated weights for policy 0, policy_version 778208 (0.0007)
+[2023-07-06 14:41:12,060][98493] Updated weights for policy 0, policy_version 778244 (0.0007)
+[2023-07-06 14:41:12,642][98493] Updated weights for policy 0, policy_version 778305 (0.0007)
+[2023-07-06 14:41:13,150][98493] Updated weights for policy 0, policy_version 778359 (0.0008)
+[2023-07-06 14:41:14,764][98243] Fps is (10 sec: 104860.8, 60 sec: 104857.6, 300 sec: 108190.0). Total num frames: 1594097664. Throughput: 0: 26612.6. Samples: 398588416. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:14,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:41:15,301][98493] Updated weights for policy 0, policy_version 778408 (0.0009)
+[2023-07-06 14:41:15,948][98493] Updated weights for policy 0, policy_version 778451 (0.0007)
+[2023-07-06 14:41:16,955][98493] Updated weights for policy 0, policy_version 778500 (0.0007)
+[2023-07-06 14:41:17,570][98493] Updated weights for policy 0, policy_version 778566 (0.0008)
+[2023-07-06 14:41:19,764][98243] Fps is (10 sec: 104858.9, 60 sec: 104857.3, 300 sec: 107967.8). Total num frames: 1594621952. Throughput: 0: 26669.4. Samples: 398750720. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:19,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:41:19,896][98493] Updated weights for policy 0, policy_version 778625 (0.0008)
+[2023-07-06 14:41:20,370][98493] Updated weights for policy 0, policy_version 778682 (0.0007)
+[2023-07-06 14:41:21,199][98493] Updated weights for policy 0, policy_version 778746 (0.0007)
+[2023-07-06 14:41:22,487][98493] Updated weights for policy 0, policy_version 778816 (0.0008)
+[2023-07-06 14:41:23,083][98493] Updated weights for policy 0, policy_version 778880 (0.0007)
+[2023-07-06 14:41:24,764][98243] Fps is (10 sec: 104856.9, 60 sec: 104311.4, 300 sec: 107967.8). Total num frames: 1595146240. Throughput: 0: 26362.3. Samples: 398821888. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:24,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:41:25,609][98493] Updated weights for policy 0, policy_version 778934 (0.0008)
+[2023-07-06 14:41:25,881][98449] Signal inference workers to stop experience collection... (40250 times)
+[2023-07-06 14:41:25,922][98493] InferenceWorker_p0-w0: stopping experience collection (40250 times)
+[2023-07-06 14:41:25,976][98449] Signal inference workers to resume experience collection... (40250 times)
+[2023-07-06 14:41:25,976][98493] InferenceWorker_p0-w0: resuming experience collection (40250 times)
+[2023-07-06 14:41:26,194][98493] Updated weights for policy 0, policy_version 779001 (0.0007)
+[2023-07-06 14:41:27,278][98493] Updated weights for policy 0, policy_version 779062 (0.0008)
+[2023-07-06 14:41:27,769][98493] Updated weights for policy 0, policy_version 779120 (0.0008)
+[2023-07-06 14:41:29,764][98243] Fps is (10 sec: 104859.5, 60 sec: 104311.4, 300 sec: 107967.8). Total num frames: 1595670528. Throughput: 0: 26476.2. Samples: 398984192. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:41:30,117][98493] Updated weights for policy 0, policy_version 779142 (0.0015)
+[2023-07-06 14:41:30,866][98493] Updated weights for policy 0, policy_version 779201 (0.0007)
+[2023-07-06 14:41:31,877][98493] Updated weights for policy 0, policy_version 779271 (0.0008)
+[2023-07-06 14:41:32,515][98493] Updated weights for policy 0, policy_version 779335 (0.0007)
+[2023-07-06 14:41:32,984][98493] Updated weights for policy 0, policy_version 779386 (0.0008)
+[2023-07-06 14:41:34,764][98243] Fps is (10 sec: 104858.3, 60 sec: 104311.5, 300 sec: 107967.8). Total num frames: 1596194816. Throughput: 0: 26316.9. Samples: 399145984. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:41:35,348][98493] Updated weights for policy 0, policy_version 779431 (0.0007)
+[2023-07-06 14:41:36,216][98493] Updated weights for policy 0, policy_version 779493 (0.0010)
+[2023-07-06 14:41:36,939][98493] Updated weights for policy 0, policy_version 779552 (0.0007)
+[2023-07-06 14:41:37,595][98493] Updated weights for policy 0, policy_version 779617 (0.0008)
+[2023-07-06 14:41:39,764][98243] Fps is (10 sec: 104856.1, 60 sec: 104311.2, 300 sec: 107967.7). Total num frames: 1596719104. Throughput: 0: 26282.6. Samples: 399215616. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:41:40,105][98493] Updated weights for policy 0, policy_version 779671 (0.0007)
+[2023-07-06 14:41:40,808][98493] Updated weights for policy 0, policy_version 779716 (0.0008)
+[2023-07-06 14:41:41,820][98493] Updated weights for policy 0, policy_version 779781 (0.0008)
+[2023-07-06 14:41:42,305][98493] Updated weights for policy 0, policy_version 779840 (0.0007)
+[2023-07-06 14:41:42,895][98493] Updated weights for policy 0, policy_version 779902 (0.0008)
+[2023-07-06 14:41:44,764][98243] Fps is (10 sec: 104855.1, 60 sec: 104857.4, 300 sec: 107967.7). Total num frames: 1597243392. Throughput: 0: 26396.4. Samples: 399376384. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:41:45,085][98449] Signal inference workers to stop experience collection... (40300 times)
+[2023-07-06 14:41:45,104][98493] InferenceWorker_p0-w0: stopping experience collection (40300 times)
+[2023-07-06 14:41:45,172][98449] Signal inference workers to resume experience collection... (40300 times)
+[2023-07-06 14:41:45,172][98493] InferenceWorker_p0-w0: resuming experience collection (40300 times)
+[2023-07-06 14:41:45,173][98493] Updated weights for policy 0, policy_version 779952 (0.0008)
+[2023-07-06 14:41:46,227][98493] Updated weights for policy 0, policy_version 779988 (0.0009)
+[2023-07-06 14:41:46,926][98493] Updated weights for policy 0, policy_version 780055 (0.0007)
+[2023-07-06 14:41:47,428][98493] Updated weights for policy 0, policy_version 780100 (0.0007)
+[2023-07-06 14:41:47,904][98493] Updated weights for policy 0, policy_version 780160 (0.0007)
+[2023-07-06 14:41:49,764][98243] Fps is (10 sec: 114690.0, 60 sec: 106496.4, 300 sec: 108301.0). Total num frames: 1597865984. Throughput: 0: 26282.8. Samples: 399538688. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:49,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:41:49,796][98493] Updated weights for policy 0, policy_version 780216 (0.0007)
+[2023-07-06 14:41:51,222][98493] Updated weights for policy 0, policy_version 780272 (0.0007)
+[2023-07-06 14:41:51,800][98493] Updated weights for policy 0, policy_version 780320 (0.0025)
+[2023-07-06 14:41:52,507][98493] Updated weights for policy 0, policy_version 780377 (0.0008)
+[2023-07-06 14:41:54,501][98493] Updated weights for policy 0, policy_version 780440 (0.0009)
+[2023-07-06 14:41:54,764][98243] Fps is (10 sec: 114690.1, 60 sec: 106496.1, 300 sec: 108301.1). Total num frames: 1598390272. Throughput: 0: 26271.5. Samples: 399614464. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:54,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:41:55,759][98493] Updated weights for policy 0, policy_version 780482 (0.0007)
+[2023-07-06 14:41:56,210][98493] Updated weights for policy 0, policy_version 780538 (0.0006)
+[2023-07-06 14:41:56,792][98493] Updated weights for policy 0, policy_version 780583 (0.0007)
+[2023-07-06 14:41:57,396][98493] Updated weights for policy 0, policy_version 780642 (0.0007)
+[2023-07-06 14:41:59,313][98493] Updated weights for policy 0, policy_version 780696 (0.0007)
+[2023-07-06 14:41:59,688][98493] Updated weights for policy 0, policy_version 780736 (0.0007)
+[2023-07-06 14:41:59,764][98243] Fps is (10 sec: 108133.1, 60 sec: 107042.2, 300 sec: 108412.1). Total num frames: 1598947328. Throughput: 0: 26521.5. Samples: 399781888. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:41:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:42:00,998][98493] Updated weights for policy 0, policy_version 780797 (0.0007)
+[2023-07-06 14:42:01,676][98493] Updated weights for policy 0, policy_version 780856 (0.0007)
+[2023-07-06 14:42:02,360][98493] Updated weights for policy 0, policy_version 780901 (0.0007)
+[2023-07-06 14:42:04,268][98493] Updated weights for policy 0, policy_version 780953 (0.0007)
+[2023-07-06 14:42:04,593][98493] Updated weights for policy 0, policy_version 780992 (0.0007)
+[2023-07-06 14:42:04,764][98243] Fps is (10 sec: 108134.1, 60 sec: 107042.5, 300 sec: 108412.2). Total num frames: 1599471616. Throughput: 0: 26498.9. Samples: 399943168. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:42:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:42:05,505][98449] Signal inference workers to stop experience collection... (40350 times)
+[2023-07-06 14:42:05,528][98493] InferenceWorker_p0-w0: stopping experience collection (40350 times)
+[2023-07-06 14:42:05,589][98449] Signal inference workers to resume experience collection... (40350 times)
+[2023-07-06 14:42:05,589][98493] InferenceWorker_p0-w0: resuming experience collection (40350 times)
+[2023-07-06 14:42:05,981][98493] Updated weights for policy 0, policy_version 781051 (0.0007)
+[2023-07-06 14:42:06,501][98493] Updated weights for policy 0, policy_version 781104 (0.0007)
+[2023-07-06 14:42:07,127][98493] Updated weights for policy 0, policy_version 781156 (0.0007)
+[2023-07-06 14:42:09,097][98493] Updated weights for policy 0, policy_version 781216 (0.0007)
+[2023-07-06 14:42:09,764][98243] Fps is (10 sec: 104858.3, 60 sec: 107042.6, 300 sec: 108412.1). Total num frames: 1599995904. Throughput: 0: 26680.9. Samples: 400022528. Policy #0 lag: (min: 15.0, avg: 87.5, max: 271.0)
+[2023-07-06 14:42:09,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:42:10,400][98493] Updated weights for policy 0, policy_version 781271 (0.0007)
+[2023-07-06 14:42:11,095][98493] Updated weights for policy 0, policy_version 781328 (0.0008)
+[2023-07-06 14:42:11,873][98493] Updated weights for policy 0, policy_version 781408 (0.0008)
+[2023-07-06 14:42:14,145][98493] Updated weights for policy 0, policy_version 781465 (0.0026)
+[2023-07-06 14:42:14,452][98493] Updated weights for policy 0, policy_version 781504 (0.0007)
+[2023-07-06 14:42:14,764][98243] Fps is (10 sec: 104858.3, 60 sec: 107042.1, 300 sec: 108412.1). Total num frames: 1600520192. Throughput: 0: 26749.2. Samples: 400187904. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:14,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:42:15,397][98493] Updated weights for policy 0, policy_version 781558 (0.0008)
+[2023-07-06 14:42:16,184][98493] Updated weights for policy 0, policy_version 781602 (0.0008)
+[2023-07-06 14:42:16,846][98493] Updated weights for policy 0, policy_version 781670 (0.0009)
+[2023-07-06 14:42:19,111][98493] Updated weights for policy 0, policy_version 781729 (0.0007)
+[2023-07-06 14:42:19,765][98243] Fps is (10 sec: 104853.1, 60 sec: 107041.7, 300 sec: 108300.9). Total num frames: 1601044480. Throughput: 0: 26771.6. Samples: 400350720. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:19,766][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:42:20,012][98493] Updated weights for policy 0, policy_version 781785 (0.0007)
+[2023-07-06 14:42:20,330][98493] Updated weights for policy 0, policy_version 781823 (0.0006)
+[2023-07-06 14:42:21,243][98493] Updated weights for policy 0, policy_version 781894 (0.0009)
+[2023-07-06 14:42:21,700][98493] Updated weights for policy 0, policy_version 781947 (0.0006)
+[2023-07-06 14:42:23,839][98449] Signal inference workers to stop experience collection... (40400 times)
+[2023-07-06 14:42:23,872][98493] InferenceWorker_p0-w0: stopping experience collection (40400 times)
+[2023-07-06 14:42:23,873][98493] Updated weights for policy 0, policy_version 781991 (0.0007)
+[2023-07-06 14:42:23,921][98449] Signal inference workers to resume experience collection... (40400 times)
+[2023-07-06 14:42:23,922][98493] InferenceWorker_p0-w0: resuming experience collection (40400 times)
+[2023-07-06 14:42:24,598][98493] Updated weights for policy 0, policy_version 782041 (0.0008)
+[2023-07-06 14:42:24,764][98243] Fps is (10 sec: 111411.8, 60 sec: 108134.6, 300 sec: 108301.0). Total num frames: 1601634304. Throughput: 0: 27011.0. Samples: 400431104. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:24,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:42:24,926][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000782080_1601699840.pth...
+[2023-07-06 14:42:24,967][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000769472_1575878656.pth
+[2023-07-06 14:42:24,969][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000782080_1601699840.pth
+[2023-07-06 14:42:25,407][98493] Updated weights for policy 0, policy_version 782096 (0.0006)
+[2023-07-06 14:42:25,861][98493] Updated weights for policy 0, policy_version 782144 (0.0008)
+[2023-07-06 14:42:26,568][98493] Updated weights for policy 0, policy_version 782208 (0.0007)
+[2023-07-06 14:42:28,796][98493] Updated weights for policy 0, policy_version 782265 (0.0008)
+[2023-07-06 14:42:29,382][98493] Updated weights for policy 0, policy_version 782307 (0.0007)
+[2023-07-06 14:42:29,764][98243] Fps is (10 sec: 117970.1, 60 sec: 109226.7, 300 sec: 108412.1). Total num frames: 1602224128. Throughput: 0: 27181.6. Samples: 400599552. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:29,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:42:30,432][98493] Updated weights for policy 0, policy_version 782372 (0.0007)
+[2023-07-06 14:42:31,183][98493] Updated weights for policy 0, policy_version 782432 (0.0007)
+[2023-07-06 14:42:33,413][98493] Updated weights for policy 0, policy_version 782504 (0.0007)
+[2023-07-06 14:42:33,934][98493] Updated weights for policy 0, policy_version 782560 (0.0007)
+[2023-07-06 14:42:34,764][98243] Fps is (10 sec: 111409.4, 60 sec: 109226.4, 300 sec: 108189.9). Total num frames: 1602748416. Throughput: 0: 27147.3. Samples: 400760320. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:34,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:42:35,006][98493] Updated weights for policy 0, policy_version 782616 (0.0007)
+[2023-07-06 14:42:35,967][98493] Updated weights for policy 0, policy_version 782672 (0.0008)
+[2023-07-06 14:42:38,170][98493] Updated weights for policy 0, policy_version 782726 (0.0007)
+[2023-07-06 14:42:38,776][98493] Updated weights for policy 0, policy_version 782800 (0.0007)
+[2023-07-06 14:42:39,144][98493] Updated weights for policy 0, policy_version 782841 (0.0007)
+[2023-07-06 14:42:39,703][98493] Updated weights for policy 0, policy_version 782884 (0.0008)
+[2023-07-06 14:42:39,764][98243] Fps is (10 sec: 114689.8, 60 sec: 110865.6, 300 sec: 108301.1). Total num frames: 1603371008. Throughput: 0: 27375.0. Samples: 400846336. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:39,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:42:40,813][98493] Updated weights for policy 0, policy_version 782937 (0.0008)
+[2023-07-06 14:42:41,099][98493] Updated weights for policy 0, policy_version 782976 (0.0007)
+[2023-07-06 14:42:43,299][98449] Signal inference workers to stop experience collection... (40450 times)
+[2023-07-06 14:42:43,326][98493] Updated weights for policy 0, policy_version 783028 (0.0007)
+[2023-07-06 14:42:43,336][98493] InferenceWorker_p0-w0: stopping experience collection (40450 times)
+[2023-07-06 14:42:43,407][98449] Signal inference workers to resume experience collection... (40450 times)
+[2023-07-06 14:42:43,407][98493] InferenceWorker_p0-w0: resuming experience collection (40450 times)
+[2023-07-06 14:42:43,888][98493] Updated weights for policy 0, policy_version 783096 (0.0013)
+[2023-07-06 14:42:44,634][98493] Updated weights for policy 0, policy_version 783138 (0.0007)
+[2023-07-06 14:42:44,764][98243] Fps is (10 sec: 114689.6, 60 sec: 110865.5, 300 sec: 108301.0). Total num frames: 1603895296. Throughput: 0: 27306.7. Samples: 401010688. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:42:45,412][98493] Updated weights for policy 0, policy_version 783184 (0.0007)
+[2023-07-06 14:42:45,847][98493] Updated weights for policy 0, policy_version 783232 (0.0007)
+[2023-07-06 14:42:48,098][98493] Updated weights for policy 0, policy_version 783296 (0.0007)
+[2023-07-06 14:42:48,636][98493] Updated weights for policy 0, policy_version 783359 (0.0008)
+[2023-07-06 14:42:49,500][98493] Updated weights for policy 0, policy_version 783408 (0.0007)
+[2023-07-06 14:42:49,764][98243] Fps is (10 sec: 108131.8, 60 sec: 109772.6, 300 sec: 108189.9). Total num frames: 1604452352. Throughput: 0: 27397.7. Samples: 401176064. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:42:50,184][98493] Updated weights for policy 0, policy_version 783459 (0.0007)
+[2023-07-06 14:42:52,166][98493] Updated weights for policy 0, policy_version 783491 (0.0006)
+[2023-07-06 14:42:52,721][98493] Updated weights for policy 0, policy_version 783555 (0.0007)
+[2023-07-06 14:42:53,160][98493] Updated weights for policy 0, policy_version 783611 (0.0007)
+[2023-07-06 14:42:54,299][98493] Updated weights for policy 0, policy_version 783654 (0.0007)
+[2023-07-06 14:42:54,765][98243] Fps is (10 sec: 111402.8, 60 sec: 110317.7, 300 sec: 108078.6). Total num frames: 1605009408. Throughput: 0: 27533.8. Samples: 401261568. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:42:54,768][98493] Updated weights for policy 0, policy_version 783705 (0.0007)
+[2023-07-06 14:42:56,920][98493] Updated weights for policy 0, policy_version 783760 (0.0007)
+[2023-07-06 14:42:57,486][98493] Updated weights for policy 0, policy_version 783824 (0.0007)
+[2023-07-06 14:42:57,888][98493] Updated weights for policy 0, policy_version 783872 (0.0006)
+[2023-07-06 14:42:59,380][98493] Updated weights for policy 0, policy_version 783920 (0.0008)
+[2023-07-06 14:42:59,764][98243] Fps is (10 sec: 108135.5, 60 sec: 109773.0, 300 sec: 108079.2). Total num frames: 1605533696. Throughput: 0: 27602.5. Samples: 401430016. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:42:59,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:42:59,916][98449] Signal inference workers to stop experience collection... (40500 times)
+[2023-07-06 14:42:59,955][98493] InferenceWorker_p0-w0: stopping experience collection (40500 times)
+[2023-07-06 14:43:00,001][98449] Signal inference workers to resume experience collection... (40500 times)
+[2023-07-06 14:43:00,001][98493] InferenceWorker_p0-w0: resuming experience collection (40500 times)
+[2023-07-06 14:43:00,073][98493] Updated weights for policy 0, policy_version 783993 (0.0008)
+[2023-07-06 14:43:01,696][98493] Updated weights for policy 0, policy_version 784032 (0.0006)
+[2023-07-06 14:43:02,395][98493] Updated weights for policy 0, policy_version 784098 (0.0007)
+[2023-07-06 14:43:04,140][98493] Updated weights for policy 0, policy_version 784152 (0.0006)
+[2023-07-06 14:43:04,725][98493] Updated weights for policy 0, policy_version 784224 (0.0007)
+[2023-07-06 14:43:04,764][98243] Fps is (10 sec: 108142.8, 60 sec: 110319.1, 300 sec: 108190.0). Total num frames: 1606090752. Throughput: 0: 27489.0. Samples: 401587712. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:43:06,474][98493] Updated weights for policy 0, policy_version 784259 (0.0007)
+[2023-07-06 14:43:07,108][98493] Updated weights for policy 0, policy_version 784336 (0.0007)
+[2023-07-06 14:43:08,801][98493] Updated weights for policy 0, policy_version 784389 (0.0007)
+[2023-07-06 14:43:09,307][98493] Updated weights for policy 0, policy_version 784448 (0.0007)
+[2023-07-06 14:43:09,764][98243] Fps is (10 sec: 111411.5, 60 sec: 110865.2, 300 sec: 108301.0). Total num frames: 1606647808. Throughput: 0: 27477.3. Samples: 401667584. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:09,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:43:09,834][98493] Updated weights for policy 0, policy_version 784506 (0.0008)
+[2023-07-06 14:43:11,647][98493] Updated weights for policy 0, policy_version 784563 (0.0007)
+[2023-07-06 14:43:12,111][98493] Updated weights for policy 0, policy_version 784624 (0.0007)
+[2023-07-06 14:43:13,971][98493] Updated weights for policy 0, policy_version 784697 (0.0008)
+[2023-07-06 14:43:14,466][98493] Updated weights for policy 0, policy_version 784752 (0.0007)
+[2023-07-06 14:43:14,764][98243] Fps is (10 sec: 111410.2, 60 sec: 111411.1, 300 sec: 108189.9). Total num frames: 1607204864. Throughput: 0: 27477.3. Samples: 401836032. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:14,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:43:16,506][98493] Updated weights for policy 0, policy_version 784806 (0.0007)
+[2023-07-06 14:43:16,975][98493] Updated weights for policy 0, policy_version 784856 (0.0007)
+[2023-07-06 14:43:18,291][98449] Signal inference workers to stop experience collection... (40550 times)
+[2023-07-06 14:43:18,329][98493] InferenceWorker_p0-w0: stopping experience collection (40550 times)
+[2023-07-06 14:43:18,402][98449] Signal inference workers to resume experience collection... (40550 times)
+[2023-07-06 14:43:18,403][98493] InferenceWorker_p0-w0: resuming experience collection (40550 times)
+[2023-07-06 14:43:18,404][98493] Updated weights for policy 0, policy_version 784912 (0.0007)
+[2023-07-06 14:43:19,068][98493] Updated weights for policy 0, policy_version 784979 (0.0008)
+[2023-07-06 14:43:19,764][98243] Fps is (10 sec: 108133.7, 60 sec: 111412.0, 300 sec: 107967.8). Total num frames: 1607729152. Throughput: 0: 27295.3. Samples: 401988608. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:19,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:43:21,006][98493] Updated weights for policy 0, policy_version 785025 (0.0006)
+[2023-07-06 14:43:21,501][98493] Updated weights for policy 0, policy_version 785082 (0.0006)
+[2023-07-06 14:43:22,170][98493] Updated weights for policy 0, policy_version 785144 (0.0007)
+[2023-07-06 14:43:23,642][98493] Updated weights for policy 0, policy_version 785191 (0.0007)
+[2023-07-06 14:43:23,996][98493] Updated weights for policy 0, policy_version 785223 (0.0007)
+[2023-07-06 14:43:24,475][98493] Updated weights for policy 0, policy_version 785279 (0.0007)
+[2023-07-06 14:43:24,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110318.8, 300 sec: 107967.8). Total num frames: 1608253440. Throughput: 0: 27204.2. Samples: 402070528. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:43:26,210][98493] Updated weights for policy 0, policy_version 785337 (0.0009)
+[2023-07-06 14:43:26,840][98493] Updated weights for policy 0, policy_version 785365 (0.0007)
+[2023-07-06 14:43:28,399][98493] Updated weights for policy 0, policy_version 785440 (0.0008)
+[2023-07-06 14:43:29,111][98493] Updated weights for policy 0, policy_version 785497 (0.0007)
+[2023-07-06 14:43:29,764][98243] Fps is (10 sec: 104856.1, 60 sec: 109226.4, 300 sec: 107967.8). Total num frames: 1608777728. Throughput: 0: 27090.4. Samples: 402229760. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:29,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:43:30,760][98493] Updated weights for policy 0, policy_version 785559 (0.0008)
+[2023-07-06 14:43:31,942][98493] Updated weights for policy 0, policy_version 785622 (0.0007)
+[2023-07-06 14:43:33,436][98493] Updated weights for policy 0, policy_version 785680 (0.0007)
+[2023-07-06 14:43:33,888][98493] Updated weights for policy 0, policy_version 785728 (0.0007)
+[2023-07-06 14:43:34,534][98493] Updated weights for policy 0, policy_version 785788 (0.0007)
+[2023-07-06 14:43:34,764][98243] Fps is (10 sec: 104858.3, 60 sec: 109226.9, 300 sec: 107968.0). Total num frames: 1609302016. Throughput: 0: 26851.6. Samples: 402384384. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:43:35,854][98493] Updated weights for policy 0, policy_version 785849 (0.0007)
+[2023-07-06 14:43:37,236][98493] Updated weights for policy 0, policy_version 785893 (0.0007)
+[2023-07-06 14:43:38,137][98449] Signal inference workers to stop experience collection... (40600 times)
+[2023-07-06 14:43:38,161][98493] InferenceWorker_p0-w0: stopping experience collection (40600 times)
+[2023-07-06 14:43:38,255][98449] Signal inference workers to resume experience collection... (40600 times)
+[2023-07-06 14:43:38,255][98493] InferenceWorker_p0-w0: resuming experience collection (40600 times)
+[2023-07-06 14:43:38,603][98493] Updated weights for policy 0, policy_version 785978 (0.0007)
+[2023-07-06 14:43:39,280][98493] Updated weights for policy 0, policy_version 786016 (0.0008)
+[2023-07-06 14:43:39,765][98243] Fps is (10 sec: 104857.1, 60 sec: 107587.6, 300 sec: 107967.7). Total num frames: 1609826304. Throughput: 0: 26795.0. Samples: 402467328. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:43:40,528][98493] Updated weights for policy 0, policy_version 786080 (0.0007)
+[2023-07-06 14:43:41,823][98493] Updated weights for policy 0, policy_version 786135 (0.0006)
+[2023-07-06 14:43:43,631][98493] Updated weights for policy 0, policy_version 786201 (0.0008)
+[2023-07-06 14:43:44,086][98493] Updated weights for policy 0, policy_version 786247 (0.0008)
+[2023-07-06 14:43:44,619][98493] Updated weights for policy 0, policy_version 786304 (0.0009)
+[2023-07-06 14:43:44,764][98243] Fps is (10 sec: 104857.4, 60 sec: 107588.2, 300 sec: 107967.8). Total num frames: 1610350592. Throughput: 0: 26612.6. Samples: 402627584. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:44,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:43:45,848][98493] Updated weights for policy 0, policy_version 786368 (0.0007)
+[2023-07-06 14:43:47,032][98493] Updated weights for policy 0, policy_version 786423 (0.0008)
+[2023-07-06 14:43:48,617][98493] Updated weights for policy 0, policy_version 786464 (0.0007)
+[2023-07-06 14:43:49,078][98493] Updated weights for policy 0, policy_version 786502 (0.0006)
+[2023-07-06 14:43:49,602][98493] Updated weights for policy 0, policy_version 786560 (0.0007)
+[2023-07-06 14:43:49,765][98243] Fps is (10 sec: 104857.3, 60 sec: 107041.9, 300 sec: 107967.7). Total num frames: 1610874880. Throughput: 0: 26521.4. Samples: 402781184. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:49,766][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:43:50,826][98493] Updated weights for policy 0, policy_version 786620 (0.0008)
+[2023-07-06 14:43:52,035][98493] Updated weights for policy 0, policy_version 786683 (0.0008)
+[2023-07-06 14:43:53,623][98493] Updated weights for policy 0, policy_version 786736 (0.0007)
+[2023-07-06 14:43:54,219][98493] Updated weights for policy 0, policy_version 786768 (0.0008)
+[2023-07-06 14:43:54,764][98243] Fps is (10 sec: 104856.9, 60 sec: 106497.2, 300 sec: 107967.8). Total num frames: 1611399168. Throughput: 0: 26544.3. Samples: 402862080. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:43:55,333][98493] Updated weights for policy 0, policy_version 786818 (0.0007)
+[2023-07-06 14:43:55,802][98493] Updated weights for policy 0, policy_version 786875 (0.0007)
+[2023-07-06 14:43:56,871][98493] Updated weights for policy 0, policy_version 786919 (0.0008)
+[2023-07-06 14:43:58,138][98493] Updated weights for policy 0, policy_version 786946 (0.0006)
+[2023-07-06 14:43:58,283][98449] Signal inference workers to stop experience collection... (40650 times)
+[2023-07-06 14:43:58,317][98493] InferenceWorker_p0-w0: stopping experience collection (40650 times)
+[2023-07-06 14:43:58,373][98449] Signal inference workers to resume experience collection... (40650 times)
+[2023-07-06 14:43:58,374][98493] InferenceWorker_p0-w0: resuming experience collection (40650 times)
+[2023-07-06 14:43:58,822][98493] Updated weights for policy 0, policy_version 787009 (0.0022)
+[2023-07-06 14:43:59,365][98493] Updated weights for policy 0, policy_version 787072 (0.0008)
+[2023-07-06 14:43:59,764][98243] Fps is (10 sec: 104859.9, 60 sec: 106495.9, 300 sec: 107967.8). Total num frames: 1611923456. Throughput: 0: 26316.8. Samples: 403020288. Policy #0 lag: (min: 11.0, avg: 104.1, max: 267.0)
+[2023-07-06 14:43:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:44:00,897][98493] Updated weights for policy 0, policy_version 787130 (0.0008)
+[2023-07-06 14:44:01,767][98493] Updated weights for policy 0, policy_version 787184 (0.0007)
+[2023-07-06 14:44:03,051][98493] Updated weights for policy 0, policy_version 787216 (0.0007)
+[2023-07-06 14:44:03,502][98493] Updated weights for policy 0, policy_version 787264 (0.0006)
+[2023-07-06 14:44:04,041][98493] Updated weights for policy 0, policy_version 787326 (0.0006)
+[2023-07-06 14:44:04,764][98243] Fps is (10 sec: 104856.8, 60 sec: 105949.5, 300 sec: 107967.8). Total num frames: 1612447744. Throughput: 0: 26589.8. Samples: 403185152. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:44:05,667][98493] Updated weights for policy 0, policy_version 787386 (0.0008)
+[2023-07-06 14:44:06,651][98493] Updated weights for policy 0, policy_version 787450 (0.0006)
+[2023-07-06 14:44:08,182][98493] Updated weights for policy 0, policy_version 787514 (0.0030)
+[2023-07-06 14:44:08,626][98493] Updated weights for policy 0, policy_version 787560 (0.0007)
+[2023-07-06 14:44:09,764][98243] Fps is (10 sec: 104858.0, 60 sec: 105403.7, 300 sec: 107968.0). Total num frames: 1612972032. Throughput: 0: 26646.8. Samples: 403269632. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:44:10,123][98493] Updated weights for policy 0, policy_version 787601 (0.0006)
+[2023-07-06 14:44:10,477][98493] Updated weights for policy 0, policy_version 787643 (0.0015)
+[2023-07-06 14:44:11,251][98493] Updated weights for policy 0, policy_version 787697 (0.0007)
+[2023-07-06 14:44:12,516][98493] Updated weights for policy 0, policy_version 787732 (0.0007)
+[2023-07-06 14:44:13,118][98493] Updated weights for policy 0, policy_version 787779 (0.0007)
+[2023-07-06 14:44:13,546][98493] Updated weights for policy 0, policy_version 787835 (0.0006)
+[2023-07-06 14:44:14,764][98243] Fps is (10 sec: 104856.4, 60 sec: 104857.2, 300 sec: 107745.6). Total num frames: 1613496320. Throughput: 0: 26726.4. Samples: 403432448. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:44:15,075][98493] Updated weights for policy 0, policy_version 787888 (0.0008)
+[2023-07-06 14:44:15,761][98493] Updated weights for policy 0, policy_version 787924 (0.0007)
+[2023-07-06 14:44:17,147][98449] Signal inference workers to stop experience collection... (40700 times)
+[2023-07-06 14:44:17,188][98493] InferenceWorker_p0-w0: stopping experience collection (40700 times)
+[2023-07-06 14:44:17,238][98449] Signal inference workers to resume experience collection... (40700 times)
+[2023-07-06 14:44:17,238][98493] InferenceWorker_p0-w0: resuming experience collection (40700 times)
+[2023-07-06 14:44:17,239][98493] Updated weights for policy 0, policy_version 788000 (0.0008)
+[2023-07-06 14:44:17,969][98493] Updated weights for policy 0, policy_version 788052 (0.0007)
+[2023-07-06 14:44:19,490][98493] Updated weights for policy 0, policy_version 788097 (0.0011)
+[2023-07-06 14:44:19,764][98243] Fps is (10 sec: 111411.3, 60 sec: 105949.9, 300 sec: 107856.8). Total num frames: 1614086144. Throughput: 0: 27090.5. Samples: 403603456. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:19,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:44:19,928][98493] Updated weights for policy 0, policy_version 788153 (0.0007)
+[2023-07-06 14:44:20,361][98493] Updated weights for policy 0, policy_version 788192 (0.0009)
+[2023-07-06 14:44:22,076][98493] Updated weights for policy 0, policy_version 788250 (0.0007)
+[2023-07-06 14:44:22,380][98493] Updated weights for policy 0, policy_version 788288 (0.0006)
+[2023-07-06 14:44:23,055][98493] Updated weights for policy 0, policy_version 788345 (0.0006)
+[2023-07-06 14:44:24,499][98493] Updated weights for policy 0, policy_version 788386 (0.0007)
+[2023-07-06 14:44:24,764][98243] Fps is (10 sec: 117967.2, 60 sec: 107042.1, 300 sec: 107856.7). Total num frames: 1614675968. Throughput: 0: 27090.6. Samples: 403686400. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:44:24,865][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000788432_1614708736.pth...
+[2023-07-06 14:44:24,931][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000775856_1588953088.pth
+[2023-07-06 14:44:25,126][98493] Updated weights for policy 0, policy_version 788456 (0.0007)
+[2023-07-06 14:44:26,800][98493] Updated weights for policy 0, policy_version 788512 (0.0007)
+[2023-07-06 14:44:27,384][98493] Updated weights for policy 0, policy_version 788567 (0.0007)
+[2023-07-06 14:44:27,712][98493] Updated weights for policy 0, policy_version 788608 (0.0007)
+[2023-07-06 14:44:29,573][98493] Updated weights for policy 0, policy_version 788672 (0.0007)
+[2023-07-06 14:44:29,764][98243] Fps is (10 sec: 111409.8, 60 sec: 107042.2, 300 sec: 107856.6). Total num frames: 1615200256. Throughput: 0: 27215.6. Samples: 403852288. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:29,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:44:30,311][98493] Updated weights for policy 0, policy_version 788732 (0.0007)
+[2023-07-06 14:44:31,700][98493] Updated weights for policy 0, policy_version 788784 (0.0011)
+[2023-07-06 14:44:32,346][98493] Updated weights for policy 0, policy_version 788848 (0.0009)
+[2023-07-06 14:44:34,556][98493] Updated weights for policy 0, policy_version 788901 (0.0007)
+[2023-07-06 14:44:34,765][98243] Fps is (10 sec: 104855.0, 60 sec: 107041.6, 300 sec: 107856.6). Total num frames: 1615724544. Throughput: 0: 27318.0. Samples: 404010496. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:34,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:44:35,059][98493] Updated weights for policy 0, policy_version 788953 (0.0007)
+[2023-07-06 14:44:36,275][98493] Updated weights for policy 0, policy_version 788995 (0.0007)
+[2023-07-06 14:44:36,381][98449] Signal inference workers to stop experience collection... (40750 times)
+[2023-07-06 14:44:36,441][98493] InferenceWorker_p0-w0: stopping experience collection (40750 times)
+[2023-07-06 14:44:36,468][98449] Signal inference workers to resume experience collection... (40750 times)
+[2023-07-06 14:44:36,468][98493] InferenceWorker_p0-w0: resuming experience collection (40750 times)
+[2023-07-06 14:44:36,705][98493] Updated weights for policy 0, policy_version 789046 (0.0007)
+[2023-07-06 14:44:37,278][98493] Updated weights for policy 0, policy_version 789116 (0.0007)
+[2023-07-06 14:44:39,356][98493] Updated weights for policy 0, policy_version 789178 (0.0008)
+[2023-07-06 14:44:39,764][98243] Fps is (10 sec: 108136.0, 60 sec: 107588.7, 300 sec: 107856.7). Total num frames: 1616281600. Throughput: 0: 27318.1. Samples: 404091392. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:39,774][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:44:39,972][98493] Updated weights for policy 0, policy_version 789221 (0.0008)
+[2023-07-06 14:44:41,275][98493] Updated weights for policy 0, policy_version 789296 (0.0007)
+[2023-07-06 14:44:41,909][98493] Updated weights for policy 0, policy_version 789371 (0.0007)
+[2023-07-06 14:44:44,235][98493] Updated weights for policy 0, policy_version 789433 (0.0008)
+[2023-07-06 14:44:44,627][98493] Updated weights for policy 0, policy_version 789472 (0.0008)
+[2023-07-06 14:44:44,764][98243] Fps is (10 sec: 111413.0, 60 sec: 108134.2, 300 sec: 107856.7). Total num frames: 1616838656. Throughput: 0: 27579.7. Samples: 404261376. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:44,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:44:45,918][98493] Updated weights for policy 0, policy_version 789529 (0.0007)
+[2023-07-06 14:44:46,464][98493] Updated weights for policy 0, policy_version 789587 (0.0007)
+[2023-07-06 14:44:48,620][98493] Updated weights for policy 0, policy_version 789648 (0.0006)
+[2023-07-06 14:44:49,166][98493] Updated weights for policy 0, policy_version 789703 (0.0007)
+[2023-07-06 14:44:49,764][98243] Fps is (10 sec: 114688.2, 60 sec: 109227.2, 300 sec: 107967.8). Total num frames: 1617428480. Throughput: 0: 27454.7. Samples: 404420608. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:49,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:44:50,502][98493] Updated weights for policy 0, policy_version 789764 (0.0024)
+[2023-07-06 14:44:50,923][98493] Updated weights for policy 0, policy_version 789820 (0.0006)
+[2023-07-06 14:44:51,579][98493] Updated weights for policy 0, policy_version 789876 (0.0008)
+[2023-07-06 14:44:53,378][98493] Updated weights for policy 0, policy_version 789920 (0.0007)
+[2023-07-06 14:44:54,024][98449] Signal inference workers to stop experience collection... (40800 times)
+[2023-07-06 14:44:54,051][98493] InferenceWorker_p0-w0: stopping experience collection (40800 times)
+[2023-07-06 14:44:54,060][98493] Updated weights for policy 0, policy_version 789973 (0.0008)
+[2023-07-06 14:44:54,118][98449] Signal inference workers to resume experience collection... (40800 times)
+[2023-07-06 14:44:54,118][98493] InferenceWorker_p0-w0: resuming experience collection (40800 times)
+[2023-07-06 14:44:54,764][98243] Fps is (10 sec: 111412.5, 60 sec: 109226.7, 300 sec: 107856.7). Total num frames: 1617952768. Throughput: 0: 27488.7. Samples: 404506624. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:44:55,229][98493] Updated weights for policy 0, policy_version 790032 (0.0007)
+[2023-07-06 14:44:55,680][98493] Updated weights for policy 0, policy_version 790080 (0.0008)
+[2023-07-06 14:44:56,434][98493] Updated weights for policy 0, policy_version 790138 (0.0007)
+[2023-07-06 14:44:58,092][98493] Updated weights for policy 0, policy_version 790180 (0.0008)
+[2023-07-06 14:44:58,838][98493] Updated weights for policy 0, policy_version 790232 (0.0007)
+[2023-07-06 14:44:59,718][98493] Updated weights for policy 0, policy_version 790275 (0.0007)
+[2023-07-06 14:44:59,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109226.9, 300 sec: 107634.6). Total num frames: 1618477056. Throughput: 0: 27545.8. Samples: 404672000. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:44:59,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:45:00,831][98493] Updated weights for policy 0, policy_version 790337 (0.0007)
+[2023-07-06 14:45:01,305][98493] Updated weights for policy 0, policy_version 790400 (0.0007)
+[2023-07-06 14:45:03,327][98493] Updated weights for policy 0, policy_version 790450 (0.0007)
+[2023-07-06 14:45:03,848][98493] Updated weights for policy 0, policy_version 790512 (0.0007)
+[2023-07-06 14:45:04,458][98493] Updated weights for policy 0, policy_version 790560 (0.0007)
+[2023-07-06 14:45:04,764][98243] Fps is (10 sec: 117964.4, 60 sec: 111411.4, 300 sec: 107967.8). Total num frames: 1619132416. Throughput: 0: 27374.9. Samples: 404835328. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:45:05,644][98493] Updated weights for policy 0, policy_version 790608 (0.0007)
+[2023-07-06 14:45:06,071][98493] Updated weights for policy 0, policy_version 790656 (0.0007)
+[2023-07-06 14:45:08,195][98493] Updated weights for policy 0, policy_version 790736 (0.0007)
+[2023-07-06 14:45:08,626][98493] Updated weights for policy 0, policy_version 790784 (0.0006)
+[2023-07-06 14:45:09,460][98493] Updated weights for policy 0, policy_version 790843 (0.0007)
+[2023-07-06 14:45:09,764][98243] Fps is (10 sec: 117962.5, 60 sec: 111411.0, 300 sec: 107967.7). Total num frames: 1619656704. Throughput: 0: 27454.5. Samples: 404921856. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:45:10,896][98493] Updated weights for policy 0, policy_version 790907 (0.0009)
+[2023-07-06 14:45:12,534][98493] Updated weights for policy 0, policy_version 790946 (0.0007)
+[2023-07-06 14:45:12,966][98449] Signal inference workers to stop experience collection... (40850 times)
+[2023-07-06 14:45:13,013][98493] InferenceWorker_p0-w0: stopping experience collection (40850 times)
+[2023-07-06 14:45:13,019][98493] Updated weights for policy 0, policy_version 790999 (0.0028)
+[2023-07-06 14:45:13,063][98449] Signal inference workers to resume experience collection... (40850 times)
+[2023-07-06 14:45:13,063][98493] InferenceWorker_p0-w0: resuming experience collection (40850 times)
+[2023-07-06 14:45:13,773][98493] Updated weights for policy 0, policy_version 791046 (0.0006)
+[2023-07-06 14:45:14,188][98493] Updated weights for policy 0, policy_version 791096 (0.0007)
+[2023-07-06 14:45:14,764][98243] Fps is (10 sec: 104858.2, 60 sec: 111411.7, 300 sec: 107967.8). Total num frames: 1620180992. Throughput: 0: 27375.0. Samples: 405084160. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:14,766][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:45:15,446][98493] Updated weights for policy 0, policy_version 791124 (0.0006)
+[2023-07-06 14:45:17,162][98493] Updated weights for policy 0, policy_version 791194 (0.0007)
+[2023-07-06 14:45:17,825][98493] Updated weights for policy 0, policy_version 791248 (0.0008)
+[2023-07-06 14:45:18,266][98493] Updated weights for policy 0, policy_version 791295 (0.0007)
+[2023-07-06 14:45:18,718][98493] Updated weights for policy 0, policy_version 791346 (0.0007)
+[2023-07-06 14:45:19,764][98243] Fps is (10 sec: 104858.5, 60 sec: 110318.9, 300 sec: 107856.7). Total num frames: 1620705280. Throughput: 0: 27591.3. Samples: 405252096. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:45:20,094][98493] Updated weights for policy 0, policy_version 791382 (0.0007)
+[2023-07-06 14:45:21,676][98493] Updated weights for policy 0, policy_version 791440 (0.0006)
+[2023-07-06 14:45:22,276][98493] Updated weights for policy 0, policy_version 791494 (0.0008)
+[2023-07-06 14:45:22,749][98493] Updated weights for policy 0, policy_version 791552 (0.0007)
+[2023-07-06 14:45:23,476][98493] Updated weights for policy 0, policy_version 791616 (0.0007)
+[2023-07-06 14:45:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 109226.7, 300 sec: 107856.7). Total num frames: 1621229568. Throughput: 0: 27591.1. Samples: 405332992. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:24,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:45:25,225][98493] Updated weights for policy 0, policy_version 791680 (0.0008)
+[2023-07-06 14:45:26,872][98493] Updated weights for policy 0, policy_version 791731 (0.0009)
+[2023-07-06 14:45:27,332][98493] Updated weights for policy 0, policy_version 791781 (0.0007)
+[2023-07-06 14:45:28,048][98493] Updated weights for policy 0, policy_version 791833 (0.0006)
+[2023-07-06 14:45:29,495][98493] Updated weights for policy 0, policy_version 791889 (0.0007)
+[2023-07-06 14:45:29,764][98243] Fps is (10 sec: 114688.4, 60 sec: 110865.3, 300 sec: 108189.9). Total num frames: 1621852160. Throughput: 0: 27511.5. Samples: 405499392. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:45:31,294][98493] Updated weights for policy 0, policy_version 791958 (0.0007)
+[2023-07-06 14:45:31,906][98493] Updated weights for policy 0, policy_version 792003 (0.0007)
+[2023-07-06 14:45:32,028][98449] Signal inference workers to stop experience collection... (40900 times)
+[2023-07-06 14:45:32,074][98493] InferenceWorker_p0-w0: stopping experience collection (40900 times)
+[2023-07-06 14:45:32,111][98449] Signal inference workers to resume experience collection... (40900 times)
+[2023-07-06 14:45:32,112][98493] InferenceWorker_p0-w0: resuming experience collection (40900 times)
+[2023-07-06 14:45:32,553][98493] Updated weights for policy 0, policy_version 792065 (0.0006)
+[2023-07-06 14:45:33,043][98493] Updated weights for policy 0, policy_version 792124 (0.0007)
+[2023-07-06 14:45:34,494][98493] Updated weights for policy 0, policy_version 792176 (0.0006)
+[2023-07-06 14:45:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111411.8, 300 sec: 108301.0). Total num frames: 1622409216. Throughput: 0: 27625.2. Samples: 405663744. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:34,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:45:36,244][98493] Updated weights for policy 0, policy_version 792210 (0.0007)
+[2023-07-06 14:45:36,577][98493] Updated weights for policy 0, policy_version 792256 (0.0007)
+[2023-07-06 14:45:37,276][98493] Updated weights for policy 0, policy_version 792323 (0.0014)
+[2023-07-06 14:45:37,776][98493] Updated weights for policy 0, policy_version 792384 (0.0007)
+[2023-07-06 14:45:39,418][98493] Updated weights for policy 0, policy_version 792441 (0.0008)
+[2023-07-06 14:45:39,764][98243] Fps is (10 sec: 108133.8, 60 sec: 110864.9, 300 sec: 108412.1). Total num frames: 1622933504. Throughput: 0: 27488.7. Samples: 405743616. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:45:41,432][98493] Updated weights for policy 0, policy_version 792496 (0.0007)
+[2023-07-06 14:45:41,929][98493] Updated weights for policy 0, policy_version 792550 (0.0008)
+[2023-07-06 14:45:42,375][98493] Updated weights for policy 0, policy_version 792599 (0.0006)
+[2023-07-06 14:45:43,849][98493] Updated weights for policy 0, policy_version 792656 (0.0007)
+[2023-07-06 14:45:44,247][98493] Updated weights for policy 0, policy_version 792699 (0.0007)
+[2023-07-06 14:45:44,764][98243] Fps is (10 sec: 104856.7, 60 sec: 110319.0, 300 sec: 108412.1). Total num frames: 1623457792. Throughput: 0: 27568.3. Samples: 405912576. Policy #0 lag: (min: 15.0, avg: 128.8, max: 271.0)
+[2023-07-06 14:45:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:45:46,193][98493] Updated weights for policy 0, policy_version 792755 (0.0008)
+[2023-07-06 14:45:46,782][98493] Updated weights for policy 0, policy_version 792822 (0.0008)
+[2023-07-06 14:45:47,340][98493] Updated weights for policy 0, policy_version 792890 (0.0007)
+[2023-07-06 14:45:48,852][98493] Updated weights for policy 0, policy_version 792935 (0.0007)
+[2023-07-06 14:45:49,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.5, 300 sec: 108412.1). Total num frames: 1623982080. Throughput: 0: 27682.1. Samples: 406081024. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:45:49,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:45:50,430][98449] Signal inference workers to stop experience collection... (40950 times)
+[2023-07-06 14:45:50,452][98493] Updated weights for policy 0, policy_version 792966 (0.0007)
+[2023-07-06 14:45:50,465][98493] InferenceWorker_p0-w0: stopping experience collection (40950 times)
+[2023-07-06 14:45:50,512][98449] Signal inference workers to resume experience collection... (40950 times)
+[2023-07-06 14:45:50,512][98493] InferenceWorker_p0-w0: resuming experience collection (40950 times)
+[2023-07-06 14:45:51,018][98493] Updated weights for policy 0, policy_version 793032 (0.0008)
+[2023-07-06 14:45:51,529][98493] Updated weights for policy 0, policy_version 793093 (0.0007)
+[2023-07-06 14:45:51,988][98493] Updated weights for policy 0, policy_version 793150 (0.0006)
+[2023-07-06 14:45:53,839][98493] Updated weights for policy 0, policy_version 793211 (0.0007)
+[2023-07-06 14:45:54,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109226.6, 300 sec: 108412.1). Total num frames: 1624506368. Throughput: 0: 27534.3. Samples: 406160896. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:45:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:45:55,927][98493] Updated weights for policy 0, policy_version 793280 (0.0007)
+[2023-07-06 14:45:56,480][98493] Updated weights for policy 0, policy_version 793344 (0.0006)
+[2023-07-06 14:45:57,043][98493] Updated weights for policy 0, policy_version 793408 (0.0007)
+[2023-07-06 14:45:59,764][98243] Fps is (10 sec: 104858.6, 60 sec: 109226.6, 300 sec: 108412.2). Total num frames: 1625030656. Throughput: 0: 27522.9. Samples: 406322688. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:45:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:46:00,076][98493] Updated weights for policy 0, policy_version 793473 (0.0007)
+[2023-07-06 14:46:00,631][98493] Updated weights for policy 0, policy_version 793536 (0.0007)
+[2023-07-06 14:46:01,193][98493] Updated weights for policy 0, policy_version 793600 (0.0008)
+[2023-07-06 14:46:01,696][98493] Updated weights for policy 0, policy_version 793653 (0.0007)
+[2023-07-06 14:46:03,400][98493] Updated weights for policy 0, policy_version 793712 (0.0007)
+[2023-07-06 14:46:04,765][98243] Fps is (10 sec: 104855.4, 60 sec: 107041.8, 300 sec: 108412.1). Total num frames: 1625554944. Throughput: 0: 27500.0. Samples: 406489600. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:04,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:46:05,231][98493] Updated weights for policy 0, policy_version 793776 (0.0007)
+[2023-07-06 14:46:05,744][98493] Updated weights for policy 0, policy_version 793827 (0.0007)
+[2023-07-06 14:46:06,009][98449] Signal inference workers to stop experience collection... (41000 times)
+[2023-07-06 14:46:06,042][98493] InferenceWorker_p0-w0: stopping experience collection (41000 times)
+[2023-07-06 14:46:06,107][98449] Signal inference workers to resume experience collection... (41000 times)
+[2023-07-06 14:46:06,108][98493] InferenceWorker_p0-w0: resuming experience collection (41000 times)
+[2023-07-06 14:46:06,251][98493] Updated weights for policy 0, policy_version 793888 (0.0007)
+[2023-07-06 14:46:07,932][98493] Updated weights for policy 0, policy_version 793924 (0.0006)
+[2023-07-06 14:46:08,360][98493] Updated weights for policy 0, policy_version 793979 (0.0007)
+[2023-07-06 14:46:09,764][98493] Updated weights for policy 0, policy_version 794016 (0.0007)
+[2023-07-06 14:46:09,764][98243] Fps is (10 sec: 111411.6, 60 sec: 108134.7, 300 sec: 108634.3). Total num frames: 1626144768. Throughput: 0: 27477.4. Samples: 406569472. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:46:10,282][98493] Updated weights for policy 0, policy_version 794071 (0.0007)
+[2023-07-06 14:46:10,797][98493] Updated weights for policy 0, policy_version 794128 (0.0007)
+[2023-07-06 14:46:11,238][98493] Updated weights for policy 0, policy_version 794176 (0.0007)
+[2023-07-06 14:46:12,969][98493] Updated weights for policy 0, policy_version 794233 (0.0007)
+[2023-07-06 14:46:14,652][98493] Updated weights for policy 0, policy_version 794275 (0.0007)
+[2023-07-06 14:46:14,764][98243] Fps is (10 sec: 114690.8, 60 sec: 108680.5, 300 sec: 108745.4). Total num frames: 1626701824. Throughput: 0: 27534.2. Samples: 406738432. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:46:15,091][98493] Updated weights for policy 0, policy_version 794327 (0.0008)
+[2023-07-06 14:46:15,515][98493] Updated weights for policy 0, policy_version 794371 (0.0007)
+[2023-07-06 14:46:15,942][98493] Updated weights for policy 0, policy_version 794426 (0.0007)
+[2023-07-06 14:46:17,517][98493] Updated weights for policy 0, policy_version 794468 (0.0007)
+[2023-07-06 14:46:19,231][98493] Updated weights for policy 0, policy_version 794512 (0.0006)
+[2023-07-06 14:46:19,764][98243] Fps is (10 sec: 111410.1, 60 sec: 109226.7, 300 sec: 108856.4). Total num frames: 1627258880. Throughput: 0: 27545.6. Samples: 406903296. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:19,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:46:19,841][98493] Updated weights for policy 0, policy_version 794576 (0.0008)
+[2023-07-06 14:46:20,338][98493] Updated weights for policy 0, policy_version 794626 (0.0006)
+[2023-07-06 14:46:20,799][98493] Updated weights for policy 0, policy_version 794682 (0.0006)
+[2023-07-06 14:46:22,323][98493] Updated weights for policy 0, policy_version 794725 (0.0007)
+[2023-07-06 14:46:24,216][98449] Signal inference workers to stop experience collection... (41050 times)
+[2023-07-06 14:46:24,248][98493] Updated weights for policy 0, policy_version 794788 (0.0007)
+[2023-07-06 14:46:24,255][98493] InferenceWorker_p0-w0: stopping experience collection (41050 times)
+[2023-07-06 14:46:24,314][98449] Signal inference workers to resume experience collection... (41050 times)
+[2023-07-06 14:46:24,314][98493] InferenceWorker_p0-w0: resuming experience collection (41050 times)
+[2023-07-06 14:46:24,750][98493] Updated weights for policy 0, policy_version 794848 (0.0007)
+[2023-07-06 14:46:24,765][98243] Fps is (10 sec: 114684.0, 60 sec: 110318.3, 300 sec: 109078.4). Total num frames: 1627848704. Throughput: 0: 27568.2. Samples: 406984192. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:24,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:46:24,892][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000794864_1627881472.pth...
+[2023-07-06 14:46:24,975][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000782080_1601699840.pth
+[2023-07-06 14:46:25,387][98493] Updated weights for policy 0, policy_version 794912 (0.0007)
+[2023-07-06 14:46:26,909][98493] Updated weights for policy 0, policy_version 794960 (0.0007)
+[2023-07-06 14:46:28,963][98493] Updated weights for policy 0, policy_version 795014 (0.0008)
+[2023-07-06 14:46:29,689][98493] Updated weights for policy 0, policy_version 795094 (0.0007)
+[2023-07-06 14:46:29,765][98243] Fps is (10 sec: 111407.4, 60 sec: 108679.9, 300 sec: 109078.4). Total num frames: 1628372992. Throughput: 0: 27488.5. Samples: 407149568. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:29,766][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 14:46:30,323][98493] Updated weights for policy 0, policy_version 795168 (0.0008)
+[2023-07-06 14:46:32,276][98493] Updated weights for policy 0, policy_version 795221 (0.0008)
+[2023-07-06 14:46:33,689][98493] Updated weights for policy 0, policy_version 795267 (0.0007)
+[2023-07-06 14:46:34,330][98493] Updated weights for policy 0, policy_version 795335 (0.0008)
+[2023-07-06 14:46:34,764][98243] Fps is (10 sec: 108137.4, 60 sec: 108680.4, 300 sec: 109189.7). Total num frames: 1628930048. Throughput: 0: 26988.1. Samples: 407295488. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:46:34,816][98493] Updated weights for policy 0, policy_version 795389 (0.0007)
+[2023-07-06 14:46:35,714][98493] Updated weights for policy 0, policy_version 795450 (0.0008)
+[2023-07-06 14:46:37,388][98493] Updated weights for policy 0, policy_version 795479 (0.0007)
+[2023-07-06 14:46:38,718][98493] Updated weights for policy 0, policy_version 795526 (0.0007)
+[2023-07-06 14:46:39,379][98493] Updated weights for policy 0, policy_version 795600 (0.0007)
+[2023-07-06 14:46:39,764][98243] Fps is (10 sec: 108138.1, 60 sec: 108680.6, 300 sec: 109189.7). Total num frames: 1629454336. Throughput: 0: 27045.0. Samples: 407377920. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:46:39,780][98493] Updated weights for policy 0, policy_version 795642 (0.0008)
+[2023-07-06 14:46:40,332][98493] Updated weights for policy 0, policy_version 795696 (0.0008)
+[2023-07-06 14:46:41,974][98449] Signal inference workers to stop experience collection... (41100 times)
+[2023-07-06 14:46:41,989][98493] InferenceWorker_p0-w0: stopping experience collection (41100 times)
+[2023-07-06 14:46:42,076][98449] Signal inference workers to resume experience collection... (41100 times)
+[2023-07-06 14:46:42,077][98493] InferenceWorker_p0-w0: resuming experience collection (41100 times)
+[2023-07-06 14:46:42,300][98493] Updated weights for policy 0, policy_version 795747 (0.0006)
+[2023-07-06 14:46:43,899][98493] Updated weights for policy 0, policy_version 795792 (0.0006)
+[2023-07-06 14:46:44,585][98493] Updated weights for policy 0, policy_version 795872 (0.0008)
+[2023-07-06 14:46:44,764][98243] Fps is (10 sec: 104856.3, 60 sec: 108680.3, 300 sec: 108856.3). Total num frames: 1629978624. Throughput: 0: 27101.7. Samples: 407542272. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:46:44,983][98493] Updated weights for policy 0, policy_version 795907 (0.0008)
+[2023-07-06 14:46:45,452][98493] Updated weights for policy 0, policy_version 795962 (0.0009)
+[2023-07-06 14:46:47,165][98493] Updated weights for policy 0, policy_version 796016 (0.0007)
+[2023-07-06 14:46:48,846][98493] Updated weights for policy 0, policy_version 796064 (0.0008)
+[2023-07-06 14:46:49,576][98493] Updated weights for policy 0, policy_version 796144 (0.0008)
+[2023-07-06 14:46:49,764][98243] Fps is (10 sec: 108132.1, 60 sec: 109226.3, 300 sec: 108967.4). Total num frames: 1630535680. Throughput: 0: 26794.7. Samples: 407695360. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:46:50,085][98493] Updated weights for policy 0, policy_version 796192 (0.0008)
+[2023-07-06 14:46:52,330][98493] Updated weights for policy 0, policy_version 796256 (0.0008)
+[2023-07-06 14:46:53,578][98493] Updated weights for policy 0, policy_version 796296 (0.0006)
+[2023-07-06 14:46:54,094][98493] Updated weights for policy 0, policy_version 796352 (0.0007)
+[2023-07-06 14:46:54,563][98493] Updated weights for policy 0, policy_version 796400 (0.0007)
+[2023-07-06 14:46:54,764][98243] Fps is (10 sec: 108136.8, 60 sec: 109226.8, 300 sec: 108856.5). Total num frames: 1631059968. Throughput: 0: 26817.4. Samples: 407776256. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:54,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:46:55,085][98493] Updated weights for policy 0, policy_version 796434 (0.0006)
+[2023-07-06 14:46:56,817][98493] Updated weights for policy 0, policy_version 796482 (0.0007)
+[2023-07-06 14:46:57,383][98493] Updated weights for policy 0, policy_version 796544 (0.0009)
+[2023-07-06 14:46:59,061][98493] Updated weights for policy 0, policy_version 796624 (0.0008)
+[2023-07-06 14:46:59,468][98493] Updated weights for policy 0, policy_version 796671 (0.0008)
+[2023-07-06 14:46:59,764][98243] Fps is (10 sec: 104860.3, 60 sec: 109226.6, 300 sec: 108856.4). Total num frames: 1631584256. Throughput: 0: 26635.4. Samples: 407937024. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:46:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:47:00,070][98449] Signal inference workers to stop experience collection... (41150 times)
+[2023-07-06 14:47:00,086][98493] InferenceWorker_p0-w0: stopping experience collection (41150 times)
+[2023-07-06 14:47:00,167][98449] Signal inference workers to resume experience collection... (41150 times)
+[2023-07-06 14:47:00,167][98493] InferenceWorker_p0-w0: resuming experience collection (41150 times)
+[2023-07-06 14:47:00,599][98493] Updated weights for policy 0, policy_version 796736 (0.0008)
+[2023-07-06 14:47:02,656][98493] Updated weights for policy 0, policy_version 796799 (0.0008)
+[2023-07-06 14:47:03,854][98493] Updated weights for policy 0, policy_version 796851 (0.0008)
+[2023-07-06 14:47:04,443][98493] Updated weights for policy 0, policy_version 796924 (0.0007)
+[2023-07-06 14:47:04,764][98243] Fps is (10 sec: 104856.9, 60 sec: 109227.0, 300 sec: 108856.4). Total num frames: 1632108544. Throughput: 0: 26316.8. Samples: 408087552. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:47:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:47:05,462][98493] Updated weights for policy 0, policy_version 796976 (0.0007)
+[2023-07-06 14:47:07,049][98493] Updated weights for policy 0, policy_version 797029 (0.0007)
+[2023-07-06 14:47:08,633][98493] Updated weights for policy 0, policy_version 797072 (0.0008)
+[2023-07-06 14:47:09,330][98493] Updated weights for policy 0, policy_version 797152 (0.0007)
+[2023-07-06 14:47:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 108134.3, 300 sec: 108856.4). Total num frames: 1632632832. Throughput: 0: 26351.2. Samples: 408169984. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:47:09,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:47:10,406][98493] Updated weights for policy 0, policy_version 797207 (0.0007)
+[2023-07-06 14:47:11,979][98493] Updated weights for policy 0, policy_version 797264 (0.0007)
+[2023-07-06 14:47:13,407][98493] Updated weights for policy 0, policy_version 797328 (0.0006)
+[2023-07-06 14:47:13,910][98493] Updated weights for policy 0, policy_version 797381 (0.0008)
+[2023-07-06 14:47:14,341][98493] Updated weights for policy 0, policy_version 797434 (0.0007)
+[2023-07-06 14:47:14,764][98243] Fps is (10 sec: 104858.0, 60 sec: 107588.2, 300 sec: 108856.6). Total num frames: 1633157120. Throughput: 0: 26260.1. Samples: 408331264. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:47:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:47:15,417][98493] Updated weights for policy 0, policy_version 797488 (0.0008)
+[2023-07-06 14:47:17,055][98493] Updated weights for policy 0, policy_version 797552 (0.0007)
+[2023-07-06 14:47:18,448][98493] Updated weights for policy 0, policy_version 797600 (0.0007)
+[2023-07-06 14:47:18,967][98449] Signal inference workers to stop experience collection... (41200 times)
+[2023-07-06 14:47:18,992][98493] InferenceWorker_p0-w0: stopping experience collection (41200 times)
+[2023-07-06 14:47:19,064][98449] Signal inference workers to resume experience collection... (41200 times)
+[2023-07-06 14:47:19,064][98493] InferenceWorker_p0-w0: resuming experience collection (41200 times)
+[2023-07-06 14:47:19,066][98493] Updated weights for policy 0, policy_version 797664 (0.0007)
+[2023-07-06 14:47:19,764][98243] Fps is (10 sec: 104854.9, 60 sec: 107041.8, 300 sec: 108634.2). Total num frames: 1633681408. Throughput: 0: 26498.8. Samples: 408487936. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:47:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:47:19,915][98493] Updated weights for policy 0, policy_version 797701 (0.0006)
+[2023-07-06 14:47:21,875][98493] Updated weights for policy 0, policy_version 797783 (0.0007)
+[2023-07-06 14:47:23,354][98493] Updated weights for policy 0, policy_version 797826 (0.0008)
+[2023-07-06 14:47:23,888][98493] Updated weights for policy 0, policy_version 797888 (0.0009)
+[2023-07-06 14:47:24,489][98493] Updated weights for policy 0, policy_version 797948 (0.0008)
+[2023-07-06 14:47:24,764][98243] Fps is (10 sec: 108134.1, 60 sec: 106496.5, 300 sec: 108523.2). Total num frames: 1634238464. Throughput: 0: 26498.8. Samples: 408570368. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:47:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:47:24,971][98493] Updated weights for policy 0, policy_version 798000 (0.0008)
+[2023-07-06 14:47:26,870][98493] Updated weights for policy 0, policy_version 798048 (0.0007)
+[2023-07-06 14:47:28,480][98493] Updated weights for policy 0, policy_version 798101 (0.0007)
+[2023-07-06 14:47:28,976][98493] Updated weights for policy 0, policy_version 798150 (0.0008)
+[2023-07-06 14:47:29,653][98493] Updated weights for policy 0, policy_version 798213 (0.0007)
+[2023-07-06 14:47:29,764][98243] Fps is (10 sec: 108136.9, 60 sec: 106496.7, 300 sec: 108523.2). Total num frames: 1634762752. Throughput: 0: 26407.9. Samples: 408730624. Policy #0 lag: (min: 111.0, avg: 190.9, max: 367.0)
+[2023-07-06 14:47:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:47:31,451][98493] Updated weights for policy 0, policy_version 798274 (0.0008)
+[2023-07-06 14:47:31,950][98493] Updated weights for policy 0, policy_version 798331 (0.0014)
+[2023-07-06 14:47:33,499][98493] Updated weights for policy 0, policy_version 798368 (0.0007)
+[2023-07-06 14:47:34,191][98493] Updated weights for policy 0, policy_version 798448 (0.0007)
+[2023-07-06 14:47:34,764][98243] Fps is (10 sec: 108134.6, 60 sec: 106496.1, 300 sec: 108301.0). Total num frames: 1635319808. Throughput: 0: 26430.7. Samples: 408884736. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:47:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:47:34,814][98493] Updated weights for policy 0, policy_version 798501 (0.0007)
+[2023-07-06 14:47:36,463][98493] Updated weights for policy 0, policy_version 798529 (0.0006)
+[2023-07-06 14:47:36,893][98493] Updated weights for policy 0, policy_version 798587 (0.0009)
+[2023-07-06 14:47:38,366][98449] Signal inference workers to stop experience collection... (41250 times)
+[2023-07-06 14:47:38,410][98493] InferenceWorker_p0-w0: stopping experience collection (41250 times)
+[2023-07-06 14:47:38,466][98449] Signal inference workers to resume experience collection... (41250 times)
+[2023-07-06 14:47:38,466][98493] InferenceWorker_p0-w0: resuming experience collection (41250 times)
+[2023-07-06 14:47:38,573][98493] Updated weights for policy 0, policy_version 798652 (0.0008)
+[2023-07-06 14:47:39,225][98493] Updated weights for policy 0, policy_version 798720 (0.0008)
+[2023-07-06 14:47:39,694][98493] Updated weights for policy 0, policy_version 798774 (0.0007)
+[2023-07-06 14:47:39,764][98243] Fps is (10 sec: 114688.1, 60 sec: 107588.3, 300 sec: 108523.2). Total num frames: 1635909632. Throughput: 0: 26533.0. Samples: 408970240. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:47:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:47:41,320][98493] Updated weights for policy 0, policy_version 798816 (0.0007)
+[2023-07-06 14:47:41,605][98493] Updated weights for policy 0, policy_version 798848 (0.0006)
+[2023-07-06 14:47:43,369][98493] Updated weights for policy 0, policy_version 798912 (0.0009)
+[2023-07-06 14:47:43,908][98493] Updated weights for policy 0, policy_version 798964 (0.0008)
+[2023-07-06 14:47:44,481][98493] Updated weights for policy 0, policy_version 799024 (0.0007)
+[2023-07-06 14:47:44,764][98243] Fps is (10 sec: 111411.6, 60 sec: 107588.6, 300 sec: 108412.1). Total num frames: 1636433920. Throughput: 0: 26589.9. Samples: 409133568. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:47:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:47:46,504][98493] Updated weights for policy 0, policy_version 799080 (0.0007)
+[2023-07-06 14:47:48,027][98493] Updated weights for policy 0, policy_version 799120 (0.0007)
+[2023-07-06 14:47:48,666][98493] Updated weights for policy 0, policy_version 799184 (0.0007)
+[2023-07-06 14:47:49,290][98493] Updated weights for policy 0, policy_version 799252 (0.0007)
+[2023-07-06 14:47:49,764][98243] Fps is (10 sec: 104857.6, 60 sec: 107042.6, 300 sec: 108301.3). Total num frames: 1636958208. Throughput: 0: 26589.9. Samples: 409284096. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:47:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:47:51,120][98493] Updated weights for policy 0, policy_version 799300 (0.0007)
+[2023-07-06 14:47:51,570][98493] Updated weights for policy 0, policy_version 799357 (0.0007)
+[2023-07-06 14:47:53,451][98493] Updated weights for policy 0, policy_version 799424 (0.0008)
+[2023-07-06 14:47:53,980][98493] Updated weights for policy 0, policy_version 799477 (0.0007)
+[2023-07-06 14:47:54,403][98449] Signal inference workers to stop experience collection... (41300 times)
+[2023-07-06 14:47:54,430][98493] InferenceWorker_p0-w0: stopping experience collection (41300 times)
+[2023-07-06 14:47:54,482][98449] Signal inference workers to resume experience collection... (41300 times)
+[2023-07-06 14:47:54,482][98493] InferenceWorker_p0-w0: resuming experience collection (41300 times)
+[2023-07-06 14:47:54,563][98493] Updated weights for policy 0, policy_version 799545 (0.0007)
+[2023-07-06 14:47:54,765][98243] Fps is (10 sec: 104854.7, 60 sec: 107041.6, 300 sec: 108300.9). Total num frames: 1637482496. Throughput: 0: 26726.2. Samples: 409372672. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:47:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:47:56,347][98493] Updated weights for policy 0, policy_version 799600 (0.0011)
+[2023-07-06 14:47:58,243][98493] Updated weights for policy 0, policy_version 799652 (0.0006)
+[2023-07-06 14:47:58,706][98493] Updated weights for policy 0, policy_version 799698 (0.0008)
+[2023-07-06 14:47:59,317][98493] Updated weights for policy 0, policy_version 799766 (0.0007)
+[2023-07-06 14:47:59,764][98243] Fps is (10 sec: 104857.7, 60 sec: 107042.1, 300 sec: 108189.9). Total num frames: 1638006784. Throughput: 0: 26692.3. Samples: 409532416. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:47:59,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:48:00,978][98493] Updated weights for policy 0, policy_version 799824 (0.0007)
+[2023-07-06 14:48:02,879][98493] Updated weights for policy 0, policy_version 799876 (0.0008)
+[2023-07-06 14:48:03,737][98493] Updated weights for policy 0, policy_version 799968 (0.0009)
+[2023-07-06 14:48:04,439][98493] Updated weights for policy 0, policy_version 800039 (0.0008)
+[2023-07-06 14:48:04,764][98243] Fps is (10 sec: 104860.4, 60 sec: 107042.2, 300 sec: 108078.8). Total num frames: 1638531072. Throughput: 0: 26453.5. Samples: 409678336. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:04,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:48:06,589][98493] Updated weights for policy 0, policy_version 800098 (0.0008)
+[2023-07-06 14:48:08,219][98493] Updated weights for policy 0, policy_version 800150 (0.0007)
+[2023-07-06 14:48:08,839][98493] Updated weights for policy 0, policy_version 800217 (0.0009)
+[2023-07-06 14:48:09,344][98493] Updated weights for policy 0, policy_version 800272 (0.0008)
+[2023-07-06 14:48:09,764][98243] Fps is (10 sec: 101581.0, 60 sec: 106496.0, 300 sec: 107856.7). Total num frames: 1639022592. Throughput: 0: 26601.3. Samples: 409767424. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:09,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:48:09,802][98493] Updated weights for policy 0, policy_version 800316 (0.0013)
+[2023-07-06 14:48:12,090][98493] Updated weights for policy 0, policy_version 800368 (0.0009)
+[2023-07-06 14:48:13,571][98493] Updated weights for policy 0, policy_version 800400 (0.0007)
+[2023-07-06 14:48:14,078][98449] Signal inference workers to stop experience collection... (41350 times)
+[2023-07-06 14:48:14,114][98493] InferenceWorker_p0-w0: stopping experience collection (41350 times)
+[2023-07-06 14:48:14,164][98449] Signal inference workers to resume experience collection... (41350 times)
+[2023-07-06 14:48:14,164][98493] InferenceWorker_p0-w0: resuming experience collection (41350 times)
+[2023-07-06 14:48:14,303][98493] Updated weights for policy 0, policy_version 800480 (0.0036)
+[2023-07-06 14:48:14,764][98243] Fps is (10 sec: 91751.1, 60 sec: 104857.8, 300 sec: 107523.5). Total num frames: 1639448576. Throughput: 0: 26237.2. Samples: 409911296. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:14,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:48:14,923][98493] Updated weights for policy 0, policy_version 800544 (0.0007)
+[2023-07-06 14:48:15,204][98493] Updated weights for policy 0, policy_version 800574 (0.0008)
+[2023-07-06 14:48:17,367][98493] Updated weights for policy 0, policy_version 800624 (0.0007)
+[2023-07-06 14:48:18,717][98493] Updated weights for policy 0, policy_version 800672 (0.0007)
+[2023-07-06 14:48:19,263][98493] Updated weights for policy 0, policy_version 800730 (0.0007)
+[2023-07-06 14:48:19,764][98243] Fps is (10 sec: 98303.7, 60 sec: 105404.2, 300 sec: 107634.6). Total num frames: 1640005632. Throughput: 0: 26191.7. Samples: 410063360. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:19,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:48:19,883][98493] Updated weights for policy 0, policy_version 800800 (0.0009)
+[2023-07-06 14:48:22,156][98493] Updated weights for policy 0, policy_version 800856 (0.0007)
+[2023-07-06 14:48:23,412][98493] Updated weights for policy 0, policy_version 800936 (0.0008)
+[2023-07-06 14:48:23,968][98493] Updated weights for policy 0, policy_version 800992 (0.0009)
+[2023-07-06 14:48:24,687][98493] Updated weights for policy 0, policy_version 801058 (0.0008)
+[2023-07-06 14:48:24,764][98243] Fps is (10 sec: 111410.8, 60 sec: 105403.9, 300 sec: 107745.7). Total num frames: 1640562688. Throughput: 0: 26112.0. Samples: 410145280. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:24,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:48:24,903][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000801088_1640628224.pth...
+[2023-07-06 14:48:24,951][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000788432_1614708736.pth
+[2023-07-06 14:48:27,246][98493] Updated weights for policy 0, policy_version 801104 (0.0007)
+[2023-07-06 14:48:27,670][98493] Updated weights for policy 0, policy_version 801146 (0.0007)
+[2023-07-06 14:48:29,014][98493] Updated weights for policy 0, policy_version 801207 (0.0008)
+[2023-07-06 14:48:29,645][98493] Updated weights for policy 0, policy_version 801280 (0.0009)
+[2023-07-06 14:48:29,764][98243] Fps is (10 sec: 101581.1, 60 sec: 104311.5, 300 sec: 107523.5). Total num frames: 1641021440. Throughput: 0: 25895.8. Samples: 410298880. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:29,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:48:30,212][98493] Updated weights for policy 0, policy_version 801337 (0.0008)
+[2023-07-06 14:48:32,514][98449] Signal inference workers to stop experience collection... (41400 times)
+[2023-07-06 14:48:32,554][98493] InferenceWorker_p0-w0: stopping experience collection (41400 times)
+[2023-07-06 14:48:32,555][98493] Updated weights for policy 0, policy_version 801386 (0.0011)
+[2023-07-06 14:48:32,589][98449] Signal inference workers to resume experience collection... (41400 times)
+[2023-07-06 14:48:32,589][98493] InferenceWorker_p0-w0: resuming experience collection (41400 times)
+[2023-07-06 14:48:33,748][98493] Updated weights for policy 0, policy_version 801424 (0.0006)
+[2023-07-06 14:48:34,468][98493] Updated weights for policy 0, policy_version 801504 (0.0007)
+[2023-07-06 14:48:34,764][98243] Fps is (10 sec: 98303.4, 60 sec: 103765.3, 300 sec: 107523.5). Total num frames: 1641545728. Throughput: 0: 25804.8. Samples: 410445312. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:34,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 14:48:35,153][98493] Updated weights for policy 0, policy_version 801577 (0.0008)
+[2023-07-06 14:48:37,366][98493] Updated weights for policy 0, policy_version 801616 (0.0007)
+[2023-07-06 14:48:38,580][98493] Updated weights for policy 0, policy_version 801672 (0.0008)
+[2023-07-06 14:48:39,155][98493] Updated weights for policy 0, policy_version 801730 (0.0008)
+[2023-07-06 14:48:39,633][98493] Updated weights for policy 0, policy_version 801779 (0.0007)
+[2023-07-06 14:48:39,764][98243] Fps is (10 sec: 104857.2, 60 sec: 102673.0, 300 sec: 107523.5). Total num frames: 1642070016. Throughput: 0: 25645.7. Samples: 410526720. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:39,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:48:40,253][98493] Updated weights for policy 0, policy_version 801856 (0.0008)
+[2023-07-06 14:48:42,592][98493] Updated weights for policy 0, policy_version 801912 (0.0008)
+[2023-07-06 14:48:43,577][98493] Updated weights for policy 0, policy_version 801952 (0.0007)
+[2023-07-06 14:48:44,239][98493] Updated weights for policy 0, policy_version 802016 (0.0009)
+[2023-07-06 14:48:44,764][98243] Fps is (10 sec: 108135.7, 60 sec: 103219.3, 300 sec: 107634.7). Total num frames: 1642627072. Throughput: 0: 25736.6. Samples: 410690560. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:44,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:48:44,874][98493] Updated weights for policy 0, policy_version 802080 (0.0007)
+[2023-07-06 14:48:45,183][98493] Updated weights for policy 0, policy_version 802112 (0.0007)
+[2023-07-06 14:48:47,583][98493] Updated weights for policy 0, policy_version 802176 (0.0007)
+[2023-07-06 14:48:48,710][98493] Updated weights for policy 0, policy_version 802228 (0.0006)
+[2023-07-06 14:48:49,166][98493] Updated weights for policy 0, policy_version 802279 (0.0007)
+[2023-07-06 14:48:49,319][98449] Signal inference workers to stop experience collection... (41450 times)
+[2023-07-06 14:48:49,331][98493] InferenceWorker_p0-w0: stopping experience collection (41450 times)
+[2023-07-06 14:48:49,405][98449] Signal inference workers to resume experience collection... (41450 times)
+[2023-07-06 14:48:49,406][98493] InferenceWorker_p0-w0: resuming experience collection (41450 times)
+[2023-07-06 14:48:49,722][98493] Updated weights for policy 0, policy_version 802336 (0.0009)
+[2023-07-06 14:48:49,764][98243] Fps is (10 sec: 111411.5, 60 sec: 103765.4, 300 sec: 107745.7). Total num frames: 1643184128. Throughput: 0: 25930.0. Samples: 410845184. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:49,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 14:48:52,429][98493] Updated weights for policy 0, policy_version 802388 (0.0007)
+[2023-07-06 14:48:53,334][98493] Updated weights for policy 0, policy_version 802448 (0.0007)
+[2023-07-06 14:48:54,089][98493] Updated weights for policy 0, policy_version 802528 (0.0008)
+[2023-07-06 14:48:54,764][98243] Fps is (10 sec: 104856.4, 60 sec: 103219.6, 300 sec: 107634.6). Total num frames: 1643675648. Throughput: 0: 25759.3. Samples: 410926592. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:54,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:48:54,811][98493] Updated weights for policy 0, policy_version 802584 (0.0007)
+[2023-07-06 14:48:57,609][98493] Updated weights for policy 0, policy_version 802648 (0.0008)
+[2023-07-06 14:48:58,326][98493] Updated weights for policy 0, policy_version 802713 (0.0008)
+[2023-07-06 14:48:58,993][98493] Updated weights for policy 0, policy_version 802753 (0.0007)
+[2023-07-06 14:48:59,505][98493] Updated weights for policy 0, policy_version 802816 (0.0007)
+[2023-07-06 14:48:59,764][98243] Fps is (10 sec: 101579.9, 60 sec: 103219.1, 300 sec: 107634.6). Total num frames: 1644199936. Throughput: 0: 25964.0. Samples: 411079680. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:48:59,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:49:00,131][98493] Updated weights for policy 0, policy_version 802872 (0.0007)
+[2023-07-06 14:49:02,852][98493] Updated weights for policy 0, policy_version 802937 (0.0007)
+[2023-07-06 14:49:03,332][98493] Updated weights for policy 0, policy_version 802979 (0.0007)
+[2023-07-06 14:49:03,989][98493] Updated weights for policy 0, policy_version 803025 (0.0007)
+[2023-07-06 14:49:04,518][98493] Updated weights for policy 0, policy_version 803073 (0.0007)
+[2023-07-06 14:49:04,764][98243] Fps is (10 sec: 108134.7, 60 sec: 103765.3, 300 sec: 107745.6). Total num frames: 1644756992. Throughput: 0: 26100.6. Samples: 411237888. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:49:04,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:49:04,974][98493] Updated weights for policy 0, policy_version 803131 (0.0007)
+[2023-07-06 14:49:08,003][98493] Updated weights for policy 0, policy_version 803185 (0.0008)
+[2023-07-06 14:49:08,529][98493] Updated weights for policy 0, policy_version 803248 (0.0008)
+[2023-07-06 14:49:08,584][98449] Signal inference workers to stop experience collection... (41500 times)
+[2023-07-06 14:49:08,617][98493] InferenceWorker_p0-w0: stopping experience collection (41500 times)
+[2023-07-06 14:49:08,667][98449] Signal inference workers to resume experience collection... (41500 times)
+[2023-07-06 14:49:08,667][98493] InferenceWorker_p0-w0: resuming experience collection (41500 times)
+[2023-07-06 14:49:09,208][98493] Updated weights for policy 0, policy_version 803314 (0.0008)
+[2023-07-06 14:49:09,663][98493] Updated weights for policy 0, policy_version 803363 (0.0007)
+[2023-07-06 14:49:09,764][98243] Fps is (10 sec: 111411.8, 60 sec: 104857.5, 300 sec: 107856.8). Total num frames: 1645314048. Throughput: 0: 26237.1. Samples: 411325952. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:49:09,778][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:49:12,651][98493] Updated weights for policy 0, policy_version 803417 (0.0007)
+[2023-07-06 14:49:13,192][98493] Updated weights for policy 0, policy_version 803479 (0.0008)
+[2023-07-06 14:49:13,597][98493] Updated weights for policy 0, policy_version 803520 (0.0007)
+[2023-07-06 14:49:14,167][98493] Updated weights for policy 0, policy_version 803572 (0.0011)
+[2023-07-06 14:49:14,764][98243] Fps is (10 sec: 108134.2, 60 sec: 106495.8, 300 sec: 107634.5). Total num frames: 1645838336. Throughput: 0: 26328.1. Samples: 411483648. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:49:14,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:49:14,765][98493] Updated weights for policy 0, policy_version 803643 (0.0007)
+[2023-07-06 14:49:17,791][98493] Updated weights for policy 0, policy_version 803681 (0.0008)
+[2023-07-06 14:49:18,420][98493] Updated weights for policy 0, policy_version 803750 (0.0008)
+[2023-07-06 14:49:18,943][98493] Updated weights for policy 0, policy_version 803808 (0.0008)
+[2023-07-06 14:49:19,656][98493] Updated weights for policy 0, policy_version 803879 (0.0009)
+[2023-07-06 14:49:19,764][98243] Fps is (10 sec: 104857.7, 60 sec: 105949.9, 300 sec: 107412.4). Total num frames: 1646362624. Throughput: 0: 26396.5. Samples: 411633152. Policy #0 lag: (min: 31.0, avg: 111.9, max: 287.0)
+[2023-07-06 14:49:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:49:22,602][98493] Updated weights for policy 0, policy_version 803929 (0.0006)
+[2023-07-06 14:49:23,124][98493] Updated weights for policy 0, policy_version 803986 (0.0007)
+[2023-07-06 14:49:23,624][98493] Updated weights for policy 0, policy_version 804037 (0.0008)
+[2023-07-06 14:49:24,079][98493] Updated weights for policy 0, policy_version 804095 (0.0006)
+[2023-07-06 14:49:24,370][98449] Signal inference workers to stop experience collection... (41550 times)
+[2023-07-06 14:49:24,415][98493] InferenceWorker_p0-w0: stopping experience collection (41550 times)
+[2023-07-06 14:49:24,461][98449] Signal inference workers to resume experience collection... (41550 times)
+[2023-07-06 14:49:24,461][98493] InferenceWorker_p0-w0: resuming experience collection (41550 times)
+[2023-07-06 14:49:24,647][98493] Updated weights for policy 0, policy_version 804148 (0.0007)
+[2023-07-06 14:49:24,764][98243] Fps is (10 sec: 108134.7, 60 sec: 105949.8, 300 sec: 107523.5). Total num frames: 1646919680. Throughput: 0: 26578.5. Samples: 411722752. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:49:27,618][98493] Updated weights for policy 0, policy_version 804192 (0.0007)
+[2023-07-06 14:49:28,176][98493] Updated weights for policy 0, policy_version 804256 (0.0007)
+[2023-07-06 14:49:28,681][98493] Updated weights for policy 0, policy_version 804309 (0.0006)
+[2023-07-06 14:49:29,192][98493] Updated weights for policy 0, policy_version 804368 (0.0007)
+[2023-07-06 14:49:29,584][98493] Updated weights for policy 0, policy_version 804414 (0.0008)
+[2023-07-06 14:49:29,764][98243] Fps is (10 sec: 108131.9, 60 sec: 107041.7, 300 sec: 107523.5). Total num frames: 1647443968. Throughput: 0: 26373.5. Samples: 411877376. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:49:32,890][98493] Updated weights for policy 0, policy_version 804480 (0.0007)
+[2023-07-06 14:49:33,467][98493] Updated weights for policy 0, policy_version 804544 (0.0007)
+[2023-07-06 14:49:33,986][98493] Updated weights for policy 0, policy_version 804595 (0.0007)
+[2023-07-06 14:49:34,462][98493] Updated weights for policy 0, policy_version 804647 (0.0007)
+[2023-07-06 14:49:34,764][98243] Fps is (10 sec: 104857.3, 60 sec: 107042.2, 300 sec: 107412.4). Total num frames: 1647968256. Throughput: 0: 26419.2. Samples: 412034048. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:34,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:49:37,550][98493] Updated weights for policy 0, policy_version 804693 (0.0008)
+[2023-07-06 14:49:38,175][98493] Updated weights for policy 0, policy_version 804762 (0.0009)
+[2023-07-06 14:49:38,729][98493] Updated weights for policy 0, policy_version 804822 (0.0009)
+[2023-07-06 14:49:39,358][98493] Updated weights for policy 0, policy_version 804896 (0.0007)
+[2023-07-06 14:49:39,764][98243] Fps is (10 sec: 104859.5, 60 sec: 107042.1, 300 sec: 107301.3). Total num frames: 1648492544. Throughput: 0: 26612.6. Samples: 412124160. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:49:42,512][98493] Updated weights for policy 0, policy_version 804952 (0.0007)
+[2023-07-06 14:49:42,762][98449] Signal inference workers to stop experience collection... (41600 times)
+[2023-07-06 14:49:42,795][98493] InferenceWorker_p0-w0: stopping experience collection (41600 times)
+[2023-07-06 14:49:42,839][98449] Signal inference workers to resume experience collection... (41600 times)
+[2023-07-06 14:49:42,839][98493] InferenceWorker_p0-w0: resuming experience collection (41600 times)
+[2023-07-06 14:49:43,181][98493] Updated weights for policy 0, policy_version 805024 (0.0007)
+[2023-07-06 14:49:43,759][98493] Updated weights for policy 0, policy_version 805077 (0.0009)
+[2023-07-06 14:49:44,438][98493] Updated weights for policy 0, policy_version 805145 (0.0007)
+[2023-07-06 14:49:44,764][98243] Fps is (10 sec: 104856.3, 60 sec: 106495.6, 300 sec: 107079.1). Total num frames: 1649016832. Throughput: 0: 26532.9. Samples: 412273664. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:44,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:49:47,338][98493] Updated weights for policy 0, policy_version 805200 (0.0007)
+[2023-07-06 14:49:48,032][98493] Updated weights for policy 0, policy_version 805267 (0.0007)
+[2023-07-06 14:49:48,627][98493] Updated weights for policy 0, policy_version 805334 (0.0007)
+[2023-07-06 14:49:49,231][98493] Updated weights for policy 0, policy_version 805377 (0.0007)
+[2023-07-06 14:49:49,689][98493] Updated weights for policy 0, policy_version 805436 (0.0006)
+[2023-07-06 14:49:49,764][98243] Fps is (10 sec: 104857.3, 60 sec: 105949.7, 300 sec: 107079.1). Total num frames: 1649541120. Throughput: 0: 26464.7. Samples: 412428800. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:49,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:49:52,591][98493] Updated weights for policy 0, policy_version 805497 (0.0008)
+[2023-07-06 14:49:53,189][98493] Updated weights for policy 0, policy_version 805568 (0.0007)
+[2023-07-06 14:49:53,740][98493] Updated weights for policy 0, policy_version 805620 (0.0007)
+[2023-07-06 14:49:54,290][98493] Updated weights for policy 0, policy_version 805691 (0.0006)
+[2023-07-06 14:49:54,764][98243] Fps is (10 sec: 104858.1, 60 sec: 106495.9, 300 sec: 107079.1). Total num frames: 1650065408. Throughput: 0: 26476.0. Samples: 412517376. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:54,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:49:57,128][98493] Updated weights for policy 0, policy_version 805735 (0.0006)
+[2023-07-06 14:49:57,621][98493] Updated weights for policy 0, policy_version 805792 (0.0007)
+[2023-07-06 14:49:58,197][98493] Updated weights for policy 0, policy_version 805856 (0.0007)
+[2023-07-06 14:49:58,253][98449] Signal inference workers to stop experience collection... (41650 times)
+[2023-07-06 14:49:58,271][98493] InferenceWorker_p0-w0: stopping experience collection (41650 times)
+[2023-07-06 14:49:58,344][98449] Signal inference workers to resume experience collection... (41650 times)
+[2023-07-06 14:49:58,344][98493] InferenceWorker_p0-w0: resuming experience collection (41650 times)
+[2023-07-06 14:49:58,790][98493] Updated weights for policy 0, policy_version 805920 (0.0008)
+[2023-07-06 14:49:59,764][98243] Fps is (10 sec: 104858.5, 60 sec: 106496.1, 300 sec: 106634.9). Total num frames: 1650589696. Throughput: 0: 26476.1. Samples: 412675072. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:49:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:50:01,842][98493] Updated weights for policy 0, policy_version 805977 (0.0007)
+[2023-07-06 14:50:02,271][98493] Updated weights for policy 0, policy_version 806019 (0.0007)
+[2023-07-06 14:50:02,793][98493] Updated weights for policy 0, policy_version 806070 (0.0007)
+[2023-07-06 14:50:03,280][98493] Updated weights for policy 0, policy_version 806128 (0.0007)
+[2023-07-06 14:50:03,910][98493] Updated weights for policy 0, policy_version 806201 (0.0009)
+[2023-07-06 14:50:04,764][98243] Fps is (10 sec: 104856.0, 60 sec: 105949.4, 300 sec: 106634.8). Total num frames: 1651113984. Throughput: 0: 26851.4. Samples: 412841472. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:50:06,856][98493] Updated weights for policy 0, policy_version 806256 (0.0007)
+[2023-07-06 14:50:07,312][98493] Updated weights for policy 0, policy_version 806304 (0.0007)
+[2023-07-06 14:50:07,836][98493] Updated weights for policy 0, policy_version 806353 (0.0008)
+[2023-07-06 14:50:08,328][98493] Updated weights for policy 0, policy_version 806416 (0.0007)
+[2023-07-06 14:50:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 105403.8, 300 sec: 106634.8). Total num frames: 1651638272. Throughput: 0: 26760.5. Samples: 412926976. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:09,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:50:11,304][98493] Updated weights for policy 0, policy_version 806466 (0.0006)
+[2023-07-06 14:50:11,879][98493] Updated weights for policy 0, policy_version 806529 (0.0008)
+[2023-07-06 14:50:12,369][98493] Updated weights for policy 0, policy_version 806584 (0.0007)
+[2023-07-06 14:50:12,863][98493] Updated weights for policy 0, policy_version 806640 (0.0008)
+[2023-07-06 14:50:13,348][98493] Updated weights for policy 0, policy_version 806689 (0.0006)
+[2023-07-06 14:50:14,764][98243] Fps is (10 sec: 104860.4, 60 sec: 105403.8, 300 sec: 106634.9). Total num frames: 1652162560. Throughput: 0: 26942.7. Samples: 413089792. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:14,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:50:16,006][98449] Signal inference workers to stop experience collection... (41700 times)
+[2023-07-06 14:50:16,027][98493] InferenceWorker_p0-w0: stopping experience collection (41700 times)
+[2023-07-06 14:50:16,083][98449] Signal inference workers to resume experience collection... (41700 times)
+[2023-07-06 14:50:16,084][98493] InferenceWorker_p0-w0: resuming experience collection (41700 times)
+[2023-07-06 14:50:16,209][98493] Updated weights for policy 0, policy_version 806752 (0.0055)
+[2023-07-06 14:50:16,658][98493] Updated weights for policy 0, policy_version 806800 (0.0008)
+[2023-07-06 14:50:17,214][98493] Updated weights for policy 0, policy_version 806864 (0.0007)
+[2023-07-06 14:50:17,886][98493] Updated weights for policy 0, policy_version 806936 (0.0008)
+[2023-07-06 14:50:19,764][98243] Fps is (10 sec: 104857.4, 60 sec: 105403.7, 300 sec: 106634.9). Total num frames: 1652686848. Throughput: 0: 27283.9. Samples: 413261824. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:50:20,828][98493] Updated weights for policy 0, policy_version 806981 (0.0007)
+[2023-07-06 14:50:21,395][98493] Updated weights for policy 0, policy_version 807048 (0.0007)
+[2023-07-06 14:50:21,871][98493] Updated weights for policy 0, policy_version 807104 (0.0007)
+[2023-07-06 14:50:22,520][98493] Updated weights for policy 0, policy_version 807175 (0.0008)
+[2023-07-06 14:50:22,977][98493] Updated weights for policy 0, policy_version 807232 (0.0007)
+[2023-07-06 14:50:24,764][98243] Fps is (10 sec: 104856.9, 60 sec: 104857.5, 300 sec: 106301.6). Total num frames: 1653211136. Throughput: 0: 26954.0. Samples: 413337088. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:50:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000807232_1653211136.pth...
+[2023-07-06 14:50:24,795][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000794864_1627881472.pth
+[2023-07-06 14:50:26,216][98493] Updated weights for policy 0, policy_version 807296 (0.0007)
+[2023-07-06 14:50:26,750][98493] Updated weights for policy 0, policy_version 807349 (0.0008)
+[2023-07-06 14:50:27,239][98493] Updated weights for policy 0, policy_version 807408 (0.0008)
+[2023-07-06 14:50:27,699][98493] Updated weights for policy 0, policy_version 807456 (0.0007)
+[2023-07-06 14:50:29,764][98243] Fps is (10 sec: 104856.2, 60 sec: 104857.7, 300 sec: 106190.5). Total num frames: 1653735424. Throughput: 0: 27238.4. Samples: 413499392. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:29,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 14:50:30,835][98493] Updated weights for policy 0, policy_version 807504 (0.0007)
+[2023-07-06 14:50:31,454][98493] Updated weights for policy 0, policy_version 807568 (0.0008)
+[2023-07-06 14:50:31,520][98449] Signal inference workers to stop experience collection... (41750 times)
+[2023-07-06 14:50:31,546][98493] InferenceWorker_p0-w0: stopping experience collection (41750 times)
+[2023-07-06 14:50:31,608][98449] Signal inference workers to resume experience collection... (41750 times)
+[2023-07-06 14:50:31,608][98493] InferenceWorker_p0-w0: resuming experience collection (41750 times)
+[2023-07-06 14:50:32,149][98493] Updated weights for policy 0, policy_version 807641 (0.0009)
+[2023-07-06 14:50:32,507][98493] Updated weights for policy 0, policy_version 807680 (0.0008)
+[2023-07-06 14:50:33,149][98493] Updated weights for policy 0, policy_version 807728 (0.0008)
+[2023-07-06 14:50:34,764][98243] Fps is (10 sec: 104856.4, 60 sec: 104857.4, 300 sec: 106190.5). Total num frames: 1654259712. Throughput: 0: 27158.7. Samples: 413650944. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:34,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:50:35,889][98493] Updated weights for policy 0, policy_version 807778 (0.0007)
+[2023-07-06 14:50:36,482][98493] Updated weights for policy 0, policy_version 807845 (0.0007)
+[2023-07-06 14:50:36,837][98493] Updated weights for policy 0, policy_version 807877 (0.0007)
+[2023-07-06 14:50:37,635][98493] Updated weights for policy 0, policy_version 807940 (0.0007)
+[2023-07-06 14:50:38,142][98493] Updated weights for policy 0, policy_version 807998 (0.0007)
+[2023-07-06 14:50:39,764][98243] Fps is (10 sec: 104858.6, 60 sec: 104857.6, 300 sec: 106190.5). Total num frames: 1654784000. Throughput: 0: 26885.7. Samples: 413727232. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:39,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:50:41,046][98493] Updated weights for policy 0, policy_version 808055 (0.0008)
+[2023-07-06 14:50:41,548][98493] Updated weights for policy 0, policy_version 808112 (0.0007)
+[2023-07-06 14:50:41,959][98493] Updated weights for policy 0, policy_version 808160 (0.0007)
+[2023-07-06 14:50:42,699][98493] Updated weights for policy 0, policy_version 808216 (0.0007)
+[2023-07-06 14:50:43,042][98493] Updated weights for policy 0, policy_version 808256 (0.0007)
+[2023-07-06 14:50:44,764][98243] Fps is (10 sec: 104859.3, 60 sec: 104857.9, 300 sec: 106190.6). Total num frames: 1655308288. Throughput: 0: 26976.7. Samples: 413889024. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:44,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:50:45,996][98493] Updated weights for policy 0, policy_version 808315 (0.0008)
+[2023-07-06 14:50:46,647][98493] Updated weights for policy 0, policy_version 808376 (0.0008)
+[2023-07-06 14:50:47,103][98493] Updated weights for policy 0, policy_version 808419 (0.0009)
+[2023-07-06 14:50:48,095][98493] Updated weights for policy 0, policy_version 808485 (0.0008)
+[2023-07-06 14:50:49,764][98243] Fps is (10 sec: 104857.9, 60 sec: 104857.7, 300 sec: 106190.5). Total num frames: 1655832576. Throughput: 0: 26840.3. Samples: 414049280. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:49,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:50:50,159][98449] Signal inference workers to stop experience collection... (41800 times)
+[2023-07-06 14:50:50,170][98493] InferenceWorker_p0-w0: stopping experience collection (41800 times)
+[2023-07-06 14:50:50,256][98449] Signal inference workers to resume experience collection... (41800 times)
+[2023-07-06 14:50:50,257][98493] InferenceWorker_p0-w0: resuming experience collection (41800 times)
+[2023-07-06 14:50:50,258][98493] Updated weights for policy 0, policy_version 808528 (0.0007)
+[2023-07-06 14:50:50,684][98493] Updated weights for policy 0, policy_version 808571 (0.0007)
+[2023-07-06 14:50:51,441][98493] Updated weights for policy 0, policy_version 808624 (0.0007)
+[2023-07-06 14:50:51,969][98493] Updated weights for policy 0, policy_version 808677 (0.0009)
+[2023-07-06 14:50:52,886][98493] Updated weights for policy 0, policy_version 808736 (0.0007)
+[2023-07-06 14:50:54,764][98243] Fps is (10 sec: 104857.4, 60 sec: 104857.7, 300 sec: 106190.5). Total num frames: 1656356864. Throughput: 0: 26635.4. Samples: 414125568. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:54,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:50:55,268][98493] Updated weights for policy 0, policy_version 808789 (0.0007)
+[2023-07-06 14:50:55,822][98493] Updated weights for policy 0, policy_version 808833 (0.0007)
+[2023-07-06 14:50:56,282][98493] Updated weights for policy 0, policy_version 808894 (0.0019)
+[2023-07-06 14:50:56,846][98493] Updated weights for policy 0, policy_version 808954 (0.0007)
+[2023-07-06 14:50:57,862][98493] Updated weights for policy 0, policy_version 809008 (0.0007)
+[2023-07-06 14:50:59,764][98243] Fps is (10 sec: 104857.9, 60 sec: 104857.6, 300 sec: 106190.6). Total num frames: 1656881152. Throughput: 0: 26669.5. Samples: 414289920. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:50:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:51:00,028][98493] Updated weights for policy 0, policy_version 809057 (0.0008)
+[2023-07-06 14:51:00,392][98493] Updated weights for policy 0, policy_version 809095 (0.0006)
+[2023-07-06 14:51:00,843][98493] Updated weights for policy 0, policy_version 809146 (0.0007)
+[2023-07-06 14:51:01,833][98493] Updated weights for policy 0, policy_version 809210 (0.0008)
+[2023-07-06 14:51:02,861][98493] Updated weights for policy 0, policy_version 809273 (0.0007)
+[2023-07-06 14:51:04,581][98493] Updated weights for policy 0, policy_version 809328 (0.0008)
+[2023-07-06 14:51:04,764][98243] Fps is (10 sec: 117964.9, 60 sec: 107042.6, 300 sec: 106412.7). Total num frames: 1657536512. Throughput: 0: 26544.4. Samples: 414456320. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:51:04,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 14:51:05,173][98493] Updated weights for policy 0, policy_version 809376 (0.0007)
+[2023-07-06 14:51:06,586][98493] Updated weights for policy 0, policy_version 809426 (0.0007)
+[2023-07-06 14:51:07,574][98493] Updated weights for policy 0, policy_version 809478 (0.0007)
+[2023-07-06 14:51:08,057][98493] Updated weights for policy 0, policy_version 809534 (0.0006)
+[2023-07-06 14:51:08,631][98449] Signal inference workers to stop experience collection... (41850 times)
+[2023-07-06 14:51:08,658][98493] InferenceWorker_p0-w0: stopping experience collection (41850 times)
+[2023-07-06 14:51:08,744][98449] Signal inference workers to resume experience collection... (41850 times)
+[2023-07-06 14:51:08,744][98493] InferenceWorker_p0-w0: resuming experience collection (41850 times)
+[2023-07-06 14:51:09,092][98493] Updated weights for policy 0, policy_version 809592 (0.0007)
+[2023-07-06 14:51:09,764][98243] Fps is (10 sec: 121239.3, 60 sec: 107587.9, 300 sec: 106412.6). Total num frames: 1658093568. Throughput: 0: 26726.3. Samples: 414539776. Policy #0 lag: (min: 12.0, avg: 71.8, max: 268.0)
+[2023-07-06 14:51:09,771][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:51:09,873][98493] Updated weights for policy 0, policy_version 809632 (0.0007)
+[2023-07-06 14:51:11,345][98493] Updated weights for policy 0, policy_version 809689 (0.0007)
+[2023-07-06 14:51:12,656][98493] Updated weights for policy 0, policy_version 809764 (0.0008)
+[2023-07-06 14:51:13,462][98493] Updated weights for policy 0, policy_version 809814 (0.0006)
+[2023-07-06 14:51:14,596][98493] Updated weights for policy 0, policy_version 809866 (0.0008)
+[2023-07-06 14:51:14,764][98243] Fps is (10 sec: 108134.4, 60 sec: 107588.2, 300 sec: 106301.6). Total num frames: 1658617856. Throughput: 0: 26726.5. Samples: 414702080. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:14,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:51:15,087][98493] Updated weights for policy 0, policy_version 809920 (0.0008)
+[2023-07-06 14:51:16,436][98493] Updated weights for policy 0, policy_version 809978 (0.0008)
+[2023-07-06 14:51:17,984][98493] Updated weights for policy 0, policy_version 810033 (0.0007)
+[2023-07-06 14:51:18,553][98493] Updated weights for policy 0, policy_version 810105 (0.0008)
+[2023-07-06 14:51:19,764][98243] Fps is (10 sec: 104860.2, 60 sec: 107588.4, 300 sec: 106079.6). Total num frames: 1659142144. Throughput: 0: 26999.6. Samples: 414865920. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:19,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:51:20,011][98493] Updated weights for policy 0, policy_version 810160 (0.0008)
+[2023-07-06 14:51:20,803][98493] Updated weights for policy 0, policy_version 810216 (0.0007)
+[2023-07-06 14:51:22,557][98493] Updated weights for policy 0, policy_version 810277 (0.0007)
+[2023-07-06 14:51:23,112][98493] Updated weights for policy 0, policy_version 810327 (0.0007)
+[2023-07-06 14:51:24,764][98243] Fps is (10 sec: 101580.6, 60 sec: 107042.2, 300 sec: 105968.5). Total num frames: 1659633664. Throughput: 0: 27090.5. Samples: 414946304. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:51:24,914][98493] Updated weights for policy 0, policy_version 810390 (0.0008)
+[2023-07-06 14:51:25,399][98493] Updated weights for policy 0, policy_version 810448 (0.0008)
+[2023-07-06 14:51:25,823][98493] Updated weights for policy 0, policy_version 810496 (0.0006)
+[2023-07-06 14:51:27,530][98449] Signal inference workers to stop experience collection... (41900 times)
+[2023-07-06 14:51:27,546][98493] Updated weights for policy 0, policy_version 810546 (0.0007)
+[2023-07-06 14:51:27,555][98493] InferenceWorker_p0-w0: stopping experience collection (41900 times)
+[2023-07-06 14:51:27,633][98449] Signal inference workers to resume experience collection... (41900 times)
+[2023-07-06 14:51:27,633][98493] InferenceWorker_p0-w0: resuming experience collection (41900 times)
+[2023-07-06 14:51:28,133][98493] Updated weights for policy 0, policy_version 810618 (0.0007)
+[2023-07-06 14:51:29,765][98243] Fps is (10 sec: 104851.5, 60 sec: 107587.6, 300 sec: 105968.2). Total num frames: 1660190720. Throughput: 0: 27203.9. Samples: 415113216. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:51:29,925][98493] Updated weights for policy 0, policy_version 810657 (0.0008)
+[2023-07-06 14:51:30,501][98493] Updated weights for policy 0, policy_version 810727 (0.0007)
+[2023-07-06 14:51:32,238][98493] Updated weights for policy 0, policy_version 810792 (0.0007)
+[2023-07-06 14:51:32,889][98493] Updated weights for policy 0, policy_version 810849 (0.0008)
+[2023-07-06 14:51:34,524][98493] Updated weights for policy 0, policy_version 810912 (0.0007)
+[2023-07-06 14:51:34,765][98243] Fps is (10 sec: 114685.2, 60 sec: 108680.3, 300 sec: 106190.5). Total num frames: 1660780544. Throughput: 0: 27204.1. Samples: 415273472. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:34,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:51:35,086][98493] Updated weights for policy 0, policy_version 810967 (0.0008)
+[2023-07-06 14:51:36,752][98493] Updated weights for policy 0, policy_version 811012 (0.0007)
+[2023-07-06 14:51:37,361][98493] Updated weights for policy 0, policy_version 811080 (0.0006)
+[2023-07-06 14:51:37,847][98493] Updated weights for policy 0, policy_version 811135 (0.0008)
+[2023-07-06 14:51:39,521][98493] Updated weights for policy 0, policy_version 811192 (0.0007)
+[2023-07-06 14:51:39,764][98243] Fps is (10 sec: 114693.7, 60 sec: 109226.7, 300 sec: 106301.7). Total num frames: 1661337600. Throughput: 0: 27215.6. Samples: 415350272. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:39,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 14:51:40,179][98493] Updated weights for policy 0, policy_version 811239 (0.0007)
+[2023-07-06 14:51:41,931][98493] Updated weights for policy 0, policy_version 811301 (0.0007)
+[2023-07-06 14:51:42,520][98493] Updated weights for policy 0, policy_version 811376 (0.0007)
+[2023-07-06 14:51:43,909][98493] Updated weights for policy 0, policy_version 811424 (0.0007)
+[2023-07-06 14:51:44,504][98493] Updated weights for policy 0, policy_version 811458 (0.0008)
+[2023-07-06 14:51:44,764][98243] Fps is (10 sec: 114691.2, 60 sec: 110319.0, 300 sec: 106412.8). Total num frames: 1661927424. Throughput: 0: 27340.8. Samples: 415520256. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:51:44,766][98449] Signal inference workers to stop experience collection... (41950 times)
+[2023-07-06 14:51:44,795][98493] InferenceWorker_p0-w0: stopping experience collection (41950 times)
+[2023-07-06 14:51:44,868][98449] Signal inference workers to resume experience collection... (41950 times)
+[2023-07-06 14:51:44,869][98493] InferenceWorker_p0-w0: resuming experience collection (41950 times)
+[2023-07-06 14:51:44,970][98493] Updated weights for policy 0, policy_version 811516 (0.0007)
+[2023-07-06 14:51:46,659][98493] Updated weights for policy 0, policy_version 811555 (0.0006)
+[2023-07-06 14:51:47,127][98493] Updated weights for policy 0, policy_version 811616 (0.0008)
+[2023-07-06 14:51:48,465][98493] Updated weights for policy 0, policy_version 811672 (0.0007)
+[2023-07-06 14:51:48,789][98493] Updated weights for policy 0, policy_version 811712 (0.0006)
+[2023-07-06 14:51:49,629][98493] Updated weights for policy 0, policy_version 811760 (0.0007)
+[2023-07-06 14:51:49,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111411.2, 300 sec: 106634.8). Total num frames: 1662517248. Throughput: 0: 27306.6. Samples: 415685120. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:51:51,371][98493] Updated weights for policy 0, policy_version 811816 (0.0006)
+[2023-07-06 14:51:51,853][98493] Updated weights for policy 0, policy_version 811872 (0.0007)
+[2023-07-06 14:51:53,221][98493] Updated weights for policy 0, policy_version 811936 (0.0007)
+[2023-07-06 14:51:53,760][98493] Updated weights for policy 0, policy_version 811971 (0.0008)
+[2023-07-06 14:51:54,188][98493] Updated weights for policy 0, policy_version 812022 (0.0008)
+[2023-07-06 14:51:54,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.2, 300 sec: 106634.8). Total num frames: 1663041536. Throughput: 0: 27363.7. Samples: 415771136. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:51:55,930][98493] Updated weights for policy 0, policy_version 812064 (0.0007)
+[2023-07-06 14:51:56,525][98493] Updated weights for policy 0, policy_version 812100 (0.0006)
+[2023-07-06 14:51:56,948][98493] Updated weights for policy 0, policy_version 812155 (0.0007)
+[2023-07-06 14:51:58,162][98493] Updated weights for policy 0, policy_version 812201 (0.0006)
+[2023-07-06 14:51:58,694][98493] Updated weights for policy 0, policy_version 812264 (0.0007)
+[2023-07-06 14:51:59,765][98243] Fps is (10 sec: 104852.6, 60 sec: 111410.2, 300 sec: 106634.7). Total num frames: 1663565824. Throughput: 0: 27431.5. Samples: 415936512. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:51:59,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:52:00,545][98493] Updated weights for policy 0, policy_version 812323 (0.0007)
+[2023-07-06 14:52:01,442][98493] Updated weights for policy 0, policy_version 812377 (0.0007)
+[2023-07-06 14:52:01,767][98493] Updated weights for policy 0, policy_version 812416 (0.0007)
+[2023-07-06 14:52:02,875][98493] Updated weights for policy 0, policy_version 812470 (0.0006)
+[2023-07-06 14:52:03,239][98449] Signal inference workers to stop experience collection... (42000 times)
+[2023-07-06 14:52:03,283][98493] InferenceWorker_p0-w0: stopping experience collection (42000 times)
+[2023-07-06 14:52:03,330][98449] Signal inference workers to resume experience collection... (42000 times)
+[2023-07-06 14:52:03,330][98493] InferenceWorker_p0-w0: resuming experience collection (42000 times)
+[2023-07-06 14:52:03,331][98493] Updated weights for policy 0, policy_version 812512 (0.0007)
+[2023-07-06 14:52:04,764][98243] Fps is (10 sec: 104856.5, 60 sec: 109226.5, 300 sec: 106634.8). Total num frames: 1664090112. Throughput: 0: 27602.4. Samples: 416108032. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:04,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:52:05,141][98493] Updated weights for policy 0, policy_version 812568 (0.0007)
+[2023-07-06 14:52:05,427][98493] Updated weights for policy 0, policy_version 812605 (0.0007)
+[2023-07-06 14:52:06,354][98493] Updated weights for policy 0, policy_version 812666 (0.0007)
+[2023-07-06 14:52:07,471][98493] Updated weights for policy 0, policy_version 812730 (0.0008)
+[2023-07-06 14:52:08,238][98493] Updated weights for policy 0, policy_version 812795 (0.0008)
+[2023-07-06 14:52:09,764][98243] Fps is (10 sec: 108138.1, 60 sec: 109226.7, 300 sec: 106745.9). Total num frames: 1664647168. Throughput: 0: 27613.8. Samples: 416188928. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:52:09,964][98493] Updated weights for policy 0, policy_version 812837 (0.0007)
+[2023-07-06 14:52:10,820][98493] Updated weights for policy 0, policy_version 812889 (0.0007)
+[2023-07-06 14:52:11,964][98493] Updated weights for policy 0, policy_version 812930 (0.0007)
+[2023-07-06 14:52:12,462][98493] Updated weights for policy 0, policy_version 812992 (0.0008)
+[2023-07-06 14:52:12,931][98493] Updated weights for policy 0, policy_version 813041 (0.0008)
+[2023-07-06 14:52:14,509][98493] Updated weights for policy 0, policy_version 813074 (0.0008)
+[2023-07-06 14:52:14,764][98243] Fps is (10 sec: 114689.2, 60 sec: 110318.9, 300 sec: 106968.2). Total num frames: 1665236992. Throughput: 0: 27648.3. Samples: 416357376. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:52:15,324][98493] Updated weights for policy 0, policy_version 813125 (0.0007)
+[2023-07-06 14:52:15,754][98493] Updated weights for policy 0, policy_version 813180 (0.0007)
+[2023-07-06 14:52:16,913][98493] Updated weights for policy 0, policy_version 813232 (0.0007)
+[2023-07-06 14:52:17,350][98493] Updated weights for policy 0, policy_version 813280 (0.0007)
+[2023-07-06 14:52:19,397][98493] Updated weights for policy 0, policy_version 813344 (0.0007)
+[2023-07-06 14:52:19,696][98493] Updated weights for policy 0, policy_version 813376 (0.0006)
+[2023-07-06 14:52:19,764][98243] Fps is (10 sec: 114689.9, 60 sec: 110864.9, 300 sec: 106968.1). Total num frames: 1665794048. Throughput: 0: 27875.7. Samples: 416527872. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:52:20,300][98493] Updated weights for policy 0, policy_version 813425 (0.0007)
+[2023-07-06 14:52:21,652][98493] Updated weights for policy 0, policy_version 813474 (0.0007)
+[2023-07-06 14:52:21,919][98449] Signal inference workers to stop experience collection... (42050 times)
+[2023-07-06 14:52:21,954][98493] InferenceWorker_p0-w0: stopping experience collection (42050 times)
+[2023-07-06 14:52:22,025][98449] Signal inference workers to resume experience collection... (42050 times)
+[2023-07-06 14:52:22,026][98493] InferenceWorker_p0-w0: resuming experience collection (42050 times)
+[2023-07-06 14:52:22,115][98493] Updated weights for policy 0, policy_version 813524 (0.0007)
+[2023-07-06 14:52:22,431][98493] Updated weights for policy 0, policy_version 813566 (0.0006)
+[2023-07-06 14:52:24,106][98493] Updated weights for policy 0, policy_version 813608 (0.0007)
+[2023-07-06 14:52:24,639][98493] Updated weights for policy 0, policy_version 813657 (0.0007)
+[2023-07-06 14:52:24,764][98243] Fps is (10 sec: 114684.5, 60 sec: 112502.9, 300 sec: 107190.1). Total num frames: 1666383872. Throughput: 0: 27989.2. Samples: 416609792. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:24,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:52:24,915][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000813696_1666449408.pth...
+[2023-07-06 14:52:24,950][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000801088_1640628224.pth
+[2023-07-06 14:52:26,119][98493] Updated weights for policy 0, policy_version 813728 (0.0008)
+[2023-07-06 14:52:26,679][98493] Updated weights for policy 0, policy_version 813792 (0.0008)
+[2023-07-06 14:52:28,498][98493] Updated weights for policy 0, policy_version 813849 (0.0006)
+[2023-07-06 14:52:29,456][98493] Updated weights for policy 0, policy_version 813904 (0.0007)
+[2023-07-06 14:52:29,764][98243] Fps is (10 sec: 114688.8, 60 sec: 112504.5, 300 sec: 107190.3). Total num frames: 1666940928. Throughput: 0: 27955.2. Samples: 416778240. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:29,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:52:30,712][98493] Updated weights for policy 0, policy_version 813955 (0.0006)
+[2023-07-06 14:52:31,156][98493] Updated weights for policy 0, policy_version 814003 (0.0007)
+[2023-07-06 14:52:31,605][98493] Updated weights for policy 0, policy_version 814054 (0.0007)
+[2023-07-06 14:52:33,325][98493] Updated weights for policy 0, policy_version 814103 (0.0007)
+[2023-07-06 14:52:33,892][98493] Updated weights for policy 0, policy_version 814160 (0.0007)
+[2023-07-06 14:52:34,333][98493] Updated weights for policy 0, policy_version 814208 (0.0007)
+[2023-07-06 14:52:34,764][98243] Fps is (10 sec: 111414.7, 60 sec: 111957.8, 300 sec: 107079.2). Total num frames: 1667497984. Throughput: 0: 28012.1. Samples: 416945664. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:34,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:52:35,775][98493] Updated weights for policy 0, policy_version 814259 (0.0007)
+[2023-07-06 14:52:36,280][98493] Updated weights for policy 0, policy_version 814320 (0.0008)
+[2023-07-06 14:52:38,422][98493] Updated weights for policy 0, policy_version 814375 (0.0008)
+[2023-07-06 14:52:38,861][98493] Updated weights for policy 0, policy_version 814419 (0.0007)
+[2023-07-06 14:52:39,764][98243] Fps is (10 sec: 108133.1, 60 sec: 111411.1, 300 sec: 107079.1). Total num frames: 1668022272. Throughput: 0: 28012.0. Samples: 417031680. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:39,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:52:40,094][98493] Updated weights for policy 0, policy_version 814467 (0.0008)
+[2023-07-06 14:52:40,209][98449] Signal inference workers to stop experience collection... (42100 times)
+[2023-07-06 14:52:40,245][98493] InferenceWorker_p0-w0: stopping experience collection (42100 times)
+[2023-07-06 14:52:40,297][98449] Signal inference workers to resume experience collection... (42100 times)
+[2023-07-06 14:52:40,297][98493] InferenceWorker_p0-w0: resuming experience collection (42100 times)
+[2023-07-06 14:52:40,651][98493] Updated weights for policy 0, policy_version 814529 (0.0008)
+[2023-07-06 14:52:42,772][98493] Updated weights for policy 0, policy_version 814597 (0.0007)
+[2023-07-06 14:52:43,462][98493] Updated weights for policy 0, policy_version 814679 (0.0007)
+[2023-07-06 14:52:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110318.9, 300 sec: 107079.2). Total num frames: 1668546560. Throughput: 0: 27875.9. Samples: 417190912. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:52:45,077][98493] Updated weights for policy 0, policy_version 814727 (0.0008)
+[2023-07-06 14:52:45,588][98493] Updated weights for policy 0, policy_version 814784 (0.0008)
+[2023-07-06 14:52:46,091][98493] Updated weights for policy 0, policy_version 814841 (0.0007)
+[2023-07-06 14:52:47,632][98493] Updated weights for policy 0, policy_version 814881 (0.0006)
+[2023-07-06 14:52:48,163][98493] Updated weights for policy 0, policy_version 814944 (0.0007)
+[2023-07-06 14:52:49,764][98243] Fps is (10 sec: 104858.2, 60 sec: 109226.7, 300 sec: 107079.3). Total num frames: 1669070848. Throughput: 0: 27898.4. Samples: 417363456. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 14:52:49,818][98493] Updated weights for policy 0, policy_version 814992 (0.0007)
+[2023-07-06 14:52:50,482][98493] Updated weights for policy 0, policy_version 815072 (0.0007)
+[2023-07-06 14:52:52,366][98493] Updated weights for policy 0, policy_version 815128 (0.0007)
+[2023-07-06 14:52:52,956][98493] Updated weights for policy 0, policy_version 815200 (0.0008)
+[2023-07-06 14:52:54,503][98493] Updated weights for policy 0, policy_version 815235 (0.0006)
+[2023-07-06 14:52:54,764][98243] Fps is (10 sec: 111410.6, 60 sec: 110318.9, 300 sec: 107301.3). Total num frames: 1669660672. Throughput: 0: 27864.3. Samples: 417442816. Policy #0 lag: (min: 47.0, avg: 175.0, max: 303.0)
+[2023-07-06 14:52:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:52:54,958][98493] Updated weights for policy 0, policy_version 815287 (0.0006)
+[2023-07-06 14:52:55,502][98493] Updated weights for policy 0, policy_version 815352 (0.0007)
+[2023-07-06 14:52:57,188][98449] Signal inference workers to stop experience collection... (42150 times)
+[2023-07-06 14:52:57,203][98493] Updated weights for policy 0, policy_version 815394 (0.0006)
+[2023-07-06 14:52:57,223][98493] InferenceWorker_p0-w0: stopping experience collection (42150 times)
+[2023-07-06 14:52:57,293][98449] Signal inference workers to resume experience collection... (42150 times)
+[2023-07-06 14:52:57,294][98493] InferenceWorker_p0-w0: resuming experience collection (42150 times)
+[2023-07-06 14:52:57,830][98493] Updated weights for policy 0, policy_version 815472 (0.0007)
+[2023-07-06 14:52:59,185][98493] Updated weights for policy 0, policy_version 815520 (0.0009)
+[2023-07-06 14:52:59,764][98243] Fps is (10 sec: 117964.8, 60 sec: 111412.2, 300 sec: 107523.5). Total num frames: 1670250496. Throughput: 0: 27807.3. Samples: 417608704. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:52:59,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:53:00,071][98493] Updated weights for policy 0, policy_version 815600 (0.0007)
+[2023-07-06 14:53:02,012][98493] Updated weights for policy 0, policy_version 815655 (0.0007)
+[2023-07-06 14:53:02,685][98493] Updated weights for policy 0, policy_version 815728 (0.0008)
+[2023-07-06 14:53:04,167][98493] Updated weights for policy 0, policy_version 815802 (0.0007)
+[2023-07-06 14:53:04,642][98493] Updated weights for policy 0, policy_version 815846 (0.0007)
+[2023-07-06 14:53:04,764][98243] Fps is (10 sec: 121242.2, 60 sec: 113049.8, 300 sec: 107967.8). Total num frames: 1670873088. Throughput: 0: 27557.0. Samples: 417767936. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:04,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:53:06,834][98493] Updated weights for policy 0, policy_version 815910 (0.0007)
+[2023-07-06 14:53:07,602][98493] Updated weights for policy 0, policy_version 815968 (0.0006)
+[2023-07-06 14:53:08,653][98493] Updated weights for policy 0, policy_version 816024 (0.0007)
+[2023-07-06 14:53:09,179][98493] Updated weights for policy 0, policy_version 816084 (0.0007)
+[2023-07-06 14:53:09,764][98243] Fps is (10 sec: 117964.8, 60 sec: 113049.9, 300 sec: 108412.1). Total num frames: 1671430144. Throughput: 0: 27682.3. Samples: 417855488. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:53:11,480][98493] Updated weights for policy 0, policy_version 816152 (0.0008)
+[2023-07-06 14:53:11,806][98493] Updated weights for policy 0, policy_version 816192 (0.0006)
+[2023-07-06 14:53:13,205][98493] Updated weights for policy 0, policy_version 816259 (0.0007)
+[2023-07-06 14:53:13,790][98493] Updated weights for policy 0, policy_version 816329 (0.0007)
+[2023-07-06 14:53:14,004][98449] Signal inference workers to stop experience collection... (42200 times)
+[2023-07-06 14:53:14,047][98493] InferenceWorker_p0-w0: stopping experience collection (42200 times)
+[2023-07-06 14:53:14,092][98449] Signal inference workers to resume experience collection... (42200 times)
+[2023-07-06 14:53:14,092][98493] InferenceWorker_p0-w0: resuming experience collection (42200 times)
+[2023-07-06 14:53:14,764][98243] Fps is (10 sec: 108133.5, 60 sec: 111957.2, 300 sec: 108301.0). Total num frames: 1671954432. Throughput: 0: 27568.3. Samples: 418018816. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:14,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:53:16,140][98493] Updated weights for policy 0, policy_version 816400 (0.0009)
+[2023-07-06 14:53:17,022][98493] Updated weights for policy 0, policy_version 816454 (0.0007)
+[2023-07-06 14:53:18,167][98493] Updated weights for policy 0, policy_version 816513 (0.0008)
+[2023-07-06 14:53:18,811][98493] Updated weights for policy 0, policy_version 816592 (0.0007)
+[2023-07-06 14:53:19,235][98493] Updated weights for policy 0, policy_version 816640 (0.0007)
+[2023-07-06 14:53:19,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.1, 300 sec: 108189.9). Total num frames: 1672478720. Throughput: 0: 27534.2. Samples: 418184704. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:53:21,316][98493] Updated weights for policy 0, policy_version 816704 (0.0007)
+[2023-07-06 14:53:21,925][98493] Updated weights for policy 0, policy_version 816763 (0.0007)
+[2023-07-06 14:53:23,178][98493] Updated weights for policy 0, policy_version 816801 (0.0006)
+[2023-07-06 14:53:23,748][98493] Updated weights for policy 0, policy_version 816866 (0.0007)
+[2023-07-06 14:53:24,764][98243] Fps is (10 sec: 104857.8, 60 sec: 110319.4, 300 sec: 108412.1). Total num frames: 1673003008. Throughput: 0: 27545.6. Samples: 418271232. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:53:25,769][98493] Updated weights for policy 0, policy_version 816918 (0.0006)
+[2023-07-06 14:53:26,480][98493] Updated weights for policy 0, policy_version 816994 (0.0036)
+[2023-07-06 14:53:27,858][98493] Updated weights for policy 0, policy_version 817043 (0.0007)
+[2023-07-06 14:53:28,344][98493] Updated weights for policy 0, policy_version 817104 (0.0007)
+[2023-07-06 14:53:29,764][98243] Fps is (10 sec: 104858.8, 60 sec: 109772.7, 300 sec: 108412.1). Total num frames: 1673527296. Throughput: 0: 27511.5. Samples: 418428928. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:29,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:53:30,336][98493] Updated weights for policy 0, policy_version 817153 (0.0007)
+[2023-07-06 14:53:30,705][98493] Updated weights for policy 0, policy_version 817200 (0.0007)
+[2023-07-06 14:53:31,202][98493] Updated weights for policy 0, policy_version 817250 (0.0008)
+[2023-07-06 14:53:32,564][98493] Updated weights for policy 0, policy_version 817299 (0.0006)
+[2023-07-06 14:53:32,711][98449] Signal inference workers to stop experience collection... (42250 times)
+[2023-07-06 14:53:32,733][98493] InferenceWorker_p0-w0: stopping experience collection (42250 times)
+[2023-07-06 14:53:32,795][98449] Signal inference workers to resume experience collection... (42250 times)
+[2023-07-06 14:53:32,796][98493] InferenceWorker_p0-w0: resuming experience collection (42250 times)
+[2023-07-06 14:53:33,009][98493] Updated weights for policy 0, policy_version 817348 (0.0007)
+[2023-07-06 14:53:33,433][98493] Updated weights for policy 0, policy_version 817403 (0.0007)
+[2023-07-06 14:53:34,764][98243] Fps is (10 sec: 104858.7, 60 sec: 109226.7, 300 sec: 108412.1). Total num frames: 1674051584. Throughput: 0: 27579.8. Samples: 418604544. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:34,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:53:35,245][98493] Updated weights for policy 0, policy_version 817456 (0.0007)
+[2023-07-06 14:53:35,793][98493] Updated weights for policy 0, policy_version 817505 (0.0007)
+[2023-07-06 14:53:37,228][98493] Updated weights for policy 0, policy_version 817558 (0.0007)
+[2023-07-06 14:53:37,774][98493] Updated weights for policy 0, policy_version 817619 (0.0007)
+[2023-07-06 14:53:39,765][98243] Fps is (10 sec: 108127.9, 60 sec: 109771.9, 300 sec: 108411.8). Total num frames: 1674608640. Throughput: 0: 27647.7. Samples: 418686976. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:53:39,809][98493] Updated weights for policy 0, policy_version 817696 (0.0008)
+[2023-07-06 14:53:40,514][98493] Updated weights for policy 0, policy_version 817760 (0.0007)
+[2023-07-06 14:53:42,194][98493] Updated weights for policy 0, policy_version 817824 (0.0008)
+[2023-07-06 14:53:42,716][98493] Updated weights for policy 0, policy_version 817877 (0.0008)
+[2023-07-06 14:53:44,517][98493] Updated weights for policy 0, policy_version 817936 (0.0006)
+[2023-07-06 14:53:44,764][98243] Fps is (10 sec: 111411.2, 60 sec: 110319.0, 300 sec: 108412.1). Total num frames: 1675165696. Throughput: 0: 27579.8. Samples: 418849792. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:44,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 14:53:45,119][98493] Updated weights for policy 0, policy_version 818000 (0.0007)
+[2023-07-06 14:53:45,570][98493] Updated weights for policy 0, policy_version 818048 (0.0007)
+[2023-07-06 14:53:47,294][98493] Updated weights for policy 0, policy_version 818115 (0.0008)
+[2023-07-06 14:53:47,755][98493] Updated weights for policy 0, policy_version 818174 (0.0007)
+[2023-07-06 14:53:49,765][98243] Fps is (10 sec: 111413.5, 60 sec: 110864.4, 300 sec: 108634.1). Total num frames: 1675722752. Throughput: 0: 27716.0. Samples: 419015168. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:49,766][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 14:53:49,833][98493] Updated weights for policy 0, policy_version 818227 (0.0008)
+[2023-07-06 14:53:49,948][98449] Signal inference workers to stop experience collection... (42300 times)
+[2023-07-06 14:53:50,000][98493] InferenceWorker_p0-w0: stopping experience collection (42300 times)
+[2023-07-06 14:53:50,062][98449] Signal inference workers to resume experience collection... (42300 times)
+[2023-07-06 14:53:50,062][98493] InferenceWorker_p0-w0: resuming experience collection (42300 times)
+[2023-07-06 14:53:50,295][98493] Updated weights for policy 0, policy_version 818277 (0.0008)
+[2023-07-06 14:53:51,847][98493] Updated weights for policy 0, policy_version 818326 (0.0007)
+[2023-07-06 14:53:52,425][98493] Updated weights for policy 0, policy_version 818390 (0.0007)
+[2023-07-06 14:53:54,256][98493] Updated weights for policy 0, policy_version 818451 (0.0007)
+[2023-07-06 14:53:54,611][98493] Updated weights for policy 0, policy_version 818496 (0.0008)
+[2023-07-06 14:53:54,764][98243] Fps is (10 sec: 114688.9, 60 sec: 110865.4, 300 sec: 108856.5). Total num frames: 1676312576. Throughput: 0: 27511.5. Samples: 419093504. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:54,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:53:55,146][98493] Updated weights for policy 0, policy_version 818554 (0.0011)
+[2023-07-06 14:53:56,616][98493] Updated weights for policy 0, policy_version 818611 (0.0008)
+[2023-07-06 14:53:57,159][98493] Updated weights for policy 0, policy_version 818682 (0.0008)
+[2023-07-06 14:53:59,093][98493] Updated weights for policy 0, policy_version 818723 (0.0006)
+[2023-07-06 14:53:59,546][98493] Updated weights for policy 0, policy_version 818771 (0.0008)
+[2023-07-06 14:53:59,764][98243] Fps is (10 sec: 117970.8, 60 sec: 110865.3, 300 sec: 108967.5). Total num frames: 1676902400. Throughput: 0: 27693.6. Samples: 419265024. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:53:59,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:54:01,058][98493] Updated weights for policy 0, policy_version 818836 (0.0007)
+[2023-07-06 14:54:01,638][98493] Updated weights for policy 0, policy_version 818896 (0.0007)
+[2023-07-06 14:54:03,224][98493] Updated weights for policy 0, policy_version 818946 (0.0007)
+[2023-07-06 14:54:03,650][98493] Updated weights for policy 0, policy_version 818997 (0.0006)
+[2023-07-06 14:54:04,380][98493] Updated weights for policy 0, policy_version 819043 (0.0006)
+[2023-07-06 14:54:04,764][98243] Fps is (10 sec: 114687.0, 60 sec: 109772.8, 300 sec: 108967.5). Total num frames: 1677459456. Throughput: 0: 27602.6. Samples: 419426816. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:54:05,788][98493] Updated weights for policy 0, policy_version 819090 (0.0006)
+[2023-07-06 14:54:06,378][98493] Updated weights for policy 0, policy_version 819152 (0.0008)
+[2023-07-06 14:54:06,811][98493] Updated weights for policy 0, policy_version 819200 (0.0007)
+[2023-07-06 14:54:07,860][98449] Signal inference workers to stop experience collection... (42350 times)
+[2023-07-06 14:54:07,894][98493] InferenceWorker_p0-w0: stopping experience collection (42350 times)
+[2023-07-06 14:54:07,947][98449] Signal inference workers to resume experience collection... (42350 times)
+[2023-07-06 14:54:07,947][98493] InferenceWorker_p0-w0: resuming experience collection (42350 times)
+[2023-07-06 14:54:08,223][98493] Updated weights for policy 0, policy_version 819264 (0.0007)
+[2023-07-06 14:54:09,539][98493] Updated weights for policy 0, policy_version 819322 (0.0008)
+[2023-07-06 14:54:09,764][98243] Fps is (10 sec: 108132.4, 60 sec: 109226.6, 300 sec: 108967.5). Total num frames: 1677983744. Throughput: 0: 27579.7. Samples: 419512320. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:09,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:54:10,791][98493] Updated weights for policy 0, policy_version 819376 (0.0008)
+[2023-07-06 14:54:11,435][98493] Updated weights for policy 0, policy_version 819448 (0.0008)
+[2023-07-06 14:54:12,868][98493] Updated weights for policy 0, policy_version 819493 (0.0007)
+[2023-07-06 14:54:14,070][98493] Updated weights for policy 0, policy_version 819556 (0.0007)
+[2023-07-06 14:54:14,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109226.8, 300 sec: 108967.5). Total num frames: 1678508032. Throughput: 0: 27818.7. Samples: 419680768. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:54:15,254][98493] Updated weights for policy 0, policy_version 819600 (0.0006)
+[2023-07-06 14:54:15,762][98493] Updated weights for policy 0, policy_version 819652 (0.0007)
+[2023-07-06 14:54:16,216][98493] Updated weights for policy 0, policy_version 819706 (0.0007)
+[2023-07-06 14:54:17,580][98493] Updated weights for policy 0, policy_version 819760 (0.0007)
+[2023-07-06 14:54:18,551][98493] Updated weights for policy 0, policy_version 819815 (0.0006)
+[2023-07-06 14:54:19,765][98243] Fps is (10 sec: 104851.7, 60 sec: 109225.7, 300 sec: 108856.2). Total num frames: 1679032320. Throughput: 0: 27659.0. Samples: 419849216. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:19,766][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:54:20,165][98493] Updated weights for policy 0, policy_version 819876 (0.0008)
+[2023-07-06 14:54:20,594][98493] Updated weights for policy 0, policy_version 819925 (0.0007)
+[2023-07-06 14:54:22,072][98493] Updated weights for policy 0, policy_version 819974 (0.0007)
+[2023-07-06 14:54:22,909][98493] Updated weights for policy 0, policy_version 820034 (0.0007)
+[2023-07-06 14:54:23,392][98493] Updated weights for policy 0, policy_version 820096 (0.0007)
+[2023-07-06 14:54:24,764][98243] Fps is (10 sec: 104855.8, 60 sec: 109226.4, 300 sec: 108856.4). Total num frames: 1679556608. Throughput: 0: 27614.1. Samples: 419929600. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:24,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:54:24,961][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000820128_1679622144.pth...
+[2023-07-06 14:54:25,047][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000807232_1653211136.pth
+[2023-07-06 14:54:25,371][98493] Updated weights for policy 0, policy_version 820166 (0.0007)
+[2023-07-06 14:54:25,584][98449] Signal inference workers to stop experience collection... (42400 times)
+[2023-07-06 14:54:25,621][98493] InferenceWorker_p0-w0: stopping experience collection (42400 times)
+[2023-07-06 14:54:25,695][98449] Signal inference workers to resume experience collection... (42400 times)
+[2023-07-06 14:54:25,696][98493] InferenceWorker_p0-w0: resuming experience collection (42400 times)
+[2023-07-06 14:54:26,608][98493] Updated weights for policy 0, policy_version 820225 (0.0008)
+[2023-07-06 14:54:27,090][98493] Updated weights for policy 0, policy_version 820282 (0.0007)
+[2023-07-06 14:54:28,163][98493] Updated weights for policy 0, policy_version 820326 (0.0006)
+[2023-07-06 14:54:29,645][98493] Updated weights for policy 0, policy_version 820384 (0.0007)
+[2023-07-06 14:54:29,764][98243] Fps is (10 sec: 111418.4, 60 sec: 110319.0, 300 sec: 109078.6). Total num frames: 1680146432. Throughput: 0: 27716.3. Samples: 420097024. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:29,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:54:30,202][98493] Updated weights for policy 0, policy_version 820448 (0.0007)
+[2023-07-06 14:54:31,150][98493] Updated weights for policy 0, policy_version 820481 (0.0006)
+[2023-07-06 14:54:31,588][98493] Updated weights for policy 0, policy_version 820541 (0.0007)
+[2023-07-06 14:54:32,889][98493] Updated weights for policy 0, policy_version 820602 (0.0008)
+[2023-07-06 14:54:34,565][98493] Updated weights for policy 0, policy_version 820643 (0.0007)
+[2023-07-06 14:54:34,764][98243] Fps is (10 sec: 114690.8, 60 sec: 110865.1, 300 sec: 109189.7). Total num frames: 1680703488. Throughput: 0: 27750.7. Samples: 420263936. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:34,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:54:35,025][98493] Updated weights for policy 0, policy_version 820694 (0.0007)
+[2023-07-06 14:54:35,353][98493] Updated weights for policy 0, policy_version 820734 (0.0006)
+[2023-07-06 14:54:36,101][98493] Updated weights for policy 0, policy_version 820775 (0.0007)
+[2023-07-06 14:54:37,454][98493] Updated weights for policy 0, policy_version 820832 (0.0007)
+[2023-07-06 14:54:38,872][98493] Updated weights for policy 0, policy_version 820867 (0.0007)
+[2023-07-06 14:54:39,574][98493] Updated weights for policy 0, policy_version 820948 (0.0009)
+[2023-07-06 14:54:39,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111958.4, 300 sec: 109522.9). Total num frames: 1681326080. Throughput: 0: 27864.1. Samples: 420347392. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:39,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:54:40,590][98493] Updated weights for policy 0, policy_version 821008 (0.0007)
+[2023-07-06 14:54:41,008][98493] Updated weights for policy 0, policy_version 821054 (0.0006)
+[2023-07-06 14:54:42,533][98493] Updated weights for policy 0, policy_version 821109 (0.0007)
+[2023-07-06 14:54:43,741][98493] Updated weights for policy 0, policy_version 821136 (0.0006)
+[2023-07-06 14:54:44,209][98449] Signal inference workers to stop experience collection... (42450 times)
+[2023-07-06 14:54:44,243][98493] InferenceWorker_p0-w0: stopping experience collection (42450 times)
+[2023-07-06 14:54:44,329][98449] Signal inference workers to resume experience collection... (42450 times)
+[2023-07-06 14:54:44,329][98493] InferenceWorker_p0-w0: resuming experience collection (42450 times)
+[2023-07-06 14:54:44,426][98493] Updated weights for policy 0, policy_version 821207 (0.0008)
+[2023-07-06 14:54:44,764][98243] Fps is (10 sec: 121241.5, 60 sec: 112503.5, 300 sec: 109745.1). Total num frames: 1681915904. Throughput: 0: 27818.6. Samples: 420516864. Policy #0 lag: (min: 79.0, avg: 196.0, max: 367.0)
+[2023-07-06 14:54:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 14:54:45,280][98493] Updated weights for policy 0, policy_version 821264 (0.0007)
+[2023-07-06 14:54:47,068][98493] Updated weights for policy 0, policy_version 821314 (0.0007)
+[2023-07-06 14:54:47,532][98493] Updated weights for policy 0, policy_version 821374 (0.0007)
+[2023-07-06 14:54:48,850][98493] Updated weights for policy 0, policy_version 821433 (0.0007)
+[2023-07-06 14:54:49,299][98493] Updated weights for policy 0, policy_version 821478 (0.0008)
+[2023-07-06 14:54:49,764][98243] Fps is (10 sec: 111408.9, 60 sec: 111957.7, 300 sec: 109745.0). Total num frames: 1682440192. Throughput: 0: 27784.4. Samples: 420677120. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:54:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:54:50,020][98493] Updated weights for policy 0, policy_version 821528 (0.0006)
+[2023-07-06 14:54:50,311][98493] Updated weights for policy 0, policy_version 821565 (0.0007)
+[2023-07-06 14:54:52,253][98493] Updated weights for policy 0, policy_version 821627 (0.0008)
+[2023-07-06 14:54:53,429][98493] Updated weights for policy 0, policy_version 821685 (0.0007)
+[2023-07-06 14:54:53,870][98493] Updated weights for policy 0, policy_version 821732 (0.0007)
+[2023-07-06 14:54:54,662][98493] Updated weights for policy 0, policy_version 821785 (0.0007)
+[2023-07-06 14:54:54,764][98243] Fps is (10 sec: 111410.2, 60 sec: 111957.0, 300 sec: 109967.2). Total num frames: 1683030016. Throughput: 0: 27841.4. Samples: 420765184. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:54:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:54:56,411][98493] Updated weights for policy 0, policy_version 821840 (0.0008)
+[2023-07-06 14:54:56,832][98493] Updated weights for policy 0, policy_version 821888 (0.0007)
+[2023-07-06 14:54:58,123][98493] Updated weights for policy 0, policy_version 821942 (0.0007)
+[2023-07-06 14:54:58,604][98493] Updated weights for policy 0, policy_version 822000 (0.0006)
+[2023-07-06 14:54:59,224][98493] Updated weights for policy 0, policy_version 822042 (0.0006)
+[2023-07-06 14:54:59,764][98243] Fps is (10 sec: 117967.0, 60 sec: 111957.1, 300 sec: 110189.4). Total num frames: 1683619840. Throughput: 0: 27750.4. Samples: 420929536. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:54:59,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:55:01,183][98493] Updated weights for policy 0, policy_version 822081 (0.0008)
+[2023-07-06 14:55:01,624][98493] Updated weights for policy 0, policy_version 822139 (0.0007)
+[2023-07-06 14:55:02,511][98449] Signal inference workers to stop experience collection... (42500 times)
+[2023-07-06 14:55:02,546][98493] InferenceWorker_p0-w0: stopping experience collection (42500 times)
+[2023-07-06 14:55:02,546][98493] Updated weights for policy 0, policy_version 822181 (0.0007)
+[2023-07-06 14:55:02,617][98449] Signal inference workers to resume experience collection... (42500 times)
+[2023-07-06 14:55:02,617][98493] InferenceWorker_p0-w0: resuming experience collection (42500 times)
+[2023-07-06 14:55:03,110][98493] Updated weights for policy 0, policy_version 822243 (0.0012)
+[2023-07-06 14:55:03,859][98493] Updated weights for policy 0, policy_version 822296 (0.0006)
+[2023-07-06 14:55:04,764][98243] Fps is (10 sec: 111411.8, 60 sec: 111411.2, 300 sec: 110189.3). Total num frames: 1684144128. Throughput: 0: 27750.8. Samples: 421097984. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:04,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:55:05,938][98493] Updated weights for policy 0, policy_version 822340 (0.0008)
+[2023-07-06 14:55:06,377][98493] Updated weights for policy 0, policy_version 822395 (0.0008)
+[2023-07-06 14:55:07,274][98493] Updated weights for policy 0, policy_version 822448 (0.0007)
+[2023-07-06 14:55:07,730][98493] Updated weights for policy 0, policy_version 822496 (0.0008)
+[2023-07-06 14:55:08,293][98493] Updated weights for policy 0, policy_version 822553 (0.0008)
+[2023-07-06 14:55:09,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.3, 300 sec: 110189.3). Total num frames: 1684668416. Throughput: 0: 27898.4. Samples: 421185024. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:09,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 14:55:10,543][98493] Updated weights for policy 0, policy_version 822593 (0.0007)
+[2023-07-06 14:55:10,982][98493] Updated weights for policy 0, policy_version 822652 (0.0007)
+[2023-07-06 14:55:12,005][98493] Updated weights for policy 0, policy_version 822713 (0.0007)
+[2023-07-06 14:55:12,565][98493] Updated weights for policy 0, policy_version 822768 (0.0007)
+[2023-07-06 14:55:13,332][98493] Updated weights for policy 0, policy_version 822832 (0.0007)
+[2023-07-06 14:55:14,764][98243] Fps is (10 sec: 104856.4, 60 sec: 111411.0, 300 sec: 110189.3). Total num frames: 1685192704. Throughput: 0: 27818.6. Samples: 421348864. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:14,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:55:15,429][98493] Updated weights for policy 0, policy_version 822880 (0.0008)
+[2023-07-06 14:55:16,356][98493] Updated weights for policy 0, policy_version 822928 (0.0007)
+[2023-07-06 14:55:17,009][98493] Updated weights for policy 0, policy_version 822983 (0.0007)
+[2023-07-06 14:55:17,429][98493] Updated weights for policy 0, policy_version 823037 (0.0007)
+[2023-07-06 14:55:18,085][98493] Updated weights for policy 0, policy_version 823099 (0.0007)
+[2023-07-06 14:55:19,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111412.4, 300 sec: 110189.4). Total num frames: 1685716992. Throughput: 0: 27932.4. Samples: 421520896. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:19,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:55:20,477][98493] Updated weights for policy 0, policy_version 823152 (0.0007)
+[2023-07-06 14:55:21,183][98449] Signal inference workers to stop experience collection... (42550 times)
+[2023-07-06 14:55:21,217][98493] InferenceWorker_p0-w0: stopping experience collection (42550 times)
+[2023-07-06 14:55:21,265][98449] Signal inference workers to resume experience collection... (42550 times)
+[2023-07-06 14:55:21,265][98493] InferenceWorker_p0-w0: resuming experience collection (42550 times)
+[2023-07-06 14:55:21,353][98493] Updated weights for policy 0, policy_version 823205 (0.0007)
+[2023-07-06 14:55:21,939][98493] Updated weights for policy 0, policy_version 823270 (0.0007)
+[2023-07-06 14:55:22,727][98493] Updated weights for policy 0, policy_version 823334 (0.0007)
+[2023-07-06 14:55:24,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.5, 300 sec: 110189.4). Total num frames: 1686241280. Throughput: 0: 27784.5. Samples: 421597696. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:24,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:55:24,930][98493] Updated weights for policy 0, policy_version 823384 (0.0007)
+[2023-07-06 14:55:25,621][98493] Updated weights for policy 0, policy_version 823428 (0.0006)
+[2023-07-06 14:55:26,049][98493] Updated weights for policy 0, policy_version 823484 (0.0007)
+[2023-07-06 14:55:26,665][98493] Updated weights for policy 0, policy_version 823528 (0.0007)
+[2023-07-06 14:55:27,215][98493] Updated weights for policy 0, policy_version 823558 (0.0006)
+[2023-07-06 14:55:29,489][98493] Updated weights for policy 0, policy_version 823632 (0.0007)
+[2023-07-06 14:55:29,764][98243] Fps is (10 sec: 114687.6, 60 sec: 111957.3, 300 sec: 110522.6). Total num frames: 1686863872. Throughput: 0: 27852.8. Samples: 421770240. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:29,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:55:30,390][98493] Updated weights for policy 0, policy_version 823703 (0.0007)
+[2023-07-06 14:55:31,086][98493] Updated weights for policy 0, policy_version 823760 (0.0007)
+[2023-07-06 14:55:32,023][98493] Updated weights for policy 0, policy_version 823811 (0.0007)
+[2023-07-06 14:55:32,494][98493] Updated weights for policy 0, policy_version 823866 (0.0007)
+[2023-07-06 14:55:34,561][98493] Updated weights for policy 0, policy_version 823912 (0.0008)
+[2023-07-06 14:55:34,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111410.8, 300 sec: 110522.5). Total num frames: 1687388160. Throughput: 0: 27989.4. Samples: 421936640. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:55:35,026][98493] Updated weights for policy 0, policy_version 823962 (0.0008)
+[2023-07-06 14:55:35,865][98493] Updated weights for policy 0, policy_version 824004 (0.0007)
+[2023-07-06 14:55:36,342][98493] Updated weights for policy 0, policy_version 824064 (0.0006)
+[2023-07-06 14:55:37,257][98493] Updated weights for policy 0, policy_version 824124 (0.0006)
+[2023-07-06 14:55:39,402][98493] Updated weights for policy 0, policy_version 824187 (0.0009)
+[2023-07-06 14:55:39,542][98449] Signal inference workers to stop experience collection... (42600 times)
+[2023-07-06 14:55:39,580][98493] InferenceWorker_p0-w0: stopping experience collection (42600 times)
+[2023-07-06 14:55:39,637][98449] Signal inference workers to resume experience collection... (42600 times)
+[2023-07-06 14:55:39,638][98493] InferenceWorker_p0-w0: resuming experience collection (42600 times)
+[2023-07-06 14:55:39,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110865.0, 300 sec: 110744.7). Total num frames: 1687977984. Throughput: 0: 27830.0. Samples: 422017536. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:55:39,893][98493] Updated weights for policy 0, policy_version 824229 (0.0009)
+[2023-07-06 14:55:40,620][98493] Updated weights for policy 0, policy_version 824276 (0.0007)
+[2023-07-06 14:55:41,484][98493] Updated weights for policy 0, policy_version 824322 (0.0007)
+[2023-07-06 14:55:42,002][98493] Updated weights for policy 0, policy_version 824384 (0.0007)
+[2023-07-06 14:55:44,066][98493] Updated weights for policy 0, policy_version 824448 (0.0008)
+[2023-07-06 14:55:44,572][98493] Updated weights for policy 0, policy_version 824500 (0.0008)
+[2023-07-06 14:55:44,764][98243] Fps is (10 sec: 121243.9, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1688600576. Throughput: 0: 28057.6. Samples: 422192128. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:44,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:55:45,333][98493] Updated weights for policy 0, policy_version 824546 (0.0008)
+[2023-07-06 14:55:46,197][98493] Updated weights for policy 0, policy_version 824594 (0.0007)
+[2023-07-06 14:55:48,528][98493] Updated weights for policy 0, policy_version 824656 (0.0007)
+[2023-07-06 14:55:49,015][98493] Updated weights for policy 0, policy_version 824707 (0.0008)
+[2023-07-06 14:55:49,445][98493] Updated weights for policy 0, policy_version 824765 (0.0007)
+[2023-07-06 14:55:49,764][98243] Fps is (10 sec: 117966.1, 60 sec: 111957.8, 300 sec: 111189.1). Total num frames: 1689157632. Throughput: 0: 27955.2. Samples: 422355968. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:49,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:55:50,005][98493] Updated weights for policy 0, policy_version 824816 (0.0007)
+[2023-07-06 14:55:50,814][98493] Updated weights for policy 0, policy_version 824852 (0.0007)
+[2023-07-06 14:55:53,233][98493] Updated weights for policy 0, policy_version 824901 (0.0006)
+[2023-07-06 14:55:53,779][98493] Updated weights for policy 0, policy_version 824961 (0.0008)
+[2023-07-06 14:55:54,331][98493] Updated weights for policy 0, policy_version 825032 (0.0006)
+[2023-07-06 14:55:54,764][98243] Fps is (10 sec: 114687.2, 60 sec: 111957.4, 300 sec: 111411.2). Total num frames: 1689747456. Throughput: 0: 28000.7. Samples: 422445056. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:55:54,767][98493] Updated weights for policy 0, policy_version 825076 (0.0007)
+[2023-07-06 14:55:55,569][98493] Updated weights for policy 0, policy_version 825126 (0.0006)
+[2023-07-06 14:55:58,024][98493] Updated weights for policy 0, policy_version 825168 (0.0006)
+[2023-07-06 14:55:58,074][98449] Signal inference workers to stop experience collection... (42650 times)
+[2023-07-06 14:55:58,088][98493] InferenceWorker_p0-w0: stopping experience collection (42650 times)
+[2023-07-06 14:55:58,174][98449] Signal inference workers to resume experience collection... (42650 times)
+[2023-07-06 14:55:58,174][98493] InferenceWorker_p0-w0: resuming experience collection (42650 times)
+[2023-07-06 14:55:58,681][98493] Updated weights for policy 0, policy_version 825234 (0.0008)
+[2023-07-06 14:55:59,320][98493] Updated weights for policy 0, policy_version 825312 (0.0007)
+[2023-07-06 14:55:59,764][98243] Fps is (10 sec: 114685.5, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 1690304512. Throughput: 0: 28068.9. Samples: 422611968. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:55:59,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:56:00,376][98493] Updated weights for policy 0, policy_version 825360 (0.0007)
+[2023-07-06 14:56:02,454][98493] Updated weights for policy 0, policy_version 825409 (0.0007)
+[2023-07-06 14:56:03,171][98493] Updated weights for policy 0, policy_version 825473 (0.0007)
+[2023-07-06 14:56:03,563][98493] Updated weights for policy 0, policy_version 825520 (0.0007)
+[2023-07-06 14:56:04,005][98493] Updated weights for policy 0, policy_version 825568 (0.0006)
+[2023-07-06 14:56:04,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111411.1, 300 sec: 110967.0). Total num frames: 1690828800. Throughput: 0: 27841.4. Samples: 422773760. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:56:05,056][98493] Updated weights for policy 0, policy_version 825616 (0.0006)
+[2023-07-06 14:56:07,210][98493] Updated weights for policy 0, policy_version 825680 (0.0007)
+[2023-07-06 14:56:08,005][98493] Updated weights for policy 0, policy_version 825744 (0.0007)
+[2023-07-06 14:56:08,577][98493] Updated weights for policy 0, policy_version 825793 (0.0006)
+[2023-07-06 14:56:09,077][98493] Updated weights for policy 0, policy_version 825856 (0.0007)
+[2023-07-06 14:56:09,764][98243] Fps is (10 sec: 108136.7, 60 sec: 111957.5, 300 sec: 111078.0). Total num frames: 1691385856. Throughput: 0: 27989.4. Samples: 422857216. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:09,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:56:10,086][98493] Updated weights for policy 0, policy_version 825912 (0.0008)
+[2023-07-06 14:56:12,190][98493] Updated weights for policy 0, policy_version 825968 (0.0007)
+[2023-07-06 14:56:12,843][98493] Updated weights for policy 0, policy_version 826016 (0.0008)
+[2023-07-06 14:56:13,454][98493] Updated weights for policy 0, policy_version 826080 (0.0008)
+[2023-07-06 14:56:14,430][98493] Updated weights for policy 0, policy_version 826144 (0.0007)
+[2023-07-06 14:56:14,764][98243] Fps is (10 sec: 117962.7, 60 sec: 113595.5, 300 sec: 111411.1). Total num frames: 1692008448. Throughput: 0: 27773.0. Samples: 423020032. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:14,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:56:16,524][98449] Signal inference workers to stop experience collection... (42700 times)
+[2023-07-06 14:56:16,559][98493] InferenceWorker_p0-w0: stopping experience collection (42700 times)
+[2023-07-06 14:56:16,636][98449] Signal inference workers to resume experience collection... (42700 times)
+[2023-07-06 14:56:16,637][98493] InferenceWorker_p0-w0: resuming experience collection (42700 times)
+[2023-07-06 14:56:16,773][98493] Updated weights for policy 0, policy_version 826208 (0.0006)
+[2023-07-06 14:56:17,547][98493] Updated weights for policy 0, policy_version 826243 (0.0007)
+[2023-07-06 14:56:18,059][98493] Updated weights for policy 0, policy_version 826304 (0.0007)
+[2023-07-06 14:56:18,609][98493] Updated weights for policy 0, policy_version 826366 (0.0009)
+[2023-07-06 14:56:19,426][98493] Updated weights for policy 0, policy_version 826416 (0.0007)
+[2023-07-06 14:56:19,764][98243] Fps is (10 sec: 114687.2, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1692532736. Throughput: 0: 27750.5. Samples: 423185408. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:56:21,445][98493] Updated weights for policy 0, policy_version 826474 (0.0007)
+[2023-07-06 14:56:22,565][98493] Updated weights for policy 0, policy_version 826532 (0.0007)
+[2023-07-06 14:56:23,016][98493] Updated weights for policy 0, policy_version 826583 (0.0007)
+[2023-07-06 14:56:23,925][98493] Updated weights for policy 0, policy_version 826640 (0.0007)
+[2023-07-06 14:56:24,764][98243] Fps is (10 sec: 104859.1, 60 sec: 113595.7, 300 sec: 111411.4). Total num frames: 1693057024. Throughput: 0: 27875.5. Samples: 423271936. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:24,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 14:56:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000826688_1693057024.pth...
+[2023-07-06 14:56:24,806][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000813696_1666449408.pth
+[2023-07-06 14:56:25,782][98493] Updated weights for policy 0, policy_version 826689 (0.0011)
+[2023-07-06 14:56:26,982][98493] Updated weights for policy 0, policy_version 826756 (0.0007)
+[2023-07-06 14:56:27,442][98493] Updated weights for policy 0, policy_version 826812 (0.0010)
+[2023-07-06 14:56:27,977][98493] Updated weights for policy 0, policy_version 826866 (0.0007)
+[2023-07-06 14:56:28,800][98493] Updated weights for policy 0, policy_version 826912 (0.0007)
+[2023-07-06 14:56:29,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111957.3, 300 sec: 111189.1). Total num frames: 1693581312. Throughput: 0: 27704.8. Samples: 423438848. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:29,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:56:30,405][98493] Updated weights for policy 0, policy_version 826960 (0.0007)
+[2023-07-06 14:56:30,779][98493] Updated weights for policy 0, policy_version 827004 (0.0006)
+[2023-07-06 14:56:32,089][98493] Updated weights for policy 0, policy_version 827056 (0.0007)
+[2023-07-06 14:56:32,784][98493] Updated weights for policy 0, policy_version 827130 (0.0008)
+[2023-07-06 14:56:33,406][98449] Signal inference workers to stop experience collection... (42750 times)
+[2023-07-06 14:56:33,439][98493] InferenceWorker_p0-w0: stopping experience collection (42750 times)
+[2023-07-06 14:56:33,464][98493] Updated weights for policy 0, policy_version 827174 (0.0008)
+[2023-07-06 14:56:33,513][98449] Signal inference workers to resume experience collection... (42750 times)
+[2023-07-06 14:56:33,513][98493] InferenceWorker_p0-w0: resuming experience collection (42750 times)
+[2023-07-06 14:56:34,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111957.6, 300 sec: 111078.0). Total num frames: 1694105600. Throughput: 0: 27807.2. Samples: 423607296. Policy #0 lag: (min: 7.0, avg: 110.7, max: 263.0)
+[2023-07-06 14:56:34,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 14:56:35,245][98493] Updated weights for policy 0, policy_version 827220 (0.0007)
+[2023-07-06 14:56:36,673][98493] Updated weights for policy 0, policy_version 827280 (0.0006)
+[2023-07-06 14:56:37,188][98493] Updated weights for policy 0, policy_version 827331 (0.0008)
+[2023-07-06 14:56:37,668][98493] Updated weights for policy 0, policy_version 827391 (0.0007)
+[2023-07-06 14:56:38,390][98493] Updated weights for policy 0, policy_version 827451 (0.0007)
+[2023-07-06 14:56:39,765][98243] Fps is (10 sec: 104854.1, 60 sec: 110864.5, 300 sec: 110855.7). Total num frames: 1694629888. Throughput: 0: 27613.7. Samples: 423687680. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:56:39,766][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:56:40,166][98493] Updated weights for policy 0, policy_version 827495 (0.0006)
+[2023-07-06 14:56:41,472][98493] Updated weights for policy 0, policy_version 827545 (0.0006)
+[2023-07-06 14:56:41,921][98493] Updated weights for policy 0, policy_version 827600 (0.0007)
+[2023-07-06 14:56:42,548][98493] Updated weights for policy 0, policy_version 827649 (0.0007)
+[2023-07-06 14:56:42,986][98493] Updated weights for policy 0, policy_version 827707 (0.0006)
+[2023-07-06 14:56:44,663][98493] Updated weights for policy 0, policy_version 827748 (0.0017)
+[2023-07-06 14:56:44,764][98243] Fps is (10 sec: 114688.2, 60 sec: 110865.0, 300 sec: 110966.9). Total num frames: 1695252480. Throughput: 0: 27625.3. Samples: 423855104. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:56:44,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:56:46,147][98493] Updated weights for policy 0, policy_version 827793 (0.0007)
+[2023-07-06 14:56:46,700][98493] Updated weights for policy 0, policy_version 827858 (0.0007)
+[2023-07-06 14:56:47,395][98493] Updated weights for policy 0, policy_version 827920 (0.0007)
+[2023-07-06 14:56:48,982][98493] Updated weights for policy 0, policy_version 827984 (0.0008)
+[2023-07-06 14:56:49,764][98243] Fps is (10 sec: 117969.1, 60 sec: 110864.9, 300 sec: 111078.0). Total num frames: 1695809536. Throughput: 0: 27795.9. Samples: 424024576. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:56:49,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:56:50,670][98493] Updated weights for policy 0, policy_version 828033 (0.0007)
+[2023-07-06 14:56:51,293][98493] Updated weights for policy 0, policy_version 828112 (0.0007)
+[2023-07-06 14:56:51,703][98449] Signal inference workers to stop experience collection... (42800 times)
+[2023-07-06 14:56:51,706][98493] Updated weights for policy 0, policy_version 828155 (0.0007)
+[2023-07-06 14:56:51,723][98493] InferenceWorker_p0-w0: stopping experience collection (42800 times)
+[2023-07-06 14:56:51,732][98449] Signal inference workers to resume experience collection... (42800 times)
+[2023-07-06 14:56:51,733][98493] InferenceWorker_p0-w0: resuming experience collection (42800 times)
+[2023-07-06 14:56:52,102][98493] Updated weights for policy 0, policy_version 828198 (0.0006)
+[2023-07-06 14:56:54,109][98493] Updated weights for policy 0, policy_version 828258 (0.0008)
+[2023-07-06 14:56:54,764][98243] Fps is (10 sec: 108134.4, 60 sec: 109772.9, 300 sec: 111078.2). Total num frames: 1696333824. Throughput: 0: 27704.9. Samples: 424103936. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:56:54,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:56:55,724][98493] Updated weights for policy 0, policy_version 828325 (0.0007)
+[2023-07-06 14:56:56,030][98493] Updated weights for policy 0, policy_version 828357 (0.0006)
+[2023-07-06 14:56:56,525][98493] Updated weights for policy 0, policy_version 828416 (0.0007)
+[2023-07-06 14:56:57,041][98493] Updated weights for policy 0, policy_version 828478 (0.0007)
+[2023-07-06 14:56:58,793][98493] Updated weights for policy 0, policy_version 828520 (0.0009)
+[2023-07-06 14:56:59,765][98243] Fps is (10 sec: 104853.6, 60 sec: 109226.3, 300 sec: 111077.9). Total num frames: 1696858112. Throughput: 0: 27921.0. Samples: 424276480. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:56:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 14:57:00,264][98493] Updated weights for policy 0, policy_version 828563 (0.0008)
+[2023-07-06 14:57:00,869][98493] Updated weights for policy 0, policy_version 828624 (0.0010)
+[2023-07-06 14:57:01,447][98493] Updated weights for policy 0, policy_version 828688 (0.0007)
+[2023-07-06 14:57:01,866][98493] Updated weights for policy 0, policy_version 828733 (0.0006)
+[2023-07-06 14:57:03,367][98493] Updated weights for policy 0, policy_version 828784 (0.0007)
+[2023-07-06 14:57:04,765][98243] Fps is (10 sec: 104853.9, 60 sec: 109226.1, 300 sec: 110966.8). Total num frames: 1697382400. Throughput: 0: 28000.5. Samples: 424445440. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:04,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 14:57:05,159][98493] Updated weights for policy 0, policy_version 828835 (0.0007)
+[2023-07-06 14:57:05,562][98493] Updated weights for policy 0, policy_version 828880 (0.0007)
+[2023-07-06 14:57:05,989][98493] Updated weights for policy 0, policy_version 828928 (0.0007)
+[2023-07-06 14:57:06,485][98493] Updated weights for policy 0, policy_version 828983 (0.0007)
+[2023-07-06 14:57:07,843][98493] Updated weights for policy 0, policy_version 829013 (0.0008)
+[2023-07-06 14:57:09,764][98243] Fps is (10 sec: 108137.8, 60 sec: 109226.4, 300 sec: 110855.8). Total num frames: 1697939456. Throughput: 0: 27886.9. Samples: 424526848. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:09,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:57:09,765][98493] Updated weights for policy 0, policy_version 829076 (0.0007)
+[2023-07-06 14:57:09,895][98449] Signal inference workers to stop experience collection... (42850 times)
+[2023-07-06 14:57:09,909][98493] InferenceWorker_p0-w0: stopping experience collection (42850 times)
+[2023-07-06 14:57:09,986][98449] Signal inference workers to resume experience collection... (42850 times)
+[2023-07-06 14:57:09,986][98493] InferenceWorker_p0-w0: resuming experience collection (42850 times)
+[2023-07-06 14:57:10,254][98493] Updated weights for policy 0, policy_version 829136 (0.0007)
+[2023-07-06 14:57:10,655][98493] Updated weights for policy 0, policy_version 829183 (0.0010)
+[2023-07-06 14:57:11,213][98493] Updated weights for policy 0, policy_version 829241 (0.0008)
+[2023-07-06 14:57:12,506][98493] Updated weights for policy 0, policy_version 829296 (0.0006)
+[2023-07-06 14:57:14,475][98493] Updated weights for policy 0, policy_version 829350 (0.0007)
+[2023-07-06 14:57:14,764][98243] Fps is (10 sec: 117970.1, 60 sec: 109227.2, 300 sec: 111078.0). Total num frames: 1698562048. Throughput: 0: 28000.8. Samples: 424698880. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:14,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:57:15,062][98493] Updated weights for policy 0, policy_version 829424 (0.0007)
+[2023-07-06 14:57:15,813][98493] Updated weights for policy 0, policy_version 829475 (0.0007)
+[2023-07-06 14:57:16,800][98493] Updated weights for policy 0, policy_version 829506 (0.0006)
+[2023-07-06 14:57:17,204][98493] Updated weights for policy 0, policy_version 829556 (0.0008)
+[2023-07-06 14:57:19,224][98493] Updated weights for policy 0, policy_version 829607 (0.0007)
+[2023-07-06 14:57:19,629][98493] Updated weights for policy 0, policy_version 829650 (0.0007)
+[2023-07-06 14:57:19,764][98243] Fps is (10 sec: 121242.6, 60 sec: 110319.0, 300 sec: 111078.1). Total num frames: 1699151872. Throughput: 0: 27909.7. Samples: 424863232. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:19,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:57:20,194][98493] Updated weights for policy 0, policy_version 829699 (0.0006)
+[2023-07-06 14:57:20,653][98493] Updated weights for policy 0, policy_version 829757 (0.0007)
+[2023-07-06 14:57:22,016][98493] Updated weights for policy 0, policy_version 829808 (0.0007)
+[2023-07-06 14:57:23,983][98493] Updated weights for policy 0, policy_version 829856 (0.0008)
+[2023-07-06 14:57:24,539][98493] Updated weights for policy 0, policy_version 829920 (0.0007)
+[2023-07-06 14:57:24,764][98243] Fps is (10 sec: 114686.3, 60 sec: 110865.1, 300 sec: 111077.9). Total num frames: 1699708928. Throughput: 0: 27966.8. Samples: 424946176. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:24,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:57:25,215][98493] Updated weights for policy 0, policy_version 829990 (0.0009)
+[2023-07-06 14:57:26,576][98449] Signal inference workers to stop experience collection... (42900 times)
+[2023-07-06 14:57:26,617][98493] InferenceWorker_p0-w0: stopping experience collection (42900 times)
+[2023-07-06 14:57:26,660][98449] Signal inference workers to resume experience collection... (42900 times)
+[2023-07-06 14:57:26,660][98493] InferenceWorker_p0-w0: resuming experience collection (42900 times)
+[2023-07-06 14:57:26,661][98493] Updated weights for policy 0, policy_version 830048 (0.0006)
+[2023-07-06 14:57:28,745][98493] Updated weights for policy 0, policy_version 830096 (0.0007)
+[2023-07-06 14:57:29,280][98493] Updated weights for policy 0, policy_version 830152 (0.0008)
+[2023-07-06 14:57:29,725][98493] Updated weights for policy 0, policy_version 830208 (0.0007)
+[2023-07-06 14:57:29,764][98243] Fps is (10 sec: 111411.3, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 1700265984. Throughput: 0: 28000.7. Samples: 425115136. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:29,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:57:30,250][98493] Updated weights for policy 0, policy_version 830264 (0.0007)
+[2023-07-06 14:57:31,619][98493] Updated weights for policy 0, policy_version 830305 (0.0007)
+[2023-07-06 14:57:33,392][98493] Updated weights for policy 0, policy_version 830340 (0.0007)
+[2023-07-06 14:57:34,040][98493] Updated weights for policy 0, policy_version 830416 (0.0007)
+[2023-07-06 14:57:34,675][98493] Updated weights for policy 0, policy_version 830487 (0.0008)
+[2023-07-06 14:57:34,764][98243] Fps is (10 sec: 114689.0, 60 sec: 112503.6, 300 sec: 111300.2). Total num frames: 1700855808. Throughput: 0: 27704.9. Samples: 425271296. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:34,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:57:36,125][98493] Updated weights for policy 0, policy_version 830534 (0.0007)
+[2023-07-06 14:57:36,578][98493] Updated weights for policy 0, policy_version 830592 (0.0007)
+[2023-07-06 14:57:38,491][98493] Updated weights for policy 0, policy_version 830650 (0.0007)
+[2023-07-06 14:57:39,070][98493] Updated weights for policy 0, policy_version 830707 (0.0008)
+[2023-07-06 14:57:39,587][98493] Updated weights for policy 0, policy_version 830768 (0.0007)
+[2023-07-06 14:57:39,770][98243] Fps is (10 sec: 117899.2, 60 sec: 113585.9, 300 sec: 111520.2). Total num frames: 1701445632. Throughput: 0: 27940.4. Samples: 425361408. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:39,770][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 14:57:41,211][98493] Updated weights for policy 0, policy_version 830823 (0.0007)
+[2023-07-06 14:57:42,975][98493] Updated weights for policy 0, policy_version 830880 (0.0007)
+[2023-07-06 14:57:43,389][98493] Updated weights for policy 0, policy_version 830920 (0.0007)
+[2023-07-06 14:57:43,626][98449] Signal inference workers to stop experience collection... (42950 times)
+[2023-07-06 14:57:43,667][98493] InferenceWorker_p0-w0: stopping experience collection (42950 times)
+[2023-07-06 14:57:43,713][98449] Signal inference workers to resume experience collection... (42950 times)
+[2023-07-06 14:57:43,713][98493] InferenceWorker_p0-w0: resuming experience collection (42950 times)
+[2023-07-06 14:57:43,947][98493] Updated weights for policy 0, policy_version 830984 (0.0007)
+[2023-07-06 14:57:44,764][98243] Fps is (10 sec: 111409.0, 60 sec: 111957.0, 300 sec: 111522.2). Total num frames: 1701969920. Throughput: 0: 27761.9. Samples: 425525760. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 14:57:45,609][98493] Updated weights for policy 0, policy_version 831043 (0.0007)
+[2023-07-06 14:57:47,338][98493] Updated weights for policy 0, policy_version 831105 (0.0007)
+[2023-07-06 14:57:47,848][98493] Updated weights for policy 0, policy_version 831167 (0.0007)
+[2023-07-06 14:57:48,308][98493] Updated weights for policy 0, policy_version 831216 (0.0008)
+[2023-07-06 14:57:48,866][98493] Updated weights for policy 0, policy_version 831280 (0.0007)
+[2023-07-06 14:57:49,764][98243] Fps is (10 sec: 104915.7, 60 sec: 111411.2, 300 sec: 111300.1). Total num frames: 1702494208. Throughput: 0: 27659.6. Samples: 425690112. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:49,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:57:50,467][98493] Updated weights for policy 0, policy_version 831328 (0.0007)
+[2023-07-06 14:57:52,330][98493] Updated weights for policy 0, policy_version 831376 (0.0007)
+[2023-07-06 14:57:52,846][98493] Updated weights for policy 0, policy_version 831430 (0.0032)
+[2023-07-06 14:57:53,354][98493] Updated weights for policy 0, policy_version 831488 (0.0008)
+[2023-07-06 14:57:53,900][98493] Updated weights for policy 0, policy_version 831545 (0.0008)
+[2023-07-06 14:57:54,765][98243] Fps is (10 sec: 104855.6, 60 sec: 111410.5, 300 sec: 111077.8). Total num frames: 1703018496. Throughput: 0: 27795.7. Samples: 425777664. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:54,766][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:57:55,113][98493] Updated weights for policy 0, policy_version 831584 (0.0006)
+[2023-07-06 14:57:56,982][98493] Updated weights for policy 0, policy_version 831619 (0.0006)
+[2023-07-06 14:57:57,592][98493] Updated weights for policy 0, policy_version 831696 (0.0007)
+[2023-07-06 14:57:58,100][98493] Updated weights for policy 0, policy_version 831747 (0.0008)
+[2023-07-06 14:57:58,541][98493] Updated weights for policy 0, policy_version 831801 (0.0007)
+[2023-07-06 14:57:59,737][98493] Updated weights for policy 0, policy_version 831840 (0.0006)
+[2023-07-06 14:57:59,764][98243] Fps is (10 sec: 111408.5, 60 sec: 112503.7, 300 sec: 110966.8). Total num frames: 1703608320. Throughput: 0: 27625.0. Samples: 425942016. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:57:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:58:01,474][98449] Signal inference workers to stop experience collection... (43000 times)
+[2023-07-06 14:58:01,518][98493] InferenceWorker_p0-w0: stopping experience collection (43000 times)
+[2023-07-06 14:58:01,565][98449] Signal inference workers to resume experience collection... (43000 times)
+[2023-07-06 14:58:01,566][98493] InferenceWorker_p0-w0: resuming experience collection (43000 times)
+[2023-07-06 14:58:01,643][98493] Updated weights for policy 0, policy_version 831889 (0.0007)
+[2023-07-06 14:58:02,115][98493] Updated weights for policy 0, policy_version 831952 (0.0007)
+[2023-07-06 14:58:02,609][98493] Updated weights for policy 0, policy_version 832002 (0.0007)
+[2023-07-06 14:58:03,042][98493] Updated weights for policy 0, policy_version 832060 (0.0006)
+[2023-07-06 14:58:04,717][98493] Updated weights for policy 0, policy_version 832124 (0.0008)
+[2023-07-06 14:58:04,764][98243] Fps is (10 sec: 117969.3, 60 sec: 113596.5, 300 sec: 111078.0). Total num frames: 1704198144. Throughput: 0: 27704.9. Samples: 426109952. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:58:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:58:06,531][98493] Updated weights for policy 0, policy_version 832192 (0.0008)
+[2023-07-06 14:58:07,075][98493] Updated weights for policy 0, policy_version 832249 (0.0007)
+[2023-07-06 14:58:07,777][98493] Updated weights for policy 0, policy_version 832304 (0.0006)
+[2023-07-06 14:58:09,233][98493] Updated weights for policy 0, policy_version 832352 (0.0006)
+[2023-07-06 14:58:09,765][98243] Fps is (10 sec: 111408.8, 60 sec: 113048.8, 300 sec: 111077.8). Total num frames: 1704722432. Throughput: 0: 27716.0. Samples: 426193408. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:58:09,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:58:10,939][98493] Updated weights for policy 0, policy_version 832400 (0.0007)
+[2023-07-06 14:58:11,503][98493] Updated weights for policy 0, policy_version 832464 (0.0007)
+[2023-07-06 14:58:11,992][98493] Updated weights for policy 0, policy_version 832512 (0.0007)
+[2023-07-06 14:58:12,526][98493] Updated weights for policy 0, policy_version 832571 (0.0006)
+[2023-07-06 14:58:14,264][98493] Updated weights for policy 0, policy_version 832615 (0.0007)
+[2023-07-06 14:58:14,764][98243] Fps is (10 sec: 104856.0, 60 sec: 111410.8, 300 sec: 111078.0). Total num frames: 1705246720. Throughput: 0: 27659.3. Samples: 426359808. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:58:14,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:58:15,916][98493] Updated weights for policy 0, policy_version 832677 (0.0007)
+[2023-07-06 14:58:16,357][98493] Updated weights for policy 0, policy_version 832724 (0.0007)
+[2023-07-06 14:58:16,917][98493] Updated weights for policy 0, policy_version 832784 (0.0008)
+[2023-07-06 14:58:17,107][98449] Signal inference workers to stop experience collection... (43050 times)
+[2023-07-06 14:58:17,141][98493] InferenceWorker_p0-w0: stopping experience collection (43050 times)
+[2023-07-06 14:58:17,186][98449] Signal inference workers to resume experience collection... (43050 times)
+[2023-07-06 14:58:17,186][98493] InferenceWorker_p0-w0: resuming experience collection (43050 times)
+[2023-07-06 14:58:18,885][98493] Updated weights for policy 0, policy_version 832848 (0.0006)
+[2023-07-06 14:58:19,764][98243] Fps is (10 sec: 104861.5, 60 sec: 110318.7, 300 sec: 111078.0). Total num frames: 1705771008. Throughput: 0: 27864.1. Samples: 426525184. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:58:19,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 14:58:20,506][98493] Updated weights for policy 0, policy_version 832912 (0.0007)
+[2023-07-06 14:58:21,130][98493] Updated weights for policy 0, policy_version 832977 (0.0008)
+[2023-07-06 14:58:21,573][98493] Updated weights for policy 0, policy_version 833030 (0.0007)
+[2023-07-06 14:58:23,593][98493] Updated weights for policy 0, policy_version 833091 (0.0008)
+[2023-07-06 14:58:24,065][98493] Updated weights for policy 0, policy_version 833152 (0.0007)
+[2023-07-06 14:58:24,764][98243] Fps is (10 sec: 104858.4, 60 sec: 109772.8, 300 sec: 111077.9). Total num frames: 1706295296. Throughput: 0: 27685.5. Samples: 426607104. Policy #0 lag: (min: 12.0, avg: 99.0, max: 268.0)
+[2023-07-06 14:58:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:58:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000833152_1706295296.pth...
+[2023-07-06 14:58:24,804][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000820128_1679622144.pth
+[2023-07-06 14:58:25,697][98493] Updated weights for policy 0, policy_version 833201 (0.0008)
+[2023-07-06 14:58:26,080][98493] Updated weights for policy 0, policy_version 833248 (0.0007)
+[2023-07-06 14:58:26,575][98493] Updated weights for policy 0, policy_version 833299 (0.0007)
+[2023-07-06 14:58:28,279][98493] Updated weights for policy 0, policy_version 833360 (0.0007)
+[2023-07-06 14:58:29,764][98243] Fps is (10 sec: 104858.6, 60 sec: 109226.6, 300 sec: 111078.0). Total num frames: 1706819584. Throughput: 0: 27727.7. Samples: 426773504. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:29,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 14:58:29,942][98493] Updated weights for policy 0, policy_version 833424 (0.0008)
+[2023-07-06 14:58:30,453][98493] Updated weights for policy 0, policy_version 833476 (0.0006)
+[2023-07-06 14:58:31,041][98493] Updated weights for policy 0, policy_version 833545 (0.0007)
+[2023-07-06 14:58:31,460][98493] Updated weights for policy 0, policy_version 833596 (0.0007)
+[2023-07-06 14:58:33,352][98493] Updated weights for policy 0, policy_version 833659 (0.0008)
+[2023-07-06 14:58:34,764][98243] Fps is (10 sec: 108135.4, 60 sec: 108680.6, 300 sec: 111078.2). Total num frames: 1707376640. Throughput: 0: 27841.5. Samples: 426942976. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:34,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 14:58:34,921][98493] Updated weights for policy 0, policy_version 833712 (0.0007)
+[2023-07-06 14:58:35,110][98449] Signal inference workers to stop experience collection... (43100 times)
+[2023-07-06 14:58:35,152][98493] InferenceWorker_p0-w0: stopping experience collection (43100 times)
+[2023-07-06 14:58:35,197][98449] Signal inference workers to resume experience collection... (43100 times)
+[2023-07-06 14:58:35,197][98493] InferenceWorker_p0-w0: resuming experience collection (43100 times)
+[2023-07-06 14:58:35,548][98493] Updated weights for policy 0, policy_version 833784 (0.0008)
+[2023-07-06 14:58:36,077][98493] Updated weights for policy 0, policy_version 833830 (0.0007)
+[2023-07-06 14:58:38,026][98493] Updated weights for policy 0, policy_version 833897 (0.0007)
+[2023-07-06 14:58:39,495][98493] Updated weights for policy 0, policy_version 833944 (0.0006)
+[2023-07-06 14:58:39,764][98243] Fps is (10 sec: 114686.4, 60 sec: 108690.3, 300 sec: 111189.0). Total num frames: 1707966464. Throughput: 0: 27716.4. Samples: 427024896. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:39,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:58:40,029][98493] Updated weights for policy 0, policy_version 834002 (0.0007)
+[2023-07-06 14:58:40,750][98493] Updated weights for policy 0, policy_version 834070 (0.0008)
+[2023-07-06 14:58:42,466][98493] Updated weights for policy 0, policy_version 834128 (0.0006)
+[2023-07-06 14:58:44,017][98493] Updated weights for policy 0, policy_version 834181 (0.0008)
+[2023-07-06 14:58:44,569][98493] Updated weights for policy 0, policy_version 834242 (0.0008)
+[2023-07-06 14:58:44,764][98243] Fps is (10 sec: 117964.7, 60 sec: 109773.2, 300 sec: 111300.3). Total num frames: 1708556288. Throughput: 0: 27773.3. Samples: 427191808. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:44,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 14:58:45,055][98493] Updated weights for policy 0, policy_version 834303 (0.0009)
+[2023-07-06 14:58:45,694][98493] Updated weights for policy 0, policy_version 834354 (0.0006)
+[2023-07-06 14:58:47,136][98493] Updated weights for policy 0, policy_version 834391 (0.0008)
+[2023-07-06 14:58:48,792][98493] Updated weights for policy 0, policy_version 834436 (0.0007)
+[2023-07-06 14:58:49,377][98493] Updated weights for policy 0, policy_version 834504 (0.0007)
+[2023-07-06 14:58:49,764][98243] Fps is (10 sec: 117966.7, 60 sec: 110865.1, 300 sec: 111300.1). Total num frames: 1709146112. Throughput: 0: 27704.9. Samples: 427356672. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:58:49,966][98493] Updated weights for policy 0, policy_version 834576 (0.0007)
+[2023-07-06 14:58:50,343][98493] Updated weights for policy 0, policy_version 834620 (0.0006)
+[2023-07-06 14:58:52,123][98493] Updated weights for policy 0, policy_version 834679 (0.0008)
+[2023-07-06 14:58:53,424][98449] Signal inference workers to stop experience collection... (43150 times)
+[2023-07-06 14:58:53,460][98493] InferenceWorker_p0-w0: stopping experience collection (43150 times)
+[2023-07-06 14:58:53,499][98449] Signal inference workers to resume experience collection... (43150 times)
+[2023-07-06 14:58:53,499][98493] InferenceWorker_p0-w0: resuming experience collection (43150 times)
+[2023-07-06 14:58:53,639][98493] Updated weights for policy 0, policy_version 834736 (0.0006)
+[2023-07-06 14:58:54,381][98493] Updated weights for policy 0, policy_version 834800 (0.0008)
+[2023-07-06 14:58:54,764][98243] Fps is (10 sec: 117964.6, 60 sec: 111958.0, 300 sec: 111300.1). Total num frames: 1709735936. Throughput: 0: 27739.3. Samples: 427441664. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:54,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:58:55,013][98493] Updated weights for policy 0, policy_version 834874 (0.0008)
+[2023-07-06 14:58:57,021][98493] Updated weights for policy 0, policy_version 834937 (0.0008)
+[2023-07-06 14:58:58,225][98493] Updated weights for policy 0, policy_version 834965 (0.0011)
+[2023-07-06 14:58:58,718][98493] Updated weights for policy 0, policy_version 835015 (0.0007)
+[2023-07-06 14:58:59,272][98493] Updated weights for policy 0, policy_version 835078 (0.0007)
+[2023-07-06 14:58:59,720][98493] Updated weights for policy 0, policy_version 835136 (0.0007)
+[2023-07-06 14:58:59,764][98243] Fps is (10 sec: 121241.1, 60 sec: 112503.9, 300 sec: 111522.3). Total num frames: 1710358528. Throughput: 0: 27773.2. Samples: 427609600. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:58:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:59:01,726][98493] Updated weights for policy 0, policy_version 835200 (0.0008)
+[2023-07-06 14:59:03,124][98493] Updated weights for policy 0, policy_version 835258 (0.0006)
+[2023-07-06 14:59:03,738][98493] Updated weights for policy 0, policy_version 835321 (0.0007)
+[2023-07-06 14:59:04,369][98493] Updated weights for policy 0, policy_version 835387 (0.0007)
+[2023-07-06 14:59:04,765][98243] Fps is (10 sec: 114682.4, 60 sec: 111410.3, 300 sec: 111522.1). Total num frames: 1710882816. Throughput: 0: 27738.8. Samples: 427773440. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:04,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:59:06,186][98493] Updated weights for policy 0, policy_version 835440 (0.0007)
+[2023-07-06 14:59:07,741][98493] Updated weights for policy 0, policy_version 835488 (0.0010)
+[2023-07-06 14:59:08,284][98493] Updated weights for policy 0, policy_version 835552 (0.0008)
+[2023-07-06 14:59:08,914][98493] Updated weights for policy 0, policy_version 835621 (0.0009)
+[2023-07-06 14:59:09,764][98243] Fps is (10 sec: 104857.5, 60 sec: 111412.0, 300 sec: 111522.3). Total num frames: 1711407104. Throughput: 0: 27909.7. Samples: 427863040. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 14:59:10,534][98493] Updated weights for policy 0, policy_version 835654 (0.0006)
+[2023-07-06 14:59:10,658][98449] Signal inference workers to stop experience collection... (43200 times)
+[2023-07-06 14:59:10,691][98493] InferenceWorker_p0-w0: stopping experience collection (43200 times)
+[2023-07-06 14:59:10,734][98449] Signal inference workers to resume experience collection... (43200 times)
+[2023-07-06 14:59:10,734][98493] InferenceWorker_p0-w0: resuming experience collection (43200 times)
+[2023-07-06 14:59:10,973][98493] Updated weights for policy 0, policy_version 835709 (0.0007)
+[2023-07-06 14:59:12,410][98493] Updated weights for policy 0, policy_version 835744 (0.0008)
+[2023-07-06 14:59:13,041][98493] Updated weights for policy 0, policy_version 835809 (0.0007)
+[2023-07-06 14:59:13,525][98493] Updated weights for policy 0, policy_version 835864 (0.0007)
+[2023-07-06 14:59:14,764][98243] Fps is (10 sec: 104862.3, 60 sec: 111411.4, 300 sec: 111522.5). Total num frames: 1711931392. Throughput: 0: 27773.1. Samples: 428023296. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:59:15,325][98493] Updated weights for policy 0, policy_version 835920 (0.0007)
+[2023-07-06 14:59:17,053][98493] Updated weights for policy 0, policy_version 835984 (0.0007)
+[2023-07-06 14:59:17,633][98493] Updated weights for policy 0, policy_version 836048 (0.0007)
+[2023-07-06 14:59:18,183][98493] Updated weights for policy 0, policy_version 836104 (0.0007)
+[2023-07-06 14:59:19,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1712455680. Throughput: 0: 27807.3. Samples: 428194304. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:19,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:59:19,926][98493] Updated weights for policy 0, policy_version 836161 (0.0007)
+[2023-07-06 14:59:20,377][98493] Updated weights for policy 0, policy_version 836216 (0.0006)
+[2023-07-06 14:59:22,124][98493] Updated weights for policy 0, policy_version 836279 (0.0006)
+[2023-07-06 14:59:22,551][98493] Updated weights for policy 0, policy_version 836323 (0.0008)
+[2023-07-06 14:59:22,974][98493] Updated weights for policy 0, policy_version 836372 (0.0006)
+[2023-07-06 14:59:24,610][98493] Updated weights for policy 0, policy_version 836440 (0.0007)
+[2023-07-06 14:59:24,764][98243] Fps is (10 sec: 111410.9, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 1713045504. Throughput: 0: 27796.0. Samples: 428275712. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:24,778][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:59:24,924][98493] Updated weights for policy 0, policy_version 836480 (0.0010)
+[2023-07-06 14:59:27,057][98493] Updated weights for policy 0, policy_version 836544 (0.0007)
+[2023-07-06 14:59:27,374][98449] Signal inference workers to stop experience collection... (43250 times)
+[2023-07-06 14:59:27,410][98493] InferenceWorker_p0-w0: stopping experience collection (43250 times)
+[2023-07-06 14:59:27,458][98449] Signal inference workers to resume experience collection... (43250 times)
+[2023-07-06 14:59:27,458][98493] InferenceWorker_p0-w0: resuming experience collection (43250 times)
+[2023-07-06 14:59:27,616][98493] Updated weights for policy 0, policy_version 836608 (0.0007)
+[2023-07-06 14:59:28,138][98493] Updated weights for policy 0, policy_version 836667 (0.0007)
+[2023-07-06 14:59:29,539][98493] Updated weights for policy 0, policy_version 836707 (0.0019)
+[2023-07-06 14:59:29,764][98243] Fps is (10 sec: 114688.0, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 1713602560. Throughput: 0: 27830.0. Samples: 428444160. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:29,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:59:31,374][98493] Updated weights for policy 0, policy_version 836761 (0.0006)
+[2023-07-06 14:59:31,967][98493] Updated weights for policy 0, policy_version 836832 (0.0038)
+[2023-07-06 14:59:32,635][98493] Updated weights for policy 0, policy_version 836901 (0.0007)
+[2023-07-06 14:59:34,350][98493] Updated weights for policy 0, policy_version 836933 (0.0007)
+[2023-07-06 14:59:34,764][98243] Fps is (10 sec: 108135.0, 60 sec: 112503.4, 300 sec: 111189.0). Total num frames: 1714126848. Throughput: 0: 27818.7. Samples: 428608512. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:34,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 14:59:35,787][98493] Updated weights for policy 0, policy_version 836994 (0.0008)
+[2023-07-06 14:59:36,295][98493] Updated weights for policy 0, policy_version 837056 (0.0007)
+[2023-07-06 14:59:36,806][98493] Updated weights for policy 0, policy_version 837114 (0.0007)
+[2023-07-06 14:59:37,305][98493] Updated weights for policy 0, policy_version 837153 (0.0007)
+[2023-07-06 14:59:39,443][98493] Updated weights for policy 0, policy_version 837206 (0.0007)
+[2023-07-06 14:59:39,764][98243] Fps is (10 sec: 104856.9, 60 sec: 111411.3, 300 sec: 110966.8). Total num frames: 1714651136. Throughput: 0: 27716.2. Samples: 428688896. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:39,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 14:59:39,768][98493] Updated weights for policy 0, policy_version 837245 (0.0006)
+[2023-07-06 14:59:40,543][98493] Updated weights for policy 0, policy_version 837296 (0.0007)
+[2023-07-06 14:59:40,978][98493] Updated weights for policy 0, policy_version 837344 (0.0031)
+[2023-07-06 14:59:41,928][98493] Updated weights for policy 0, policy_version 837398 (0.0007)
+[2023-07-06 14:59:43,902][98493] Updated weights for policy 0, policy_version 837445 (0.0007)
+[2023-07-06 14:59:44,364][98493] Updated weights for policy 0, policy_version 837504 (0.0007)
+[2023-07-06 14:59:44,764][98243] Fps is (10 sec: 108131.9, 60 sec: 110864.6, 300 sec: 111078.0). Total num frames: 1715208192. Throughput: 0: 27898.2. Samples: 428865024. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:44,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 14:59:45,188][98449] Signal inference workers to stop experience collection... (43300 times)
+[2023-07-06 14:59:45,217][98493] InferenceWorker_p0-w0: stopping experience collection (43300 times)
+[2023-07-06 14:59:45,274][98449] Signal inference workers to resume experience collection... (43300 times)
+[2023-07-06 14:59:45,274][98493] InferenceWorker_p0-w0: resuming experience collection (43300 times)
+[2023-07-06 14:59:45,415][98493] Updated weights for policy 0, policy_version 837568 (0.0007)
+[2023-07-06 14:59:45,947][98493] Updated weights for policy 0, policy_version 837632 (0.0008)
+[2023-07-06 14:59:47,061][98493] Updated weights for policy 0, policy_version 837690 (0.0007)
+[2023-07-06 14:59:48,821][98493] Updated weights for policy 0, policy_version 837731 (0.0006)
+[2023-07-06 14:59:49,764][98243] Fps is (10 sec: 111412.6, 60 sec: 110319.0, 300 sec: 110966.9). Total num frames: 1715765248. Throughput: 0: 27921.4. Samples: 429029888. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:49,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 14:59:49,981][98493] Updated weights for policy 0, policy_version 837794 (0.0008)
+[2023-07-06 14:59:50,486][98493] Updated weights for policy 0, policy_version 837856 (0.0008)
+[2023-07-06 14:59:51,545][98493] Updated weights for policy 0, policy_version 837904 (0.0007)
+[2023-07-06 14:59:53,098][98493] Updated weights for policy 0, policy_version 837954 (0.0007)
+[2023-07-06 14:59:53,596][98493] Updated weights for policy 0, policy_version 838016 (0.0007)
+[2023-07-06 14:59:54,764][98243] Fps is (10 sec: 111412.7, 60 sec: 109772.6, 300 sec: 110855.8). Total num frames: 1716322304. Throughput: 0: 27739.0. Samples: 429111296. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:54,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 14:59:55,039][98493] Updated weights for policy 0, policy_version 838085 (0.0007)
+[2023-07-06 14:59:55,472][98493] Updated weights for policy 0, policy_version 838141 (0.0006)
+[2023-07-06 14:59:56,651][98493] Updated weights for policy 0, policy_version 838202 (0.0006)
+[2023-07-06 14:59:57,995][98493] Updated weights for policy 0, policy_version 838245 (0.0006)
+[2023-07-06 14:59:59,354][98493] Updated weights for policy 0, policy_version 838320 (0.0006)
+[2023-07-06 14:59:59,764][98243] Fps is (10 sec: 117964.1, 60 sec: 109772.8, 300 sec: 111189.0). Total num frames: 1716944896. Throughput: 0: 27898.3. Samples: 429278720. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 14:59:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 14:59:59,950][98493] Updated weights for policy 0, policy_version 838377 (0.0007)
+[2023-07-06 15:00:01,286][98493] Updated weights for policy 0, policy_version 838424 (0.0007)
+[2023-07-06 15:00:02,421][98493] Updated weights for policy 0, policy_version 838465 (0.0006)
+[2023-07-06 15:00:02,855][98493] Updated weights for policy 0, policy_version 838523 (0.0007)
+[2023-07-06 15:00:03,622][98449] Signal inference workers to stop experience collection... (43350 times)
+[2023-07-06 15:00:03,660][98493] InferenceWorker_p0-w0: stopping experience collection (43350 times)
+[2023-07-06 15:00:03,693][98449] Signal inference workers to resume experience collection... (43350 times)
+[2023-07-06 15:00:03,693][98493] InferenceWorker_p0-w0: resuming experience collection (43350 times)
+[2023-07-06 15:00:03,781][98493] Updated weights for policy 0, policy_version 838567 (0.0006)
+[2023-07-06 15:00:04,546][98493] Updated weights for policy 0, policy_version 838629 (0.0008)
+[2023-07-06 15:00:04,764][98243] Fps is (10 sec: 124519.2, 60 sec: 111412.0, 300 sec: 111522.3). Total num frames: 1717567488. Throughput: 0: 27773.1. Samples: 429444096. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 15:00:04,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:00:05,867][98493] Updated weights for policy 0, policy_version 838672 (0.0006)
+[2023-07-06 15:00:06,794][98493] Updated weights for policy 0, policy_version 838726 (0.0007)
+[2023-07-06 15:00:07,258][98493] Updated weights for policy 0, policy_version 838784 (0.0007)
+[2023-07-06 15:00:08,531][98493] Updated weights for policy 0, policy_version 838843 (0.0006)
+[2023-07-06 15:00:09,318][98493] Updated weights for policy 0, policy_version 838883 (0.0006)
+[2023-07-06 15:00:09,764][98243] Fps is (10 sec: 114688.6, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1718091776. Throughput: 0: 27898.4. Samples: 429531136. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 15:00:09,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:00:10,876][98493] Updated weights for policy 0, policy_version 838936 (0.0012)
+[2023-07-06 15:00:11,313][98493] Updated weights for policy 0, policy_version 838981 (0.0007)
+[2023-07-06 15:00:12,803][98493] Updated weights for policy 0, policy_version 839042 (0.0008)
+[2023-07-06 15:00:13,241][98493] Updated weights for policy 0, policy_version 839098 (0.0014)
+[2023-07-06 15:00:13,868][98493] Updated weights for policy 0, policy_version 839136 (0.0006)
+[2023-07-06 15:00:14,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1718616064. Throughput: 0: 27932.4. Samples: 429701120. Policy #0 lag: (min: 49.0, avg: 122.8, max: 305.0)
+[2023-07-06 15:00:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:00:15,600][98493] Updated weights for policy 0, policy_version 839202 (0.0007)
+[2023-07-06 15:00:16,322][98493] Updated weights for policy 0, policy_version 839264 (0.0006)
+[2023-07-06 15:00:17,432][98493] Updated weights for policy 0, policy_version 839299 (0.0007)
+[2023-07-06 15:00:17,914][98493] Updated weights for policy 0, policy_version 839360 (0.0007)
+[2023-07-06 15:00:18,825][98493] Updated weights for policy 0, policy_version 839421 (0.0006)
+[2023-07-06 15:00:19,764][98243] Fps is (10 sec: 104856.7, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1719140352. Throughput: 0: 27966.5. Samples: 429867008. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:19,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:00:20,464][98493] Updated weights for policy 0, policy_version 839460 (0.0007)
+[2023-07-06 15:00:21,118][98493] Updated weights for policy 0, policy_version 839520 (0.0007)
+[2023-07-06 15:00:22,058][98493] Updated weights for policy 0, policy_version 839554 (0.0006)
+[2023-07-06 15:00:22,295][98449] Signal inference workers to stop experience collection... (43400 times)
+[2023-07-06 15:00:22,344][98493] InferenceWorker_p0-w0: stopping experience collection (43400 times)
+[2023-07-06 15:00:22,391][98449] Signal inference workers to resume experience collection... (43400 times)
+[2023-07-06 15:00:22,392][98493] InferenceWorker_p0-w0: resuming experience collection (43400 times)
+[2023-07-06 15:00:22,529][98493] Updated weights for policy 0, policy_version 839616 (0.0007)
+[2023-07-06 15:00:23,513][98493] Updated weights for policy 0, policy_version 839671 (0.0008)
+[2023-07-06 15:00:24,764][98243] Fps is (10 sec: 104856.7, 60 sec: 110318.8, 300 sec: 111189.0). Total num frames: 1719664640. Throughput: 0: 28012.1. Samples: 429949440. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:00:24,933][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000839712_1719730176.pth...
+[2023-07-06 15:00:25,000][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000826688_1693057024.pth
+[2023-07-06 15:00:25,194][98493] Updated weights for policy 0, policy_version 839739 (0.0008)
+[2023-07-06 15:00:25,780][98493] Updated weights for policy 0, policy_version 839792 (0.0023)
+[2023-07-06 15:00:26,949][98493] Updated weights for policy 0, policy_version 839829 (0.0006)
+[2023-07-06 15:00:27,794][98493] Updated weights for policy 0, policy_version 839875 (0.0008)
+[2023-07-06 15:00:28,241][98493] Updated weights for policy 0, policy_version 839930 (0.0007)
+[2023-07-06 15:00:29,764][98243] Fps is (10 sec: 111411.6, 60 sec: 110865.1, 300 sec: 111411.3). Total num frames: 1720254464. Throughput: 0: 27864.3. Samples: 430118912. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:00:29,838][98493] Updated weights for policy 0, policy_version 839984 (0.0008)
+[2023-07-06 15:00:30,304][98493] Updated weights for policy 0, policy_version 840025 (0.0016)
+[2023-07-06 15:00:31,512][98493] Updated weights for policy 0, policy_version 840096 (0.0007)
+[2023-07-06 15:00:32,581][98493] Updated weights for policy 0, policy_version 840144 (0.0006)
+[2023-07-06 15:00:33,026][98493] Updated weights for policy 0, policy_version 840191 (0.0023)
+[2023-07-06 15:00:34,603][98493] Updated weights for policy 0, policy_version 840228 (0.0007)
+[2023-07-06 15:00:34,764][98243] Fps is (10 sec: 114689.1, 60 sec: 111411.2, 300 sec: 111300.1). Total num frames: 1720811520. Throughput: 0: 27977.9. Samples: 430288896. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:34,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:00:35,166][98493] Updated weights for policy 0, policy_version 840293 (0.0007)
+[2023-07-06 15:00:36,065][98493] Updated weights for policy 0, policy_version 840336 (0.0006)
+[2023-07-06 15:00:37,246][98493] Updated weights for policy 0, policy_version 840400 (0.0007)
+[2023-07-06 15:00:38,994][98493] Updated weights for policy 0, policy_version 840449 (0.0007)
+[2023-07-06 15:00:39,451][98493] Updated weights for policy 0, policy_version 840501 (0.0007)
+[2023-07-06 15:00:39,764][98243] Fps is (10 sec: 114688.6, 60 sec: 112503.7, 300 sec: 111189.0). Total num frames: 1721401344. Throughput: 0: 27943.9. Samples: 430368768. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:39,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:00:39,878][98493] Updated weights for policy 0, policy_version 840550 (0.0006)
+[2023-07-06 15:00:40,652][98493] Updated weights for policy 0, policy_version 840582 (0.0006)
+[2023-07-06 15:00:40,862][98449] Signal inference workers to stop experience collection... (43450 times)
+[2023-07-06 15:00:40,917][98493] InferenceWorker_p0-w0: stopping experience collection (43450 times)
+[2023-07-06 15:00:40,965][98449] Signal inference workers to resume experience collection... (43450 times)
+[2023-07-06 15:00:40,966][98493] InferenceWorker_p0-w0: resuming experience collection (43450 times)
+[2023-07-06 15:00:41,973][98493] Updated weights for policy 0, policy_version 840642 (0.0007)
+[2023-07-06 15:00:42,395][98493] Updated weights for policy 0, policy_version 840695 (0.0006)
+[2023-07-06 15:00:43,872][98493] Updated weights for policy 0, policy_version 840736 (0.0007)
+[2023-07-06 15:00:44,382][98493] Updated weights for policy 0, policy_version 840786 (0.0006)
+[2023-07-06 15:00:44,764][98243] Fps is (10 sec: 121241.3, 60 sec: 113596.1, 300 sec: 111411.2). Total num frames: 1722023936. Throughput: 0: 28103.1. Samples: 430543360. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:44,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:00:45,513][98493] Updated weights for policy 0, policy_version 840852 (0.0007)
+[2023-07-06 15:00:45,802][98493] Updated weights for policy 0, policy_version 840889 (0.0007)
+[2023-07-06 15:00:46,770][98493] Updated weights for policy 0, policy_version 840932 (0.0008)
+[2023-07-06 15:00:48,451][98493] Updated weights for policy 0, policy_version 840982 (0.0006)
+[2023-07-06 15:00:48,965][98493] Updated weights for policy 0, policy_version 841040 (0.0028)
+[2023-07-06 15:00:49,323][98493] Updated weights for policy 0, policy_version 841085 (0.0007)
+[2023-07-06 15:00:49,764][98243] Fps is (10 sec: 114685.7, 60 sec: 113049.2, 300 sec: 111189.0). Total num frames: 1722548224. Throughput: 0: 28103.0. Samples: 430708736. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:49,766][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:00:50,301][98493] Updated weights for policy 0, policy_version 841136 (0.0007)
+[2023-07-06 15:00:51,317][98493] Updated weights for policy 0, policy_version 841188 (0.0007)
+[2023-07-06 15:00:53,293][98493] Updated weights for policy 0, policy_version 841248 (0.0006)
+[2023-07-06 15:00:53,862][98493] Updated weights for policy 0, policy_version 841312 (0.0006)
+[2023-07-06 15:00:54,708][98493] Updated weights for policy 0, policy_version 841360 (0.0006)
+[2023-07-06 15:00:54,764][98243] Fps is (10 sec: 108134.7, 60 sec: 113049.8, 300 sec: 111189.1). Total num frames: 1723105280. Throughput: 0: 28114.5. Samples: 430796288. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:00:55,093][98493] Updated weights for policy 0, policy_version 841406 (0.0007)
+[2023-07-06 15:00:55,962][98493] Updated weights for policy 0, policy_version 841456 (0.0007)
+[2023-07-06 15:00:57,961][98493] Updated weights for policy 0, policy_version 841508 (0.0008)
+[2023-07-06 15:00:58,330][98493] Updated weights for policy 0, policy_version 841542 (0.0006)
+[2023-07-06 15:00:58,788][98493] Updated weights for policy 0, policy_version 841598 (0.0007)
+[2023-07-06 15:00:59,500][98449] Signal inference workers to stop experience collection... (43500 times)
+[2023-07-06 15:00:59,539][98493] InferenceWorker_p0-w0: stopping experience collection (43500 times)
+[2023-07-06 15:00:59,579][98449] Signal inference workers to resume experience collection... (43500 times)
+[2023-07-06 15:00:59,579][98493] InferenceWorker_p0-w0: resuming experience collection (43500 times)
+[2023-07-06 15:00:59,727][98493] Updated weights for policy 0, policy_version 841648 (0.0007)
+[2023-07-06 15:00:59,764][98243] Fps is (10 sec: 114689.9, 60 sec: 112503.5, 300 sec: 111411.2). Total num frames: 1723695104. Throughput: 0: 27966.6. Samples: 430959616. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:00:59,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:01:00,723][98493] Updated weights for policy 0, policy_version 841712 (0.0007)
+[2023-07-06 15:01:02,621][98493] Updated weights for policy 0, policy_version 841764 (0.0008)
+[2023-07-06 15:01:03,293][98493] Updated weights for policy 0, policy_version 841840 (0.0007)
+[2023-07-06 15:01:04,351][98493] Updated weights for policy 0, policy_version 841897 (0.0006)
+[2023-07-06 15:01:04,764][98243] Fps is (10 sec: 114687.8, 60 sec: 111411.2, 300 sec: 111411.2). Total num frames: 1724252160. Throughput: 0: 27966.6. Samples: 431125504. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:04,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:01:05,123][98493] Updated weights for policy 0, policy_version 841922 (0.0006)
+[2023-07-06 15:01:07,053][98493] Updated weights for policy 0, policy_version 841985 (0.0007)
+[2023-07-06 15:01:07,976][98493] Updated weights for policy 0, policy_version 842051 (0.0007)
+[2023-07-06 15:01:08,485][98493] Updated weights for policy 0, policy_version 842111 (0.0007)
+[2023-07-06 15:01:08,989][98493] Updated weights for policy 0, policy_version 842169 (0.0007)
+[2023-07-06 15:01:09,764][98243] Fps is (10 sec: 108134.2, 60 sec: 111411.1, 300 sec: 111078.0). Total num frames: 1724776448. Throughput: 0: 28046.3. Samples: 431211520. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:01:10,056][98493] Updated weights for policy 0, policy_version 842215 (0.0007)
+[2023-07-06 15:01:11,931][98493] Updated weights for policy 0, policy_version 842267 (0.0006)
+[2023-07-06 15:01:12,663][98493] Updated weights for policy 0, policy_version 842320 (0.0007)
+[2023-07-06 15:01:13,186][98493] Updated weights for policy 0, policy_version 842375 (0.0008)
+[2023-07-06 15:01:13,639][98493] Updated weights for policy 0, policy_version 842426 (0.0006)
+[2023-07-06 15:01:14,508][98493] Updated weights for policy 0, policy_version 842468 (0.0007)
+[2023-07-06 15:01:14,764][98243] Fps is (10 sec: 117964.7, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1725431808. Throughput: 0: 27966.6. Samples: 431377408. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:01:16,907][98493] Updated weights for policy 0, policy_version 842544 (0.0007)
+[2023-07-06 15:01:17,725][98493] Updated weights for policy 0, policy_version 842595 (0.0007)
+[2023-07-06 15:01:18,003][98449] Signal inference workers to stop experience collection... (43550 times)
+[2023-07-06 15:01:18,025][98493] InferenceWorker_p0-w0: stopping experience collection (43550 times)
+[2023-07-06 15:01:18,085][98449] Signal inference workers to resume experience collection... (43550 times)
+[2023-07-06 15:01:18,085][98493] InferenceWorker_p0-w0: resuming experience collection (43550 times)
+[2023-07-06 15:01:18,220][98493] Updated weights for policy 0, policy_version 842656 (0.0007)
+[2023-07-06 15:01:19,133][98493] Updated weights for policy 0, policy_version 842720 (0.0007)
+[2023-07-06 15:01:19,764][98243] Fps is (10 sec: 117963.7, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 1725956096. Throughput: 0: 27875.5. Samples: 431543296. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:19,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:01:21,509][98493] Updated weights for policy 0, policy_version 842756 (0.0007)
+[2023-07-06 15:01:22,024][98493] Updated weights for policy 0, policy_version 842816 (0.0007)
+[2023-07-06 15:01:22,438][98493] Updated weights for policy 0, policy_version 842864 (0.0007)
+[2023-07-06 15:01:22,971][98493] Updated weights for policy 0, policy_version 842917 (0.0006)
+[2023-07-06 15:01:23,690][98493] Updated weights for policy 0, policy_version 842947 (0.0007)
+[2023-07-06 15:01:24,148][98493] Updated weights for policy 0, policy_version 843008 (0.0007)
+[2023-07-06 15:01:24,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 1726480384. Throughput: 0: 28057.6. Samples: 431631360. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:24,765][98243] Avg episode reward: [(0, '9.560')]
+[2023-07-06 15:01:26,959][98493] Updated weights for policy 0, policy_version 843092 (0.0007)
+[2023-07-06 15:01:27,472][98493] Updated weights for policy 0, policy_version 843152 (0.0007)
+[2023-07-06 15:01:28,854][98493] Updated weights for policy 0, policy_version 843232 (0.0007)
+[2023-07-06 15:01:29,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.3, 300 sec: 111522.2). Total num frames: 1727004672. Throughput: 0: 27750.3. Samples: 431792128. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:29,765][98243] Avg episode reward: [(0, '9.630')]
+[2023-07-06 15:01:31,266][98493] Updated weights for policy 0, policy_version 843280 (0.0019)
+[2023-07-06 15:01:31,900][98493] Updated weights for policy 0, policy_version 843348 (0.0008)
+[2023-07-06 15:01:32,371][98493] Updated weights for policy 0, policy_version 843398 (0.0006)
+[2023-07-06 15:01:32,900][98493] Updated weights for policy 0, policy_version 843456 (0.0007)
+[2023-07-06 15:01:33,875][98493] Updated weights for policy 0, policy_version 843515 (0.0008)
+[2023-07-06 15:01:34,765][98243] Fps is (10 sec: 104854.8, 60 sec: 111956.8, 300 sec: 111522.3). Total num frames: 1727528960. Throughput: 0: 27761.7. Samples: 431958016. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:34,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:01:36,218][98449] Signal inference workers to stop experience collection... (43600 times)
+[2023-07-06 15:01:36,266][98493] InferenceWorker_p0-w0: stopping experience collection (43600 times)
+[2023-07-06 15:01:36,317][98449] Signal inference workers to resume experience collection... (43600 times)
+[2023-07-06 15:01:36,317][98493] InferenceWorker_p0-w0: resuming experience collection (43600 times)
+[2023-07-06 15:01:36,533][98493] Updated weights for policy 0, policy_version 843589 (0.0007)
+[2023-07-06 15:01:37,159][98493] Updated weights for policy 0, policy_version 843657 (0.0007)
+[2023-07-06 15:01:37,609][98493] Updated weights for policy 0, policy_version 843711 (0.0007)
+[2023-07-06 15:01:38,646][98493] Updated weights for policy 0, policy_version 843773 (0.0006)
+[2023-07-06 15:01:39,764][98243] Fps is (10 sec: 104858.9, 60 sec: 110865.0, 300 sec: 111189.0). Total num frames: 1728053248. Throughput: 0: 27545.6. Samples: 432035840. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:01:41,291][98493] Updated weights for policy 0, policy_version 843831 (0.0007)
+[2023-07-06 15:01:41,885][98493] Updated weights for policy 0, policy_version 843904 (0.0007)
+[2023-07-06 15:01:42,418][98493] Updated weights for policy 0, policy_version 843964 (0.0007)
+[2023-07-06 15:01:43,232][98493] Updated weights for policy 0, policy_version 844006 (0.0008)
+[2023-07-06 15:01:44,764][98243] Fps is (10 sec: 104860.5, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1728577536. Throughput: 0: 27579.7. Samples: 432200704. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:44,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:01:45,892][98493] Updated weights for policy 0, policy_version 844057 (0.0008)
+[2023-07-06 15:01:46,449][98493] Updated weights for policy 0, policy_version 844120 (0.0009)
+[2023-07-06 15:01:47,039][98493] Updated weights for policy 0, policy_version 844181 (0.0007)
+[2023-07-06 15:01:47,472][98493] Updated weights for policy 0, policy_version 844230 (0.0007)
+[2023-07-06 15:01:47,952][98493] Updated weights for policy 0, policy_version 844288 (0.0008)
+[2023-07-06 15:01:49,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.9, 300 sec: 111078.0). Total num frames: 1729101824. Throughput: 0: 27659.4. Samples: 432370176. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:01:51,002][98493] Updated weights for policy 0, policy_version 844340 (0.0007)
+[2023-07-06 15:01:51,614][98493] Updated weights for policy 0, policy_version 844407 (0.0007)
+[2023-07-06 15:01:51,868][98449] Signal inference workers to stop experience collection... (43650 times)
+[2023-07-06 15:01:51,903][98493] InferenceWorker_p0-w0: stopping experience collection (43650 times)
+[2023-07-06 15:01:51,958][98449] Signal inference workers to resume experience collection... (43650 times)
+[2023-07-06 15:01:51,959][98493] InferenceWorker_p0-w0: resuming experience collection (43650 times)
+[2023-07-06 15:01:52,042][98493] Updated weights for policy 0, policy_version 844452 (0.0008)
+[2023-07-06 15:01:52,583][98493] Updated weights for policy 0, policy_version 844518 (0.0006)
+[2023-07-06 15:01:54,764][98243] Fps is (10 sec: 104856.5, 60 sec: 108680.3, 300 sec: 111078.1). Total num frames: 1729626112. Throughput: 0: 27420.4. Samples: 432445440. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:01:55,448][98493] Updated weights for policy 0, policy_version 844578 (0.0008)
+[2023-07-06 15:01:55,884][98493] Updated weights for policy 0, policy_version 844627 (0.0006)
+[2023-07-06 15:01:56,422][98493] Updated weights for policy 0, policy_version 844688 (0.0007)
+[2023-07-06 15:01:56,971][98493] Updated weights for policy 0, policy_version 844752 (0.0013)
+[2023-07-06 15:01:57,410][98493] Updated weights for policy 0, policy_version 844800 (0.0007)
+[2023-07-06 15:01:59,764][98243] Fps is (10 sec: 104856.9, 60 sec: 107588.1, 300 sec: 111078.1). Total num frames: 1730150400. Throughput: 0: 27591.1. Samples: 432619008. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:01:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:02:00,348][98493] Updated weights for policy 0, policy_version 844864 (0.0007)
+[2023-07-06 15:02:00,857][98493] Updated weights for policy 0, policy_version 844917 (0.0007)
+[2023-07-06 15:02:01,331][98493] Updated weights for policy 0, policy_version 844976 (0.0007)
+[2023-07-06 15:02:01,841][98493] Updated weights for policy 0, policy_version 845030 (0.0007)
+[2023-07-06 15:02:04,764][98243] Fps is (10 sec: 108133.2, 60 sec: 107587.9, 300 sec: 111077.9). Total num frames: 1730707456. Throughput: 0: 27738.9. Samples: 432791552. Policy #0 lag: (min: 15.0, avg: 108.5, max: 271.0)
+[2023-07-06 15:02:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:02:04,923][98493] Updated weights for policy 0, policy_version 845098 (0.0007)
+[2023-07-06 15:02:05,344][98493] Updated weights for policy 0, policy_version 845141 (0.0007)
+[2023-07-06 15:02:05,970][98493] Updated weights for policy 0, policy_version 845216 (0.0009)
+[2023-07-06 15:02:06,547][98449] Signal inference workers to stop experience collection... (43700 times)
+[2023-07-06 15:02:06,602][98493] InferenceWorker_p0-w0: stopping experience collection (43700 times)
+[2023-07-06 15:02:06,603][98493] Updated weights for policy 0, policy_version 845288 (0.0008)
+[2023-07-06 15:02:06,650][98449] Signal inference workers to resume experience collection... (43700 times)
+[2023-07-06 15:02:06,651][98493] InferenceWorker_p0-w0: resuming experience collection (43700 times)
+[2023-07-06 15:02:09,735][98493] Updated weights for policy 0, policy_version 845328 (0.0007)
+[2023-07-06 15:02:09,764][98243] Fps is (10 sec: 108136.2, 60 sec: 107588.5, 300 sec: 110744.7). Total num frames: 1731231744. Throughput: 0: 27409.1. Samples: 432864768. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:09,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:02:10,321][98493] Updated weights for policy 0, policy_version 845381 (0.0008)
+[2023-07-06 15:02:10,887][98493] Updated weights for policy 0, policy_version 845445 (0.0007)
+[2023-07-06 15:02:11,340][98493] Updated weights for policy 0, policy_version 845504 (0.0007)
+[2023-07-06 15:02:11,837][98493] Updated weights for policy 0, policy_version 845560 (0.0029)
+[2023-07-06 15:02:14,374][98493] Updated weights for policy 0, policy_version 845588 (0.0007)
+[2023-07-06 15:02:14,764][98243] Fps is (10 sec: 114691.0, 60 sec: 107042.2, 300 sec: 110855.8). Total num frames: 1731854336. Throughput: 0: 27682.2. Samples: 433037824. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:02:15,017][98493] Updated weights for policy 0, policy_version 845664 (0.0007)
+[2023-07-06 15:02:15,550][98493] Updated weights for policy 0, policy_version 845728 (0.0008)
+[2023-07-06 15:02:16,139][98493] Updated weights for policy 0, policy_version 845792 (0.0008)
+[2023-07-06 15:02:18,862][98493] Updated weights for policy 0, policy_version 845829 (0.0006)
+[2023-07-06 15:02:19,282][98493] Updated weights for policy 0, policy_version 845881 (0.0007)
+[2023-07-06 15:02:19,765][98243] Fps is (10 sec: 121234.9, 60 sec: 108133.8, 300 sec: 110966.7). Total num frames: 1732444160. Throughput: 0: 27636.5. Samples: 433201664. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:02:19,842][98493] Updated weights for policy 0, policy_version 845937 (0.0010)
+[2023-07-06 15:02:20,275][98493] Updated weights for policy 0, policy_version 845987 (0.0007)
+[2023-07-06 15:02:20,739][98493] Updated weights for policy 0, policy_version 846036 (0.0007)
+[2023-07-06 15:02:23,674][98493] Updated weights for policy 0, policy_version 846096 (0.0007)
+[2023-07-06 15:02:24,134][98449] Signal inference workers to stop experience collection... (43750 times)
+[2023-07-06 15:02:24,168][98493] InferenceWorker_p0-w0: stopping experience collection (43750 times)
+[2023-07-06 15:02:24,211][98449] Signal inference workers to resume experience collection... (43750 times)
+[2023-07-06 15:02:24,212][98493] InferenceWorker_p0-w0: resuming experience collection (43750 times)
+[2023-07-06 15:02:24,213][98493] Updated weights for policy 0, policy_version 846160 (0.0008)
+[2023-07-06 15:02:24,663][98493] Updated weights for policy 0, policy_version 846208 (0.0008)
+[2023-07-06 15:02:24,764][98243] Fps is (10 sec: 117963.6, 60 sec: 109226.6, 300 sec: 111077.9). Total num frames: 1733033984. Throughput: 0: 27773.1. Samples: 433285632. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:02:24,939][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000846240_1733099520.pth...
+[2023-07-06 15:02:25,016][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000833152_1706295296.pth
+[2023-07-06 15:02:25,021][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000846240_1733099520.pth
+[2023-07-06 15:02:25,381][98493] Updated weights for policy 0, policy_version 846279 (0.0007)
+[2023-07-06 15:02:25,797][98493] Updated weights for policy 0, policy_version 846331 (0.0007)
+[2023-07-06 15:02:28,567][98493] Updated weights for policy 0, policy_version 846384 (0.0007)
+[2023-07-06 15:02:29,031][98493] Updated weights for policy 0, policy_version 846432 (0.0007)
+[2023-07-06 15:02:29,528][98493] Updated weights for policy 0, policy_version 846480 (0.0006)
+[2023-07-06 15:02:29,764][98243] Fps is (10 sec: 117970.6, 60 sec: 110319.2, 300 sec: 111078.0). Total num frames: 1733623808. Throughput: 0: 27807.3. Samples: 433452032. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:29,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:02:30,042][98493] Updated weights for policy 0, policy_version 846534 (0.0007)
+[2023-07-06 15:02:30,444][98493] Updated weights for policy 0, policy_version 846588 (0.0007)
+[2023-07-06 15:02:33,232][98493] Updated weights for policy 0, policy_version 846640 (0.0007)
+[2023-07-06 15:02:33,723][98493] Updated weights for policy 0, policy_version 846692 (0.0008)
+[2023-07-06 15:02:34,263][98493] Updated weights for policy 0, policy_version 846752 (0.0006)
+[2023-07-06 15:02:34,658][98493] Updated weights for policy 0, policy_version 846788 (0.0007)
+[2023-07-06 15:02:34,764][98243] Fps is (10 sec: 121243.2, 60 sec: 111958.0, 300 sec: 111191.2). Total num frames: 1734246400. Throughput: 0: 27613.9. Samples: 433612800. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:34,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:02:35,156][98493] Updated weights for policy 0, policy_version 846848 (0.0007)
+[2023-07-06 15:02:37,933][98493] Updated weights for policy 0, policy_version 846902 (0.0015)
+[2023-07-06 15:02:38,456][98493] Updated weights for policy 0, policy_version 846960 (0.0007)
+[2023-07-06 15:02:39,171][98493] Updated weights for policy 0, policy_version 847008 (0.0008)
+[2023-07-06 15:02:39,531][98449] Signal inference workers to stop experience collection... (43800 times)
+[2023-07-06 15:02:39,570][98493] InferenceWorker_p0-w0: stopping experience collection (43800 times)
+[2023-07-06 15:02:39,622][98449] Signal inference workers to resume experience collection... (43800 times)
+[2023-07-06 15:02:39,622][98493] InferenceWorker_p0-w0: resuming experience collection (43800 times)
+[2023-07-06 15:02:39,623][98493] Updated weights for policy 0, policy_version 847056 (0.0007)
+[2023-07-06 15:02:39,765][98243] Fps is (10 sec: 117958.3, 60 sec: 112502.5, 300 sec: 111300.0). Total num frames: 1734803456. Throughput: 0: 27954.9. Samples: 433703424. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:39,766][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:02:40,048][98493] Updated weights for policy 0, policy_version 847104 (0.0007)
+[2023-07-06 15:02:42,667][98493] Updated weights for policy 0, policy_version 847162 (0.0006)
+[2023-07-06 15:02:43,195][98493] Updated weights for policy 0, policy_version 847216 (0.0007)
+[2023-07-06 15:02:43,833][98493] Updated weights for policy 0, policy_version 847264 (0.0006)
+[2023-07-06 15:02:44,462][98493] Updated weights for policy 0, policy_version 847334 (0.0009)
+[2023-07-06 15:02:44,764][98243] Fps is (10 sec: 114685.2, 60 sec: 113595.4, 300 sec: 111522.2). Total num frames: 1735393280. Throughput: 0: 27704.8. Samples: 433865728. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:44,773][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:02:47,187][98493] Updated weights for policy 0, policy_version 847383 (0.0007)
+[2023-07-06 15:02:47,903][98493] Updated weights for policy 0, policy_version 847440 (0.0007)
+[2023-07-06 15:02:48,578][98493] Updated weights for policy 0, policy_version 847511 (0.0007)
+[2023-07-06 15:02:49,282][98493] Updated weights for policy 0, policy_version 847591 (0.0008)
+[2023-07-06 15:02:49,764][98243] Fps is (10 sec: 111417.1, 60 sec: 113595.8, 300 sec: 111522.4). Total num frames: 1735917568. Throughput: 0: 27352.3. Samples: 434022400. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:49,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:02:52,327][98493] Updated weights for policy 0, policy_version 847648 (0.0007)
+[2023-07-06 15:02:52,799][98493] Updated weights for policy 0, policy_version 847696 (0.0006)
+[2023-07-06 15:02:53,323][98493] Updated weights for policy 0, policy_version 847747 (0.0007)
+[2023-07-06 15:02:53,824][98493] Updated weights for policy 0, policy_version 847808 (0.0007)
+[2023-07-06 15:02:54,295][98493] Updated weights for policy 0, policy_version 847865 (0.0006)
+[2023-07-06 15:02:54,764][98243] Fps is (10 sec: 104859.0, 60 sec: 113595.9, 300 sec: 111300.2). Total num frames: 1736441856. Throughput: 0: 27773.1. Samples: 434114560. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:02:56,864][98493] Updated weights for policy 0, policy_version 847912 (0.0008)
+[2023-07-06 15:02:57,136][98449] Signal inference workers to stop experience collection... (43850 times)
+[2023-07-06 15:02:57,170][98493] InferenceWorker_p0-w0: stopping experience collection (43850 times)
+[2023-07-06 15:02:57,228][98449] Signal inference workers to resume experience collection... (43850 times)
+[2023-07-06 15:02:57,228][98493] InferenceWorker_p0-w0: resuming experience collection (43850 times)
+[2023-07-06 15:02:57,400][98493] Updated weights for policy 0, policy_version 847968 (0.0008)
+[2023-07-06 15:02:57,938][98493] Updated weights for policy 0, policy_version 848018 (0.0007)
+[2023-07-06 15:02:58,311][98493] Updated weights for policy 0, policy_version 848061 (0.0008)
+[2023-07-06 15:02:58,699][98493] Updated weights for policy 0, policy_version 848098 (0.0007)
+[2023-07-06 15:02:59,764][98243] Fps is (10 sec: 104857.4, 60 sec: 113595.9, 300 sec: 111078.0). Total num frames: 1736966144. Throughput: 0: 27511.4. Samples: 434275840. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:02:59,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:03:01,292][98493] Updated weights for policy 0, policy_version 848151 (0.0007)
+[2023-07-06 15:03:01,858][98493] Updated weights for policy 0, policy_version 848216 (0.0007)
+[2023-07-06 15:03:02,538][98493] Updated weights for policy 0, policy_version 848272 (0.0007)
+[2023-07-06 15:03:03,269][98493] Updated weights for policy 0, policy_version 848336 (0.0007)
+[2023-07-06 15:03:04,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113049.9, 300 sec: 111078.1). Total num frames: 1737490432. Throughput: 0: 27659.6. Samples: 434446336. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:04,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:03:05,870][98493] Updated weights for policy 0, policy_version 848400 (0.0007)
+[2023-07-06 15:03:06,402][98493] Updated weights for policy 0, policy_version 848451 (0.0008)
+[2023-07-06 15:03:07,485][98493] Updated weights for policy 0, policy_version 848520 (0.0007)
+[2023-07-06 15:03:07,965][98493] Updated weights for policy 0, policy_version 848576 (0.0007)
+[2023-07-06 15:03:08,370][98493] Updated weights for policy 0, policy_version 848618 (0.0006)
+[2023-07-06 15:03:09,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113049.3, 300 sec: 111078.0). Total num frames: 1738014720. Throughput: 0: 27625.3. Samples: 434528768. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:09,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:03:10,421][98493] Updated weights for policy 0, policy_version 848666 (0.0007)
+[2023-07-06 15:03:11,174][98493] Updated weights for policy 0, policy_version 848708 (0.0012)
+[2023-07-06 15:03:11,598][98493] Updated weights for policy 0, policy_version 848761 (0.0007)
+[2023-07-06 15:03:12,474][98493] Updated weights for policy 0, policy_version 848828 (0.0007)
+[2023-07-06 15:03:13,072][98493] Updated weights for policy 0, policy_version 848880 (0.0007)
+[2023-07-06 15:03:14,667][98449] Signal inference workers to stop experience collection... (43900 times)
+[2023-07-06 15:03:14,688][98493] InferenceWorker_p0-w0: stopping experience collection (43900 times)
+[2023-07-06 15:03:14,744][98449] Signal inference workers to resume experience collection... (43900 times)
+[2023-07-06 15:03:14,744][98493] InferenceWorker_p0-w0: resuming experience collection (43900 times)
+[2023-07-06 15:03:14,764][98243] Fps is (10 sec: 108135.5, 60 sec: 111957.3, 300 sec: 111189.1). Total num frames: 1738571776. Throughput: 0: 27659.4. Samples: 434696704. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:14,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 15:03:14,894][98493] Updated weights for policy 0, policy_version 848928 (0.0007)
+[2023-07-06 15:03:16,040][98493] Updated weights for policy 0, policy_version 848977 (0.0007)
+[2023-07-06 15:03:16,582][98493] Updated weights for policy 0, policy_version 849025 (0.0006)
+[2023-07-06 15:03:17,058][98493] Updated weights for policy 0, policy_version 849086 (0.0007)
+[2023-07-06 15:03:17,788][98493] Updated weights for policy 0, policy_version 849136 (0.0006)
+[2023-07-06 15:03:19,322][98493] Updated weights for policy 0, policy_version 849175 (0.0007)
+[2023-07-06 15:03:19,764][98243] Fps is (10 sec: 117965.3, 60 sec: 112504.3, 300 sec: 111522.3). Total num frames: 1739194368. Throughput: 0: 27875.5. Samples: 434867200. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:19,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:03:20,735][98493] Updated weights for policy 0, policy_version 849232 (0.0007)
+[2023-07-06 15:03:21,425][98493] Updated weights for policy 0, policy_version 849305 (0.0008)
+[2023-07-06 15:03:21,747][98493] Updated weights for policy 0, policy_version 849342 (0.0007)
+[2023-07-06 15:03:22,546][98493] Updated weights for policy 0, policy_version 849393 (0.0009)
+[2023-07-06 15:03:23,997][98493] Updated weights for policy 0, policy_version 849433 (0.0006)
+[2023-07-06 15:03:24,764][98243] Fps is (10 sec: 114687.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1739718656. Throughput: 0: 27671.0. Samples: 434948608. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:03:25,547][98493] Updated weights for policy 0, policy_version 849496 (0.0007)
+[2023-07-06 15:03:26,109][98493] Updated weights for policy 0, policy_version 849560 (0.0007)
+[2023-07-06 15:03:26,961][98493] Updated weights for policy 0, policy_version 849607 (0.0008)
+[2023-07-06 15:03:27,337][98493] Updated weights for policy 0, policy_version 849651 (0.0008)
+[2023-07-06 15:03:28,613][98493] Updated weights for policy 0, policy_version 849683 (0.0007)
+[2023-07-06 15:03:29,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110318.8, 300 sec: 111411.2). Total num frames: 1740242944. Throughput: 0: 27852.9. Samples: 435119104. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:29,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:03:30,106][98493] Updated weights for policy 0, policy_version 849734 (0.0007)
+[2023-07-06 15:03:30,528][98493] Updated weights for policy 0, policy_version 849788 (0.0006)
+[2023-07-06 15:03:31,150][98493] Updated weights for policy 0, policy_version 849843 (0.0007)
+[2023-07-06 15:03:31,784][98493] Updated weights for policy 0, policy_version 849894 (0.0007)
+[2023-07-06 15:03:33,290][98493] Updated weights for policy 0, policy_version 849926 (0.0007)
+[2023-07-06 15:03:33,374][98449] Signal inference workers to stop experience collection... (43950 times)
+[2023-07-06 15:03:33,421][98493] InferenceWorker_p0-w0: stopping experience collection (43950 times)
+[2023-07-06 15:03:33,491][98449] Signal inference workers to resume experience collection... (43950 times)
+[2023-07-06 15:03:33,491][98493] InferenceWorker_p0-w0: resuming experience collection (43950 times)
+[2023-07-06 15:03:34,764][98243] Fps is (10 sec: 104856.6, 60 sec: 108680.2, 300 sec: 111189.0). Total num frames: 1740767232. Throughput: 0: 28125.8. Samples: 435288064. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:34,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:03:34,767][98493] Updated weights for policy 0, policy_version 849985 (0.0007)
+[2023-07-06 15:03:35,221][98493] Updated weights for policy 0, policy_version 850046 (0.0006)
+[2023-07-06 15:03:35,937][98493] Updated weights for policy 0, policy_version 850108 (0.0007)
+[2023-07-06 15:03:36,590][98493] Updated weights for policy 0, policy_version 850151 (0.0007)
+[2023-07-06 15:03:38,127][98493] Updated weights for policy 0, policy_version 850208 (0.0018)
+[2023-07-06 15:03:39,314][98493] Updated weights for policy 0, policy_version 850241 (0.0006)
+[2023-07-06 15:03:39,764][98243] Fps is (10 sec: 114688.1, 60 sec: 109773.7, 300 sec: 111300.1). Total num frames: 1741389824. Throughput: 0: 27864.2. Samples: 435368448. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:39,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 15:03:39,800][98493] Updated weights for policy 0, policy_version 850298 (0.0007)
+[2023-07-06 15:03:40,729][98493] Updated weights for policy 0, policy_version 850340 (0.0007)
+[2023-07-06 15:03:41,194][98493] Updated weights for policy 0, policy_version 850391 (0.0006)
+[2023-07-06 15:03:42,482][98493] Updated weights for policy 0, policy_version 850448 (0.0007)
+[2023-07-06 15:03:44,119][98493] Updated weights for policy 0, policy_version 850499 (0.0006)
+[2023-07-06 15:03:44,626][98493] Updated weights for policy 0, policy_version 850558 (0.0021)
+[2023-07-06 15:03:44,764][98243] Fps is (10 sec: 117966.4, 60 sec: 109227.0, 300 sec: 111189.0). Total num frames: 1741946880. Throughput: 0: 28069.0. Samples: 435538944. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:44,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 15:03:45,395][98493] Updated weights for policy 0, policy_version 850614 (0.0008)
+[2023-07-06 15:03:46,075][98493] Updated weights for policy 0, policy_version 850648 (0.0007)
+[2023-07-06 15:03:47,090][98493] Updated weights for policy 0, policy_version 850704 (0.0008)
+[2023-07-06 15:03:48,864][98493] Updated weights for policy 0, policy_version 850768 (0.0007)
+[2023-07-06 15:03:49,240][98493] Updated weights for policy 0, policy_version 850814 (0.0007)
+[2023-07-06 15:03:49,764][98243] Fps is (10 sec: 111411.3, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 1742503936. Throughput: 0: 27978.0. Samples: 435705344. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:49,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:03:50,131][98493] Updated weights for policy 0, policy_version 850875 (0.0008)
+[2023-07-06 15:03:50,920][98493] Updated weights for policy 0, policy_version 850936 (0.0008)
+[2023-07-06 15:03:52,121][98493] Updated weights for policy 0, policy_version 850966 (0.0007)
+[2023-07-06 15:03:52,227][98449] Signal inference workers to stop experience collection... (44000 times)
+[2023-07-06 15:03:52,261][98493] InferenceWorker_p0-w0: stopping experience collection (44000 times)
+[2023-07-06 15:03:52,307][98449] Signal inference workers to resume experience collection... (44000 times)
+[2023-07-06 15:03:52,307][98493] InferenceWorker_p0-w0: resuming experience collection (44000 times)
+[2023-07-06 15:03:52,441][98493] Updated weights for policy 0, policy_version 851008 (0.0006)
+[2023-07-06 15:03:53,740][98493] Updated weights for policy 0, policy_version 851056 (0.0007)
+[2023-07-06 15:03:54,604][98493] Updated weights for policy 0, policy_version 851120 (0.0006)
+[2023-07-06 15:03:54,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1743126528. Throughput: 0: 27955.2. Samples: 435786752. Policy #0 lag: (min: 63.0, avg: 118.0, max: 287.0)
+[2023-07-06 15:03:54,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:03:55,449][98493] Updated weights for policy 0, policy_version 851168 (0.0006)
+[2023-07-06 15:03:56,834][98493] Updated weights for policy 0, policy_version 851225 (0.0007)
+[2023-07-06 15:03:58,162][98493] Updated weights for policy 0, policy_version 851280 (0.0006)
+[2023-07-06 15:03:59,077][98493] Updated weights for policy 0, policy_version 851352 (0.0008)
+[2023-07-06 15:03:59,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111411.2, 300 sec: 111078.1). Total num frames: 1743650816. Throughput: 0: 28000.7. Samples: 435956736. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:03:59,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:04:00,112][98493] Updated weights for policy 0, policy_version 851414 (0.0008)
+[2023-07-06 15:04:00,457][98493] Updated weights for policy 0, policy_version 851456 (0.0006)
+[2023-07-06 15:04:01,758][98493] Updated weights for policy 0, policy_version 851515 (0.0008)
+[2023-07-06 15:04:03,257][98493] Updated weights for policy 0, policy_version 851575 (0.0007)
+[2023-07-06 15:04:04,042][98493] Updated weights for policy 0, policy_version 851632 (0.0007)
+[2023-07-06 15:04:04,764][98243] Fps is (10 sec: 104856.1, 60 sec: 111411.0, 300 sec: 111077.9). Total num frames: 1744175104. Throughput: 0: 27886.8. Samples: 436122112. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:04:05,181][98493] Updated weights for policy 0, policy_version 851696 (0.0007)
+[2023-07-06 15:04:06,221][98493] Updated weights for policy 0, policy_version 851751 (0.0008)
+[2023-07-06 15:04:07,756][98493] Updated weights for policy 0, policy_version 851811 (0.0007)
+[2023-07-06 15:04:08,530][98493] Updated weights for policy 0, policy_version 851864 (0.0006)
+[2023-07-06 15:04:09,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111957.5, 300 sec: 111189.1). Total num frames: 1744732160. Throughput: 0: 27909.7. Samples: 436204544. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:04:09,897][98493] Updated weights for policy 0, policy_version 851936 (0.0007)
+[2023-07-06 15:04:10,551][98493] Updated weights for policy 0, policy_version 851970 (0.0007)
+[2023-07-06 15:04:10,984][98493] Updated weights for policy 0, policy_version 852029 (0.0006)
+[2023-07-06 15:04:12,570][98449] Signal inference workers to stop experience collection... (44050 times)
+[2023-07-06 15:04:12,615][98493] InferenceWorker_p0-w0: stopping experience collection (44050 times)
+[2023-07-06 15:04:12,669][98449] Signal inference workers to resume experience collection... (44050 times)
+[2023-07-06 15:04:12,669][98493] InferenceWorker_p0-w0: resuming experience collection (44050 times)
+[2023-07-06 15:04:12,961][98493] Updated weights for policy 0, policy_version 852095 (0.0007)
+[2023-07-06 15:04:13,475][98493] Updated weights for policy 0, policy_version 852156 (0.0006)
+[2023-07-06 15:04:14,755][98493] Updated weights for policy 0, policy_version 852216 (0.0007)
+[2023-07-06 15:04:14,764][98243] Fps is (10 sec: 114688.4, 60 sec: 112503.2, 300 sec: 111411.2). Total num frames: 1745321984. Throughput: 0: 27773.1. Samples: 436368896. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:04:15,751][98493] Updated weights for policy 0, policy_version 852283 (0.0007)
+[2023-07-06 15:04:17,549][98493] Updated weights for policy 0, policy_version 852336 (0.0007)
+[2023-07-06 15:04:18,131][98493] Updated weights for policy 0, policy_version 852400 (0.0007)
+[2023-07-06 15:04:19,415][98493] Updated weights for policy 0, policy_version 852440 (0.0007)
+[2023-07-06 15:04:19,749][98493] Updated weights for policy 0, policy_version 852480 (0.0007)
+[2023-07-06 15:04:19,764][98243] Fps is (10 sec: 114686.8, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 1745879040. Throughput: 0: 27773.2. Samples: 436537856. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:04:20,208][98493] Updated weights for policy 0, policy_version 852515 (0.0008)
+[2023-07-06 15:04:22,076][98493] Updated weights for policy 0, policy_version 852576 (0.0007)
+[2023-07-06 15:04:22,638][98493] Updated weights for policy 0, policy_version 852640 (0.0007)
+[2023-07-06 15:04:23,976][98493] Updated weights for policy 0, policy_version 852676 (0.0006)
+[2023-07-06 15:04:24,426][98493] Updated weights for policy 0, policy_version 852730 (0.0008)
+[2023-07-06 15:04:24,764][98243] Fps is (10 sec: 111412.4, 60 sec: 111957.4, 300 sec: 111300.1). Total num frames: 1746436096. Throughput: 0: 27818.7. Samples: 436620288. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:24,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:04:24,893][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000852768_1746468864.pth...
+[2023-07-06 15:04:24,957][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000839712_1719730176.pth
+[2023-07-06 15:04:25,134][98493] Updated weights for policy 0, policy_version 852795 (0.0007)
+[2023-07-06 15:04:26,874][98493] Updated weights for policy 0, policy_version 852835 (0.0007)
+[2023-07-06 15:04:27,372][98493] Updated weights for policy 0, policy_version 852896 (0.0007)
+[2023-07-06 15:04:28,606][98493] Updated weights for policy 0, policy_version 852930 (0.0007)
+[2023-07-06 15:04:28,991][98493] Updated weights for policy 0, policy_version 852976 (0.0007)
+[2023-07-06 15:04:29,764][98243] Fps is (10 sec: 111410.8, 60 sec: 112503.3, 300 sec: 111411.1). Total num frames: 1746993152. Throughput: 0: 27795.8. Samples: 436789760. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:29,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:04:29,784][98449] Signal inference workers to stop experience collection... (44100 times)
+[2023-07-06 15:04:29,815][98493] Updated weights for policy 0, policy_version 853029 (0.0008)
+[2023-07-06 15:04:29,822][98493] InferenceWorker_p0-w0: stopping experience collection (44100 times)
+[2023-07-06 15:04:29,876][98449] Signal inference workers to resume experience collection... (44100 times)
+[2023-07-06 15:04:29,876][98493] InferenceWorker_p0-w0: resuming experience collection (44100 times)
+[2023-07-06 15:04:31,362][98493] Updated weights for policy 0, policy_version 853072 (0.0007)
+[2023-07-06 15:04:31,861][98493] Updated weights for policy 0, policy_version 853124 (0.0007)
+[2023-07-06 15:04:32,289][98493] Updated weights for policy 0, policy_version 853179 (0.0006)
+[2023-07-06 15:04:33,743][98493] Updated weights for policy 0, policy_version 853241 (0.0007)
+[2023-07-06 15:04:34,668][98493] Updated weights for policy 0, policy_version 853306 (0.0008)
+[2023-07-06 15:04:34,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113595.7, 300 sec: 111633.3). Total num frames: 1747582976. Throughput: 0: 27761.7. Samples: 436954624. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:34,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:04:36,243][98493] Updated weights for policy 0, policy_version 853348 (0.0006)
+[2023-07-06 15:04:36,798][98493] Updated weights for policy 0, policy_version 853417 (0.0007)
+[2023-07-06 15:04:38,184][98493] Updated weights for policy 0, policy_version 853460 (0.0007)
+[2023-07-06 15:04:38,971][98493] Updated weights for policy 0, policy_version 853508 (0.0014)
+[2023-07-06 15:04:39,441][98493] Updated weights for policy 0, policy_version 853562 (0.0006)
+[2023-07-06 15:04:39,764][98243] Fps is (10 sec: 111412.5, 60 sec: 111957.3, 300 sec: 111522.4). Total num frames: 1748107264. Throughput: 0: 27864.2. Samples: 437040640. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:39,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:04:41,117][98493] Updated weights for policy 0, policy_version 853622 (0.0007)
+[2023-07-06 15:04:41,602][98493] Updated weights for policy 0, policy_version 853681 (0.0006)
+[2023-07-06 15:04:42,988][98493] Updated weights for policy 0, policy_version 853728 (0.0006)
+[2023-07-06 15:04:43,292][98493] Updated weights for policy 0, policy_version 853760 (0.0008)
+[2023-07-06 15:04:43,903][98493] Updated weights for policy 0, policy_version 853824 (0.0007)
+[2023-07-06 15:04:44,765][98243] Fps is (10 sec: 104856.3, 60 sec: 111410.7, 300 sec: 111411.1). Total num frames: 1748631552. Throughput: 0: 27750.2. Samples: 437205504. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:44,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:04:45,722][98493] Updated weights for policy 0, policy_version 853872 (0.0007)
+[2023-07-06 15:04:46,223][98493] Updated weights for policy 0, policy_version 853928 (0.0007)
+[2023-07-06 15:04:47,605][98493] Updated weights for policy 0, policy_version 853976 (0.0006)
+[2023-07-06 15:04:48,271][98449] Signal inference workers to stop experience collection... (44150 times)
+[2023-07-06 15:04:48,299][98493] Updated weights for policy 0, policy_version 854018 (0.0006)
+[2023-07-06 15:04:48,305][98493] InferenceWorker_p0-w0: stopping experience collection (44150 times)
+[2023-07-06 15:04:48,364][98449] Signal inference workers to resume experience collection... (44150 times)
+[2023-07-06 15:04:48,364][98493] InferenceWorker_p0-w0: resuming experience collection (44150 times)
+[2023-07-06 15:04:48,739][98493] Updated weights for policy 0, policy_version 854077 (0.0006)
+[2023-07-06 15:04:49,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110865.1, 300 sec: 111300.1). Total num frames: 1749155840. Throughput: 0: 27921.2. Samples: 437378560. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:49,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:04:50,338][98493] Updated weights for policy 0, policy_version 854128 (0.0007)
+[2023-07-06 15:04:50,865][98493] Updated weights for policy 0, policy_version 854180 (0.0007)
+[2023-07-06 15:04:52,327][98493] Updated weights for policy 0, policy_version 854240 (0.0007)
+[2023-07-06 15:04:52,980][98493] Updated weights for policy 0, policy_version 854279 (0.0006)
+[2023-07-06 15:04:53,405][98493] Updated weights for policy 0, policy_version 854333 (0.0007)
+[2023-07-06 15:04:54,764][98243] Fps is (10 sec: 111414.2, 60 sec: 110319.0, 300 sec: 111189.0). Total num frames: 1749745664. Throughput: 0: 27886.9. Samples: 437459456. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:54,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:04:54,953][98493] Updated weights for policy 0, policy_version 854389 (0.0008)
+[2023-07-06 15:04:55,414][98493] Updated weights for policy 0, policy_version 854438 (0.0007)
+[2023-07-06 15:04:56,862][98493] Updated weights for policy 0, policy_version 854480 (0.0007)
+[2023-07-06 15:04:57,660][98493] Updated weights for policy 0, policy_version 854544 (0.0009)
+[2023-07-06 15:04:59,413][98493] Updated weights for policy 0, policy_version 854616 (0.0007)
+[2023-07-06 15:04:59,764][98243] Fps is (10 sec: 117965.7, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 1750335488. Throughput: 0: 28023.6. Samples: 437629952. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:04:59,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:04:59,902][98493] Updated weights for policy 0, policy_version 854672 (0.0007)
+[2023-07-06 15:05:00,274][98493] Updated weights for policy 0, policy_version 854713 (0.0006)
+[2023-07-06 15:05:01,914][98493] Updated weights for policy 0, policy_version 854780 (0.0008)
+[2023-07-06 15:05:02,627][98493] Updated weights for policy 0, policy_version 854825 (0.0007)
+[2023-07-06 15:05:03,816][98493] Updated weights for policy 0, policy_version 854864 (0.0007)
+[2023-07-06 15:05:04,197][98493] Updated weights for policy 0, policy_version 854907 (0.0007)
+[2023-07-06 15:05:04,764][98243] Fps is (10 sec: 121241.6, 60 sec: 113049.9, 300 sec: 111411.2). Total num frames: 1750958080. Throughput: 0: 27955.3. Samples: 437795840. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:05:04,787][98493] Updated weights for policy 0, policy_version 854968 (0.0008)
+[2023-07-06 15:05:06,502][98449] Signal inference workers to stop experience collection... (44200 times)
+[2023-07-06 15:05:06,532][98493] Updated weights for policy 0, policy_version 855013 (0.0006)
+[2023-07-06 15:05:06,539][98493] InferenceWorker_p0-w0: stopping experience collection (44200 times)
+[2023-07-06 15:05:06,590][98449] Signal inference workers to resume experience collection... (44200 times)
+[2023-07-06 15:05:06,590][98493] InferenceWorker_p0-w0: resuming experience collection (44200 times)
+[2023-07-06 15:05:07,008][98493] Updated weights for policy 0, policy_version 855072 (0.0007)
+[2023-07-06 15:05:08,834][98493] Updated weights for policy 0, policy_version 855143 (0.0007)
+[2023-07-06 15:05:09,462][98493] Updated weights for policy 0, policy_version 855201 (0.0007)
+[2023-07-06 15:05:09,764][98243] Fps is (10 sec: 117963.0, 60 sec: 113049.4, 300 sec: 111522.2). Total num frames: 1751515136. Throughput: 0: 28046.2. Samples: 437882368. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:09,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:05:10,939][98493] Updated weights for policy 0, policy_version 855248 (0.0006)
+[2023-07-06 15:05:11,372][98493] Updated weights for policy 0, policy_version 855296 (0.0008)
+[2023-07-06 15:05:11,910][98493] Updated weights for policy 0, policy_version 855352 (0.0007)
+[2023-07-06 15:05:13,361][98493] Updated weights for policy 0, policy_version 855382 (0.0006)
+[2023-07-06 15:05:14,021][98493] Updated weights for policy 0, policy_version 855456 (0.0007)
+[2023-07-06 15:05:14,764][98243] Fps is (10 sec: 108134.6, 60 sec: 111957.6, 300 sec: 111522.3). Total num frames: 1752039424. Throughput: 0: 27989.4. Samples: 438049280. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:14,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:05:15,758][98493] Updated weights for policy 0, policy_version 855510 (0.0006)
+[2023-07-06 15:05:16,305][98493] Updated weights for policy 0, policy_version 855573 (0.0008)
+[2023-07-06 15:05:18,226][98493] Updated weights for policy 0, policy_version 855632 (0.0007)
+[2023-07-06 15:05:18,737][98493] Updated weights for policy 0, policy_version 855685 (0.0008)
+[2023-07-06 15:05:19,184][98493] Updated weights for policy 0, policy_version 855735 (0.0007)
+[2023-07-06 15:05:19,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1752563712. Throughput: 0: 28023.5. Samples: 438215680. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:19,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:05:20,559][98493] Updated weights for policy 0, policy_version 855804 (0.0007)
+[2023-07-06 15:05:21,123][98493] Updated weights for policy 0, policy_version 855856 (0.0008)
+[2023-07-06 15:05:22,958][98493] Updated weights for policy 0, policy_version 855880 (0.0006)
+[2023-07-06 15:05:23,423][98493] Updated weights for policy 0, policy_version 855936 (0.0009)
+[2023-07-06 15:05:23,936][98493] Updated weights for policy 0, policy_version 855995 (0.0007)
+[2023-07-06 15:05:24,765][98243] Fps is (10 sec: 104853.7, 60 sec: 110864.4, 300 sec: 111300.0). Total num frames: 1753088000. Throughput: 0: 28068.8. Samples: 438303744. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:24,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:05:24,965][98449] Signal inference workers to stop experience collection... (44250 times)
+[2023-07-06 15:05:25,001][98493] InferenceWorker_p0-w0: stopping experience collection (44250 times)
+[2023-07-06 15:05:25,060][98449] Signal inference workers to resume experience collection... (44250 times)
+[2023-07-06 15:05:25,060][98493] InferenceWorker_p0-w0: resuming experience collection (44250 times)
+[2023-07-06 15:05:25,298][98493] Updated weights for policy 0, policy_version 856035 (0.0007)
+[2023-07-06 15:05:25,923][98493] Updated weights for policy 0, policy_version 856112 (0.0007)
+[2023-07-06 15:05:27,489][98493] Updated weights for policy 0, policy_version 856146 (0.0007)
+[2023-07-06 15:05:28,032][98493] Updated weights for policy 0, policy_version 856194 (0.0007)
+[2023-07-06 15:05:28,529][98493] Updated weights for policy 0, policy_version 856256 (0.0007)
+[2023-07-06 15:05:29,764][98243] Fps is (10 sec: 104856.8, 60 sec: 110318.8, 300 sec: 111189.0). Total num frames: 1753612288. Throughput: 0: 27989.4. Samples: 438465024. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:05:30,220][98493] Updated weights for policy 0, policy_version 856307 (0.0008)
+[2023-07-06 15:05:30,770][98493] Updated weights for policy 0, policy_version 856381 (0.0007)
+[2023-07-06 15:05:32,537][98493] Updated weights for policy 0, policy_version 856424 (0.0007)
+[2023-07-06 15:05:33,101][98493] Updated weights for policy 0, policy_version 856480 (0.0008)
+[2023-07-06 15:05:34,624][98493] Updated weights for policy 0, policy_version 856534 (0.0006)
+[2023-07-06 15:05:34,764][98243] Fps is (10 sec: 111414.2, 60 sec: 110319.0, 300 sec: 111189.0). Total num frames: 1754202112. Throughput: 0: 27875.5. Samples: 438632960. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:05:35,091][98493] Updated weights for policy 0, policy_version 856592 (0.0009)
+[2023-07-06 15:05:35,545][98493] Updated weights for policy 0, policy_version 856639 (0.0007)
+[2023-07-06 15:05:37,345][98493] Updated weights for policy 0, policy_version 856699 (0.0006)
+[2023-07-06 15:05:38,292][98493] Updated weights for policy 0, policy_version 856760 (0.0007)
+[2023-07-06 15:05:39,435][98493] Updated weights for policy 0, policy_version 856805 (0.0007)
+[2023-07-06 15:05:39,764][98243] Fps is (10 sec: 121243.0, 60 sec: 111957.2, 300 sec: 111189.0). Total num frames: 1754824704. Throughput: 0: 27909.6. Samples: 438715392. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:05:40,028][98493] Updated weights for policy 0, policy_version 856880 (0.0008)
+[2023-07-06 15:05:42,364][98493] Updated weights for policy 0, policy_version 856944 (0.0007)
+[2023-07-06 15:05:42,582][98449] Signal inference workers to stop experience collection... (44300 times)
+[2023-07-06 15:05:42,616][98493] InferenceWorker_p0-w0: stopping experience collection (44300 times)
+[2023-07-06 15:05:42,650][98449] Signal inference workers to resume experience collection... (44300 times)
+[2023-07-06 15:05:42,651][98493] InferenceWorker_p0-w0: resuming experience collection (44300 times)
+[2023-07-06 15:05:42,894][98493] Updated weights for policy 0, policy_version 856996 (0.0008)
+[2023-07-06 15:05:43,851][98493] Updated weights for policy 0, policy_version 857043 (0.0006)
+[2023-07-06 15:05:44,427][98493] Updated weights for policy 0, policy_version 857104 (0.0007)
+[2023-07-06 15:05:44,764][98243] Fps is (10 sec: 121241.8, 60 sec: 113050.0, 300 sec: 111411.2). Total num frames: 1755414528. Throughput: 0: 27773.1. Samples: 438879744. Policy #0 lag: (min: 24.0, avg: 150.6, max: 280.0)
+[2023-07-06 15:05:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:05:46,743][98493] Updated weights for policy 0, policy_version 857155 (0.0006)
+[2023-07-06 15:05:47,303][98493] Updated weights for policy 0, policy_version 857219 (0.0007)
+[2023-07-06 15:05:47,805][98493] Updated weights for policy 0, policy_version 857280 (0.0007)
+[2023-07-06 15:05:48,909][98493] Updated weights for policy 0, policy_version 857332 (0.0007)
+[2023-07-06 15:05:49,349][98493] Updated weights for policy 0, policy_version 857376 (0.0007)
+[2023-07-06 15:05:49,764][98243] Fps is (10 sec: 114688.6, 60 sec: 113595.7, 300 sec: 111411.2). Total num frames: 1755971584. Throughput: 0: 27659.4. Samples: 439040512. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:05:49,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:05:51,668][98493] Updated weights for policy 0, policy_version 857440 (0.0007)
+[2023-07-06 15:05:52,292][98493] Updated weights for policy 0, policy_version 857511 (0.0007)
+[2023-07-06 15:05:53,150][98493] Updated weights for policy 0, policy_version 857539 (0.0007)
+[2023-07-06 15:05:53,592][98493] Updated weights for policy 0, policy_version 857596 (0.0007)
+[2023-07-06 15:05:54,318][98493] Updated weights for policy 0, policy_version 857659 (0.0007)
+[2023-07-06 15:05:54,764][98243] Fps is (10 sec: 108135.1, 60 sec: 112503.4, 300 sec: 111189.0). Total num frames: 1756495872. Throughput: 0: 27636.7. Samples: 439126016. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:05:54,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:05:56,553][98493] Updated weights for policy 0, policy_version 857700 (0.0006)
+[2023-07-06 15:05:56,988][98493] Updated weights for policy 0, policy_version 857750 (0.0007)
+[2023-07-06 15:05:58,011][98493] Updated weights for policy 0, policy_version 857808 (0.0006)
+[2023-07-06 15:05:58,621][98493] Updated weights for policy 0, policy_version 857872 (0.0007)
+[2023-07-06 15:05:59,764][98243] Fps is (10 sec: 104856.2, 60 sec: 111410.8, 300 sec: 111077.9). Total num frames: 1757020160. Throughput: 0: 27568.3. Samples: 439289856. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:05:59,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:06:00,855][98493] Updated weights for policy 0, policy_version 857921 (0.0007)
+[2023-07-06 15:06:01,114][98449] Signal inference workers to stop experience collection... (44350 times)
+[2023-07-06 15:06:01,154][98493] InferenceWorker_p0-w0: stopping experience collection (44350 times)
+[2023-07-06 15:06:01,201][98449] Signal inference workers to resume experience collection... (44350 times)
+[2023-07-06 15:06:01,201][98493] InferenceWorker_p0-w0: resuming experience collection (44350 times)
+[2023-07-06 15:06:01,343][98493] Updated weights for policy 0, policy_version 857984 (0.0008)
+[2023-07-06 15:06:01,956][98493] Updated weights for policy 0, policy_version 858043 (0.0007)
+[2023-07-06 15:06:03,391][98493] Updated weights for policy 0, policy_version 858114 (0.0007)
+[2023-07-06 15:06:03,767][98493] Updated weights for policy 0, policy_version 858161 (0.0006)
+[2023-07-06 15:06:04,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109772.7, 300 sec: 111078.0). Total num frames: 1757544448. Throughput: 0: 27693.5. Samples: 439461888. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:04,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:06:05,676][98493] Updated weights for policy 0, policy_version 858196 (0.0006)
+[2023-07-06 15:06:06,126][98493] Updated weights for policy 0, policy_version 858249 (0.0006)
+[2023-07-06 15:06:06,534][98493] Updated weights for policy 0, policy_version 858299 (0.0008)
+[2023-07-06 15:06:07,664][98493] Updated weights for policy 0, policy_version 858336 (0.0007)
+[2023-07-06 15:06:08,174][98493] Updated weights for policy 0, policy_version 858385 (0.0009)
+[2023-07-06 15:06:08,490][98493] Updated weights for policy 0, policy_version 858430 (0.0008)
+[2023-07-06 15:06:09,764][98243] Fps is (10 sec: 104858.5, 60 sec: 109226.8, 300 sec: 110633.6). Total num frames: 1758068736. Throughput: 0: 27625.4. Samples: 439546880. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:09,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:06:10,569][98493] Updated weights for policy 0, policy_version 858482 (0.0007)
+[2023-07-06 15:06:11,090][98493] Updated weights for policy 0, policy_version 858544 (0.0008)
+[2023-07-06 15:06:12,234][98493] Updated weights for policy 0, policy_version 858580 (0.0007)
+[2023-07-06 15:06:12,788][98493] Updated weights for policy 0, policy_version 858630 (0.0007)
+[2023-07-06 15:06:14,658][98493] Updated weights for policy 0, policy_version 858691 (0.0007)
+[2023-07-06 15:06:14,764][98243] Fps is (10 sec: 108136.2, 60 sec: 109773.0, 300 sec: 110744.8). Total num frames: 1758625792. Throughput: 0: 27784.7. Samples: 439715328. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:14,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:06:15,323][98493] Updated weights for policy 0, policy_version 858753 (0.0007)
+[2023-07-06 15:06:15,826][98493] Updated weights for policy 0, policy_version 858815 (0.0006)
+[2023-07-06 15:06:17,126][98493] Updated weights for policy 0, policy_version 858871 (0.0008)
+[2023-07-06 15:06:17,774][98493] Updated weights for policy 0, policy_version 858917 (0.0009)
+[2023-07-06 15:06:19,430][98449] Signal inference workers to stop experience collection... (44400 times)
+[2023-07-06 15:06:19,460][98493] InferenceWorker_p0-w0: stopping experience collection (44400 times)
+[2023-07-06 15:06:19,479][98493] Updated weights for policy 0, policy_version 858949 (0.0007)
+[2023-07-06 15:06:19,534][98449] Signal inference workers to resume experience collection... (44400 times)
+[2023-07-06 15:06:19,534][98493] InferenceWorker_p0-w0: resuming experience collection (44400 times)
+[2023-07-06 15:06:19,764][98243] Fps is (10 sec: 111410.0, 60 sec: 110318.8, 300 sec: 110855.8). Total num frames: 1759182848. Throughput: 0: 27818.6. Samples: 439884800. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:06:20,044][98493] Updated weights for policy 0, policy_version 859011 (0.0007)
+[2023-07-06 15:06:20,494][98493] Updated weights for policy 0, policy_version 859066 (0.0006)
+[2023-07-06 15:06:21,942][98493] Updated weights for policy 0, policy_version 859130 (0.0006)
+[2023-07-06 15:06:22,692][98493] Updated weights for policy 0, policy_version 859195 (0.0008)
+[2023-07-06 15:06:24,376][98493] Updated weights for policy 0, policy_version 859237 (0.0006)
+[2023-07-06 15:06:24,764][98243] Fps is (10 sec: 117962.6, 60 sec: 111957.9, 300 sec: 111189.1). Total num frames: 1759805440. Throughput: 0: 27716.3. Samples: 439962624. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:06:24,803][98493] Updated weights for policy 0, policy_version 859286 (0.0006)
+[2023-07-06 15:06:25,022][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000859312_1759870976.pth...
+[2023-07-06 15:06:25,053][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000846240_1733099520.pth
+[2023-07-06 15:06:25,185][98493] Updated weights for policy 0, policy_version 859328 (0.0007)
+[2023-07-06 15:06:26,656][98493] Updated weights for policy 0, policy_version 859383 (0.0006)
+[2023-07-06 15:06:27,470][98493] Updated weights for policy 0, policy_version 859430 (0.0007)
+[2023-07-06 15:06:28,747][98493] Updated weights for policy 0, policy_version 859472 (0.0007)
+[2023-07-06 15:06:29,172][98493] Updated weights for policy 0, policy_version 859520 (0.0007)
+[2023-07-06 15:06:29,719][98493] Updated weights for policy 0, policy_version 859579 (0.0009)
+[2023-07-06 15:06:29,764][98243] Fps is (10 sec: 124520.9, 60 sec: 113596.2, 300 sec: 111522.4). Total num frames: 1760428032. Throughput: 0: 27943.9. Samples: 440137216. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:29,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:06:31,174][98493] Updated weights for policy 0, policy_version 859621 (0.0007)
+[2023-07-06 15:06:32,166][98493] Updated weights for policy 0, policy_version 859683 (0.0008)
+[2023-07-06 15:06:33,727][98493] Updated weights for policy 0, policy_version 859752 (0.0009)
+[2023-07-06 15:06:34,320][98493] Updated weights for policy 0, policy_version 859824 (0.0007)
+[2023-07-06 15:06:34,764][98243] Fps is (10 sec: 114688.5, 60 sec: 112503.6, 300 sec: 111522.3). Total num frames: 1760952320. Throughput: 0: 27932.4. Samples: 440297472. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:34,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:06:35,881][98493] Updated weights for policy 0, policy_version 859888 (0.0006)
+[2023-07-06 15:06:36,944][98449] Signal inference workers to stop experience collection... (44450 times)
+[2023-07-06 15:06:36,976][98493] InferenceWorker_p0-w0: stopping experience collection (44450 times)
+[2023-07-06 15:06:37,018][98449] Signal inference workers to resume experience collection... (44450 times)
+[2023-07-06 15:06:37,018][98493] InferenceWorker_p0-w0: resuming experience collection (44450 times)
+[2023-07-06 15:06:37,019][98493] Updated weights for policy 0, policy_version 859936 (0.0007)
+[2023-07-06 15:06:38,479][98493] Updated weights for policy 0, policy_version 859990 (0.0006)
+[2023-07-06 15:06:38,942][98493] Updated weights for policy 0, policy_version 860048 (0.0007)
+[2023-07-06 15:06:39,764][98243] Fps is (10 sec: 104855.9, 60 sec: 110865.0, 300 sec: 111522.2). Total num frames: 1761476608. Throughput: 0: 27955.1. Samples: 440384000. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:06:39,959][98493] Updated weights for policy 0, policy_version 860098 (0.0007)
+[2023-07-06 15:06:40,420][98493] Updated weights for policy 0, policy_version 860155 (0.0006)
+[2023-07-06 15:06:41,910][98493] Updated weights for policy 0, policy_version 860219 (0.0008)
+[2023-07-06 15:06:43,509][98493] Updated weights for policy 0, policy_version 860280 (0.0007)
+[2023-07-06 15:06:43,986][98493] Updated weights for policy 0, policy_version 860336 (0.0007)
+[2023-07-06 15:06:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109772.9, 300 sec: 111522.3). Total num frames: 1762000896. Throughput: 0: 28034.9. Samples: 440551424. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:06:45,037][98493] Updated weights for policy 0, policy_version 860386 (0.0007)
+[2023-07-06 15:06:46,134][98493] Updated weights for policy 0, policy_version 860434 (0.0006)
+[2023-07-06 15:06:46,464][98493] Updated weights for policy 0, policy_version 860479 (0.0006)
+[2023-07-06 15:06:48,160][98493] Updated weights for policy 0, policy_version 860534 (0.0007)
+[2023-07-06 15:06:48,754][98493] Updated weights for policy 0, policy_version 860604 (0.0007)
+[2023-07-06 15:06:49,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110318.9, 300 sec: 111744.5). Total num frames: 1762590720. Throughput: 0: 27909.7. Samples: 440717824. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:49,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:06:49,833][98493] Updated weights for policy 0, policy_version 860656 (0.0007)
+[2023-07-06 15:06:51,018][98493] Updated weights for policy 0, policy_version 860704 (0.0008)
+[2023-07-06 15:06:52,437][98493] Updated weights for policy 0, policy_version 860740 (0.0007)
+[2023-07-06 15:06:52,866][98493] Updated weights for policy 0, policy_version 860787 (0.0007)
+[2023-07-06 15:06:53,306][98493] Updated weights for policy 0, policy_version 860838 (0.0007)
+[2023-07-06 15:06:54,031][98493] Updated weights for policy 0, policy_version 860887 (0.0007)
+[2023-07-06 15:06:54,138][98449] Signal inference workers to stop experience collection... (44500 times)
+[2023-07-06 15:06:54,168][98493] InferenceWorker_p0-w0: stopping experience collection (44500 times)
+[2023-07-06 15:06:54,239][98449] Signal inference workers to resume experience collection... (44500 times)
+[2023-07-06 15:06:54,239][98493] InferenceWorker_p0-w0: resuming experience collection (44500 times)
+[2023-07-06 15:06:54,764][98243] Fps is (10 sec: 117963.6, 60 sec: 111411.0, 300 sec: 111966.6). Total num frames: 1763180544. Throughput: 0: 27977.9. Samples: 440805888. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:06:55,363][98493] Updated weights for policy 0, policy_version 860938 (0.0006)
+[2023-07-06 15:06:55,761][98493] Updated weights for policy 0, policy_version 860990 (0.0007)
+[2023-07-06 15:06:57,284][98493] Updated weights for policy 0, policy_version 861046 (0.0007)
+[2023-07-06 15:06:57,724][98493] Updated weights for policy 0, policy_version 861096 (0.0007)
+[2023-07-06 15:06:58,491][98493] Updated weights for policy 0, policy_version 861140 (0.0007)
+[2023-07-06 15:06:58,824][98493] Updated weights for policy 0, policy_version 861184 (0.0007)
+[2023-07-06 15:06:59,764][98243] Fps is (10 sec: 111410.8, 60 sec: 111411.3, 300 sec: 111855.6). Total num frames: 1763704832. Throughput: 0: 28023.3. Samples: 440976384. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:06:59,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:07:00,480][98493] Updated weights for policy 0, policy_version 861243 (0.0007)
+[2023-07-06 15:07:01,839][98493] Updated weights for policy 0, policy_version 861300 (0.0007)
+[2023-07-06 15:07:02,422][98493] Updated weights for policy 0, policy_version 861368 (0.0012)
+[2023-07-06 15:07:03,096][98493] Updated weights for policy 0, policy_version 861411 (0.0007)
+[2023-07-06 15:07:04,764][98243] Fps is (10 sec: 104859.1, 60 sec: 111411.3, 300 sec: 111855.5). Total num frames: 1764229120. Throughput: 0: 28046.3. Samples: 441146880. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:04,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:07:05,119][98493] Updated weights for policy 0, policy_version 861460 (0.0006)
+[2023-07-06 15:07:06,115][98493] Updated weights for policy 0, policy_version 861520 (0.0008)
+[2023-07-06 15:07:06,555][98493] Updated weights for policy 0, policy_version 861568 (0.0007)
+[2023-07-06 15:07:07,545][98493] Updated weights for policy 0, policy_version 861633 (0.0007)
+[2023-07-06 15:07:07,971][98493] Updated weights for policy 0, policy_version 861692 (0.0007)
+[2023-07-06 15:07:09,764][98243] Fps is (10 sec: 111411.9, 60 sec: 112503.5, 300 sec: 111744.4). Total num frames: 1764818944. Throughput: 0: 28080.4. Samples: 441226240. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:09,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:07:09,852][98493] Updated weights for policy 0, policy_version 861744 (0.0007)
+[2023-07-06 15:07:11,135][98493] Updated weights for policy 0, policy_version 861795 (0.0007)
+[2023-07-06 15:07:11,549][98493] Updated weights for policy 0, policy_version 861840 (0.0007)
+[2023-07-06 15:07:12,257][98493] Updated weights for policy 0, policy_version 861889 (0.0007)
+[2023-07-06 15:07:12,550][98449] Signal inference workers to stop experience collection... (44550 times)
+[2023-07-06 15:07:12,574][98493] InferenceWorker_p0-w0: stopping experience collection (44550 times)
+[2023-07-06 15:07:12,645][98449] Signal inference workers to resume experience collection... (44550 times)
+[2023-07-06 15:07:12,645][98493] InferenceWorker_p0-w0: resuming experience collection (44550 times)
+[2023-07-06 15:07:12,726][98493] Updated weights for policy 0, policy_version 861944 (0.0007)
+[2023-07-06 15:07:14,470][98493] Updated weights for policy 0, policy_version 862000 (0.0007)
+[2023-07-06 15:07:14,764][98243] Fps is (10 sec: 117964.3, 60 sec: 113049.3, 300 sec: 111744.6). Total num frames: 1765408768. Throughput: 0: 28012.0. Samples: 441397760. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:07:15,778][98493] Updated weights for policy 0, policy_version 862057 (0.0008)
+[2023-07-06 15:07:16,082][98493] Updated weights for policy 0, policy_version 862081 (0.0008)
+[2023-07-06 15:07:16,551][98493] Updated weights for policy 0, policy_version 862144 (0.0007)
+[2023-07-06 15:07:17,176][98493] Updated weights for policy 0, policy_version 862192 (0.0007)
+[2023-07-06 15:07:19,101][98493] Updated weights for policy 0, policy_version 862256 (0.0007)
+[2023-07-06 15:07:19,764][98243] Fps is (10 sec: 111411.1, 60 sec: 112503.7, 300 sec: 111522.3). Total num frames: 1765933056. Throughput: 0: 28216.9. Samples: 441567232. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:19,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:07:20,261][98493] Updated weights for policy 0, policy_version 862304 (0.0006)
+[2023-07-06 15:07:21,003][98493] Updated weights for policy 0, policy_version 862361 (0.0007)
+[2023-07-06 15:07:21,633][98493] Updated weights for policy 0, policy_version 862404 (0.0007)
+[2023-07-06 15:07:23,469][98493] Updated weights for policy 0, policy_version 862466 (0.0006)
+[2023-07-06 15:07:23,952][98493] Updated weights for policy 0, policy_version 862528 (0.0007)
+[2023-07-06 15:07:24,764][98243] Fps is (10 sec: 104858.1, 60 sec: 110865.2, 300 sec: 111300.1). Total num frames: 1766457344. Throughput: 0: 28103.2. Samples: 441648640. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:24,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 15:07:25,291][98493] Updated weights for policy 0, policy_version 862592 (0.0007)
+[2023-07-06 15:07:25,867][98493] Updated weights for policy 0, policy_version 862648 (0.0008)
+[2023-07-06 15:07:26,671][98493] Updated weights for policy 0, policy_version 862694 (0.0007)
+[2023-07-06 15:07:27,974][98493] Updated weights for policy 0, policy_version 862730 (0.0008)
+[2023-07-06 15:07:28,410][98493] Updated weights for policy 0, policy_version 862777 (0.0007)
+[2023-07-06 15:07:29,764][98243] Fps is (10 sec: 111411.5, 60 sec: 110318.8, 300 sec: 111189.0). Total num frames: 1767047168. Throughput: 0: 28182.8. Samples: 441819648. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:29,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:07:29,822][98493] Updated weights for policy 0, policy_version 862824 (0.0006)
+[2023-07-06 15:07:30,449][98493] Updated weights for policy 0, policy_version 862896 (0.0008)
+[2023-07-06 15:07:31,522][98493] Updated weights for policy 0, policy_version 862947 (0.0007)
+[2023-07-06 15:07:32,675][98449] Signal inference workers to stop experience collection... (44600 times)
+[2023-07-06 15:07:32,714][98493] InferenceWorker_p0-w0: stopping experience collection (44600 times)
+[2023-07-06 15:07:32,771][98449] Signal inference workers to resume experience collection... (44600 times)
+[2023-07-06 15:07:32,771][98493] InferenceWorker_p0-w0: resuming experience collection (44600 times)
+[2023-07-06 15:07:32,858][98493] Updated weights for policy 0, policy_version 863000 (0.0008)
+[2023-07-06 15:07:34,305][98493] Updated weights for policy 0, policy_version 863056 (0.0009)
+[2023-07-06 15:07:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111411.3, 300 sec: 111300.3). Total num frames: 1767636992. Throughput: 0: 28217.0. Samples: 441987584. Policy #0 lag: (min: 5.0, avg: 81.0, max: 261.0)
+[2023-07-06 15:07:34,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:07:34,863][98493] Updated weights for policy 0, policy_version 863120 (0.0008)
+[2023-07-06 15:07:35,232][98493] Updated weights for policy 0, policy_version 863164 (0.0007)
+[2023-07-06 15:07:36,269][98493] Updated weights for policy 0, policy_version 863227 (0.0007)
+[2023-07-06 15:07:37,743][98493] Updated weights for policy 0, policy_version 863269 (0.0005)
+[2023-07-06 15:07:39,017][98493] Updated weights for policy 0, policy_version 863319 (0.0011)
+[2023-07-06 15:07:39,584][98493] Updated weights for policy 0, policy_version 863392 (0.0006)
+[2023-07-06 15:07:39,764][98243] Fps is (10 sec: 121241.5, 60 sec: 113049.8, 300 sec: 111411.3). Total num frames: 1768259584. Throughput: 0: 28080.4. Samples: 442069504. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:07:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:07:40,937][98493] Updated weights for policy 0, policy_version 863456 (0.0007)
+[2023-07-06 15:07:42,068][98493] Updated weights for policy 0, policy_version 863504 (0.0007)
+[2023-07-06 15:07:43,714][98493] Updated weights for policy 0, policy_version 863558 (0.0007)
+[2023-07-06 15:07:44,278][98493] Updated weights for policy 0, policy_version 863619 (0.0007)
+[2023-07-06 15:07:44,717][98493] Updated weights for policy 0, policy_version 863674 (0.0007)
+[2023-07-06 15:07:44,764][98243] Fps is (10 sec: 114687.2, 60 sec: 113049.6, 300 sec: 111411.2). Total num frames: 1768783872. Throughput: 0: 28080.4. Samples: 442240000. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:07:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:07:45,845][98493] Updated weights for policy 0, policy_version 863728 (0.0007)
+[2023-07-06 15:07:47,319][98493] Updated weights for policy 0, policy_version 863792 (0.0007)
+[2023-07-06 15:07:48,701][98493] Updated weights for policy 0, policy_version 863842 (0.0007)
+[2023-07-06 15:07:49,074][98493] Updated weights for policy 0, policy_version 863888 (0.0007)
+[2023-07-06 15:07:49,764][98243] Fps is (10 sec: 108133.8, 60 sec: 112503.4, 300 sec: 111522.3). Total num frames: 1769340928. Throughput: 0: 27864.1. Samples: 442400768. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:07:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:07:50,163][98493] Updated weights for policy 0, policy_version 863937 (0.0006)
+[2023-07-06 15:07:50,298][98449] Signal inference workers to stop experience collection... (44650 times)
+[2023-07-06 15:07:50,327][98493] InferenceWorker_p0-w0: stopping experience collection (44650 times)
+[2023-07-06 15:07:50,367][98449] Signal inference workers to resume experience collection... (44650 times)
+[2023-07-06 15:07:50,368][98493] InferenceWorker_p0-w0: resuming experience collection (44650 times)
+[2023-07-06 15:07:50,634][98493] Updated weights for policy 0, policy_version 864000 (0.0010)
+[2023-07-06 15:07:51,947][98493] Updated weights for policy 0, policy_version 864059 (0.0008)
+[2023-07-06 15:07:53,441][98493] Updated weights for policy 0, policy_version 864100 (0.0007)
+[2023-07-06 15:07:53,905][98493] Updated weights for policy 0, policy_version 864150 (0.0007)
+[2023-07-06 15:07:54,765][98243] Fps is (10 sec: 108131.1, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 1769865216. Throughput: 0: 28011.9. Samples: 442486784. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:07:54,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:07:54,926][98493] Updated weights for policy 0, policy_version 864200 (0.0009)
+[2023-07-06 15:07:55,374][98493] Updated weights for policy 0, policy_version 864254 (0.0006)
+[2023-07-06 15:07:56,376][98493] Updated weights for policy 0, policy_version 864306 (0.0008)
+[2023-07-06 15:07:57,636][98493] Updated weights for policy 0, policy_version 864336 (0.0006)
+[2023-07-06 15:07:58,043][98493] Updated weights for policy 0, policy_version 864384 (0.0007)
+[2023-07-06 15:07:58,803][98493] Updated weights for policy 0, policy_version 864441 (0.0007)
+[2023-07-06 15:07:59,765][98243] Fps is (10 sec: 111407.1, 60 sec: 112502.8, 300 sec: 111744.3). Total num frames: 1770455040. Throughput: 0: 27954.9. Samples: 442655744. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:07:59,766][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:07:59,813][98493] Updated weights for policy 0, policy_version 864496 (0.0007)
+[2023-07-06 15:08:01,007][98493] Updated weights for policy 0, policy_version 864545 (0.0008)
+[2023-07-06 15:08:02,514][98493] Updated weights for policy 0, policy_version 864612 (0.0007)
+[2023-07-06 15:08:02,942][98493] Updated weights for policy 0, policy_version 864656 (0.0007)
+[2023-07-06 15:08:03,345][98493] Updated weights for policy 0, policy_version 864702 (0.0007)
+[2023-07-06 15:08:04,712][98493] Updated weights for policy 0, policy_version 864760 (0.0007)
+[2023-07-06 15:08:04,764][98243] Fps is (10 sec: 117968.3, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1771044864. Throughput: 0: 27898.3. Samples: 442822656. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:04,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:08:05,646][98493] Updated weights for policy 0, policy_version 864816 (0.0007)
+[2023-07-06 15:08:07,499][98493] Updated weights for policy 0, policy_version 864880 (0.0008)
+[2023-07-06 15:08:08,023][98493] Updated weights for policy 0, policy_version 864932 (0.0008)
+[2023-07-06 15:08:09,184][98449] Signal inference workers to stop experience collection... (44700 times)
+[2023-07-06 15:08:09,210][98493] InferenceWorker_p0-w0: stopping experience collection (44700 times)
+[2023-07-06 15:08:09,263][98449] Signal inference workers to resume experience collection... (44700 times)
+[2023-07-06 15:08:09,263][98493] InferenceWorker_p0-w0: resuming experience collection (44700 times)
+[2023-07-06 15:08:09,396][98493] Updated weights for policy 0, policy_version 865008 (0.0006)
+[2023-07-06 15:08:09,764][98243] Fps is (10 sec: 111415.9, 60 sec: 112503.5, 300 sec: 111855.5). Total num frames: 1771569152. Throughput: 0: 27943.8. Samples: 442906112. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:09,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:08:10,246][98493] Updated weights for policy 0, policy_version 865064 (0.0006)
+[2023-07-06 15:08:12,016][98493] Updated weights for policy 0, policy_version 865120 (0.0007)
+[2023-07-06 15:08:12,471][98493] Updated weights for policy 0, policy_version 865168 (0.0007)
+[2023-07-06 15:08:12,881][98493] Updated weights for policy 0, policy_version 865216 (0.0007)
+[2023-07-06 15:08:14,594][98493] Updated weights for policy 0, policy_version 865283 (0.0007)
+[2023-07-06 15:08:14,764][98243] Fps is (10 sec: 108134.8, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1772126208. Throughput: 0: 27875.6. Samples: 443074048. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:14,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:08:16,679][98493] Updated weights for policy 0, policy_version 865345 (0.0007)
+[2023-07-06 15:08:17,259][98493] Updated weights for policy 0, policy_version 865415 (0.0007)
+[2023-07-06 15:08:17,695][98493] Updated weights for policy 0, policy_version 865470 (0.0006)
+[2023-07-06 15:08:19,296][98493] Updated weights for policy 0, policy_version 865520 (0.0007)
+[2023-07-06 15:08:19,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 1772683264. Throughput: 0: 27739.0. Samples: 443235840. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:19,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:08:19,806][98493] Updated weights for policy 0, policy_version 865575 (0.0008)
+[2023-07-06 15:08:21,479][98493] Updated weights for policy 0, policy_version 865632 (0.0007)
+[2023-07-06 15:08:22,096][98493] Updated weights for policy 0, policy_version 865704 (0.0007)
+[2023-07-06 15:08:23,963][98493] Updated weights for policy 0, policy_version 865760 (0.0007)
+[2023-07-06 15:08:24,608][98493] Updated weights for policy 0, policy_version 865828 (0.0030)
+[2023-07-06 15:08:24,764][98243] Fps is (10 sec: 111410.9, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 1773240320. Throughput: 0: 27750.4. Samples: 443318272. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:24,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:08:24,790][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000865856_1773273088.pth...
+[2023-07-06 15:08:24,826][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000852768_1746468864.pth
+[2023-07-06 15:08:25,978][98493] Updated weights for policy 0, policy_version 865861 (0.0007)
+[2023-07-06 15:08:26,465][98493] Updated weights for policy 0, policy_version 865920 (0.0006)
+[2023-07-06 15:08:26,512][98449] Signal inference workers to stop experience collection... (44750 times)
+[2023-07-06 15:08:26,552][98493] InferenceWorker_p0-w0: stopping experience collection (44750 times)
+[2023-07-06 15:08:26,602][98449] Signal inference workers to resume experience collection... (44750 times)
+[2023-07-06 15:08:26,603][98493] InferenceWorker_p0-w0: resuming experience collection (44750 times)
+[2023-07-06 15:08:27,008][98493] Updated weights for policy 0, policy_version 865984 (0.0008)
+[2023-07-06 15:08:29,038][98493] Updated weights for policy 0, policy_version 866035 (0.0007)
+[2023-07-06 15:08:29,531][98493] Updated weights for policy 0, policy_version 866096 (0.0008)
+[2023-07-06 15:08:29,764][98243] Fps is (10 sec: 111409.5, 60 sec: 112503.2, 300 sec: 111966.6). Total num frames: 1773797376. Throughput: 0: 27727.6. Samples: 443487744. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:08:31,116][98493] Updated weights for policy 0, policy_version 866148 (0.0007)
+[2023-07-06 15:08:31,546][98493] Updated weights for policy 0, policy_version 866196 (0.0007)
+[2023-07-06 15:08:33,206][98493] Updated weights for policy 0, policy_version 866245 (0.0006)
+[2023-07-06 15:08:33,844][98493] Updated weights for policy 0, policy_version 866320 (0.0008)
+[2023-07-06 15:08:34,764][98243] Fps is (10 sec: 108133.8, 60 sec: 111411.0, 300 sec: 111633.3). Total num frames: 1774321664. Throughput: 0: 27739.0. Samples: 443649024. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:34,773][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:08:35,620][98493] Updated weights for policy 0, policy_version 866369 (0.0007)
+[2023-07-06 15:08:36,188][98493] Updated weights for policy 0, policy_version 866440 (0.0007)
+[2023-07-06 15:08:36,633][98493] Updated weights for policy 0, policy_version 866496 (0.0007)
+[2023-07-06 15:08:38,348][98493] Updated weights for policy 0, policy_version 866544 (0.0008)
+[2023-07-06 15:08:38,869][98493] Updated weights for policy 0, policy_version 866595 (0.0007)
+[2023-07-06 15:08:39,764][98243] Fps is (10 sec: 104858.9, 60 sec: 109772.8, 300 sec: 111522.3). Total num frames: 1774845952. Throughput: 0: 27739.2. Samples: 443735040. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:08:40,614][98493] Updated weights for policy 0, policy_version 866658 (0.0008)
+[2023-07-06 15:08:41,115][98493] Updated weights for policy 0, policy_version 866720 (0.0008)
+[2023-07-06 15:08:42,596][98493] Updated weights for policy 0, policy_version 866768 (0.0006)
+[2023-07-06 15:08:43,376][98493] Updated weights for policy 0, policy_version 866832 (0.0007)
+[2023-07-06 15:08:43,568][98449] Signal inference workers to stop experience collection... (44800 times)
+[2023-07-06 15:08:43,612][98493] InferenceWorker_p0-w0: stopping experience collection (44800 times)
+[2023-07-06 15:08:43,651][98449] Signal inference workers to resume experience collection... (44800 times)
+[2023-07-06 15:08:43,652][98493] InferenceWorker_p0-w0: resuming experience collection (44800 times)
+[2023-07-06 15:08:44,764][98243] Fps is (10 sec: 104857.8, 60 sec: 109772.8, 300 sec: 111411.2). Total num frames: 1775370240. Throughput: 0: 27580.0. Samples: 443896832. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:08:45,082][98493] Updated weights for policy 0, policy_version 866888 (0.0007)
+[2023-07-06 15:08:45,639][98493] Updated weights for policy 0, policy_version 866952 (0.0007)
+[2023-07-06 15:08:47,299][98493] Updated weights for policy 0, policy_version 867010 (0.0008)
+[2023-07-06 15:08:47,762][98493] Updated weights for policy 0, policy_version 867067 (0.0006)
+[2023-07-06 15:08:48,385][98493] Updated weights for policy 0, policy_version 867120 (0.0007)
+[2023-07-06 15:08:49,764][98243] Fps is (10 sec: 104855.5, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 1775894528. Throughput: 0: 27636.5. Samples: 444066304. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:49,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:08:49,980][98493] Updated weights for policy 0, policy_version 867152 (0.0006)
+[2023-07-06 15:08:50,529][98493] Updated weights for policy 0, policy_version 867216 (0.0006)
+[2023-07-06 15:08:50,908][98493] Updated weights for policy 0, policy_version 867263 (0.0007)
+[2023-07-06 15:08:52,125][98493] Updated weights for policy 0, policy_version 867301 (0.0007)
+[2023-07-06 15:08:52,972][98493] Updated weights for policy 0, policy_version 867369 (0.0007)
+[2023-07-06 15:08:54,764][98243] Fps is (10 sec: 111409.1, 60 sec: 110319.1, 300 sec: 111300.0). Total num frames: 1776484352. Throughput: 0: 27613.7. Samples: 444148736. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:08:54,829][98493] Updated weights for policy 0, policy_version 867429 (0.0007)
+[2023-07-06 15:08:55,252][98493] Updated weights for policy 0, policy_version 867477 (0.0006)
+[2023-07-06 15:08:56,442][98493] Updated weights for policy 0, policy_version 867523 (0.0007)
+[2023-07-06 15:08:56,880][98493] Updated weights for policy 0, policy_version 867581 (0.0007)
+[2023-07-06 15:08:57,806][98493] Updated weights for policy 0, policy_version 867645 (0.0007)
+[2023-07-06 15:08:59,764][98243] Fps is (10 sec: 111413.1, 60 sec: 109227.4, 300 sec: 111300.2). Total num frames: 1777008640. Throughput: 0: 27625.2. Samples: 444317184. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:08:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:08:59,906][98493] Updated weights for policy 0, policy_version 867703 (0.0010)
+[2023-07-06 15:09:00,451][98493] Updated weights for policy 0, policy_version 867772 (0.0008)
+[2023-07-06 15:09:01,405][98493] Updated weights for policy 0, policy_version 867812 (0.0007)
+[2023-07-06 15:09:02,176][98449] Signal inference workers to stop experience collection... (44850 times)
+[2023-07-06 15:09:02,218][98493] InferenceWorker_p0-w0: stopping experience collection (44850 times)
+[2023-07-06 15:09:02,290][98449] Signal inference workers to resume experience collection... (44850 times)
+[2023-07-06 15:09:02,290][98493] InferenceWorker_p0-w0: resuming experience collection (44850 times)
+[2023-07-06 15:09:02,425][98493] Updated weights for policy 0, policy_version 867872 (0.0007)
+[2023-07-06 15:09:04,092][98493] Updated weights for policy 0, policy_version 867906 (0.0005)
+[2023-07-06 15:09:04,595][98493] Updated weights for policy 0, policy_version 867968 (0.0007)
+[2023-07-06 15:09:04,764][98243] Fps is (10 sec: 114690.6, 60 sec: 109772.8, 300 sec: 111522.3). Total num frames: 1777631232. Throughput: 0: 27727.6. Samples: 444483584. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:09:04,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:09:05,114][98493] Updated weights for policy 0, policy_version 868025 (0.0008)
+[2023-07-06 15:09:06,108][98493] Updated weights for policy 0, policy_version 868080 (0.0008)
+[2023-07-06 15:09:07,218][98493] Updated weights for policy 0, policy_version 868134 (0.0007)
+[2023-07-06 15:09:08,692][98493] Updated weights for policy 0, policy_version 868176 (0.0007)
+[2023-07-06 15:09:09,252][98493] Updated weights for policy 0, policy_version 868227 (0.0007)
+[2023-07-06 15:09:09,734][98493] Updated weights for policy 0, policy_version 868288 (0.0006)
+[2023-07-06 15:09:09,764][98243] Fps is (10 sec: 124519.3, 60 sec: 111411.3, 300 sec: 111633.4). Total num frames: 1778253824. Throughput: 0: 27739.0. Samples: 444566528. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:09:09,764][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:09:10,719][98493] Updated weights for policy 0, policy_version 868348 (0.0007)
+[2023-07-06 15:09:12,037][98493] Updated weights for policy 0, policy_version 868393 (0.0007)
+[2023-07-06 15:09:13,244][98493] Updated weights for policy 0, policy_version 868432 (0.0007)
+[2023-07-06 15:09:13,620][98493] Updated weights for policy 0, policy_version 868471 (0.0008)
+[2023-07-06 15:09:14,053][98493] Updated weights for policy 0, policy_version 868505 (0.0007)
+[2023-07-06 15:09:14,764][98243] Fps is (10 sec: 114688.0, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 1778778112. Throughput: 0: 27784.6. Samples: 444738048. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:09:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:09:14,805][98493] Updated weights for policy 0, policy_version 868546 (0.0006)
+[2023-07-06 15:09:16,173][98493] Updated weights for policy 0, policy_version 868610 (0.0007)
+[2023-07-06 15:09:17,818][98493] Updated weights for policy 0, policy_version 868675 (0.0007)
+[2023-07-06 15:09:18,246][98493] Updated weights for policy 0, policy_version 868730 (0.0006)
+[2023-07-06 15:09:18,795][98493] Updated weights for policy 0, policy_version 868771 (0.0016)
+[2023-07-06 15:09:19,719][98493] Updated weights for policy 0, policy_version 868816 (0.0006)
+[2023-07-06 15:09:19,764][98243] Fps is (10 sec: 108134.0, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 1779335168. Throughput: 0: 27955.2. Samples: 444907008. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:09:19,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:09:20,156][98493] Updated weights for policy 0, policy_version 868864 (0.0007)
+[2023-07-06 15:09:21,067][98449] Signal inference workers to stop experience collection... (44900 times)
+[2023-07-06 15:09:21,102][98493] InferenceWorker_p0-w0: stopping experience collection (44900 times)
+[2023-07-06 15:09:21,146][98449] Signal inference workers to resume experience collection... (44900 times)
+[2023-07-06 15:09:21,147][98493] InferenceWorker_p0-w0: resuming experience collection (44900 times)
+[2023-07-06 15:09:21,420][98493] Updated weights for policy 0, policy_version 868928 (0.0007)
+[2023-07-06 15:09:23,098][98493] Updated weights for policy 0, policy_version 868992 (0.0007)
+[2023-07-06 15:09:23,587][98493] Updated weights for policy 0, policy_version 869049 (0.0007)
+[2023-07-06 15:09:24,743][98493] Updated weights for policy 0, policy_version 869090 (0.0007)
+[2023-07-06 15:09:24,764][98243] Fps is (10 sec: 111410.7, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 1779892224. Throughput: 0: 27966.6. Samples: 444993536. Policy #0 lag: (min: 44.0, avg: 152.7, max: 300.0)
+[2023-07-06 15:09:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:09:25,702][98493] Updated weights for policy 0, policy_version 869139 (0.0007)
+[2023-07-06 15:09:27,347][98493] Updated weights for policy 0, policy_version 869185 (0.0007)
+[2023-07-06 15:09:27,961][98493] Updated weights for policy 0, policy_version 869256 (0.0008)
+[2023-07-06 15:09:28,417][98493] Updated weights for policy 0, policy_version 869312 (0.0007)
+[2023-07-06 15:09:29,539][98493] Updated weights for policy 0, policy_version 869376 (0.0007)
+[2023-07-06 15:09:29,764][98243] Fps is (10 sec: 114686.1, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1780482048. Throughput: 0: 28012.0. Samples: 445157376. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:29,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:09:30,890][98493] Updated weights for policy 0, policy_version 869435 (0.0007)
+[2023-07-06 15:09:32,246][98493] Updated weights for policy 0, policy_version 869481 (0.0007)
+[2023-07-06 15:09:32,826][98493] Updated weights for policy 0, policy_version 869540 (0.0007)
+[2023-07-06 15:09:33,772][98493] Updated weights for policy 0, policy_version 869569 (0.0007)
+[2023-07-06 15:09:34,262][98493] Updated weights for policy 0, policy_version 869632 (0.0006)
+[2023-07-06 15:09:34,764][98243] Fps is (10 sec: 111409.2, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 1781006336. Throughput: 0: 28000.7. Samples: 445326336. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:34,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:09:35,337][98493] Updated weights for policy 0, policy_version 869690 (0.0008)
+[2023-07-06 15:09:36,945][98493] Updated weights for policy 0, policy_version 869735 (0.0008)
+[2023-07-06 15:09:37,420][98493] Updated weights for policy 0, policy_version 869780 (0.0008)
+[2023-07-06 15:09:38,393][98493] Updated weights for policy 0, policy_version 869830 (0.0006)
+[2023-07-06 15:09:38,632][98449] Signal inference workers to stop experience collection... (44950 times)
+[2023-07-06 15:09:38,656][98493] InferenceWorker_p0-w0: stopping experience collection (44950 times)
+[2023-07-06 15:09:38,718][98449] Signal inference workers to resume experience collection... (44950 times)
+[2023-07-06 15:09:38,718][98493] InferenceWorker_p0-w0: resuming experience collection (44950 times)
+[2023-07-06 15:09:39,609][98493] Updated weights for policy 0, policy_version 869894 (0.0006)
+[2023-07-06 15:09:39,764][98243] Fps is (10 sec: 108136.9, 60 sec: 111957.5, 300 sec: 111633.5). Total num frames: 1781563392. Throughput: 0: 27989.5. Samples: 445408256. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:39,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:09:40,002][98493] Updated weights for policy 0, policy_version 869949 (0.0007)
+[2023-07-06 15:09:41,810][98493] Updated weights for policy 0, policy_version 870014 (0.0009)
+[2023-07-06 15:09:42,334][98493] Updated weights for policy 0, policy_version 870074 (0.0007)
+[2023-07-06 15:09:43,305][98493] Updated weights for policy 0, policy_version 870118 (0.0010)
+[2023-07-06 15:09:44,314][98493] Updated weights for policy 0, policy_version 870166 (0.0008)
+[2023-07-06 15:09:44,764][98243] Fps is (10 sec: 117967.2, 60 sec: 113595.8, 300 sec: 111966.6). Total num frames: 1782185984. Throughput: 0: 28000.7. Samples: 445577216. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:09:46,403][98493] Updated weights for policy 0, policy_version 870213 (0.0010)
+[2023-07-06 15:09:47,021][98493] Updated weights for policy 0, policy_version 870288 (0.0007)
+[2023-07-06 15:09:47,660][98493] Updated weights for policy 0, policy_version 870338 (0.0006)
+[2023-07-06 15:09:48,158][98493] Updated weights for policy 0, policy_version 870399 (0.0007)
+[2023-07-06 15:09:49,275][98493] Updated weights for policy 0, policy_version 870450 (0.0007)
+[2023-07-06 15:09:49,764][98243] Fps is (10 sec: 114687.3, 60 sec: 113596.1, 300 sec: 111744.4). Total num frames: 1782710272. Throughput: 0: 27989.3. Samples: 445743104. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:09:51,183][98493] Updated weights for policy 0, policy_version 870496 (0.0010)
+[2023-07-06 15:09:51,853][98493] Updated weights for policy 0, policy_version 870576 (0.0008)
+[2023-07-06 15:09:52,642][98493] Updated weights for policy 0, policy_version 870628 (0.0007)
+[2023-07-06 15:09:53,526][98493] Updated weights for policy 0, policy_version 870676 (0.0006)
+[2023-07-06 15:09:54,764][98243] Fps is (10 sec: 104857.4, 60 sec: 112503.8, 300 sec: 111522.2). Total num frames: 1783234560. Throughput: 0: 27989.3. Samples: 445826048. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:54,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:09:55,814][98493] Updated weights for policy 0, policy_version 870724 (0.0006)
+[2023-07-06 15:09:56,266][98493] Updated weights for policy 0, policy_version 870774 (0.0007)
+[2023-07-06 15:09:56,748][98493] Updated weights for policy 0, policy_version 870832 (0.0008)
+[2023-07-06 15:09:56,870][98449] Signal inference workers to stop experience collection... (45000 times)
+[2023-07-06 15:09:56,894][98449] Signal inference workers to resume experience collection... (45000 times)
+[2023-07-06 15:09:56,917][98493] InferenceWorker_p0-w0: stopping experience collection (45000 times)
+[2023-07-06 15:09:56,927][98493] InferenceWorker_p0-w0: resuming experience collection (45000 times)
+[2023-07-06 15:09:57,311][98493] Updated weights for policy 0, policy_version 870896 (0.0008)
+[2023-07-06 15:09:58,465][98493] Updated weights for policy 0, policy_version 870951 (0.0007)
+[2023-07-06 15:09:59,764][98243] Fps is (10 sec: 104856.1, 60 sec: 112503.3, 300 sec: 111189.0). Total num frames: 1783758848. Throughput: 0: 27829.9. Samples: 445990400. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:09:59,765][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 15:10:00,641][98493] Updated weights for policy 0, policy_version 871012 (0.0007)
+[2023-07-06 15:10:01,010][98493] Updated weights for policy 0, policy_version 871043 (0.0006)
+[2023-07-06 15:10:01,453][98493] Updated weights for policy 0, policy_version 871099 (0.0007)
+[2023-07-06 15:10:02,064][98493] Updated weights for policy 0, policy_version 871152 (0.0007)
+[2023-07-06 15:10:03,237][98493] Updated weights for policy 0, policy_version 871204 (0.0007)
+[2023-07-06 15:10:04,764][98243] Fps is (10 sec: 104858.0, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 1784283136. Throughput: 0: 27943.8. Samples: 446164480. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:04,764][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:10:04,992][98493] Updated weights for policy 0, policy_version 871237 (0.0006)
+[2023-07-06 15:10:05,820][98493] Updated weights for policy 0, policy_version 871304 (0.0007)
+[2023-07-06 15:10:06,235][98493] Updated weights for policy 0, policy_version 871353 (0.0007)
+[2023-07-06 15:10:06,694][98493] Updated weights for policy 0, policy_version 871400 (0.0007)
+[2023-07-06 15:10:07,755][98493] Updated weights for policy 0, policy_version 871456 (0.0007)
+[2023-07-06 15:10:09,764][98243] Fps is (10 sec: 104857.9, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 1784807424. Throughput: 0: 27784.5. Samples: 446243840. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:09,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:10:09,949][98493] Updated weights for policy 0, policy_version 871514 (0.0007)
+[2023-07-06 15:10:10,422][98493] Updated weights for policy 0, policy_version 871568 (0.0008)
+[2023-07-06 15:10:10,822][98493] Updated weights for policy 0, policy_version 871613 (0.0007)
+[2023-07-06 15:10:11,412][98493] Updated weights for policy 0, policy_version 871678 (0.0007)
+[2023-07-06 15:10:12,861][98493] Updated weights for policy 0, policy_version 871734 (0.0008)
+[2023-07-06 15:10:14,588][98493] Updated weights for policy 0, policy_version 871767 (0.0006)
+[2023-07-06 15:10:14,764][98243] Fps is (10 sec: 111411.6, 60 sec: 110319.0, 300 sec: 111300.2). Total num frames: 1785397248. Throughput: 0: 27955.3. Samples: 446415360. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:14,764][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 15:10:15,136][98449] Signal inference workers to stop experience collection... (45050 times)
+[2023-07-06 15:10:15,169][98493] InferenceWorker_p0-w0: stopping experience collection (45050 times)
+[2023-07-06 15:10:15,215][98449] Signal inference workers to resume experience collection... (45050 times)
+[2023-07-06 15:10:15,215][98493] InferenceWorker_p0-w0: resuming experience collection (45050 times)
+[2023-07-06 15:10:15,217][98493] Updated weights for policy 0, policy_version 871840 (0.0007)
+[2023-07-06 15:10:16,083][98493] Updated weights for policy 0, policy_version 871895 (0.0007)
+[2023-07-06 15:10:17,217][98493] Updated weights for policy 0, policy_version 871968 (0.0007)
+[2023-07-06 15:10:19,252][98493] Updated weights for policy 0, policy_version 872022 (0.0007)
+[2023-07-06 15:10:19,764][98243] Fps is (10 sec: 117964.0, 60 sec: 110864.8, 300 sec: 111522.3). Total num frames: 1785987072. Throughput: 0: 27898.3. Samples: 446581760. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:19,770][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:10:19,967][98493] Updated weights for policy 0, policy_version 872080 (0.0007)
+[2023-07-06 15:10:20,377][98493] Updated weights for policy 0, policy_version 872128 (0.0007)
+[2023-07-06 15:10:21,129][98493] Updated weights for policy 0, policy_version 872188 (0.0007)
+[2023-07-06 15:10:21,785][98493] Updated weights for policy 0, policy_version 872226 (0.0008)
+[2023-07-06 15:10:23,746][98493] Updated weights for policy 0, policy_version 872272 (0.0008)
+[2023-07-06 15:10:24,542][98493] Updated weights for policy 0, policy_version 872336 (0.0007)
+[2023-07-06 15:10:24,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111411.2, 300 sec: 111744.5). Total num frames: 1786576896. Throughput: 0: 27909.6. Samples: 446664192. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:24,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:10:24,939][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000872384_1786642432.pth...
+[2023-07-06 15:10:24,972][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000859312_1759870976.pth
+[2023-07-06 15:10:25,358][98493] Updated weights for policy 0, policy_version 872386 (0.0007)
+[2023-07-06 15:10:25,714][98493] Updated weights for policy 0, policy_version 872432 (0.0007)
+[2023-07-06 15:10:26,526][98493] Updated weights for policy 0, policy_version 872486 (0.0007)
+[2023-07-06 15:10:28,431][98493] Updated weights for policy 0, policy_version 872514 (0.0006)
+[2023-07-06 15:10:28,924][98493] Updated weights for policy 0, policy_version 872576 (0.0006)
+[2023-07-06 15:10:29,438][98493] Updated weights for policy 0, policy_version 872637 (0.0007)
+[2023-07-06 15:10:29,764][98243] Fps is (10 sec: 117966.0, 60 sec: 111411.4, 300 sec: 111744.4). Total num frames: 1787166720. Throughput: 0: 28000.7. Samples: 446837248. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:10:30,395][98493] Updated weights for policy 0, policy_version 872688 (0.0007)
+[2023-07-06 15:10:31,064][98493] Updated weights for policy 0, policy_version 872742 (0.0006)
+[2023-07-06 15:10:33,302][98493] Updated weights for policy 0, policy_version 872770 (0.0007)
+[2023-07-06 15:10:33,859][98493] Updated weights for policy 0, policy_version 872837 (0.0008)
+[2023-07-06 15:10:33,990][98449] Signal inference workers to stop experience collection... (45100 times)
+[2023-07-06 15:10:34,010][98493] InferenceWorker_p0-w0: stopping experience collection (45100 times)
+[2023-07-06 15:10:34,074][98449] Signal inference workers to resume experience collection... (45100 times)
+[2023-07-06 15:10:34,074][98493] InferenceWorker_p0-w0: resuming experience collection (45100 times)
+[2023-07-06 15:10:34,296][98493] Updated weights for policy 0, policy_version 872890 (0.0006)
+[2023-07-06 15:10:34,764][98243] Fps is (10 sec: 114688.2, 60 sec: 111957.7, 300 sec: 111522.3). Total num frames: 1787723776. Throughput: 0: 27989.3. Samples: 447002624. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:34,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:10:34,898][98493] Updated weights for policy 0, policy_version 872928 (0.0008)
+[2023-07-06 15:10:35,504][98493] Updated weights for policy 0, policy_version 872980 (0.0007)
+[2023-07-06 15:10:37,968][98493] Updated weights for policy 0, policy_version 873029 (0.0006)
+[2023-07-06 15:10:38,452][98493] Updated weights for policy 0, policy_version 873088 (0.0007)
+[2023-07-06 15:10:38,994][98493] Updated weights for policy 0, policy_version 873146 (0.0007)
+[2023-07-06 15:10:39,699][98493] Updated weights for policy 0, policy_version 873200 (0.0007)
+[2023-07-06 15:10:39,764][98243] Fps is (10 sec: 114688.6, 60 sec: 112503.3, 300 sec: 111522.3). Total num frames: 1788313600. Throughput: 0: 28137.2. Samples: 447092224. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:39,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:10:40,006][98493] Updated weights for policy 0, policy_version 873219 (0.0007)
+[2023-07-06 15:10:42,555][98493] Updated weights for policy 0, policy_version 873282 (0.0008)
+[2023-07-06 15:10:43,076][98493] Updated weights for policy 0, policy_version 873344 (0.0008)
+[2023-07-06 15:10:43,572][98493] Updated weights for policy 0, policy_version 873400 (0.0007)
+[2023-07-06 15:10:44,436][98493] Updated weights for policy 0, policy_version 873445 (0.0006)
+[2023-07-06 15:10:44,764][98243] Fps is (10 sec: 114686.5, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 1788870656. Throughput: 0: 28137.2. Samples: 447256576. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:44,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:10:45,022][98493] Updated weights for policy 0, policy_version 873504 (0.0007)
+[2023-07-06 15:10:47,472][98493] Updated weights for policy 0, policy_version 873568 (0.0007)
+[2023-07-06 15:10:48,071][98493] Updated weights for policy 0, policy_version 873632 (0.0034)
+[2023-07-06 15:10:49,053][98493] Updated weights for policy 0, policy_version 873689 (0.0008)
+[2023-07-06 15:10:49,549][98493] Updated weights for policy 0, policy_version 873734 (0.0007)
+[2023-07-06 15:10:49,764][98243] Fps is (10 sec: 114687.9, 60 sec: 112503.4, 300 sec: 111744.4). Total num frames: 1789460480. Throughput: 0: 27921.0. Samples: 447420928. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:10:49,978][98493] Updated weights for policy 0, policy_version 873784 (0.0007)
+[2023-07-06 15:10:52,305][98449] Signal inference workers to stop experience collection... (45150 times)
+[2023-07-06 15:10:52,342][98493] InferenceWorker_p0-w0: stopping experience collection (45150 times)
+[2023-07-06 15:10:52,343][98493] Updated weights for policy 0, policy_version 873846 (0.0007)
+[2023-07-06 15:10:52,400][98449] Signal inference workers to resume experience collection... (45150 times)
+[2023-07-06 15:10:52,400][98493] InferenceWorker_p0-w0: resuming experience collection (45150 times)
+[2023-07-06 15:10:52,791][98493] Updated weights for policy 0, policy_version 873891 (0.0008)
+[2023-07-06 15:10:54,039][98493] Updated weights for policy 0, policy_version 873959 (0.0006)
+[2023-07-06 15:10:54,490][98493] Updated weights for policy 0, policy_version 874003 (0.0007)
+[2023-07-06 15:10:54,764][98243] Fps is (10 sec: 114689.3, 60 sec: 113049.6, 300 sec: 111855.5). Total num frames: 1790017536. Throughput: 0: 28034.9. Samples: 447505408. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:10:56,618][98493] Updated weights for policy 0, policy_version 874064 (0.0007)
+[2023-07-06 15:10:57,152][98493] Updated weights for policy 0, policy_version 874118 (0.0006)
+[2023-07-06 15:10:57,604][98493] Updated weights for policy 0, policy_version 874173 (0.0007)
+[2023-07-06 15:10:58,922][98493] Updated weights for policy 0, policy_version 874240 (0.0007)
+[2023-07-06 15:10:59,418][98493] Updated weights for policy 0, policy_version 874294 (0.0006)
+[2023-07-06 15:10:59,764][98243] Fps is (10 sec: 111411.8, 60 sec: 113596.1, 300 sec: 111966.6). Total num frames: 1790574592. Throughput: 0: 27886.9. Samples: 447670272. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:10:59,764][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:11:01,497][98493] Updated weights for policy 0, policy_version 874336 (0.0007)
+[2023-07-06 15:11:01,935][98493] Updated weights for policy 0, policy_version 874384 (0.0007)
+[2023-07-06 15:11:02,399][98493] Updated weights for policy 0, policy_version 874432 (0.0007)
+[2023-07-06 15:11:03,706][98493] Updated weights for policy 0, policy_version 874482 (0.0008)
+[2023-07-06 15:11:04,207][98493] Updated weights for policy 0, policy_version 874544 (0.0008)
+[2023-07-06 15:11:04,764][98243] Fps is (10 sec: 108134.3, 60 sec: 113595.6, 300 sec: 111966.6). Total num frames: 1791098880. Throughput: 0: 27909.8. Samples: 447837696. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:11:04,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:11:05,928][98493] Updated weights for policy 0, policy_version 874592 (0.0007)
+[2023-07-06 15:11:06,622][98493] Updated weights for policy 0, policy_version 874648 (0.0007)
+[2023-07-06 15:11:08,179][98493] Updated weights for policy 0, policy_version 874720 (0.0007)
+[2023-07-06 15:11:08,665][98449] Signal inference workers to stop experience collection... (45200 times)
+[2023-07-06 15:11:08,688][98493] Updated weights for policy 0, policy_version 874773 (0.0008)
+[2023-07-06 15:11:08,697][98493] InferenceWorker_p0-w0: stopping experience collection (45200 times)
+[2023-07-06 15:11:08,745][98449] Signal inference workers to resume experience collection... (45200 times)
+[2023-07-06 15:11:08,745][98493] InferenceWorker_p0-w0: resuming experience collection (45200 times)
+[2023-07-06 15:11:09,021][98493] Updated weights for policy 0, policy_version 874814 (0.0006)
+[2023-07-06 15:11:09,764][98243] Fps is (10 sec: 104856.0, 60 sec: 113595.7, 300 sec: 111855.4). Total num frames: 1791623168. Throughput: 0: 28034.8. Samples: 447925760. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:11:09,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 15:11:10,780][98493] Updated weights for policy 0, policy_version 874871 (0.0007)
+[2023-07-06 15:11:11,173][98493] Updated weights for policy 0, policy_version 874912 (0.0013)
+[2023-07-06 15:11:12,926][98493] Updated weights for policy 0, policy_version 874976 (0.0007)
+[2023-07-06 15:11:13,571][98493] Updated weights for policy 0, policy_version 875048 (0.0007)
+[2023-07-06 15:11:14,764][98243] Fps is (10 sec: 104856.8, 60 sec: 112503.1, 300 sec: 111744.4). Total num frames: 1792147456. Throughput: 0: 27852.8. Samples: 448090624. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:11:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:11:15,279][98493] Updated weights for policy 0, policy_version 875097 (0.0007)
+[2023-07-06 15:11:15,961][98493] Updated weights for policy 0, policy_version 875172 (0.0008)
+[2023-07-06 15:11:17,271][98493] Updated weights for policy 0, policy_version 875216 (0.0007)
+[2023-07-06 15:11:17,691][98493] Updated weights for policy 0, policy_version 875264 (0.0007)
+[2023-07-06 15:11:18,332][98493] Updated weights for policy 0, policy_version 875323 (0.0010)
+[2023-07-06 15:11:19,764][98243] Fps is (10 sec: 104858.5, 60 sec: 111411.5, 300 sec: 111411.2). Total num frames: 1792671744. Throughput: 0: 27977.9. Samples: 448261632. Policy #0 lag: (min: 31.0, avg: 157.4, max: 287.0)
+[2023-07-06 15:11:19,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:11:20,086][98493] Updated weights for policy 0, policy_version 875376 (0.0007)
+[2023-07-06 15:11:20,772][98493] Updated weights for policy 0, policy_version 875424 (0.0007)
+[2023-07-06 15:11:21,063][98493] Updated weights for policy 0, policy_version 875455 (0.0007)
+[2023-07-06 15:11:22,128][98493] Updated weights for policy 0, policy_version 875506 (0.0007)
+[2023-07-06 15:11:22,830][98493] Updated weights for policy 0, policy_version 875552 (0.0007)
+[2023-07-06 15:11:24,327][98493] Updated weights for policy 0, policy_version 875588 (0.0007)
+[2023-07-06 15:11:24,764][98243] Fps is (10 sec: 114687.9, 60 sec: 111957.1, 300 sec: 111411.1). Total num frames: 1793294336. Throughput: 0: 27841.4. Samples: 448345088. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:24,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:11:24,814][98493] Updated weights for policy 0, policy_version 875648 (0.0007)
+[2023-07-06 15:11:25,673][98493] Updated weights for policy 0, policy_version 875706 (0.0007)
+[2023-07-06 15:11:26,640][98493] Updated weights for policy 0, policy_version 875760 (0.0006)
+[2023-07-06 15:11:27,503][98449] Signal inference workers to stop experience collection... (45250 times)
+[2023-07-06 15:11:27,548][98493] InferenceWorker_p0-w0: stopping experience collection (45250 times)
+[2023-07-06 15:11:27,589][98449] Signal inference workers to resume experience collection... (45250 times)
+[2023-07-06 15:11:27,590][98493] InferenceWorker_p0-w0: resuming experience collection (45250 times)
+[2023-07-06 15:11:27,743][98493] Updated weights for policy 0, policy_version 875824 (0.0007)
+[2023-07-06 15:11:29,234][98493] Updated weights for policy 0, policy_version 875860 (0.0007)
+[2023-07-06 15:11:29,764][98243] Fps is (10 sec: 117966.3, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 1793851392. Throughput: 0: 27909.8. Samples: 448512512. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:29,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:11:30,132][98493] Updated weights for policy 0, policy_version 875920 (0.0007)
+[2023-07-06 15:11:30,492][98493] Updated weights for policy 0, policy_version 875958 (0.0008)
+[2023-07-06 15:11:30,996][98493] Updated weights for policy 0, policy_version 876001 (0.0006)
+[2023-07-06 15:11:32,438][98493] Updated weights for policy 0, policy_version 876054 (0.0007)
+[2023-07-06 15:11:33,932][98493] Updated weights for policy 0, policy_version 876128 (0.0006)
+[2023-07-06 15:11:34,764][98243] Fps is (10 sec: 108135.2, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 1794375680. Throughput: 0: 28046.2. Samples: 448683008. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:11:34,937][98493] Updated weights for policy 0, policy_version 876176 (0.0006)
+[2023-07-06 15:11:35,416][98493] Updated weights for policy 0, policy_version 876225 (0.0008)
+[2023-07-06 15:11:35,852][98493] Updated weights for policy 0, policy_version 876283 (0.0006)
+[2023-07-06 15:11:37,289][98493] Updated weights for policy 0, policy_version 876336 (0.0006)
+[2023-07-06 15:11:38,721][98493] Updated weights for policy 0, policy_version 876387 (0.0007)
+[2023-07-06 15:11:39,711][98493] Updated weights for policy 0, policy_version 876448 (0.0007)
+[2023-07-06 15:11:39,764][98243] Fps is (10 sec: 111410.5, 60 sec: 110865.2, 300 sec: 111744.4). Total num frames: 1794965504. Throughput: 0: 28023.5. Samples: 448766464. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:39,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:11:40,300][98493] Updated weights for policy 0, policy_version 876514 (0.0008)
+[2023-07-06 15:11:41,877][98493] Updated weights for policy 0, policy_version 876576 (0.0007)
+[2023-07-06 15:11:43,183][98493] Updated weights for policy 0, policy_version 876631 (0.0007)
+[2023-07-06 15:11:44,295][98493] Updated weights for policy 0, policy_version 876673 (0.0007)
+[2023-07-06 15:11:44,764][98243] Fps is (10 sec: 114688.7, 60 sec: 110865.3, 300 sec: 111633.4). Total num frames: 1795522560. Throughput: 0: 28069.0. Samples: 448933376. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:44,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:11:44,779][98493] Updated weights for policy 0, policy_version 876732 (0.0007)
+[2023-07-06 15:11:45,136][98449] Signal inference workers to stop experience collection... (45300 times)
+[2023-07-06 15:11:45,163][98493] InferenceWorker_p0-w0: stopping experience collection (45300 times)
+[2023-07-06 15:11:45,219][98449] Signal inference workers to resume experience collection... (45300 times)
+[2023-07-06 15:11:45,219][98493] InferenceWorker_p0-w0: resuming experience collection (45300 times)
+[2023-07-06 15:11:45,308][98493] Updated weights for policy 0, policy_version 876797 (0.0007)
+[2023-07-06 15:11:46,776][98493] Updated weights for policy 0, policy_version 876855 (0.0006)
+[2023-07-06 15:11:48,050][98493] Updated weights for policy 0, policy_version 876923 (0.0007)
+[2023-07-06 15:11:49,609][98493] Updated weights for policy 0, policy_version 876985 (0.0009)
+[2023-07-06 15:11:49,764][98243] Fps is (10 sec: 111410.7, 60 sec: 110319.0, 300 sec: 111522.3). Total num frames: 1796079616. Throughput: 0: 27989.3. Samples: 449097216. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:49,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:11:50,086][98493] Updated weights for policy 0, policy_version 877040 (0.0008)
+[2023-07-06 15:11:51,293][98493] Updated weights for policy 0, policy_version 877097 (0.0006)
+[2023-07-06 15:11:52,488][98493] Updated weights for policy 0, policy_version 877144 (0.0006)
+[2023-07-06 15:11:54,011][98493] Updated weights for policy 0, policy_version 877205 (0.0007)
+[2023-07-06 15:11:54,518][98493] Updated weights for policy 0, policy_version 877264 (0.0006)
+[2023-07-06 15:11:54,764][98243] Fps is (10 sec: 114688.4, 60 sec: 110865.2, 300 sec: 111744.5). Total num frames: 1796669440. Throughput: 0: 27898.4. Samples: 449181184. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:54,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:11:55,905][98493] Updated weights for policy 0, policy_version 877328 (0.0006)
+[2023-07-06 15:11:56,318][98493] Updated weights for policy 0, policy_version 877375 (0.0007)
+[2023-07-06 15:11:57,435][98493] Updated weights for policy 0, policy_version 877431 (0.0006)
+[2023-07-06 15:11:58,713][98493] Updated weights for policy 0, policy_version 877473 (0.0009)
+[2023-07-06 15:11:59,322][98493] Updated weights for policy 0, policy_version 877552 (0.0007)
+[2023-07-06 15:11:59,764][98243] Fps is (10 sec: 117965.1, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 1797259264. Throughput: 0: 27989.4. Samples: 449350144. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:11:59,766][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:12:00,801][98493] Updated weights for policy 0, policy_version 877588 (0.0007)
+[2023-07-06 15:12:01,822][98493] Updated weights for policy 0, policy_version 877648 (0.0007)
+[2023-07-06 15:12:03,038][98493] Updated weights for policy 0, policy_version 877712 (0.0032)
+[2023-07-06 15:12:03,683][98493] Updated weights for policy 0, policy_version 877761 (0.0007)
+[2023-07-06 15:12:03,820][98449] Signal inference workers to stop experience collection... (45350 times)
+[2023-07-06 15:12:03,849][98493] InferenceWorker_p0-w0: stopping experience collection (45350 times)
+[2023-07-06 15:12:03,899][98449] Signal inference workers to resume experience collection... (45350 times)
+[2023-07-06 15:12:03,900][98493] InferenceWorker_p0-w0: resuming experience collection (45350 times)
+[2023-07-06 15:12:04,171][98493] Updated weights for policy 0, policy_version 877824 (0.0009)
+[2023-07-06 15:12:04,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.3, 300 sec: 111744.4). Total num frames: 1797783552. Throughput: 0: 27841.5. Samples: 449514496. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:04,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:12:05,732][98493] Updated weights for policy 0, policy_version 877888 (0.0007)
+[2023-07-06 15:12:06,803][98493] Updated weights for policy 0, policy_version 877946 (0.0008)
+[2023-07-06 15:12:08,010][98493] Updated weights for policy 0, policy_version 877989 (0.0007)
+[2023-07-06 15:12:08,796][98493] Updated weights for policy 0, policy_version 878039 (0.0006)
+[2023-07-06 15:12:09,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1798307840. Throughput: 0: 27898.4. Samples: 449600512. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:09,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:12:10,117][98493] Updated weights for policy 0, policy_version 878112 (0.0006)
+[2023-07-06 15:12:11,440][98493] Updated weights for policy 0, policy_version 878176 (0.0007)
+[2023-07-06 15:12:12,483][98493] Updated weights for policy 0, policy_version 878233 (0.0007)
+[2023-07-06 15:12:13,383][98493] Updated weights for policy 0, policy_version 878275 (0.0006)
+[2023-07-06 15:12:13,824][98493] Updated weights for policy 0, policy_version 878332 (0.0007)
+[2023-07-06 15:12:14,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1798832128. Throughput: 0: 27841.4. Samples: 449765376. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:14,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:12:15,264][98493] Updated weights for policy 0, policy_version 878396 (0.0008)
+[2023-07-06 15:12:16,216][98493] Updated weights for policy 0, policy_version 878457 (0.0006)
+[2023-07-06 15:12:17,240][98493] Updated weights for policy 0, policy_version 878512 (0.0006)
+[2023-07-06 15:12:18,385][98493] Updated weights for policy 0, policy_version 878560 (0.0007)
+[2023-07-06 15:12:19,386][98493] Updated weights for policy 0, policy_version 878593 (0.0018)
+[2023-07-06 15:12:19,764][98243] Fps is (10 sec: 111412.6, 60 sec: 112503.7, 300 sec: 111744.5). Total num frames: 1799421952. Throughput: 0: 27818.8. Samples: 449934848. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:19,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 15:12:19,855][98493] Updated weights for policy 0, policy_version 878649 (0.0007)
+[2023-07-06 15:12:20,651][98493] Updated weights for policy 0, policy_version 878678 (0.0027)
+[2023-07-06 15:12:20,992][98493] Updated weights for policy 0, policy_version 878719 (0.0006)
+[2023-07-06 15:12:21,734][98493] Updated weights for policy 0, policy_version 878779 (0.0007)
+[2023-07-06 15:12:23,199][98493] Updated weights for policy 0, policy_version 878820 (0.0006)
+[2023-07-06 15:12:24,027][98449] Signal inference workers to stop experience collection... (45400 times)
+[2023-07-06 15:12:24,060][98493] InferenceWorker_p0-w0: stopping experience collection (45400 times)
+[2023-07-06 15:12:24,120][98449] Signal inference workers to resume experience collection... (45400 times)
+[2023-07-06 15:12:24,120][98493] InferenceWorker_p0-w0: resuming experience collection (45400 times)
+[2023-07-06 15:12:24,211][98493] Updated weights for policy 0, policy_version 878868 (0.0007)
+[2023-07-06 15:12:24,764][98243] Fps is (10 sec: 117964.0, 60 sec: 111957.5, 300 sec: 111744.4). Total num frames: 1800011776. Throughput: 0: 27909.6. Samples: 450022400. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:24,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 15:12:24,767][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000878912_1800011776.pth...
+[2023-07-06 15:12:24,812][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000865856_1773273088.pth
+[2023-07-06 15:12:25,169][98493] Updated weights for policy 0, policy_version 878928 (0.0006)
+[2023-07-06 15:12:25,588][98493] Updated weights for policy 0, policy_version 878976 (0.0007)
+[2023-07-06 15:12:26,352][98493] Updated weights for policy 0, policy_version 879040 (0.0007)
+[2023-07-06 15:12:28,128][98493] Updated weights for policy 0, policy_version 879096 (0.0007)
+[2023-07-06 15:12:29,134][98493] Updated weights for policy 0, policy_version 879139 (0.0008)
+[2023-07-06 15:12:29,764][98243] Fps is (10 sec: 111410.0, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1800536064. Throughput: 0: 27875.6. Samples: 450187776. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:29,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 15:12:29,917][98493] Updated weights for policy 0, policy_version 879200 (0.0007)
+[2023-07-06 15:12:31,035][98493] Updated weights for policy 0, policy_version 879264 (0.0008)
+[2023-07-06 15:12:32,633][98493] Updated weights for policy 0, policy_version 879318 (0.0007)
+[2023-07-06 15:12:33,621][98493] Updated weights for policy 0, policy_version 879366 (0.0007)
+[2023-07-06 15:12:34,361][98493] Updated weights for policy 0, policy_version 879425 (0.0007)
+[2023-07-06 15:12:34,764][98243] Fps is (10 sec: 114688.8, 60 sec: 113049.7, 300 sec: 111522.3). Total num frames: 1801158656. Throughput: 0: 27830.1. Samples: 450349568. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:34,764][98243] Avg episode reward: [(0, '9.950')]
+[2023-07-06 15:12:34,814][98493] Updated weights for policy 0, policy_version 879481 (0.0007)
+[2023-07-06 15:12:35,846][98493] Updated weights for policy 0, policy_version 879524 (0.0007)
+[2023-07-06 15:12:37,440][98493] Updated weights for policy 0, policy_version 879572 (0.0007)
+[2023-07-06 15:12:38,427][98493] Updated weights for policy 0, policy_version 879632 (0.0007)
+[2023-07-06 15:12:38,832][98493] Updated weights for policy 0, policy_version 879675 (0.0007)
+[2023-07-06 15:12:39,418][98493] Updated weights for policy 0, policy_version 879728 (0.0007)
+[2023-07-06 15:12:39,764][98243] Fps is (10 sec: 117964.7, 60 sec: 112503.4, 300 sec: 111633.4). Total num frames: 1801715712. Throughput: 0: 27841.4. Samples: 450434048. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:39,765][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 15:12:40,366][98493] Updated weights for policy 0, policy_version 879779 (0.0008)
+[2023-07-06 15:12:42,161][98493] Updated weights for policy 0, policy_version 879813 (0.0006)
+[2023-07-06 15:12:42,600][98493] Updated weights for policy 0, policy_version 879872 (0.0007)
+[2023-07-06 15:12:43,170][98449] Signal inference workers to stop experience collection... (45450 times)
+[2023-07-06 15:12:43,211][98493] InferenceWorker_p0-w0: stopping experience collection (45450 times)
+[2023-07-06 15:12:43,251][98449] Signal inference workers to resume experience collection... (45450 times)
+[2023-07-06 15:12:43,251][98493] InferenceWorker_p0-w0: resuming experience collection (45450 times)
+[2023-07-06 15:12:43,252][98493] Updated weights for policy 0, policy_version 879920 (0.0006)
+[2023-07-06 15:12:43,760][98493] Updated weights for policy 0, policy_version 879970 (0.0007)
+[2023-07-06 15:12:44,764][98243] Fps is (10 sec: 111411.0, 60 sec: 112503.5, 300 sec: 111633.4). Total num frames: 1802272768. Throughput: 0: 27852.8. Samples: 450603520. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:44,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:12:44,791][98493] Updated weights for policy 0, policy_version 880025 (0.0007)
+[2023-07-06 15:12:46,757][98493] Updated weights for policy 0, policy_version 880065 (0.0007)
+[2023-07-06 15:12:47,198][98493] Updated weights for policy 0, policy_version 880121 (0.0007)
+[2023-07-06 15:12:48,057][98493] Updated weights for policy 0, policy_version 880160 (0.0006)
+[2023-07-06 15:12:48,603][98493] Updated weights for policy 0, policy_version 880214 (0.0006)
+[2023-07-06 15:12:49,332][98493] Updated weights for policy 0, policy_version 880257 (0.0007)
+[2023-07-06 15:12:49,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113049.4, 300 sec: 111855.6). Total num frames: 1802862592. Throughput: 0: 27955.1. Samples: 450772480. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:49,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:12:49,777][98493] Updated weights for policy 0, policy_version 880316 (0.0007)
+[2023-07-06 15:12:51,736][98493] Updated weights for policy 0, policy_version 880368 (0.0007)
+[2023-07-06 15:12:52,824][98493] Updated weights for policy 0, policy_version 880422 (0.0007)
+[2023-07-06 15:12:53,243][98493] Updated weights for policy 0, policy_version 880470 (0.0007)
+[2023-07-06 15:12:53,914][98493] Updated weights for policy 0, policy_version 880514 (0.0007)
+[2023-07-06 15:12:54,764][98243] Fps is (10 sec: 114687.8, 60 sec: 112503.4, 300 sec: 111744.6). Total num frames: 1803419648. Throughput: 0: 27989.3. Samples: 450860032. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:54,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:12:56,043][98493] Updated weights for policy 0, policy_version 880579 (0.0007)
+[2023-07-06 15:12:56,503][98493] Updated weights for policy 0, policy_version 880637 (0.0008)
+[2023-07-06 15:12:57,622][98493] Updated weights for policy 0, policy_version 880676 (0.0006)
+[2023-07-06 15:12:58,094][98493] Updated weights for policy 0, policy_version 880736 (0.0009)
+[2023-07-06 15:12:58,551][98493] Updated weights for policy 0, policy_version 880784 (0.0008)
+[2023-07-06 15:12:58,918][98493] Updated weights for policy 0, policy_version 880830 (0.0008)
+[2023-07-06 15:12:59,764][98243] Fps is (10 sec: 108135.2, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1803943936. Throughput: 0: 27932.4. Samples: 451022336. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:12:59,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:13:00,911][98449] Signal inference workers to stop experience collection... (45500 times)
+[2023-07-06 15:13:00,952][98493] InferenceWorker_p0-w0: stopping experience collection (45500 times)
+[2023-07-06 15:13:00,992][98449] Signal inference workers to resume experience collection... (45500 times)
+[2023-07-06 15:13:00,992][98493] InferenceWorker_p0-w0: resuming experience collection (45500 times)
+[2023-07-06 15:13:01,077][98493] Updated weights for policy 0, policy_version 880891 (0.0008)
+[2023-07-06 15:13:02,193][98493] Updated weights for policy 0, policy_version 880932 (0.0008)
+[2023-07-06 15:13:02,724][98493] Updated weights for policy 0, policy_version 880992 (0.0007)
+[2023-07-06 15:13:03,206][98493] Updated weights for policy 0, policy_version 881040 (0.0006)
+[2023-07-06 15:13:04,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1804468224. Throughput: 0: 28012.0. Samples: 451195392. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:13:04,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:13:05,319][98493] Updated weights for policy 0, policy_version 881089 (0.0009)
+[2023-07-06 15:13:05,768][98493] Updated weights for policy 0, policy_version 881148 (0.0007)
+[2023-07-06 15:13:06,678][98493] Updated weights for policy 0, policy_version 881189 (0.0006)
+[2023-07-06 15:13:07,285][98493] Updated weights for policy 0, policy_version 881248 (0.0008)
+[2023-07-06 15:13:07,795][98493] Updated weights for policy 0, policy_version 881301 (0.0044)
+[2023-07-06 15:13:09,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111411.2, 300 sec: 111411.2). Total num frames: 1804992512. Throughput: 0: 27886.9. Samples: 451277312. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:13:09,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:13:10,067][98493] Updated weights for policy 0, policy_version 881349 (0.0007)
+[2023-07-06 15:13:10,573][98493] Updated weights for policy 0, policy_version 881408 (0.0007)
+[2023-07-06 15:13:11,667][98493] Updated weights for policy 0, policy_version 881472 (0.0008)
+[2023-07-06 15:13:12,178][98493] Updated weights for policy 0, policy_version 881522 (0.0020)
+[2023-07-06 15:13:12,659][98493] Updated weights for policy 0, policy_version 881584 (0.0007)
+[2023-07-06 15:13:14,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.1, 300 sec: 111300.1). Total num frames: 1805516800. Throughput: 0: 27989.3. Samples: 451447296. Policy #0 lag: (min: 15.0, avg: 130.0, max: 271.0)
+[2023-07-06 15:13:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:13:15,031][98493] Updated weights for policy 0, policy_version 881638 (0.0008)
+[2023-07-06 15:13:15,941][98493] Updated weights for policy 0, policy_version 881671 (0.0008)
+[2023-07-06 15:13:16,349][98493] Updated weights for policy 0, policy_version 881722 (0.0007)
+[2023-07-06 15:13:16,799][98493] Updated weights for policy 0, policy_version 881764 (0.0007)
+[2023-07-06 15:13:17,202][98449] Signal inference workers to stop experience collection... (45550 times)
+[2023-07-06 15:13:17,228][98493] InferenceWorker_p0-w0: stopping experience collection (45550 times)
+[2023-07-06 15:13:17,277][98449] Signal inference workers to resume experience collection... (45550 times)
+[2023-07-06 15:13:17,278][98493] InferenceWorker_p0-w0: resuming experience collection (45550 times)
+[2023-07-06 15:13:17,354][98493] Updated weights for policy 0, policy_version 881826 (0.0007)
+[2023-07-06 15:13:19,572][98493] Updated weights for policy 0, policy_version 881888 (0.0007)
+[2023-07-06 15:13:19,764][98243] Fps is (10 sec: 114688.7, 60 sec: 111957.2, 300 sec: 111522.3). Total num frames: 1806139392. Throughput: 0: 28205.5. Samples: 451618816. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:19,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:13:20,853][98493] Updated weights for policy 0, policy_version 881928 (0.0007)
+[2023-07-06 15:13:21,529][98493] Updated weights for policy 0, policy_version 882004 (0.0007)
+[2023-07-06 15:13:21,967][98493] Updated weights for policy 0, policy_version 882055 (0.0007)
+[2023-07-06 15:13:22,437][98493] Updated weights for policy 0, policy_version 882112 (0.0007)
+[2023-07-06 15:13:24,351][98493] Updated weights for policy 0, policy_version 882171 (0.0007)
+[2023-07-06 15:13:24,764][98243] Fps is (10 sec: 117965.2, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1806696448. Throughput: 0: 28069.0. Samples: 451697152. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:24,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:13:26,013][98493] Updated weights for policy 0, policy_version 882230 (0.0008)
+[2023-07-06 15:13:26,456][98493] Updated weights for policy 0, policy_version 882277 (0.0007)
+[2023-07-06 15:13:27,044][98493] Updated weights for policy 0, policy_version 882344 (0.0007)
+[2023-07-06 15:13:28,643][98493] Updated weights for policy 0, policy_version 882392 (0.0006)
+[2023-07-06 15:13:28,914][98493] Updated weights for policy 0, policy_version 882423 (0.0006)
+[2023-07-06 15:13:29,764][98243] Fps is (10 sec: 108134.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1807220736. Throughput: 0: 28114.5. Samples: 451868672. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:13:30,388][98493] Updated weights for policy 0, policy_version 882450 (0.0007)
+[2023-07-06 15:13:30,848][98493] Updated weights for policy 0, policy_version 882505 (0.0007)
+[2023-07-06 15:13:31,306][98493] Updated weights for policy 0, policy_version 882560 (0.0006)
+[2023-07-06 15:13:31,822][98493] Updated weights for policy 0, policy_version 882619 (0.0007)
+[2023-07-06 15:13:33,534][98493] Updated weights for policy 0, policy_version 882681 (0.0007)
+[2023-07-06 15:13:34,765][98243] Fps is (10 sec: 104854.0, 60 sec: 109772.1, 300 sec: 111522.1). Total num frames: 1807745024. Throughput: 0: 28216.7. Samples: 452042240. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:34,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:13:35,199][98449] Signal inference workers to stop experience collection... (45600 times)
+[2023-07-06 15:13:35,240][98493] Updated weights for policy 0, policy_version 882744 (0.0009)
+[2023-07-06 15:13:35,250][98493] InferenceWorker_p0-w0: stopping experience collection (45600 times)
+[2023-07-06 15:13:35,297][98449] Signal inference workers to resume experience collection... (45600 times)
+[2023-07-06 15:13:35,298][98493] InferenceWorker_p0-w0: resuming experience collection (45600 times)
+[2023-07-06 15:13:35,701][98493] Updated weights for policy 0, policy_version 882794 (0.0007)
+[2023-07-06 15:13:36,233][98493] Updated weights for policy 0, policy_version 882852 (0.0008)
+[2023-07-06 15:13:38,067][98493] Updated weights for policy 0, policy_version 882901 (0.0008)
+[2023-07-06 15:13:39,297][98493] Updated weights for policy 0, policy_version 882947 (0.0007)
+[2023-07-06 15:13:39,764][98243] Fps is (10 sec: 114688.2, 60 sec: 110865.1, 300 sec: 111855.5). Total num frames: 1808367616. Throughput: 0: 28057.6. Samples: 452122624. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:39,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:13:39,790][98493] Updated weights for policy 0, policy_version 883008 (0.0007)
+[2023-07-06 15:13:40,437][98493] Updated weights for policy 0, policy_version 883072 (0.0009)
+[2023-07-06 15:13:40,950][98493] Updated weights for policy 0, policy_version 883130 (0.0006)
+[2023-07-06 15:13:42,846][98493] Updated weights for policy 0, policy_version 883184 (0.0007)
+[2023-07-06 15:13:44,382][98493] Updated weights for policy 0, policy_version 883259 (0.0008)
+[2023-07-06 15:13:44,765][98243] Fps is (10 sec: 117965.3, 60 sec: 110864.5, 300 sec: 111966.6). Total num frames: 1808924672. Throughput: 0: 28205.3. Samples: 452291584. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:13:45,264][98493] Updated weights for policy 0, policy_version 883318 (0.0007)
+[2023-07-06 15:13:45,754][98493] Updated weights for policy 0, policy_version 883376 (0.0008)
+[2023-07-06 15:13:47,287][98493] Updated weights for policy 0, policy_version 883424 (0.0007)
+[2023-07-06 15:13:48,876][98493] Updated weights for policy 0, policy_version 883472 (0.0007)
+[2023-07-06 15:13:49,598][98493] Updated weights for policy 0, policy_version 883536 (0.0006)
+[2023-07-06 15:13:49,764][98243] Fps is (10 sec: 114687.8, 60 sec: 110865.3, 300 sec: 111966.7). Total num frames: 1809514496. Throughput: 0: 28000.8. Samples: 452455424. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:13:50,107][98493] Updated weights for policy 0, policy_version 883589 (0.0009)
+[2023-07-06 15:13:50,542][98493] Updated weights for policy 0, policy_version 883645 (0.0007)
+[2023-07-06 15:13:52,109][98493] Updated weights for policy 0, policy_version 883682 (0.0007)
+[2023-07-06 15:13:53,570][98449] Signal inference workers to stop experience collection... (45650 times)
+[2023-07-06 15:13:53,601][98493] InferenceWorker_p0-w0: stopping experience collection (45650 times)
+[2023-07-06 15:13:53,680][98449] Signal inference workers to resume experience collection... (45650 times)
+[2023-07-06 15:13:53,680][98493] InferenceWorker_p0-w0: resuming experience collection (45650 times)
+[2023-07-06 15:13:53,808][98493] Updated weights for policy 0, policy_version 883744 (0.0007)
+[2023-07-06 15:13:54,319][98493] Updated weights for policy 0, policy_version 883794 (0.0007)
+[2023-07-06 15:13:54,764][98243] Fps is (10 sec: 117968.9, 60 sec: 111411.3, 300 sec: 112188.8). Total num frames: 1810104320. Throughput: 0: 28000.8. Samples: 452537344. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:54,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:13:54,787][98493] Updated weights for policy 0, policy_version 883856 (0.0008)
+[2023-07-06 15:13:56,487][98493] Updated weights for policy 0, policy_version 883910 (0.0007)
+[2023-07-06 15:13:56,912][98493] Updated weights for policy 0, policy_version 883963 (0.0007)
+[2023-07-06 15:13:58,926][98493] Updated weights for policy 0, policy_version 884039 (0.0008)
+[2023-07-06 15:13:59,360][98493] Updated weights for policy 0, policy_version 884093 (0.0007)
+[2023-07-06 15:13:59,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111957.5, 300 sec: 111966.6). Total num frames: 1810661376. Throughput: 0: 27978.0. Samples: 452706304. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:13:59,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:14:00,059][98493] Updated weights for policy 0, policy_version 884153 (0.0007)
+[2023-07-06 15:14:01,307][98493] Updated weights for policy 0, policy_version 884199 (0.0007)
+[2023-07-06 15:14:03,203][98493] Updated weights for policy 0, policy_version 884240 (0.0007)
+[2023-07-06 15:14:03,858][98493] Updated weights for policy 0, policy_version 884308 (0.0007)
+[2023-07-06 15:14:04,448][98493] Updated weights for policy 0, policy_version 884377 (0.0008)
+[2023-07-06 15:14:04,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 1811283968. Throughput: 0: 27682.1. Samples: 452864512. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:14:05,917][98493] Updated weights for policy 0, policy_version 884418 (0.0006)
+[2023-07-06 15:14:06,406][98493] Updated weights for policy 0, policy_version 884478 (0.0007)
+[2023-07-06 15:14:08,295][98493] Updated weights for policy 0, policy_version 884530 (0.0007)
+[2023-07-06 15:14:08,757][98493] Updated weights for policy 0, policy_version 884592 (0.0007)
+[2023-07-06 15:14:09,119][98449] Signal inference workers to stop experience collection... (45700 times)
+[2023-07-06 15:14:09,165][98493] InferenceWorker_p0-w0: stopping experience collection (45700 times)
+[2023-07-06 15:14:09,203][98449] Signal inference workers to resume experience collection... (45700 times)
+[2023-07-06 15:14:09,203][98493] InferenceWorker_p0-w0: resuming experience collection (45700 times)
+[2023-07-06 15:14:09,294][98493] Updated weights for policy 0, policy_version 884648 (0.0008)
+[2023-07-06 15:14:09,764][98243] Fps is (10 sec: 114685.7, 60 sec: 113595.5, 300 sec: 111966.5). Total num frames: 1811808256. Throughput: 0: 28012.0. Samples: 452957696. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:09,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:14:10,772][98493] Updated weights for policy 0, policy_version 884688 (0.0006)
+[2023-07-06 15:14:12,481][98493] Updated weights for policy 0, policy_version 884752 (0.0008)
+[2023-07-06 15:14:13,025][98493] Updated weights for policy 0, policy_version 884810 (0.0007)
+[2023-07-06 15:14:13,489][98493] Updated weights for policy 0, policy_version 884864 (0.0008)
+[2023-07-06 15:14:13,997][98493] Updated weights for policy 0, policy_version 884927 (0.0007)
+[2023-07-06 15:14:14,764][98243] Fps is (10 sec: 104857.5, 60 sec: 113595.8, 300 sec: 111855.5). Total num frames: 1812332544. Throughput: 0: 27773.2. Samples: 453118464. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:14,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:14:15,820][98493] Updated weights for policy 0, policy_version 884976 (0.0007)
+[2023-07-06 15:14:17,434][98493] Updated weights for policy 0, policy_version 885014 (0.0007)
+[2023-07-06 15:14:18,032][98493] Updated weights for policy 0, policy_version 885088 (0.0007)
+[2023-07-06 15:14:18,518][98493] Updated weights for policy 0, policy_version 885139 (0.0006)
+[2023-07-06 15:14:18,861][98493] Updated weights for policy 0, policy_version 885184 (0.0008)
+[2023-07-06 15:14:19,764][98243] Fps is (10 sec: 104859.4, 60 sec: 111957.3, 300 sec: 111744.4). Total num frames: 1812856832. Throughput: 0: 27693.7. Samples: 453288448. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:14:20,481][98493] Updated weights for policy 0, policy_version 885248 (0.0007)
+[2023-07-06 15:14:22,445][98493] Updated weights for policy 0, policy_version 885315 (0.0007)
+[2023-07-06 15:14:22,970][98493] Updated weights for policy 0, policy_version 885376 (0.0007)
+[2023-07-06 15:14:23,443][98493] Updated weights for policy 0, policy_version 885431 (0.0007)
+[2023-07-06 15:14:24,765][98243] Fps is (10 sec: 104854.5, 60 sec: 111410.7, 300 sec: 111522.2). Total num frames: 1813381120. Throughput: 0: 27727.5. Samples: 453370368. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:24,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:14:24,770][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000885440_1813381120.pth...
+[2023-07-06 15:14:24,879][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000872384_1786642432.pth
+[2023-07-06 15:14:25,223][98493] Updated weights for policy 0, policy_version 885479 (0.0007)
+[2023-07-06 15:14:26,579][98493] Updated weights for policy 0, policy_version 885507 (0.0006)
+[2023-07-06 15:14:27,004][98449] Signal inference workers to stop experience collection... (45750 times)
+[2023-07-06 15:14:27,034][98493] InferenceWorker_p0-w0: stopping experience collection (45750 times)
+[2023-07-06 15:14:27,079][98449] Signal inference workers to resume experience collection... (45750 times)
+[2023-07-06 15:14:27,079][98493] InferenceWorker_p0-w0: resuming experience collection (45750 times)
+[2023-07-06 15:14:27,179][98493] Updated weights for policy 0, policy_version 885577 (0.0007)
+[2023-07-06 15:14:27,664][98493] Updated weights for policy 0, policy_version 885632 (0.0007)
+[2023-07-06 15:14:28,152][98493] Updated weights for policy 0, policy_version 885690 (0.0006)
+[2023-07-06 15:14:29,764][98243] Fps is (10 sec: 108134.8, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1813938176. Throughput: 0: 27636.8. Samples: 453535232. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:14:30,057][98493] Updated weights for policy 0, policy_version 885745 (0.0006)
+[2023-07-06 15:14:31,343][98493] Updated weights for policy 0, policy_version 885776 (0.0006)
+[2023-07-06 15:14:31,945][98493] Updated weights for policy 0, policy_version 885841 (0.0009)
+[2023-07-06 15:14:32,359][98493] Updated weights for policy 0, policy_version 885886 (0.0007)
+[2023-07-06 15:14:32,918][98493] Updated weights for policy 0, policy_version 885945 (0.0007)
+[2023-07-06 15:14:34,764][98243] Fps is (10 sec: 114692.5, 60 sec: 113050.5, 300 sec: 111744.5). Total num frames: 1814528000. Throughput: 0: 27739.1. Samples: 453703680. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:34,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:14:34,764][98493] Updated weights for policy 0, policy_version 886000 (0.0007)
+[2023-07-06 15:14:36,209][98493] Updated weights for policy 0, policy_version 886048 (0.0007)
+[2023-07-06 15:14:36,773][98493] Updated weights for policy 0, policy_version 886112 (0.0007)
+[2023-07-06 15:14:37,175][98493] Updated weights for policy 0, policy_version 886145 (0.0007)
+[2023-07-06 15:14:39,270][98493] Updated weights for policy 0, policy_version 886211 (0.0007)
+[2023-07-06 15:14:39,711][98493] Updated weights for policy 0, policy_version 886267 (0.0006)
+[2023-07-06 15:14:39,764][98243] Fps is (10 sec: 114684.8, 60 sec: 111956.8, 300 sec: 111522.2). Total num frames: 1815085056. Throughput: 0: 27704.7. Samples: 453784064. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:14:40,987][98493] Updated weights for policy 0, policy_version 886309 (0.0007)
+[2023-07-06 15:14:41,426][98493] Updated weights for policy 0, policy_version 886356 (0.0007)
+[2023-07-06 15:14:41,992][98493] Updated weights for policy 0, policy_version 886417 (0.0007)
+[2023-07-06 15:14:43,896][98449] Signal inference workers to stop experience collection... (45800 times)
+[2023-07-06 15:14:43,926][98493] InferenceWorker_p0-w0: stopping experience collection (45800 times)
+[2023-07-06 15:14:43,940][98493] Updated weights for policy 0, policy_version 886469 (0.0007)
+[2023-07-06 15:14:43,989][98449] Signal inference workers to resume experience collection... (45800 times)
+[2023-07-06 15:14:43,990][98493] InferenceWorker_p0-w0: resuming experience collection (45800 times)
+[2023-07-06 15:14:44,764][98243] Fps is (10 sec: 108133.2, 60 sec: 111411.7, 300 sec: 111522.3). Total num frames: 1815609344. Throughput: 0: 27773.1. Samples: 453956096. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:44,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:14:45,461][98493] Updated weights for policy 0, policy_version 886534 (0.0007)
+[2023-07-06 15:14:45,874][98493] Updated weights for policy 0, policy_version 886578 (0.0007)
+[2023-07-06 15:14:46,324][98493] Updated weights for policy 0, policy_version 886630 (0.0007)
+[2023-07-06 15:14:46,870][98493] Updated weights for policy 0, policy_version 886695 (0.0007)
+[2023-07-06 15:14:48,490][98493] Updated weights for policy 0, policy_version 886727 (0.0007)
+[2023-07-06 15:14:48,911][98493] Updated weights for policy 0, policy_version 886781 (0.0006)
+[2023-07-06 15:14:49,764][98243] Fps is (10 sec: 104859.9, 60 sec: 110318.9, 300 sec: 111522.3). Total num frames: 1816133632. Throughput: 0: 28046.2. Samples: 454126592. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:49,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:14:50,650][98493] Updated weights for policy 0, policy_version 886848 (0.0007)
+[2023-07-06 15:14:51,193][98493] Updated weights for policy 0, policy_version 886906 (0.0007)
+[2023-07-06 15:14:51,730][98493] Updated weights for policy 0, policy_version 886970 (0.0007)
+[2023-07-06 15:14:53,512][98493] Updated weights for policy 0, policy_version 887024 (0.0007)
+[2023-07-06 15:14:54,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109226.6, 300 sec: 111522.3). Total num frames: 1816657920. Throughput: 0: 27750.5. Samples: 454206464. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:54,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:14:55,153][98493] Updated weights for policy 0, policy_version 887097 (0.0007)
+[2023-07-06 15:14:55,712][98493] Updated weights for policy 0, policy_version 887161 (0.0008)
+[2023-07-06 15:14:56,276][98493] Updated weights for policy 0, policy_version 887204 (0.0007)
+[2023-07-06 15:14:57,909][98493] Updated weights for policy 0, policy_version 887248 (0.0006)
+[2023-07-06 15:14:58,330][98493] Updated weights for policy 0, policy_version 887296 (0.0006)
+[2023-07-06 15:14:59,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110318.9, 300 sec: 111855.5). Total num frames: 1817280512. Throughput: 0: 27921.1. Samples: 454374912. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:14:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:14:59,851][98493] Updated weights for policy 0, policy_version 887350 (0.0007)
+[2023-07-06 15:15:00,278][98449] Signal inference workers to stop experience collection... (45850 times)
+[2023-07-06 15:15:00,313][98493] InferenceWorker_p0-w0: stopping experience collection (45850 times)
+[2023-07-06 15:15:00,373][98449] Signal inference workers to resume experience collection... (45850 times)
+[2023-07-06 15:15:00,374][98493] InferenceWorker_p0-w0: resuming experience collection (45850 times)
+[2023-07-06 15:15:00,493][98493] Updated weights for policy 0, policy_version 887417 (0.0008)
+[2023-07-06 15:15:00,945][98493] Updated weights for policy 0, policy_version 887472 (0.0008)
+[2023-07-06 15:15:03,119][98493] Updated weights for policy 0, policy_version 887536 (0.0007)
+[2023-07-06 15:15:04,022][98493] Updated weights for policy 0, policy_version 887572 (0.0006)
+[2023-07-06 15:15:04,764][98243] Fps is (10 sec: 117965.0, 60 sec: 109226.6, 300 sec: 111966.6). Total num frames: 1817837568. Throughput: 0: 27932.4. Samples: 454545408. Policy #0 lag: (min: 1.0, avg: 86.6, max: 257.0)
+[2023-07-06 15:15:04,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:15:04,800][98493] Updated weights for policy 0, policy_version 887620 (0.0006)
+[2023-07-06 15:15:05,379][98493] Updated weights for policy 0, policy_version 887689 (0.0007)
+[2023-07-06 15:15:07,474][98493] Updated weights for policy 0, policy_version 887746 (0.0006)
+[2023-07-06 15:15:07,890][98493] Updated weights for policy 0, policy_version 887800 (0.0006)
+[2023-07-06 15:15:08,844][98493] Updated weights for policy 0, policy_version 887846 (0.0007)
+[2023-07-06 15:15:09,764][98243] Fps is (10 sec: 111411.1, 60 sec: 109773.1, 300 sec: 111855.5). Total num frames: 1818394624. Throughput: 0: 27921.2. Samples: 454626816. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:09,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:15:09,942][98493] Updated weights for policy 0, policy_version 887912 (0.0011)
+[2023-07-06 15:15:10,487][98493] Updated weights for policy 0, policy_version 887972 (0.0008)
+[2023-07-06 15:15:12,584][98493] Updated weights for policy 0, policy_version 888041 (0.0007)
+[2023-07-06 15:15:13,374][98493] Updated weights for policy 0, policy_version 888100 (0.0007)
+[2023-07-06 15:15:14,372][98493] Updated weights for policy 0, policy_version 888146 (0.0006)
+[2023-07-06 15:15:14,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.2, 300 sec: 111966.7). Total num frames: 1819017216. Throughput: 0: 27932.4. Samples: 454792192. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:15:14,831][98493] Updated weights for policy 0, policy_version 888198 (0.0007)
+[2023-07-06 15:15:15,263][98493] Updated weights for policy 0, policy_version 888253 (0.0006)
+[2023-07-06 15:15:17,510][98493] Updated weights for policy 0, policy_version 888306 (0.0008)
+[2023-07-06 15:15:17,898][98449] Signal inference workers to stop experience collection... (45900 times)
+[2023-07-06 15:15:17,941][98493] InferenceWorker_p0-w0: stopping experience collection (45900 times)
+[2023-07-06 15:15:17,991][98449] Signal inference workers to resume experience collection... (45900 times)
+[2023-07-06 15:15:17,991][98493] InferenceWorker_p0-w0: resuming experience collection (45900 times)
+[2023-07-06 15:15:18,067][98493] Updated weights for policy 0, policy_version 888376 (0.0008)
+[2023-07-06 15:15:19,242][98493] Updated weights for policy 0, policy_version 888425 (0.0007)
+[2023-07-06 15:15:19,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 1819574272. Throughput: 0: 27886.9. Samples: 454958592. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:19,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:15:19,924][98493] Updated weights for policy 0, policy_version 888485 (0.0007)
+[2023-07-06 15:15:21,724][98493] Updated weights for policy 0, policy_version 888530 (0.0007)
+[2023-07-06 15:15:22,096][98493] Updated weights for policy 0, policy_version 888576 (0.0006)
+[2023-07-06 15:15:22,731][98493] Updated weights for policy 0, policy_version 888624 (0.0009)
+[2023-07-06 15:15:23,962][98493] Updated weights for policy 0, policy_version 888688 (0.0007)
+[2023-07-06 15:15:24,522][98493] Updated weights for policy 0, policy_version 888752 (0.0007)
+[2023-07-06 15:15:24,764][98243] Fps is (10 sec: 117963.2, 60 sec: 113596.0, 300 sec: 111966.6). Total num frames: 1820196864. Throughput: 0: 28046.3. Samples: 455046144. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:24,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:15:26,774][98493] Updated weights for policy 0, policy_version 888805 (0.0007)
+[2023-07-06 15:15:27,246][98493] Updated weights for policy 0, policy_version 888855 (0.0008)
+[2023-07-06 15:15:28,491][98493] Updated weights for policy 0, policy_version 888898 (0.0007)
+[2023-07-06 15:15:28,986][98493] Updated weights for policy 0, policy_version 888949 (0.0007)
+[2023-07-06 15:15:29,461][98493] Updated weights for policy 0, policy_version 889008 (0.0007)
+[2023-07-06 15:15:29,764][98243] Fps is (10 sec: 114686.5, 60 sec: 113049.3, 300 sec: 111855.5). Total num frames: 1820721152. Throughput: 0: 27864.1. Samples: 455209984. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:29,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:15:31,162][98493] Updated weights for policy 0, policy_version 889056 (0.0007)
+[2023-07-06 15:15:31,824][98493] Updated weights for policy 0, policy_version 889104 (0.0006)
+[2023-07-06 15:15:32,225][98493] Updated weights for policy 0, policy_version 889150 (0.0007)
+[2023-07-06 15:15:33,779][98493] Updated weights for policy 0, policy_version 889205 (0.0007)
+[2023-07-06 15:15:34,279][98493] Updated weights for policy 0, policy_version 889264 (0.0008)
+[2023-07-06 15:15:34,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111957.0, 300 sec: 111633.3). Total num frames: 1821245440. Throughput: 0: 27761.7. Samples: 455375872. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:34,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:15:35,840][98493] Updated weights for policy 0, policy_version 889297 (0.0007)
+[2023-07-06 15:15:36,366][98449] Signal inference workers to stop experience collection... (45950 times)
+[2023-07-06 15:15:36,388][98493] InferenceWorker_p0-w0: stopping experience collection (45950 times)
+[2023-07-06 15:15:36,464][98449] Signal inference workers to resume experience collection... (45950 times)
+[2023-07-06 15:15:36,464][98493] InferenceWorker_p0-w0: resuming experience collection (45950 times)
+[2023-07-06 15:15:36,466][98493] Updated weights for policy 0, policy_version 889360 (0.0006)
+[2023-07-06 15:15:37,946][98493] Updated weights for policy 0, policy_version 889424 (0.0007)
+[2023-07-06 15:15:38,443][98493] Updated weights for policy 0, policy_version 889481 (0.0007)
+[2023-07-06 15:15:39,765][98243] Fps is (10 sec: 104855.3, 60 sec: 111411.1, 300 sec: 111522.2). Total num frames: 1821769728. Throughput: 0: 27932.3. Samples: 455463424. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:15:40,284][98493] Updated weights for policy 0, policy_version 889537 (0.0007)
+[2023-07-06 15:15:40,742][98493] Updated weights for policy 0, policy_version 889595 (0.0007)
+[2023-07-06 15:15:41,664][98493] Updated weights for policy 0, policy_version 889656 (0.0008)
+[2023-07-06 15:15:43,028][98493] Updated weights for policy 0, policy_version 889713 (0.0007)
+[2023-07-06 15:15:43,534][98493] Updated weights for policy 0, policy_version 889776 (0.0008)
+[2023-07-06 15:15:44,764][98243] Fps is (10 sec: 104855.9, 60 sec: 111410.8, 300 sec: 111300.0). Total num frames: 1822294016. Throughput: 0: 27773.0. Samples: 455624704. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:44,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:15:45,175][98493] Updated weights for policy 0, policy_version 889826 (0.0007)
+[2023-07-06 15:15:46,217][98493] Updated weights for policy 0, policy_version 889894 (0.0007)
+[2023-07-06 15:15:47,579][98493] Updated weights for policy 0, policy_version 889952 (0.0007)
+[2023-07-06 15:15:48,089][98493] Updated weights for policy 0, policy_version 890004 (0.0007)
+[2023-07-06 15:15:49,764][98243] Fps is (10 sec: 104859.7, 60 sec: 111411.0, 300 sec: 111189.0). Total num frames: 1822818304. Throughput: 0: 27841.3. Samples: 455798272. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:49,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:15:49,902][98493] Updated weights for policy 0, policy_version 890064 (0.0007)
+[2023-07-06 15:15:50,380][98493] Updated weights for policy 0, policy_version 890115 (0.0007)
+[2023-07-06 15:15:50,818][98493] Updated weights for policy 0, policy_version 890172 (0.0007)
+[2023-07-06 15:15:52,225][98493] Updated weights for policy 0, policy_version 890197 (0.0007)
+[2023-07-06 15:15:52,853][98493] Updated weights for policy 0, policy_version 890272 (0.0009)
+[2023-07-06 15:15:54,448][98449] Signal inference workers to stop experience collection... (46000 times)
+[2023-07-06 15:15:54,470][98493] InferenceWorker_p0-w0: stopping experience collection (46000 times)
+[2023-07-06 15:15:54,539][98449] Signal inference workers to resume experience collection... (46000 times)
+[2023-07-06 15:15:54,539][98493] InferenceWorker_p0-w0: resuming experience collection (46000 times)
+[2023-07-06 15:15:54,632][98493] Updated weights for policy 0, policy_version 890329 (0.0007)
+[2023-07-06 15:15:54,782][98243] Fps is (10 sec: 111215.0, 60 sec: 112470.0, 300 sec: 111293.4). Total num frames: 1823408128. Throughput: 0: 27807.6. Samples: 455878656. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:54,783][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:15:55,147][98493] Updated weights for policy 0, policy_version 890387 (0.0006)
+[2023-07-06 15:15:57,061][98493] Updated weights for policy 0, policy_version 890448 (0.0007)
+[2023-07-06 15:15:57,698][98493] Updated weights for policy 0, policy_version 890521 (0.0008)
+[2023-07-06 15:15:59,147][98493] Updated weights for policy 0, policy_version 890576 (0.0008)
+[2023-07-06 15:15:59,642][98493] Updated weights for policy 0, policy_version 890628 (0.0006)
+[2023-07-06 15:15:59,764][98243] Fps is (10 sec: 121243.3, 60 sec: 112503.5, 300 sec: 111633.4). Total num frames: 1824030720. Throughput: 0: 27886.9. Samples: 456047104. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:15:59,764][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:16:00,067][98493] Updated weights for policy 0, policy_version 890677 (0.0008)
+[2023-07-06 15:16:01,849][98493] Updated weights for policy 0, policy_version 890723 (0.0007)
+[2023-07-06 15:16:02,535][98493] Updated weights for policy 0, policy_version 890800 (0.0007)
+[2023-07-06 15:16:04,100][98493] Updated weights for policy 0, policy_version 890848 (0.0007)
+[2023-07-06 15:16:04,670][98493] Updated weights for policy 0, policy_version 890912 (0.0007)
+[2023-07-06 15:16:04,764][98243] Fps is (10 sec: 118176.0, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 1824587776. Throughput: 0: 27795.9. Samples: 456209408. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:16:06,369][98493] Updated weights for policy 0, policy_version 890948 (0.0006)
+[2023-07-06 15:16:07,056][98493] Updated weights for policy 0, policy_version 891028 (0.0007)
+[2023-07-06 15:16:07,383][98493] Updated weights for policy 0, policy_version 891069 (0.0006)
+[2023-07-06 15:16:08,936][98493] Updated weights for policy 0, policy_version 891120 (0.0007)
+[2023-07-06 15:16:09,614][98493] Updated weights for policy 0, policy_version 891168 (0.0006)
+[2023-07-06 15:16:09,764][98243] Fps is (10 sec: 111411.9, 60 sec: 112503.7, 300 sec: 111855.6). Total num frames: 1825144832. Throughput: 0: 27693.6. Samples: 456292352. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:09,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:16:10,826][98493] Updated weights for policy 0, policy_version 891216 (0.0006)
+[2023-07-06 15:16:11,012][98449] Signal inference workers to stop experience collection... (46050 times)
+[2023-07-06 15:16:11,060][98493] InferenceWorker_p0-w0: stopping experience collection (46050 times)
+[2023-07-06 15:16:11,105][98449] Signal inference workers to resume experience collection... (46050 times)
+[2023-07-06 15:16:11,106][98493] InferenceWorker_p0-w0: resuming experience collection (46050 times)
+[2023-07-06 15:16:11,203][98493] Updated weights for policy 0, policy_version 891261 (0.0007)
+[2023-07-06 15:16:12,048][98493] Updated weights for policy 0, policy_version 891328 (0.0007)
+[2023-07-06 15:16:13,672][98493] Updated weights for policy 0, policy_version 891389 (0.0007)
+[2023-07-06 15:16:14,654][98493] Updated weights for policy 0, policy_version 891447 (0.0007)
+[2023-07-06 15:16:14,764][98243] Fps is (10 sec: 111411.3, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 1825701888. Throughput: 0: 27807.4. Samples: 456461312. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:14,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:16:15,634][98493] Updated weights for policy 0, policy_version 891504 (0.0007)
+[2023-07-06 15:16:16,851][98493] Updated weights for policy 0, policy_version 891558 (0.0008)
+[2023-07-06 15:16:18,119][98493] Updated weights for policy 0, policy_version 891608 (0.0006)
+[2023-07-06 15:16:18,856][98493] Updated weights for policy 0, policy_version 891650 (0.0010)
+[2023-07-06 15:16:19,306][98493] Updated weights for policy 0, policy_version 891706 (0.0007)
+[2023-07-06 15:16:19,764][98243] Fps is (10 sec: 108133.5, 60 sec: 110865.0, 300 sec: 111633.4). Total num frames: 1826226176. Throughput: 0: 27875.6. Samples: 456630272. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:19,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:16:20,272][98493] Updated weights for policy 0, policy_version 891747 (0.0008)
+[2023-07-06 15:16:21,430][98493] Updated weights for policy 0, policy_version 891808 (0.0007)
+[2023-07-06 15:16:22,442][98493] Updated weights for policy 0, policy_version 891842 (0.0007)
+[2023-07-06 15:16:23,456][98493] Updated weights for policy 0, policy_version 891906 (0.0007)
+[2023-07-06 15:16:23,922][98493] Updated weights for policy 0, policy_version 891968 (0.0007)
+[2023-07-06 15:16:24,764][98243] Fps is (10 sec: 108134.1, 60 sec: 109773.0, 300 sec: 111633.3). Total num frames: 1826783232. Throughput: 0: 27807.5. Samples: 456714752. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:24,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:16:24,986][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000892016_1826848768.pth...
+[2023-07-06 15:16:25,014][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000878912_1800011776.pth
+[2023-07-06 15:16:25,117][98493] Updated weights for policy 0, policy_version 892030 (0.0006)
+[2023-07-06 15:16:26,498][98493] Updated weights for policy 0, policy_version 892091 (0.0008)
+[2023-07-06 15:16:27,432][98493] Updated weights for policy 0, policy_version 892154 (0.0008)
+[2023-07-06 15:16:28,674][98493] Updated weights for policy 0, policy_version 892184 (0.0007)
+[2023-07-06 15:16:29,278][98493] Updated weights for policy 0, policy_version 892230 (0.0007)
+[2023-07-06 15:16:29,764][98243] Fps is (10 sec: 117963.9, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 1827405824. Throughput: 0: 27943.9. Samples: 456882176. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:16:30,838][98493] Updated weights for policy 0, policy_version 892289 (0.0008)
+[2023-07-06 15:16:30,970][98449] Signal inference workers to stop experience collection... (46100 times)
+[2023-07-06 15:16:31,016][98493] InferenceWorker_p0-w0: stopping experience collection (46100 times)
+[2023-07-06 15:16:31,056][98449] Signal inference workers to resume experience collection... (46100 times)
+[2023-07-06 15:16:31,056][98493] InferenceWorker_p0-w0: resuming experience collection (46100 times)
+[2023-07-06 15:16:31,287][98493] Updated weights for policy 0, policy_version 892346 (0.0008)
+[2023-07-06 15:16:31,812][98493] Updated weights for policy 0, policy_version 892384 (0.0007)
+[2023-07-06 15:16:33,133][98493] Updated weights for policy 0, policy_version 892418 (0.0007)
+[2023-07-06 15:16:33,595][98493] Updated weights for policy 0, policy_version 892475 (0.0008)
+[2023-07-06 15:16:34,254][98493] Updated weights for policy 0, policy_version 892520 (0.0008)
+[2023-07-06 15:16:34,764][98243] Fps is (10 sec: 114687.8, 60 sec: 111411.3, 300 sec: 111744.4). Total num frames: 1827930112. Throughput: 0: 27841.5. Samples: 457051136. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:34,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:16:35,394][98493] Updated weights for policy 0, policy_version 892551 (0.0007)
+[2023-07-06 15:16:35,813][98493] Updated weights for policy 0, policy_version 892606 (0.0008)
+[2023-07-06 15:16:36,594][98493] Updated weights for policy 0, policy_version 892666 (0.0007)
+[2023-07-06 15:16:37,931][98493] Updated weights for policy 0, policy_version 892711 (0.0007)
+[2023-07-06 15:16:38,761][98493] Updated weights for policy 0, policy_version 892752 (0.0007)
+[2023-07-06 15:16:39,765][98243] Fps is (10 sec: 104852.7, 60 sec: 111410.8, 300 sec: 111633.1). Total num frames: 1828454400. Throughput: 0: 27988.7. Samples: 457137664. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:39,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:16:40,139][98493] Updated weights for policy 0, policy_version 892809 (0.0008)
+[2023-07-06 15:16:40,570][98493] Updated weights for policy 0, policy_version 892859 (0.0008)
+[2023-07-06 15:16:41,103][98493] Updated weights for policy 0, policy_version 892903 (0.0007)
+[2023-07-06 15:16:42,466][98493] Updated weights for policy 0, policy_version 892953 (0.0007)
+[2023-07-06 15:16:43,463][98493] Updated weights for policy 0, policy_version 893008 (0.0006)
+[2023-07-06 15:16:43,852][98493] Updated weights for policy 0, policy_version 893055 (0.0007)
+[2023-07-06 15:16:44,764][98243] Fps is (10 sec: 111411.6, 60 sec: 112503.9, 300 sec: 111744.4). Total num frames: 1829044224. Throughput: 0: 27943.8. Samples: 457304576. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:44,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:16:44,983][98493] Updated weights for policy 0, policy_version 893115 (0.0007)
+[2023-07-06 15:16:45,839][98493] Updated weights for policy 0, policy_version 893177 (0.0008)
+[2023-07-06 15:16:47,379][98493] Updated weights for policy 0, policy_version 893205 (0.0007)
+[2023-07-06 15:16:48,066][98493] Updated weights for policy 0, policy_version 893253 (0.0007)
+[2023-07-06 15:16:48,492][98493] Updated weights for policy 0, policy_version 893308 (0.0006)
+[2023-07-06 15:16:49,368][98493] Updated weights for policy 0, policy_version 893360 (0.0006)
+[2023-07-06 15:16:49,764][98243] Fps is (10 sec: 117970.7, 60 sec: 113595.9, 300 sec: 111744.4). Total num frames: 1829634048. Throughput: 0: 28080.3. Samples: 457473024. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:16:50,047][98449] Signal inference workers to stop experience collection... (46150 times)
+[2023-07-06 15:16:50,066][98493] InferenceWorker_p0-w0: stopping experience collection (46150 times)
+[2023-07-06 15:16:50,124][98449] Signal inference workers to resume experience collection... (46150 times)
+[2023-07-06 15:16:50,124][98493] InferenceWorker_p0-w0: resuming experience collection (46150 times)
+[2023-07-06 15:16:50,125][98493] Updated weights for policy 0, policy_version 893392 (0.0006)
+[2023-07-06 15:16:52,094][98493] Updated weights for policy 0, policy_version 893465 (0.0008)
+[2023-07-06 15:16:52,653][98493] Updated weights for policy 0, policy_version 893506 (0.0007)
+[2023-07-06 15:16:53,120][98493] Updated weights for policy 0, policy_version 893563 (0.0006)
+[2023-07-06 15:16:54,214][98493] Updated weights for policy 0, policy_version 893616 (0.0006)
+[2023-07-06 15:16:54,764][98243] Fps is (10 sec: 111410.8, 60 sec: 112536.9, 300 sec: 111522.3). Total num frames: 1830158336. Throughput: 0: 28148.6. Samples: 457559040. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:54,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:16:55,001][98493] Updated weights for policy 0, policy_version 893664 (0.0007)
+[2023-07-06 15:16:56,505][98493] Updated weights for policy 0, policy_version 893712 (0.0007)
+[2023-07-06 15:16:57,294][98493] Updated weights for policy 0, policy_version 893765 (0.0007)
+[2023-07-06 15:16:58,638][98493] Updated weights for policy 0, policy_version 893825 (0.0007)
+[2023-07-06 15:16:59,029][98493] Updated weights for policy 0, policy_version 893874 (0.0007)
+[2023-07-06 15:16:59,764][98243] Fps is (10 sec: 108135.6, 60 sec: 111411.3, 300 sec: 111633.4). Total num frames: 1830715392. Throughput: 0: 28137.3. Samples: 457727488. Policy #0 lag: (min: 4.0, avg: 101.8, max: 260.0)
+[2023-07-06 15:16:59,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:16:59,796][98493] Updated weights for policy 0, policy_version 893920 (0.0008)
+[2023-07-06 15:17:01,172][98493] Updated weights for policy 0, policy_version 893977 (0.0007)
+[2023-07-06 15:17:02,023][98493] Updated weights for policy 0, policy_version 894032 (0.0008)
+[2023-07-06 15:17:02,397][98493] Updated weights for policy 0, policy_version 894075 (0.0006)
+[2023-07-06 15:17:03,646][98493] Updated weights for policy 0, policy_version 894128 (0.0007)
+[2023-07-06 15:17:04,482][98493] Updated weights for policy 0, policy_version 894169 (0.0007)
+[2023-07-06 15:17:04,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111957.3, 300 sec: 111855.5). Total num frames: 1831305216. Throughput: 0: 28080.4. Samples: 457893888. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:04,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:17:05,591][98493] Updated weights for policy 0, policy_version 894211 (0.0008)
+[2023-07-06 15:17:06,854][98493] Updated weights for policy 0, policy_version 894288 (0.0007)
+[2023-07-06 15:17:07,965][98493] Updated weights for policy 0, policy_version 894360 (0.0008)
+[2023-07-06 15:17:08,277][98493] Updated weights for policy 0, policy_version 894400 (0.0006)
+[2023-07-06 15:17:09,329][98449] Signal inference workers to stop experience collection... (46200 times)
+[2023-07-06 15:17:09,353][98493] InferenceWorker_p0-w0: stopping experience collection (46200 times)
+[2023-07-06 15:17:09,418][98449] Signal inference workers to resume experience collection... (46200 times)
+[2023-07-06 15:17:09,418][98493] InferenceWorker_p0-w0: resuming experience collection (46200 times)
+[2023-07-06 15:17:09,560][98493] Updated weights for policy 0, policy_version 894464 (0.0007)
+[2023-07-06 15:17:09,765][98243] Fps is (10 sec: 114682.6, 60 sec: 111956.4, 300 sec: 111966.4). Total num frames: 1831862272. Throughput: 0: 28068.7. Samples: 457977856. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:09,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:17:10,831][98493] Updated weights for policy 0, policy_version 894523 (0.0007)
+[2023-07-06 15:17:11,818][98493] Updated weights for policy 0, policy_version 894563 (0.0014)
+[2023-07-06 15:17:12,637][98493] Updated weights for policy 0, policy_version 894610 (0.0006)
+[2023-07-06 15:17:13,961][98493] Updated weights for policy 0, policy_version 894679 (0.0007)
+[2023-07-06 15:17:14,764][98243] Fps is (10 sec: 108133.2, 60 sec: 111411.0, 300 sec: 111744.4). Total num frames: 1832386560. Throughput: 0: 28080.3. Samples: 458145792. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:17:15,102][98493] Updated weights for policy 0, policy_version 894745 (0.0006)
+[2023-07-06 15:17:15,428][98493] Updated weights for policy 0, policy_version 894783 (0.0007)
+[2023-07-06 15:17:16,681][98493] Updated weights for policy 0, policy_version 894833 (0.0007)
+[2023-07-06 15:17:17,582][98493] Updated weights for policy 0, policy_version 894884 (0.0006)
+[2023-07-06 15:17:18,655][98493] Updated weights for policy 0, policy_version 894944 (0.0007)
+[2023-07-06 15:17:19,764][98243] Fps is (10 sec: 108139.0, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1832943616. Throughput: 0: 27989.4. Samples: 458310656. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:19,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:17:19,818][98493] Updated weights for policy 0, policy_version 895002 (0.0007)
+[2023-07-06 15:17:21,272][98493] Updated weights for policy 0, policy_version 895064 (0.0007)
+[2023-07-06 15:17:22,394][98493] Updated weights for policy 0, policy_version 895130 (0.0007)
+[2023-07-06 15:17:23,218][98493] Updated weights for policy 0, policy_version 895174 (0.0007)
+[2023-07-06 15:17:24,291][98493] Updated weights for policy 0, policy_version 895234 (0.0008)
+[2023-07-06 15:17:24,757][98493] Updated weights for policy 0, policy_version 895291 (0.0006)
+[2023-07-06 15:17:24,764][98243] Fps is (10 sec: 114689.8, 60 sec: 112503.6, 300 sec: 111855.5). Total num frames: 1833533440. Throughput: 0: 27875.9. Samples: 458392064. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:24,764][98243] Avg episode reward: [(0, '9.930')]
+[2023-07-06 15:17:26,189][98493] Updated weights for policy 0, policy_version 895335 (0.0008)
+[2023-07-06 15:17:27,213][98493] Updated weights for policy 0, policy_version 895395 (0.0007)
+[2023-07-06 15:17:27,890][98493] Updated weights for policy 0, policy_version 895456 (0.0006)
+[2023-07-06 15:17:29,118][98493] Updated weights for policy 0, policy_version 895491 (0.0007)
+[2023-07-06 15:17:29,239][98449] Signal inference workers to stop experience collection... (46250 times)
+[2023-07-06 15:17:29,273][98493] InferenceWorker_p0-w0: stopping experience collection (46250 times)
+[2023-07-06 15:17:29,316][98449] Signal inference workers to resume experience collection... (46250 times)
+[2023-07-06 15:17:29,316][98493] InferenceWorker_p0-w0: resuming experience collection (46250 times)
+[2023-07-06 15:17:29,764][98243] Fps is (10 sec: 114687.4, 60 sec: 111411.3, 300 sec: 111633.3). Total num frames: 1834090496. Throughput: 0: 27909.7. Samples: 458560512. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:17:30,738][98493] Updated weights for policy 0, policy_version 895558 (0.0007)
+[2023-07-06 15:17:31,194][98493] Updated weights for policy 0, policy_version 895616 (0.0008)
+[2023-07-06 15:17:32,318][98493] Updated weights for policy 0, policy_version 895681 (0.0007)
+[2023-07-06 15:17:32,802][98493] Updated weights for policy 0, policy_version 895743 (0.0007)
+[2023-07-06 15:17:34,209][98493] Updated weights for policy 0, policy_version 895794 (0.0006)
+[2023-07-06 15:17:34,764][98243] Fps is (10 sec: 108134.0, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1834614784. Throughput: 0: 27852.8. Samples: 458726400. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:34,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:17:35,892][98493] Updated weights for policy 0, policy_version 895852 (0.0008)
+[2023-07-06 15:17:36,411][98493] Updated weights for policy 0, policy_version 895888 (0.0007)
+[2023-07-06 15:17:36,952][98493] Updated weights for policy 0, policy_version 895944 (0.0006)
+[2023-07-06 15:17:37,365][98493] Updated weights for policy 0, policy_version 896000 (0.0006)
+[2023-07-06 15:17:38,859][98493] Updated weights for policy 0, policy_version 896054 (0.0006)
+[2023-07-06 15:17:39,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111412.2, 300 sec: 111411.2). Total num frames: 1835139072. Throughput: 0: 27750.4. Samples: 458807808. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:39,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:17:40,516][98493] Updated weights for policy 0, policy_version 896103 (0.0006)
+[2023-07-06 15:17:41,152][98493] Updated weights for policy 0, policy_version 896152 (0.0006)
+[2023-07-06 15:17:41,587][98493] Updated weights for policy 0, policy_version 896194 (0.0008)
+[2023-07-06 15:17:42,016][98493] Updated weights for policy 0, policy_version 896252 (0.0007)
+[2023-07-06 15:17:43,308][98493] Updated weights for policy 0, policy_version 896304 (0.0008)
+[2023-07-06 15:17:44,764][98243] Fps is (10 sec: 104856.3, 60 sec: 110318.7, 300 sec: 111189.0). Total num frames: 1835663360. Throughput: 0: 27795.8. Samples: 458978304. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:44,774][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:17:45,328][98493] Updated weights for policy 0, policy_version 896357 (0.0008)
+[2023-07-06 15:17:45,640][98493] Updated weights for policy 0, policy_version 896388 (0.0007)
+[2023-07-06 15:17:46,063][98493] Updated weights for policy 0, policy_version 896444 (0.0009)
+[2023-07-06 15:17:46,706][98449] Signal inference workers to stop experience collection... (46300 times)
+[2023-07-06 15:17:46,730][98493] InferenceWorker_p0-w0: stopping experience collection (46300 times)
+[2023-07-06 15:17:46,735][98493] Updated weights for policy 0, policy_version 896484 (0.0006)
+[2023-07-06 15:17:46,794][98449] Signal inference workers to resume experience collection... (46300 times)
+[2023-07-06 15:17:46,794][98493] InferenceWorker_p0-w0: resuming experience collection (46300 times)
+[2023-07-06 15:17:47,859][98493] Updated weights for policy 0, policy_version 896544 (0.0006)
+[2023-07-06 15:17:49,742][98493] Updated weights for policy 0, policy_version 896592 (0.0007)
+[2023-07-06 15:17:49,764][98243] Fps is (10 sec: 108133.2, 60 sec: 109772.7, 300 sec: 111189.0). Total num frames: 1836220416. Throughput: 0: 27932.4. Samples: 459150848. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:17:50,141][98493] Updated weights for policy 0, policy_version 896639 (0.0008)
+[2023-07-06 15:17:50,601][98493] Updated weights for policy 0, policy_version 896675 (0.0008)
+[2023-07-06 15:17:51,427][98493] Updated weights for policy 0, policy_version 896736 (0.0006)
+[2023-07-06 15:17:52,188][98493] Updated weights for policy 0, policy_version 896769 (0.0007)
+[2023-07-06 15:17:52,644][98493] Updated weights for policy 0, policy_version 896829 (0.0007)
+[2023-07-06 15:17:54,592][98493] Updated weights for policy 0, policy_version 896880 (0.0007)
+[2023-07-06 15:17:54,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1836843008. Throughput: 0: 27830.2. Samples: 459230208. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:54,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:17:55,219][98493] Updated weights for policy 0, policy_version 896932 (0.0007)
+[2023-07-06 15:17:56,153][98493] Updated weights for policy 0, policy_version 896992 (0.0007)
+[2023-07-06 15:17:56,990][98493] Updated weights for policy 0, policy_version 897030 (0.0006)
+[2023-07-06 15:17:57,484][98493] Updated weights for policy 0, policy_version 897088 (0.0006)
+[2023-07-06 15:17:59,380][98493] Updated weights for policy 0, policy_version 897148 (0.0006)
+[2023-07-06 15:17:59,764][98243] Fps is (10 sec: 114689.0, 60 sec: 110864.9, 300 sec: 111522.3). Total num frames: 1837367296. Throughput: 0: 27921.1. Samples: 459402240. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:17:59,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:18:00,137][98493] Updated weights for policy 0, policy_version 897209 (0.0007)
+[2023-07-06 15:18:00,944][98493] Updated weights for policy 0, policy_version 897264 (0.0008)
+[2023-07-06 15:18:01,816][98493] Updated weights for policy 0, policy_version 897298 (0.0012)
+[2023-07-06 15:18:03,476][98493] Updated weights for policy 0, policy_version 897347 (0.0007)
+[2023-07-06 15:18:03,975][98493] Updated weights for policy 0, policy_version 897408 (0.0007)
+[2023-07-06 15:18:04,764][98243] Fps is (10 sec: 111412.5, 60 sec: 110865.1, 300 sec: 111744.4). Total num frames: 1837957120. Throughput: 0: 27966.6. Samples: 459569152. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:04,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:18:04,926][98493] Updated weights for policy 0, policy_version 897463 (0.0008)
+[2023-07-06 15:18:05,529][98493] Updated weights for policy 0, policy_version 897520 (0.0006)
+[2023-07-06 15:18:06,435][98449] Signal inference workers to stop experience collection... (46350 times)
+[2023-07-06 15:18:06,456][98493] InferenceWorker_p0-w0: stopping experience collection (46350 times)
+[2023-07-06 15:18:06,532][98449] Signal inference workers to resume experience collection... (46350 times)
+[2023-07-06 15:18:06,533][98493] InferenceWorker_p0-w0: resuming experience collection (46350 times)
+[2023-07-06 15:18:06,748][98493] Updated weights for policy 0, policy_version 897571 (0.0007)
+[2023-07-06 15:18:08,074][98493] Updated weights for policy 0, policy_version 897616 (0.0006)
+[2023-07-06 15:18:09,332][98493] Updated weights for policy 0, policy_version 897671 (0.0007)
+[2023-07-06 15:18:09,750][98493] Updated weights for policy 0, policy_version 897720 (0.0006)
+[2023-07-06 15:18:09,764][98243] Fps is (10 sec: 114685.6, 60 sec: 110865.4, 300 sec: 111855.4). Total num frames: 1838514176. Throughput: 0: 28023.3. Samples: 459653120. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:09,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:18:10,249][98493] Updated weights for policy 0, policy_version 897760 (0.0007)
+[2023-07-06 15:18:11,039][98493] Updated weights for policy 0, policy_version 897816 (0.0007)
+[2023-07-06 15:18:12,470][98493] Updated weights for policy 0, policy_version 897857 (0.0006)
+[2023-07-06 15:18:12,944][98493] Updated weights for policy 0, policy_version 897916 (0.0007)
+[2023-07-06 15:18:14,301][98493] Updated weights for policy 0, policy_version 897968 (0.0007)
+[2023-07-06 15:18:14,764][98243] Fps is (10 sec: 114687.8, 60 sec: 111957.5, 300 sec: 111744.4). Total num frames: 1839104000. Throughput: 0: 28057.6. Samples: 459823104. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:18:14,808][98493] Updated weights for policy 0, policy_version 898007 (0.0021)
+[2023-07-06 15:18:15,154][98493] Updated weights for policy 0, policy_version 898048 (0.0007)
+[2023-07-06 15:18:15,924][98493] Updated weights for policy 0, policy_version 898107 (0.0007)
+[2023-07-06 15:18:17,636][98493] Updated weights for policy 0, policy_version 898150 (0.0007)
+[2023-07-06 15:18:18,711][98493] Updated weights for policy 0, policy_version 898192 (0.0007)
+[2023-07-06 15:18:19,144][98493] Updated weights for policy 0, policy_version 898240 (0.0007)
+[2023-07-06 15:18:19,764][98243] Fps is (10 sec: 121244.6, 60 sec: 113049.6, 300 sec: 111966.6). Total num frames: 1839726592. Throughput: 0: 27989.3. Samples: 459985920. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:19,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:18:19,771][98493] Updated weights for policy 0, policy_version 898304 (0.0007)
+[2023-07-06 15:18:20,707][98493] Updated weights for policy 0, policy_version 898341 (0.0007)
+[2023-07-06 15:18:22,031][98493] Updated weights for policy 0, policy_version 898387 (0.0008)
+[2023-07-06 15:18:23,540][98493] Updated weights for policy 0, policy_version 898448 (0.0007)
+[2023-07-06 15:18:24,239][98493] Updated weights for policy 0, policy_version 898528 (0.0007)
+[2023-07-06 15:18:24,764][98243] Fps is (10 sec: 114688.6, 60 sec: 111957.3, 300 sec: 111966.6). Total num frames: 1840250880. Throughput: 0: 28125.9. Samples: 460073472. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:24,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:18:24,848][98449] Signal inference workers to stop experience collection... (46400 times)
+[2023-07-06 15:18:24,865][98493] Updated weights for policy 0, policy_version 898577 (0.0007)
+[2023-07-06 15:18:24,871][98493] InferenceWorker_p0-w0: stopping experience collection (46400 times)
+[2023-07-06 15:18:24,960][98449] Signal inference workers to resume experience collection... (46400 times)
+[2023-07-06 15:18:24,960][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000898592_1840316416.pth...
+[2023-07-06 15:18:24,960][98493] InferenceWorker_p0-w0: resuming experience collection (46400 times)
+[2023-07-06 15:18:25,025][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000885440_1813381120.pth
+[2023-07-06 15:18:25,284][98493] Updated weights for policy 0, policy_version 898624 (0.0006)
+[2023-07-06 15:18:28,338][98493] Updated weights for policy 0, policy_version 898690 (0.0007)
+[2023-07-06 15:18:28,775][98493] Updated weights for policy 0, policy_version 898748 (0.0007)
+[2023-07-06 15:18:29,327][98493] Updated weights for policy 0, policy_version 898803 (0.0008)
+[2023-07-06 15:18:29,764][98243] Fps is (10 sec: 111410.7, 60 sec: 112503.5, 300 sec: 112188.9). Total num frames: 1840840704. Throughput: 0: 28012.2. Samples: 460238848. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:18:29,832][98493] Updated weights for policy 0, policy_version 898864 (0.0008)
+[2023-07-06 15:18:31,975][98493] Updated weights for policy 0, policy_version 898928 (0.0007)
+[2023-07-06 15:18:33,195][98493] Updated weights for policy 0, policy_version 898969 (0.0007)
+[2023-07-06 15:18:33,732][98493] Updated weights for policy 0, policy_version 899032 (0.0008)
+[2023-07-06 15:18:34,212][98493] Updated weights for policy 0, policy_version 899088 (0.0008)
+[2023-07-06 15:18:34,623][98493] Updated weights for policy 0, policy_version 899136 (0.0007)
+[2023-07-06 15:18:34,764][98243] Fps is (10 sec: 117964.2, 60 sec: 113595.7, 300 sec: 112077.7). Total num frames: 1841430528. Throughput: 0: 27773.2. Samples: 460400640. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:34,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:18:36,876][98493] Updated weights for policy 0, policy_version 899187 (0.0006)
+[2023-07-06 15:18:37,923][98493] Updated weights for policy 0, policy_version 899232 (0.0007)
+[2023-07-06 15:18:38,467][98493] Updated weights for policy 0, policy_version 899296 (0.0007)
+[2023-07-06 15:18:39,207][98493] Updated weights for policy 0, policy_version 899348 (0.0007)
+[2023-07-06 15:18:39,764][98243] Fps is (10 sec: 111411.8, 60 sec: 113595.8, 300 sec: 111966.7). Total num frames: 1841954816. Throughput: 0: 28069.1. Samples: 460493312. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:39,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:18:40,967][98493] Updated weights for policy 0, policy_version 899395 (0.0006)
+[2023-07-06 15:18:42,429][98493] Updated weights for policy 0, policy_version 899463 (0.0007)
+[2023-07-06 15:18:42,939][98493] Updated weights for policy 0, policy_version 899520 (0.0009)
+[2023-07-06 15:18:42,999][98449] Signal inference workers to stop experience collection... (46450 times)
+[2023-07-06 15:18:43,030][98493] InferenceWorker_p0-w0: stopping experience collection (46450 times)
+[2023-07-06 15:18:43,086][98449] Signal inference workers to resume experience collection... (46450 times)
+[2023-07-06 15:18:43,087][98493] InferenceWorker_p0-w0: resuming experience collection (46450 times)
+[2023-07-06 15:18:43,383][98493] Updated weights for policy 0, policy_version 899568 (0.0007)
+[2023-07-06 15:18:44,119][98493] Updated weights for policy 0, policy_version 899620 (0.0007)
+[2023-07-06 15:18:44,764][98243] Fps is (10 sec: 104857.8, 60 sec: 113596.0, 300 sec: 111744.4). Total num frames: 1842479104. Throughput: 0: 27852.8. Samples: 460655616. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:44,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:18:45,735][98493] Updated weights for policy 0, policy_version 899664 (0.0006)
+[2023-07-06 15:18:46,080][98493] Updated weights for policy 0, policy_version 899704 (0.0006)
+[2023-07-06 15:18:47,359][98493] Updated weights for policy 0, policy_version 899747 (0.0007)
+[2023-07-06 15:18:47,858][98493] Updated weights for policy 0, policy_version 899808 (0.0007)
+[2023-07-06 15:18:48,704][98493] Updated weights for policy 0, policy_version 899873 (0.0008)
+[2023-07-06 15:18:49,764][98243] Fps is (10 sec: 104857.2, 60 sec: 113049.8, 300 sec: 111522.3). Total num frames: 1843003392. Throughput: 0: 27886.9. Samples: 460824064. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:49,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:18:50,608][98493] Updated weights for policy 0, policy_version 899936 (0.0007)
+[2023-07-06 15:18:50,865][98493] Updated weights for policy 0, policy_version 899966 (0.0007)
+[2023-07-06 15:18:52,256][98493] Updated weights for policy 0, policy_version 900039 (0.0008)
+[2023-07-06 15:18:53,265][98493] Updated weights for policy 0, policy_version 900098 (0.0008)
+[2023-07-06 15:18:53,729][98493] Updated weights for policy 0, policy_version 900154 (0.0014)
+[2023-07-06 15:18:54,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.3, 300 sec: 111411.2). Total num frames: 1843527680. Throughput: 0: 27830.2. Samples: 460905472. Policy #0 lag: (min: 15.0, avg: 120.8, max: 271.0)
+[2023-07-06 15:18:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:18:55,531][98493] Updated weights for policy 0, policy_version 900208 (0.0006)
+[2023-07-06 15:18:56,588][98493] Updated weights for policy 0, policy_version 900243 (0.0007)
+[2023-07-06 15:18:57,097][98493] Updated weights for policy 0, policy_version 900304 (0.0007)
+[2023-07-06 15:18:58,082][98493] Updated weights for policy 0, policy_version 900368 (0.0007)
+[2023-07-06 15:18:58,504][98493] Updated weights for policy 0, policy_version 900416 (0.0007)
+[2023-07-06 15:18:59,765][98243] Fps is (10 sec: 104849.6, 60 sec: 111409.8, 300 sec: 111077.7). Total num frames: 1844051968. Throughput: 0: 27727.2. Samples: 461070848. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:18:59,766][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:19:00,305][98493] Updated weights for policy 0, policy_version 900479 (0.0008)
+[2023-07-06 15:19:01,556][98449] Signal inference workers to stop experience collection... (46500 times)
+[2023-07-06 15:19:01,582][98493] InferenceWorker_p0-w0: stopping experience collection (46500 times)
+[2023-07-06 15:19:01,640][98449] Signal inference workers to resume experience collection... (46500 times)
+[2023-07-06 15:19:01,640][98493] InferenceWorker_p0-w0: resuming experience collection (46500 times)
+[2023-07-06 15:19:01,722][98493] Updated weights for policy 0, policy_version 900533 (0.0008)
+[2023-07-06 15:19:02,309][98493] Updated weights for policy 0, policy_version 900603 (0.0007)
+[2023-07-06 15:19:02,950][98493] Updated weights for policy 0, policy_version 900656 (0.0008)
+[2023-07-06 15:19:04,764][98243] Fps is (10 sec: 111411.6, 60 sec: 111411.2, 300 sec: 111300.2). Total num frames: 1844641792. Throughput: 0: 27921.0. Samples: 461242368. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:04,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:19:04,830][98493] Updated weights for policy 0, policy_version 900720 (0.0007)
+[2023-07-06 15:19:06,266][98493] Updated weights for policy 0, policy_version 900774 (0.0006)
+[2023-07-06 15:19:06,804][98493] Updated weights for policy 0, policy_version 900837 (0.0008)
+[2023-07-06 15:19:07,546][98493] Updated weights for policy 0, policy_version 900885 (0.0007)
+[2023-07-06 15:19:09,156][98493] Updated weights for policy 0, policy_version 900944 (0.0007)
+[2023-07-06 15:19:09,764][98243] Fps is (10 sec: 117973.1, 60 sec: 111957.6, 300 sec: 111522.3). Total num frames: 1845231616. Throughput: 0: 27739.0. Samples: 461321728. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:09,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:19:10,626][98493] Updated weights for policy 0, policy_version 900994 (0.0007)
+[2023-07-06 15:19:11,177][98493] Updated weights for policy 0, policy_version 901062 (0.0007)
+[2023-07-06 15:19:11,707][98493] Updated weights for policy 0, policy_version 901120 (0.0007)
+[2023-07-06 15:19:12,475][98493] Updated weights for policy 0, policy_version 901182 (0.0008)
+[2023-07-06 15:19:14,060][98493] Updated weights for policy 0, policy_version 901224 (0.0007)
+[2023-07-06 15:19:14,764][98243] Fps is (10 sec: 111411.4, 60 sec: 110865.1, 300 sec: 111522.3). Total num frames: 1845755904. Throughput: 0: 27898.3. Samples: 461494272. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:14,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:19:15,530][98493] Updated weights for policy 0, policy_version 901280 (0.0008)
+[2023-07-06 15:19:16,086][98493] Updated weights for policy 0, policy_version 901344 (0.0007)
+[2023-07-06 15:19:16,982][98493] Updated weights for policy 0, policy_version 901408 (0.0007)
+[2023-07-06 15:19:18,409][98493] Updated weights for policy 0, policy_version 901447 (0.0006)
+[2023-07-06 15:19:18,824][98493] Updated weights for policy 0, policy_version 901496 (0.0007)
+[2023-07-06 15:19:19,764][98243] Fps is (10 sec: 104858.1, 60 sec: 109226.6, 300 sec: 111522.4). Total num frames: 1846280192. Throughput: 0: 28046.2. Samples: 461662720. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:19:20,068][98449] Signal inference workers to stop experience collection... (46550 times)
+[2023-07-06 15:19:20,106][98493] InferenceWorker_p0-w0: stopping experience collection (46550 times)
+[2023-07-06 15:19:20,165][98449] Signal inference workers to resume experience collection... (46550 times)
+[2023-07-06 15:19:20,165][98493] InferenceWorker_p0-w0: resuming experience collection (46550 times)
+[2023-07-06 15:19:20,385][98493] Updated weights for policy 0, policy_version 901541 (0.0007)
+[2023-07-06 15:19:20,870][98493] Updated weights for policy 0, policy_version 901600 (0.0007)
+[2023-07-06 15:19:21,459][98493] Updated weights for policy 0, policy_version 901635 (0.0007)
+[2023-07-06 15:19:21,945][98493] Updated weights for policy 0, policy_version 901696 (0.0007)
+[2023-07-06 15:19:23,313][98493] Updated weights for policy 0, policy_version 901755 (0.0008)
+[2023-07-06 15:19:24,764][98243] Fps is (10 sec: 104856.5, 60 sec: 109226.5, 300 sec: 111411.2). Total num frames: 1846804480. Throughput: 0: 27818.6. Samples: 461745152. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:24,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:19:25,241][98493] Updated weights for policy 0, policy_version 901814 (0.0007)
+[2023-07-06 15:19:25,734][98493] Updated weights for policy 0, policy_version 901872 (0.0007)
+[2023-07-06 15:19:26,188][98493] Updated weights for policy 0, policy_version 901920 (0.0008)
+[2023-07-06 15:19:27,752][98493] Updated weights for policy 0, policy_version 901956 (0.0007)
+[2023-07-06 15:19:29,370][98493] Updated weights for policy 0, policy_version 902020 (0.0007)
+[2023-07-06 15:19:29,764][98243] Fps is (10 sec: 114688.0, 60 sec: 109772.8, 300 sec: 111522.2). Total num frames: 1847427072. Throughput: 0: 27943.8. Samples: 461913088. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:29,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:19:29,791][98493] Updated weights for policy 0, policy_version 902066 (0.0007)
+[2023-07-06 15:19:30,235][98493] Updated weights for policy 0, policy_version 902119 (0.0007)
+[2023-07-06 15:19:30,839][98493] Updated weights for policy 0, policy_version 902168 (0.0007)
+[2023-07-06 15:19:31,199][98493] Updated weights for policy 0, policy_version 902208 (0.0008)
+[2023-07-06 15:19:32,819][98493] Updated weights for policy 0, policy_version 902259 (0.0007)
+[2023-07-06 15:19:34,192][98493] Updated weights for policy 0, policy_version 902279 (0.0006)
+[2023-07-06 15:19:34,673][98493] Updated weights for policy 0, policy_version 902336 (0.0007)
+[2023-07-06 15:19:34,764][98243] Fps is (10 sec: 117964.9, 60 sec: 109226.6, 300 sec: 111522.3). Total num frames: 1847984128. Throughput: 0: 28000.7. Samples: 462084096. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:34,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:19:35,167][98493] Updated weights for policy 0, policy_version 902387 (0.0007)
+[2023-07-06 15:19:35,547][98449] Signal inference workers to stop experience collection... (46600 times)
+[2023-07-06 15:19:35,594][98493] InferenceWorker_p0-w0: stopping experience collection (46600 times)
+[2023-07-06 15:19:35,631][98449] Signal inference workers to resume experience collection... (46600 times)
+[2023-07-06 15:19:35,631][98493] InferenceWorker_p0-w0: resuming experience collection (46600 times)
+[2023-07-06 15:19:35,632][98493] Updated weights for policy 0, policy_version 902448 (0.0007)
+[2023-07-06 15:19:37,382][98493] Updated weights for policy 0, policy_version 902513 (0.0007)
+[2023-07-06 15:19:39,141][98493] Updated weights for policy 0, policy_version 902563 (0.0006)
+[2023-07-06 15:19:39,576][98493] Updated weights for policy 0, policy_version 902614 (0.0007)
+[2023-07-06 15:19:39,764][98243] Fps is (10 sec: 114688.8, 60 sec: 110319.0, 300 sec: 111744.5). Total num frames: 1848573952. Throughput: 0: 27989.4. Samples: 462164992. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:39,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:19:40,128][98493] Updated weights for policy 0, policy_version 902677 (0.0008)
+[2023-07-06 15:19:41,809][98493] Updated weights for policy 0, policy_version 902725 (0.0007)
+[2023-07-06 15:19:43,517][98493] Updated weights for policy 0, policy_version 902785 (0.0007)
+[2023-07-06 15:19:44,123][98493] Updated weights for policy 0, policy_version 902857 (0.0008)
+[2023-07-06 15:19:44,647][98493] Updated weights for policy 0, policy_version 902916 (0.0008)
+[2023-07-06 15:19:44,764][98243] Fps is (10 sec: 121242.1, 60 sec: 111957.3, 300 sec: 112077.7). Total num frames: 1849196544. Throughput: 0: 28137.7. Samples: 462337024. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:44,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:19:45,100][98493] Updated weights for policy 0, policy_version 902974 (0.0006)
+[2023-07-06 15:19:46,840][98493] Updated weights for policy 0, policy_version 903037 (0.0007)
+[2023-07-06 15:19:48,702][98493] Updated weights for policy 0, policy_version 903092 (0.0007)
+[2023-07-06 15:19:49,146][98493] Updated weights for policy 0, policy_version 903142 (0.0007)
+[2023-07-06 15:19:49,722][98493] Updated weights for policy 0, policy_version 903200 (0.0008)
+[2023-07-06 15:19:49,764][98243] Fps is (10 sec: 117964.1, 60 sec: 112503.5, 300 sec: 112188.8). Total num frames: 1849753600. Throughput: 0: 27921.1. Samples: 462498816. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:49,764][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 15:19:51,268][98493] Updated weights for policy 0, policy_version 903256 (0.0008)
+[2023-07-06 15:19:51,604][98493] Updated weights for policy 0, policy_version 903296 (0.0006)
+[2023-07-06 15:19:53,310][98493] Updated weights for policy 0, policy_version 903353 (0.0008)
+[2023-07-06 15:19:53,558][98449] Signal inference workers to stop experience collection... (46650 times)
+[2023-07-06 15:19:53,597][98493] InferenceWorker_p0-w0: stopping experience collection (46650 times)
+[2023-07-06 15:19:53,650][98449] Signal inference workers to resume experience collection... (46650 times)
+[2023-07-06 15:19:53,651][98493] InferenceWorker_p0-w0: resuming experience collection (46650 times)
+[2023-07-06 15:19:53,854][98493] Updated weights for policy 0, policy_version 903416 (0.0008)
+[2023-07-06 15:19:54,336][98493] Updated weights for policy 0, policy_version 903456 (0.0006)
+[2023-07-06 15:19:54,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113595.5, 300 sec: 112077.6). Total num frames: 1850343424. Throughput: 0: 28125.8. Samples: 462587392. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:54,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:19:56,151][98493] Updated weights for policy 0, policy_version 903520 (0.0007)
+[2023-07-06 15:19:57,733][98493] Updated weights for policy 0, policy_version 903576 (0.0006)
+[2023-07-06 15:19:58,305][98493] Updated weights for policy 0, policy_version 903641 (0.0007)
+[2023-07-06 15:19:58,604][98493] Updated weights for policy 0, policy_version 903679 (0.0007)
+[2023-07-06 15:19:59,153][98493] Updated weights for policy 0, policy_version 903728 (0.0007)
+[2023-07-06 15:19:59,764][98243] Fps is (10 sec: 111411.1, 60 sec: 113597.2, 300 sec: 111966.6). Total num frames: 1850867712. Throughput: 0: 27921.1. Samples: 462750720. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:19:59,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:20:00,593][98493] Updated weights for policy 0, policy_version 903767 (0.0007)
+[2023-07-06 15:20:02,437][98493] Updated weights for policy 0, policy_version 903840 (0.0008)
+[2023-07-06 15:20:02,942][98493] Updated weights for policy 0, policy_version 903896 (0.0009)
+[2023-07-06 15:20:03,574][98493] Updated weights for policy 0, policy_version 903939 (0.0007)
+[2023-07-06 15:20:03,991][98493] Updated weights for policy 0, policy_version 903994 (0.0007)
+[2023-07-06 15:20:04,764][98243] Fps is (10 sec: 104859.1, 60 sec: 112503.5, 300 sec: 111855.5). Total num frames: 1851392000. Throughput: 0: 27921.1. Samples: 462919168. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:04,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:20:05,464][98493] Updated weights for policy 0, policy_version 904032 (0.0006)
+[2023-07-06 15:20:07,009][98493] Updated weights for policy 0, policy_version 904069 (0.0007)
+[2023-07-06 15:20:07,513][98493] Updated weights for policy 0, policy_version 904128 (0.0007)
+[2023-07-06 15:20:08,022][98493] Updated weights for policy 0, policy_version 904183 (0.0007)
+[2023-07-06 15:20:08,534][98493] Updated weights for policy 0, policy_version 904240 (0.0008)
+[2023-07-06 15:20:09,764][98243] Fps is (10 sec: 104857.6, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1851916288. Throughput: 0: 27978.0. Samples: 463004160. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:09,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:20:10,178][98493] Updated weights for policy 0, policy_version 904294 (0.0007)
+[2023-07-06 15:20:11,807][98449] Signal inference workers to stop experience collection... (46700 times)
+[2023-07-06 15:20:11,840][98493] InferenceWorker_p0-w0: stopping experience collection (46700 times)
+[2023-07-06 15:20:11,841][98493] Updated weights for policy 0, policy_version 904355 (0.0007)
+[2023-07-06 15:20:11,906][98449] Signal inference workers to resume experience collection... (46700 times)
+[2023-07-06 15:20:11,906][98493] InferenceWorker_p0-w0: resuming experience collection (46700 times)
+[2023-07-06 15:20:12,322][98493] Updated weights for policy 0, policy_version 904416 (0.0007)
+[2023-07-06 15:20:13,211][98493] Updated weights for policy 0, policy_version 904464 (0.0007)
+[2023-07-06 15:20:13,636][98493] Updated weights for policy 0, policy_version 904512 (0.0007)
+[2023-07-06 15:20:14,764][98243] Fps is (10 sec: 111411.3, 60 sec: 112503.4, 300 sec: 111633.3). Total num frames: 1852506112. Throughput: 0: 27909.7. Samples: 463169024. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:14,768][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:20:14,849][98493] Updated weights for policy 0, policy_version 904551 (0.0007)
+[2023-07-06 15:20:16,391][98493] Updated weights for policy 0, policy_version 904624 (0.0008)
+[2023-07-06 15:20:16,925][98493] Updated weights for policy 0, policy_version 904677 (0.0007)
+[2023-07-06 15:20:18,016][98493] Updated weights for policy 0, policy_version 904729 (0.0007)
+[2023-07-06 15:20:19,421][98493] Updated weights for policy 0, policy_version 904792 (0.0007)
+[2023-07-06 15:20:19,764][98243] Fps is (10 sec: 117965.0, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 1853095936. Throughput: 0: 27818.7. Samples: 463335936. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:19,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:20:21,074][98493] Updated weights for policy 0, policy_version 904856 (0.0007)
+[2023-07-06 15:20:21,590][98493] Updated weights for policy 0, policy_version 904914 (0.0007)
+[2023-07-06 15:20:21,934][98493] Updated weights for policy 0, policy_version 904960 (0.0007)
+[2023-07-06 15:20:23,070][98493] Updated weights for policy 0, policy_version 905018 (0.0007)
+[2023-07-06 15:20:24,302][98493] Updated weights for policy 0, policy_version 905084 (0.0006)
+[2023-07-06 15:20:24,764][98243] Fps is (10 sec: 111411.3, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 1853620224. Throughput: 0: 27909.7. Samples: 463420928. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:24,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:20:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000905088_1853620224.pth...
+[2023-07-06 15:20:24,802][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000892016_1826848768.pth
+[2023-07-06 15:20:26,039][98493] Updated weights for policy 0, policy_version 905144 (0.0007)
+[2023-07-06 15:20:26,510][98493] Updated weights for policy 0, policy_version 905200 (0.0007)
+[2023-07-06 15:20:27,696][98493] Updated weights for policy 0, policy_version 905248 (0.0007)
+[2023-07-06 15:20:28,864][98493] Updated weights for policy 0, policy_version 905305 (0.0006)
+[2023-07-06 15:20:29,141][98493] Updated weights for policy 0, policy_version 905342 (0.0007)
+[2023-07-06 15:20:29,765][98243] Fps is (10 sec: 104855.2, 60 sec: 111956.9, 300 sec: 111522.2). Total num frames: 1854144512. Throughput: 0: 27807.2. Samples: 463588352. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:29,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:20:30,273][98449] Signal inference workers to stop experience collection... (46750 times)
+[2023-07-06 15:20:30,305][98493] InferenceWorker_p0-w0: stopping experience collection (46750 times)
+[2023-07-06 15:20:30,360][98449] Signal inference workers to resume experience collection... (46750 times)
+[2023-07-06 15:20:30,360][98493] InferenceWorker_p0-w0: resuming experience collection (46750 times)
+[2023-07-06 15:20:30,582][98493] Updated weights for policy 0, policy_version 905379 (0.0007)
+[2023-07-06 15:20:31,011][98493] Updated weights for policy 0, policy_version 905429 (0.0007)
+[2023-07-06 15:20:32,356][98493] Updated weights for policy 0, policy_version 905496 (0.0007)
+[2023-07-06 15:20:33,194][98493] Updated weights for policy 0, policy_version 905538 (0.0008)
+[2023-07-06 15:20:33,617][98493] Updated weights for policy 0, policy_version 905593 (0.0007)
+[2023-07-06 15:20:34,764][98243] Fps is (10 sec: 104855.9, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1854668800. Throughput: 0: 28057.5. Samples: 463761408. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:34,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:20:35,161][98493] Updated weights for policy 0, policy_version 905648 (0.0006)
+[2023-07-06 15:20:35,667][98493] Updated weights for policy 0, policy_version 905699 (0.0007)
+[2023-07-06 15:20:36,988][98493] Updated weights for policy 0, policy_version 905744 (0.0007)
+[2023-07-06 15:20:37,418][98493] Updated weights for policy 0, policy_version 905792 (0.0007)
+[2023-07-06 15:20:38,190][98493] Updated weights for policy 0, policy_version 905847 (0.0007)
+[2023-07-06 15:20:39,764][98243] Fps is (10 sec: 108136.4, 60 sec: 110864.9, 300 sec: 111633.4). Total num frames: 1855225856. Throughput: 0: 27852.9. Samples: 463840768. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:39,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:20:39,901][98493] Updated weights for policy 0, policy_version 905894 (0.0007)
+[2023-07-06 15:20:40,435][98493] Updated weights for policy 0, policy_version 905958 (0.0006)
+[2023-07-06 15:20:41,672][98493] Updated weights for policy 0, policy_version 906016 (0.0007)
+[2023-07-06 15:20:42,377][98493] Updated weights for policy 0, policy_version 906052 (0.0007)
+[2023-07-06 15:20:42,830][98493] Updated weights for policy 0, policy_version 906110 (0.0008)
+[2023-07-06 15:20:44,745][98493] Updated weights for policy 0, policy_version 906160 (0.0007)
+[2023-07-06 15:20:44,764][98243] Fps is (10 sec: 114690.5, 60 sec: 110319.1, 300 sec: 111855.6). Total num frames: 1855815680. Throughput: 0: 28023.5. Samples: 464011776. Policy #0 lag: (min: 8.0, avg: 106.6, max: 264.0)
+[2023-07-06 15:20:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:20:45,384][98493] Updated weights for policy 0, policy_version 906234 (0.0008)
+[2023-07-06 15:20:46,420][98493] Updated weights for policy 0, policy_version 906299 (0.0007)
+[2023-07-06 15:20:47,355][98449] Signal inference workers to stop experience collection... (46800 times)
+[2023-07-06 15:20:47,389][98493] InferenceWorker_p0-w0: stopping experience collection (46800 times)
+[2023-07-06 15:20:47,436][98449] Signal inference workers to resume experience collection... (46800 times)
+[2023-07-06 15:20:47,436][98493] InferenceWorker_p0-w0: resuming experience collection (46800 times)
+[2023-07-06 15:20:47,653][98493] Updated weights for policy 0, policy_version 906363 (0.0008)
+[2023-07-06 15:20:49,623][98493] Updated weights for policy 0, policy_version 906432 (0.0007)
+[2023-07-06 15:20:49,764][98243] Fps is (10 sec: 114688.8, 60 sec: 110319.0, 300 sec: 111751.2). Total num frames: 1856372736. Throughput: 0: 27921.1. Samples: 464175616. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:20:49,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:20:50,150][98493] Updated weights for policy 0, policy_version 906490 (0.0006)
+[2023-07-06 15:20:51,149][98493] Updated weights for policy 0, policy_version 906544 (0.0006)
+[2023-07-06 15:20:51,899][98493] Updated weights for policy 0, policy_version 906581 (0.0007)
+[2023-07-06 15:20:54,057][98493] Updated weights for policy 0, policy_version 906649 (0.0007)
+[2023-07-06 15:20:54,664][98493] Updated weights for policy 0, policy_version 906720 (0.0007)
+[2023-07-06 15:20:54,764][98243] Fps is (10 sec: 114686.8, 60 sec: 110319.2, 300 sec: 111633.3). Total num frames: 1856962560. Throughput: 0: 27864.2. Samples: 464258048. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:20:54,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:20:55,911][98493] Updated weights for policy 0, policy_version 906787 (0.0008)
+[2023-07-06 15:20:56,335][98493] Updated weights for policy 0, policy_version 906819 (0.0006)
+[2023-07-06 15:20:56,770][98493] Updated weights for policy 0, policy_version 906872 (0.0007)
+[2023-07-06 15:20:58,896][98493] Updated weights for policy 0, policy_version 906917 (0.0007)
+[2023-07-06 15:20:59,329][98493] Updated weights for policy 0, policy_version 906964 (0.0006)
+[2023-07-06 15:20:59,764][98243] Fps is (10 sec: 117964.4, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 1857552384. Throughput: 0: 28000.7. Samples: 464429056. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:20:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:21:00,429][98493] Updated weights for policy 0, policy_version 907016 (0.0007)
+[2023-07-06 15:21:00,921][98493] Updated weights for policy 0, policy_version 907072 (0.0007)
+[2023-07-06 15:21:01,458][98493] Updated weights for policy 0, policy_version 907131 (0.0006)
+[2023-07-06 15:21:03,792][98493] Updated weights for policy 0, policy_version 907178 (0.0007)
+[2023-07-06 15:21:04,311][98493] Updated weights for policy 0, policy_version 907236 (0.0007)
+[2023-07-06 15:21:04,765][98243] Fps is (10 sec: 111408.7, 60 sec: 111410.7, 300 sec: 111633.2). Total num frames: 1858076672. Throughput: 0: 27932.3. Samples: 464592896. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:21:04,969][98493] Updated weights for policy 0, policy_version 907280 (0.0007)
+[2023-07-06 15:21:05,030][98449] Signal inference workers to stop experience collection... (46850 times)
+[2023-07-06 15:21:05,062][98493] InferenceWorker_p0-w0: stopping experience collection (46850 times)
+[2023-07-06 15:21:05,115][98449] Signal inference workers to resume experience collection... (46850 times)
+[2023-07-06 15:21:05,116][98493] InferenceWorker_p0-w0: resuming experience collection (46850 times)
+[2023-07-06 15:21:05,400][98493] Updated weights for policy 0, policy_version 907328 (0.0007)
+[2023-07-06 15:21:06,025][98493] Updated weights for policy 0, policy_version 907387 (0.0007)
+[2023-07-06 15:21:08,524][98493] Updated weights for policy 0, policy_version 907440 (0.0007)
+[2023-07-06 15:21:09,156][98493] Updated weights for policy 0, policy_version 907514 (0.0008)
+[2023-07-06 15:21:09,764][98243] Fps is (10 sec: 108134.1, 60 sec: 111957.3, 300 sec: 111633.3). Total num frames: 1858633728. Throughput: 0: 27966.6. Samples: 464679424. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:09,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:21:10,033][98493] Updated weights for policy 0, policy_version 907574 (0.0007)
+[2023-07-06 15:21:10,665][98493] Updated weights for policy 0, policy_version 907608 (0.0006)
+[2023-07-06 15:21:10,972][98493] Updated weights for policy 0, policy_version 907648 (0.0007)
+[2023-07-06 15:21:13,398][98493] Updated weights for policy 0, policy_version 907705 (0.0008)
+[2023-07-06 15:21:13,928][98493] Updated weights for policy 0, policy_version 907769 (0.0008)
+[2023-07-06 15:21:14,588][98493] Updated weights for policy 0, policy_version 907824 (0.0006)
+[2023-07-06 15:21:14,764][98243] Fps is (10 sec: 117968.3, 60 sec: 112503.5, 300 sec: 111966.6). Total num frames: 1859256320. Throughput: 0: 27875.7. Samples: 464842752. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:21:15,626][98493] Updated weights for policy 0, policy_version 907888 (0.0007)
+[2023-07-06 15:21:18,005][98493] Updated weights for policy 0, policy_version 907941 (0.0006)
+[2023-07-06 15:21:18,561][98493] Updated weights for policy 0, policy_version 908001 (0.0015)
+[2023-07-06 15:21:19,178][98493] Updated weights for policy 0, policy_version 908064 (0.0006)
+[2023-07-06 15:21:19,764][98243] Fps is (10 sec: 114688.1, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1859780608. Throughput: 0: 27659.5. Samples: 465006080. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:21:20,149][98493] Updated weights for policy 0, policy_version 908115 (0.0007)
+[2023-07-06 15:21:22,429][98493] Updated weights for policy 0, policy_version 908161 (0.0006)
+[2023-07-06 15:21:22,917][98493] Updated weights for policy 0, policy_version 908224 (0.0008)
+[2023-07-06 15:21:23,269][98449] Signal inference workers to stop experience collection... (46900 times)
+[2023-07-06 15:21:23,302][98493] InferenceWorker_p0-w0: stopping experience collection (46900 times)
+[2023-07-06 15:21:23,354][98449] Signal inference workers to resume experience collection... (46900 times)
+[2023-07-06 15:21:23,354][98493] InferenceWorker_p0-w0: resuming experience collection (46900 times)
+[2023-07-06 15:21:23,355][98493] Updated weights for policy 0, policy_version 908272 (0.0006)
+[2023-07-06 15:21:23,965][98493] Updated weights for policy 0, policy_version 908345 (0.0007)
+[2023-07-06 15:21:24,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1860304896. Throughput: 0: 27886.9. Samples: 465095680. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:21:25,025][98493] Updated weights for policy 0, policy_version 908384 (0.0008)
+[2023-07-06 15:21:27,114][98493] Updated weights for policy 0, policy_version 908441 (0.0008)
+[2023-07-06 15:21:27,847][98493] Updated weights for policy 0, policy_version 908512 (0.0007)
+[2023-07-06 15:21:28,659][98493] Updated weights for policy 0, policy_version 908560 (0.0006)
+[2023-07-06 15:21:29,383][98493] Updated weights for policy 0, policy_version 908614 (0.0007)
+[2023-07-06 15:21:29,764][98243] Fps is (10 sec: 114688.2, 60 sec: 113050.0, 300 sec: 111855.5). Total num frames: 1860927488. Throughput: 0: 27704.9. Samples: 465258496. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:29,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:21:29,817][98493] Updated weights for policy 0, policy_version 908668 (0.0007)
+[2023-07-06 15:21:32,178][98493] Updated weights for policy 0, policy_version 908724 (0.0008)
+[2023-07-06 15:21:32,685][98493] Updated weights for policy 0, policy_version 908784 (0.0007)
+[2023-07-06 15:21:33,523][98493] Updated weights for policy 0, policy_version 908848 (0.0007)
+[2023-07-06 15:21:34,255][98493] Updated weights for policy 0, policy_version 908897 (0.0007)
+[2023-07-06 15:21:34,764][98243] Fps is (10 sec: 117964.8, 60 sec: 113596.0, 300 sec: 111966.8). Total num frames: 1861484544. Throughput: 0: 27716.2. Samples: 465422848. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:34,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:21:36,627][98493] Updated weights for policy 0, policy_version 908952 (0.0006)
+[2023-07-06 15:21:37,168][98493] Updated weights for policy 0, policy_version 909011 (0.0006)
+[2023-07-06 15:21:38,003][98493] Updated weights for policy 0, policy_version 909062 (0.0008)
+[2023-07-06 15:21:38,657][98493] Updated weights for policy 0, policy_version 909127 (0.0007)
+[2023-07-06 15:21:39,098][98493] Updated weights for policy 0, policy_version 909182 (0.0007)
+[2023-07-06 15:21:39,764][98243] Fps is (10 sec: 108134.0, 60 sec: 113049.6, 300 sec: 111744.4). Total num frames: 1862008832. Throughput: 0: 27795.9. Samples: 465508864. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:39,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:21:41,588][98493] Updated weights for policy 0, policy_version 909225 (0.0007)
+[2023-07-06 15:21:41,797][98449] Signal inference workers to stop experience collection... (46950 times)
+[2023-07-06 15:21:41,841][98493] InferenceWorker_p0-w0: stopping experience collection (46950 times)
+[2023-07-06 15:21:41,884][98449] Signal inference workers to resume experience collection... (46950 times)
+[2023-07-06 15:21:41,884][98493] InferenceWorker_p0-w0: resuming experience collection (46950 times)
+[2023-07-06 15:21:42,215][98493] Updated weights for policy 0, policy_version 909305 (0.0009)
+[2023-07-06 15:21:43,172][98493] Updated weights for policy 0, policy_version 909360 (0.0006)
+[2023-07-06 15:21:43,709][98493] Updated weights for policy 0, policy_version 909424 (0.0007)
+[2023-07-06 15:21:44,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111957.0, 300 sec: 111522.3). Total num frames: 1862533120. Throughput: 0: 27602.4. Samples: 465671168. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:21:46,339][98493] Updated weights for policy 0, policy_version 909478 (0.0009)
+[2023-07-06 15:21:46,895][98493] Updated weights for policy 0, policy_version 909541 (0.0007)
+[2023-07-06 15:21:47,512][98493] Updated weights for policy 0, policy_version 909591 (0.0008)
+[2023-07-06 15:21:47,831][98493] Updated weights for policy 0, policy_version 909629 (0.0007)
+[2023-07-06 15:21:48,474][98493] Updated weights for policy 0, policy_version 909680 (0.0007)
+[2023-07-06 15:21:49,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.0, 300 sec: 111522.3). Total num frames: 1863057408. Throughput: 0: 27761.9. Samples: 465842176. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:49,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:21:50,759][98493] Updated weights for policy 0, policy_version 909732 (0.0006)
+[2023-07-06 15:21:51,470][98493] Updated weights for policy 0, policy_version 909800 (0.0007)
+[2023-07-06 15:21:52,220][98493] Updated weights for policy 0, policy_version 909860 (0.0007)
+[2023-07-06 15:21:53,280][98493] Updated weights for policy 0, policy_version 909923 (0.0008)
+[2023-07-06 15:21:54,764][98243] Fps is (10 sec: 104858.1, 60 sec: 110318.9, 300 sec: 111411.2). Total num frames: 1863581696. Throughput: 0: 27636.6. Samples: 465923072. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:21:55,182][98493] Updated weights for policy 0, policy_version 909968 (0.0006)
+[2023-07-06 15:21:56,008][98493] Updated weights for policy 0, policy_version 910021 (0.0008)
+[2023-07-06 15:21:56,483][98493] Updated weights for policy 0, policy_version 910080 (0.0008)
+[2023-07-06 15:21:57,194][98493] Updated weights for policy 0, policy_version 910139 (0.0007)
+[2023-07-06 15:21:58,214][98493] Updated weights for policy 0, policy_version 910192 (0.0006)
+[2023-07-06 15:21:59,691][98493] Updated weights for policy 0, policy_version 910216 (0.0007)
+[2023-07-06 15:21:59,764][98243] Fps is (10 sec: 108132.4, 60 sec: 109772.3, 300 sec: 111300.0). Total num frames: 1864138752. Throughput: 0: 27738.8. Samples: 466091008. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:21:59,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:22:00,673][98449] Signal inference workers to stop experience collection... (47000 times)
+[2023-07-06 15:22:00,692][98493] InferenceWorker_p0-w0: stopping experience collection (47000 times)
+[2023-07-06 15:22:00,708][98493] Updated weights for policy 0, policy_version 910277 (0.0007)
+[2023-07-06 15:22:00,767][98449] Signal inference workers to resume experience collection... (47000 times)
+[2023-07-06 15:22:00,767][98493] InferenceWorker_p0-w0: resuming experience collection (47000 times)
+[2023-07-06 15:22:01,205][98493] Updated weights for policy 0, policy_version 910336 (0.0009)
+[2023-07-06 15:22:02,006][98493] Updated weights for policy 0, policy_version 910400 (0.0006)
+[2023-07-06 15:22:02,940][98493] Updated weights for policy 0, policy_version 910459 (0.0007)
+[2023-07-06 15:22:04,409][98493] Updated weights for policy 0, policy_version 910500 (0.0007)
+[2023-07-06 15:22:04,764][98243] Fps is (10 sec: 117965.4, 60 sec: 111411.7, 300 sec: 111522.4). Total num frames: 1864761344. Throughput: 0: 27864.2. Samples: 466259968. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:04,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:22:05,622][98493] Updated weights for policy 0, policy_version 910544 (0.0007)
+[2023-07-06 15:22:06,309][98493] Updated weights for policy 0, policy_version 910597 (0.0007)
+[2023-07-06 15:22:06,744][98493] Updated weights for policy 0, policy_version 910652 (0.0006)
+[2023-07-06 15:22:07,487][98493] Updated weights for policy 0, policy_version 910704 (0.0007)
+[2023-07-06 15:22:08,987][98493] Updated weights for policy 0, policy_version 910752 (0.0007)
+[2023-07-06 15:22:09,764][98243] Fps is (10 sec: 114690.7, 60 sec: 110865.1, 300 sec: 111522.3). Total num frames: 1865285632. Throughput: 0: 27682.1. Samples: 466341376. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:09,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:22:10,511][98493] Updated weights for policy 0, policy_version 910806 (0.0006)
+[2023-07-06 15:22:10,837][98493] Updated weights for policy 0, policy_version 910848 (0.0006)
+[2023-07-06 15:22:11,496][98493] Updated weights for policy 0, policy_version 910909 (0.0006)
+[2023-07-06 15:22:12,087][98493] Updated weights for policy 0, policy_version 910962 (0.0008)
+[2023-07-06 15:22:13,547][98493] Updated weights for policy 0, policy_version 910998 (0.0007)
+[2023-07-06 15:22:13,846][98493] Updated weights for policy 0, policy_version 911036 (0.0007)
+[2023-07-06 15:22:14,764][98243] Fps is (10 sec: 104857.3, 60 sec: 109226.6, 300 sec: 111411.2). Total num frames: 1865809920. Throughput: 0: 27898.3. Samples: 466513920. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:22:15,247][98493] Updated weights for policy 0, policy_version 911088 (0.0008)
+[2023-07-06 15:22:15,929][98493] Updated weights for policy 0, policy_version 911136 (0.0006)
+[2023-07-06 15:22:16,358][98493] Updated weights for policy 0, policy_version 911184 (0.0007)
+[2023-07-06 15:22:18,043][98493] Updated weights for policy 0, policy_version 911235 (0.0008)
+[2023-07-06 15:22:19,722][98493] Updated weights for policy 0, policy_version 911298 (0.0007)
+[2023-07-06 15:22:19,764][98243] Fps is (10 sec: 104858.3, 60 sec: 109226.8, 300 sec: 111189.0). Total num frames: 1866334208. Throughput: 0: 28080.4. Samples: 466686464. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:19,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:22:19,856][98449] Signal inference workers to stop experience collection... (47050 times)
+[2023-07-06 15:22:19,884][98493] InferenceWorker_p0-w0: stopping experience collection (47050 times)
+[2023-07-06 15:22:19,936][98449] Signal inference workers to resume experience collection... (47050 times)
+[2023-07-06 15:22:19,936][98493] InferenceWorker_p0-w0: resuming experience collection (47050 times)
+[2023-07-06 15:22:20,564][98493] Updated weights for policy 0, policy_version 911376 (0.0008)
+[2023-07-06 15:22:21,123][98493] Updated weights for policy 0, policy_version 911440 (0.0008)
+[2023-07-06 15:22:21,562][98493] Updated weights for policy 0, policy_version 911482 (0.0007)
+[2023-07-06 15:22:22,848][98493] Updated weights for policy 0, policy_version 911509 (0.0011)
+[2023-07-06 15:22:24,612][98493] Updated weights for policy 0, policy_version 911584 (0.0008)
+[2023-07-06 15:22:24,764][98243] Fps is (10 sec: 114686.2, 60 sec: 110864.8, 300 sec: 111411.1). Total num frames: 1866956800. Throughput: 0: 27898.2. Samples: 466764288. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:22:24,862][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000911616_1866989568.pth...
+[2023-07-06 15:22:24,919][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000898592_1840316416.pth
+[2023-07-06 15:22:24,924][98449] Saving a milestone train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/milestones/checkpoint_000911616_1866989568.pth
+[2023-07-06 15:22:25,462][98493] Updated weights for policy 0, policy_version 911632 (0.0008)
+[2023-07-06 15:22:26,006][98493] Updated weights for policy 0, policy_version 911696 (0.0007)
+[2023-07-06 15:22:27,460][98493] Updated weights for policy 0, policy_version 911748 (0.0007)
+[2023-07-06 15:22:27,917][98493] Updated weights for policy 0, policy_version 911808 (0.0007)
+[2023-07-06 15:22:29,721][98493] Updated weights for policy 0, policy_version 911870 (0.0007)
+[2023-07-06 15:22:29,765][98243] Fps is (10 sec: 117960.9, 60 sec: 109772.3, 300 sec: 111522.2). Total num frames: 1867513856. Throughput: 0: 28046.1. Samples: 466933248. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:29,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:22:30,200][98493] Updated weights for policy 0, policy_version 911920 (0.0008)
+[2023-07-06 15:22:30,658][98493] Updated weights for policy 0, policy_version 911968 (0.0007)
+[2023-07-06 15:22:32,214][98493] Updated weights for policy 0, policy_version 912016 (0.0006)
+[2023-07-06 15:22:33,927][98493] Updated weights for policy 0, policy_version 912070 (0.0006)
+[2023-07-06 15:22:34,406][98493] Updated weights for policy 0, policy_version 912128 (0.0009)
+[2023-07-06 15:22:34,764][98243] Fps is (10 sec: 114690.3, 60 sec: 110319.0, 300 sec: 111744.4). Total num frames: 1868103680. Throughput: 0: 27921.1. Samples: 467098624. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:34,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:22:34,910][98493] Updated weights for policy 0, policy_version 912185 (0.0007)
+[2023-07-06 15:22:35,669][98493] Updated weights for policy 0, policy_version 912250 (0.0006)
+[2023-07-06 15:22:37,159][98449] Signal inference workers to stop experience collection... (47100 times)
+[2023-07-06 15:22:37,194][98493] InferenceWorker_p0-w0: stopping experience collection (47100 times)
+[2023-07-06 15:22:37,195][98493] Updated weights for policy 0, policy_version 912276 (0.0006)
+[2023-07-06 15:22:37,251][98449] Signal inference workers to resume experience collection... (47100 times)
+[2023-07-06 15:22:37,252][98493] InferenceWorker_p0-w0: resuming experience collection (47100 times)
+[2023-07-06 15:22:38,507][98493] Updated weights for policy 0, policy_version 912336 (0.0007)
+[2023-07-06 15:22:39,040][98493] Updated weights for policy 0, policy_version 912391 (0.0007)
+[2023-07-06 15:22:39,764][98243] Fps is (10 sec: 117967.9, 60 sec: 111411.2, 300 sec: 111966.6). Total num frames: 1868693504. Throughput: 0: 27989.3. Samples: 467182592. Policy #0 lag: (min: 7.0, avg: 86.9, max: 263.0)
+[2023-07-06 15:22:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:22:40,118][98493] Updated weights for policy 0, policy_version 912452 (0.0007)
+[2023-07-06 15:22:40,541][98493] Updated weights for policy 0, policy_version 912507 (0.0007)
+[2023-07-06 15:22:42,031][98493] Updated weights for policy 0, policy_version 912560 (0.0008)
+[2023-07-06 15:22:43,285][98493] Updated weights for policy 0, policy_version 912624 (0.0006)
+[2023-07-06 15:22:44,018][98493] Updated weights for policy 0, policy_version 912674 (0.0007)
+[2023-07-06 15:22:44,764][98243] Fps is (10 sec: 111411.0, 60 sec: 111411.4, 300 sec: 111855.6). Total num frames: 1869217792. Throughput: 0: 27978.1. Samples: 467350016. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:22:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:22:45,042][98493] Updated weights for policy 0, policy_version 912725 (0.0007)
+[2023-07-06 15:22:46,468][98493] Updated weights for policy 0, policy_version 912771 (0.0007)
+[2023-07-06 15:22:46,885][98493] Updated weights for policy 0, policy_version 912827 (0.0007)
+[2023-07-06 15:22:47,957][98493] Updated weights for policy 0, policy_version 912868 (0.0007)
+[2023-07-06 15:22:48,595][98493] Updated weights for policy 0, policy_version 912928 (0.0007)
+[2023-07-06 15:22:48,871][98493] Updated weights for policy 0, policy_version 912960 (0.0007)
+[2023-07-06 15:22:49,764][98243] Fps is (10 sec: 108135.7, 60 sec: 111957.6, 300 sec: 111633.4). Total num frames: 1869774848. Throughput: 0: 27966.6. Samples: 467518464. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:22:49,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:22:50,039][98493] Updated weights for policy 0, policy_version 913023 (0.0007)
+[2023-07-06 15:22:52,142][98493] Updated weights for policy 0, policy_version 913090 (0.0007)
+[2023-07-06 15:22:52,556][98493] Updated weights for policy 0, policy_version 913141 (0.0006)
+[2023-07-06 15:22:53,266][98493] Updated weights for policy 0, policy_version 913184 (0.0006)
+[2023-07-06 15:22:54,497][98493] Updated weights for policy 0, policy_version 913248 (0.0007)
+[2023-07-06 15:22:54,764][98243] Fps is (10 sec: 117965.5, 60 sec: 113595.9, 300 sec: 111966.6). Total num frames: 1870397440. Throughput: 0: 27966.6. Samples: 467599872. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:22:54,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:22:56,220][98493] Updated weights for policy 0, policy_version 913304 (0.0007)
+[2023-07-06 15:22:56,293][98449] Signal inference workers to stop experience collection... (47150 times)
+[2023-07-06 15:22:56,347][98493] InferenceWorker_p0-w0: stopping experience collection (47150 times)
+[2023-07-06 15:22:56,415][98449] Signal inference workers to resume experience collection... (47150 times)
+[2023-07-06 15:22:56,415][98493] InferenceWorker_p0-w0: resuming experience collection (47150 times)
+[2023-07-06 15:22:56,933][98493] Updated weights for policy 0, policy_version 913346 (0.0006)
+[2023-07-06 15:22:57,363][98493] Updated weights for policy 0, policy_version 913398 (0.0007)
+[2023-07-06 15:22:57,895][98493] Updated weights for policy 0, policy_version 913440 (0.0007)
+[2023-07-06 15:22:58,994][98493] Updated weights for policy 0, policy_version 913488 (0.0006)
+[2023-07-06 15:22:59,414][98493] Updated weights for policy 0, policy_version 913536 (0.0006)
+[2023-07-06 15:22:59,764][98243] Fps is (10 sec: 114686.9, 60 sec: 113050.1, 300 sec: 111744.4). Total num frames: 1870921728. Throughput: 0: 27830.1. Samples: 467766272. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:22:59,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:23:01,195][98493] Updated weights for policy 0, policy_version 913592 (0.0007)
+[2023-07-06 15:23:01,879][98493] Updated weights for policy 0, policy_version 913632 (0.0007)
+[2023-07-06 15:23:02,505][98493] Updated weights for policy 0, policy_version 913688 (0.0007)
+[2023-07-06 15:23:02,831][98493] Updated weights for policy 0, policy_version 913728 (0.0007)
+[2023-07-06 15:23:04,766][98243] Fps is (10 sec: 104837.6, 60 sec: 111407.8, 300 sec: 111632.7). Total num frames: 1871446016. Throughput: 0: 27828.9. Samples: 467938816. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:04,767][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:23:05,440][98493] Updated weights for policy 0, policy_version 913793 (0.0007)
+[2023-07-06 15:23:05,872][98493] Updated weights for policy 0, policy_version 913850 (0.0007)
+[2023-07-06 15:23:06,795][98493] Updated weights for policy 0, policy_version 913910 (0.0007)
+[2023-07-06 15:23:07,206][98493] Updated weights for policy 0, policy_version 913956 (0.0006)
+[2023-07-06 15:23:08,422][98493] Updated weights for policy 0, policy_version 914005 (0.0007)
+[2023-07-06 15:23:09,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.1, 300 sec: 111411.2). Total num frames: 1871970304. Throughput: 0: 27909.8. Samples: 468020224. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:09,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:23:10,114][98493] Updated weights for policy 0, policy_version 914064 (0.0007)
+[2023-07-06 15:23:11,089][98493] Updated weights for policy 0, policy_version 914115 (0.0006)
+[2023-07-06 15:23:11,586][98493] Updated weights for policy 0, policy_version 914167 (0.0007)
+[2023-07-06 15:23:12,144][98493] Updated weights for policy 0, policy_version 914233 (0.0006)
+[2023-07-06 15:23:13,197][98493] Updated weights for policy 0, policy_version 914277 (0.0007)
+[2023-07-06 15:23:14,764][98243] Fps is (10 sec: 104875.3, 60 sec: 111411.0, 300 sec: 111077.9). Total num frames: 1872494592. Throughput: 0: 27887.0. Samples: 468188160. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:23:14,980][98493] Updated weights for policy 0, policy_version 914336 (0.0007)
+[2023-07-06 15:23:15,024][98449] Signal inference workers to stop experience collection... (47200 times)
+[2023-07-06 15:23:15,072][98493] InferenceWorker_p0-w0: stopping experience collection (47200 times)
+[2023-07-06 15:23:15,116][98449] Signal inference workers to resume experience collection... (47200 times)
+[2023-07-06 15:23:15,116][98493] InferenceWorker_p0-w0: resuming experience collection (47200 times)
+[2023-07-06 15:23:15,841][98493] Updated weights for policy 0, policy_version 914400 (0.0021)
+[2023-07-06 15:23:16,419][98493] Updated weights for policy 0, policy_version 914448 (0.0007)
+[2023-07-06 15:23:17,726][98493] Updated weights for policy 0, policy_version 914512 (0.0017)
+[2023-07-06 15:23:18,126][98493] Updated weights for policy 0, policy_version 914556 (0.0006)
+[2023-07-06 15:23:19,765][98243] Fps is (10 sec: 111409.0, 60 sec: 112502.9, 300 sec: 111300.0). Total num frames: 1873084416. Throughput: 0: 28034.7. Samples: 468360192. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:23:19,905][98493] Updated weights for policy 0, policy_version 914608 (0.0008)
+[2023-07-06 15:23:20,491][98493] Updated weights for policy 0, policy_version 914662 (0.0008)
+[2023-07-06 15:23:20,881][98493] Updated weights for policy 0, policy_version 914704 (0.0007)
+[2023-07-06 15:23:22,377][98493] Updated weights for policy 0, policy_version 914754 (0.0007)
+[2023-07-06 15:23:22,774][98493] Updated weights for policy 0, policy_version 914802 (0.0007)
+[2023-07-06 15:23:24,565][98493] Updated weights for policy 0, policy_version 914852 (0.0007)
+[2023-07-06 15:23:24,765][98243] Fps is (10 sec: 114679.3, 60 sec: 111409.8, 300 sec: 111188.7). Total num frames: 1873641472. Throughput: 0: 28000.2. Samples: 468442624. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:24,766][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:23:24,890][98493] Updated weights for policy 0, policy_version 914886 (0.0007)
+[2023-07-06 15:23:25,390][98493] Updated weights for policy 0, policy_version 914944 (0.0007)
+[2023-07-06 15:23:25,891][98493] Updated weights for policy 0, policy_version 915001 (0.0007)
+[2023-07-06 15:23:27,505][98493] Updated weights for policy 0, policy_version 915066 (0.0006)
+[2023-07-06 15:23:29,566][98493] Updated weights for policy 0, policy_version 915122 (0.0010)
+[2023-07-06 15:23:29,764][98243] Fps is (10 sec: 111413.6, 60 sec: 111411.7, 300 sec: 111078.0). Total num frames: 1874198528. Throughput: 0: 28080.3. Samples: 468613632. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:29,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:23:30,156][98493] Updated weights for policy 0, policy_version 915188 (0.0007)
+[2023-07-06 15:23:30,579][98493] Updated weights for policy 0, policy_version 915236 (0.0008)
+[2023-07-06 15:23:32,193][98493] Updated weights for policy 0, policy_version 915299 (0.0007)
+[2023-07-06 15:23:33,853][98449] Signal inference workers to stop experience collection... (47250 times)
+[2023-07-06 15:23:33,876][98493] InferenceWorker_p0-w0: stopping experience collection (47250 times)
+[2023-07-06 15:23:33,956][98449] Signal inference workers to resume experience collection... (47250 times)
+[2023-07-06 15:23:33,956][98493] InferenceWorker_p0-w0: resuming experience collection (47250 times)
+[2023-07-06 15:23:33,957][98493] Updated weights for policy 0, policy_version 915344 (0.0008)
+[2023-07-06 15:23:34,621][98493] Updated weights for policy 0, policy_version 915411 (0.0008)
+[2023-07-06 15:23:34,764][98243] Fps is (10 sec: 114698.5, 60 sec: 111411.2, 300 sec: 111300.1). Total num frames: 1874788352. Throughput: 0: 27989.3. Samples: 468777984. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:34,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:23:35,104][98493] Updated weights for policy 0, policy_version 915465 (0.0007)
+[2023-07-06 15:23:36,456][98493] Updated weights for policy 0, policy_version 915521 (0.0008)
+[2023-07-06 15:23:36,912][98493] Updated weights for policy 0, policy_version 915578 (0.0006)
+[2023-07-06 15:23:38,924][98493] Updated weights for policy 0, policy_version 915640 (0.0007)
+[2023-07-06 15:23:39,499][98493] Updated weights for policy 0, policy_version 915696 (0.0007)
+[2023-07-06 15:23:39,764][98243] Fps is (10 sec: 117965.5, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1875378176. Throughput: 0: 28023.4. Samples: 468860928. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:39,764][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:23:40,033][98493] Updated weights for policy 0, policy_version 915748 (0.0007)
+[2023-07-06 15:23:41,248][98493] Updated weights for policy 0, policy_version 915812 (0.0006)
+[2023-07-06 15:23:43,368][98493] Updated weights for policy 0, policy_version 915872 (0.0007)
+[2023-07-06 15:23:43,849][98493] Updated weights for policy 0, policy_version 915908 (0.0007)
+[2023-07-06 15:23:44,362][98493] Updated weights for policy 0, policy_version 915968 (0.0008)
+[2023-07-06 15:23:44,764][98243] Fps is (10 sec: 117965.2, 60 sec: 112503.5, 300 sec: 111744.4). Total num frames: 1875968000. Throughput: 0: 28080.4. Samples: 469029888. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:44,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:23:44,860][98493] Updated weights for policy 0, policy_version 916025 (0.0007)
+[2023-07-06 15:23:45,944][98493] Updated weights for policy 0, policy_version 916080 (0.0008)
+[2023-07-06 15:23:48,037][98493] Updated weights for policy 0, policy_version 916128 (0.0007)
+[2023-07-06 15:23:48,727][98493] Updated weights for policy 0, policy_version 916176 (0.0006)
+[2023-07-06 15:23:49,431][98493] Updated weights for policy 0, policy_version 916256 (0.0007)
+[2023-07-06 15:23:49,765][98243] Fps is (10 sec: 117959.6, 60 sec: 113048.6, 300 sec: 111966.4). Total num frames: 1876557824. Throughput: 0: 27808.2. Samples: 469190144. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:49,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:23:50,136][98449] Signal inference workers to stop experience collection... (47300 times)
+[2023-07-06 15:23:50,161][98493] InferenceWorker_p0-w0: stopping experience collection (47300 times)
+[2023-07-06 15:23:50,230][98449] Signal inference workers to resume experience collection... (47300 times)
+[2023-07-06 15:23:50,230][98493] InferenceWorker_p0-w0: resuming experience collection (47300 times)
+[2023-07-06 15:23:50,231][98493] Updated weights for policy 0, policy_version 916304 (0.0007)
+[2023-07-06 15:23:52,701][98493] Updated weights for policy 0, policy_version 916356 (0.0006)
+[2023-07-06 15:23:53,181][98493] Updated weights for policy 0, policy_version 916415 (0.0007)
+[2023-07-06 15:23:53,918][98493] Updated weights for policy 0, policy_version 916466 (0.0007)
+[2023-07-06 15:23:54,355][98493] Updated weights for policy 0, policy_version 916517 (0.0007)
+[2023-07-06 15:23:54,765][98243] Fps is (10 sec: 111404.0, 60 sec: 111409.9, 300 sec: 111966.6). Total num frames: 1877082112. Throughput: 0: 28045.9. Samples: 469282304. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:54,766][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:23:54,900][98493] Updated weights for policy 0, policy_version 916560 (0.0007)
+[2023-07-06 15:23:57,382][98493] Updated weights for policy 0, policy_version 916611 (0.0007)
+[2023-07-06 15:23:57,815][98493] Updated weights for policy 0, policy_version 916669 (0.0006)
+[2023-07-06 15:23:58,659][98493] Updated weights for policy 0, policy_version 916720 (0.0007)
+[2023-07-06 15:23:59,167][98493] Updated weights for policy 0, policy_version 916775 (0.0007)
+[2023-07-06 15:23:59,642][98493] Updated weights for policy 0, policy_version 916816 (0.0007)
+[2023-07-06 15:23:59,764][98243] Fps is (10 sec: 108139.5, 60 sec: 111957.4, 300 sec: 111855.5). Total num frames: 1877639168. Throughput: 0: 27944.0. Samples: 469445632. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:23:59,764][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:24:01,914][98493] Updated weights for policy 0, policy_version 916866 (0.0008)
+[2023-07-06 15:24:02,444][98493] Updated weights for policy 0, policy_version 916928 (0.0008)
+[2023-07-06 15:24:03,555][98493] Updated weights for policy 0, policy_version 917001 (0.0007)
+[2023-07-06 15:24:03,984][98493] Updated weights for policy 0, policy_version 917052 (0.0006)
+[2023-07-06 15:24:04,627][98493] Updated weights for policy 0, policy_version 917104 (0.0007)
+[2023-07-06 15:24:04,764][98243] Fps is (10 sec: 117971.5, 60 sec: 113599.1, 300 sec: 111966.6). Total num frames: 1878261760. Throughput: 0: 27693.6. Samples: 469606400. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:04,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:24:06,783][98493] Updated weights for policy 0, policy_version 917161 (0.0007)
+[2023-07-06 15:24:07,836][98493] Updated weights for policy 0, policy_version 917204 (0.0007)
+[2023-07-06 15:24:08,384][98449] Signal inference workers to stop experience collection... (47350 times)
+[2023-07-06 15:24:08,399][98493] Updated weights for policy 0, policy_version 917266 (0.0007)
+[2023-07-06 15:24:08,407][98493] InferenceWorker_p0-w0: stopping experience collection (47350 times)
+[2023-07-06 15:24:08,467][98449] Signal inference workers to resume experience collection... (47350 times)
+[2023-07-06 15:24:08,467][98493] InferenceWorker_p0-w0: resuming experience collection (47350 times)
+[2023-07-06 15:24:09,106][98493] Updated weights for policy 0, policy_version 917335 (0.0008)
+[2023-07-06 15:24:09,764][98243] Fps is (10 sec: 114686.6, 60 sec: 113595.7, 300 sec: 111966.6). Total num frames: 1878786048. Throughput: 0: 27910.2. Samples: 469698560. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:09,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:24:11,200][98493] Updated weights for policy 0, policy_version 917380 (0.0007)
+[2023-07-06 15:24:11,617][98493] Updated weights for policy 0, policy_version 917436 (0.0006)
+[2023-07-06 15:24:12,862][98493] Updated weights for policy 0, policy_version 917488 (0.0007)
+[2023-07-06 15:24:13,286][98493] Updated weights for policy 0, policy_version 917536 (0.0007)
+[2023-07-06 15:24:13,874][98493] Updated weights for policy 0, policy_version 917600 (0.0007)
+[2023-07-06 15:24:14,764][98243] Fps is (10 sec: 104856.6, 60 sec: 113595.8, 300 sec: 111966.5). Total num frames: 1879310336. Throughput: 0: 27750.3. Samples: 469862400. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:14,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:24:15,849][98493] Updated weights for policy 0, policy_version 917648 (0.0006)
+[2023-07-06 15:24:17,322][98493] Updated weights for policy 0, policy_version 917703 (0.0007)
+[2023-07-06 15:24:17,858][98493] Updated weights for policy 0, policy_version 917765 (0.0007)
+[2023-07-06 15:24:18,347][98493] Updated weights for policy 0, policy_version 917824 (0.0007)
+[2023-07-06 15:24:18,833][98493] Updated weights for policy 0, policy_version 917882 (0.0007)
+[2023-07-06 15:24:19,764][98243] Fps is (10 sec: 104858.6, 60 sec: 112504.0, 300 sec: 111966.6). Total num frames: 1879834624. Throughput: 0: 27830.1. Samples: 470030336. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:19,764][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:24:20,687][98493] Updated weights for policy 0, policy_version 917936 (0.0008)
+[2023-07-06 15:24:22,264][98493] Updated weights for policy 0, policy_version 917991 (0.0007)
+[2023-07-06 15:24:22,727][98493] Updated weights for policy 0, policy_version 918040 (0.0006)
+[2023-07-06 15:24:23,274][98493] Updated weights for policy 0, policy_version 918099 (0.0007)
+[2023-07-06 15:24:24,764][98243] Fps is (10 sec: 104858.2, 60 sec: 111958.9, 300 sec: 111633.3). Total num frames: 1880358912. Throughput: 0: 27841.4. Samples: 470113792. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:24,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:24:24,769][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000918144_1880358912.pth...
+[2023-07-06 15:24:24,812][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000905088_1853620224.pth
+[2023-07-06 15:24:25,110][98493] Updated weights for policy 0, policy_version 918160 (0.0007)
+[2023-07-06 15:24:25,491][98493] Updated weights for policy 0, policy_version 918203 (0.0007)
+[2023-07-06 15:24:26,650][98449] Signal inference workers to stop experience collection... (47400 times)
+[2023-07-06 15:24:26,690][98493] InferenceWorker_p0-w0: stopping experience collection (47400 times)
+[2023-07-06 15:24:26,734][98449] Signal inference workers to resume experience collection... (47400 times)
+[2023-07-06 15:24:26,734][98493] InferenceWorker_p0-w0: resuming experience collection (47400 times)
+[2023-07-06 15:24:26,881][98493] Updated weights for policy 0, policy_version 918256 (0.0008)
+[2023-07-06 15:24:27,310][98493] Updated weights for policy 0, policy_version 918292 (0.0007)
+[2023-07-06 15:24:27,836][98493] Updated weights for policy 0, policy_version 918355 (0.0007)
+[2023-07-06 15:24:29,666][98493] Updated weights for policy 0, policy_version 918401 (0.0007)
+[2023-07-06 15:24:29,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111957.4, 300 sec: 111633.4). Total num frames: 1880915968. Throughput: 0: 27807.3. Samples: 470281216. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:29,765][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 15:24:30,182][98493] Updated weights for policy 0, policy_version 918464 (0.0007)
+[2023-07-06 15:24:31,754][98493] Updated weights for policy 0, policy_version 918522 (0.0007)
+[2023-07-06 15:24:32,290][98493] Updated weights for policy 0, policy_version 918579 (0.0007)
+[2023-07-06 15:24:32,852][98493] Updated weights for policy 0, policy_version 918648 (0.0007)
+[2023-07-06 15:24:34,756][98493] Updated weights for policy 0, policy_version 918692 (0.0007)
+[2023-07-06 15:24:34,764][98243] Fps is (10 sec: 111412.5, 60 sec: 111411.3, 300 sec: 111522.3). Total num frames: 1881473024. Throughput: 0: 28012.4. Samples: 470450688. Policy #0 lag: (min: 15.0, avg: 140.6, max: 296.0)
+[2023-07-06 15:24:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:24:36,386][98493] Updated weights for policy 0, policy_version 918752 (0.0006)
+[2023-07-06 15:24:36,944][98493] Updated weights for policy 0, policy_version 918816 (0.0008)
+[2023-07-06 15:24:37,591][98493] Updated weights for policy 0, policy_version 918882 (0.0008)
+[2023-07-06 15:24:39,453][98493] Updated weights for policy 0, policy_version 918935 (0.0007)
+[2023-07-06 15:24:39,764][98243] Fps is (10 sec: 111410.7, 60 sec: 110865.0, 300 sec: 111300.1). Total num frames: 1882030080. Throughput: 0: 27659.7. Samples: 470526976. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:24:39,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:24:41,081][98493] Updated weights for policy 0, policy_version 918983 (0.0006)
+[2023-07-06 15:24:41,544][98493] Updated weights for policy 0, policy_version 919040 (0.0007)
+[2023-07-06 15:24:42,081][98493] Updated weights for policy 0, policy_version 919097 (0.0007)
+[2023-07-06 15:24:42,309][98449] Signal inference workers to stop experience collection... (47450 times)
+[2023-07-06 15:24:42,338][98493] InferenceWorker_p0-w0: stopping experience collection (47450 times)
+[2023-07-06 15:24:42,411][98449] Signal inference workers to resume experience collection... (47450 times)
+[2023-07-06 15:24:42,412][98493] InferenceWorker_p0-w0: resuming experience collection (47450 times)
+[2023-07-06 15:24:42,627][98493] Updated weights for policy 0, policy_version 919163 (0.0007)
+[2023-07-06 15:24:44,000][98493] Updated weights for policy 0, policy_version 919200 (0.0007)
+[2023-07-06 15:24:44,764][98243] Fps is (10 sec: 111410.8, 60 sec: 110318.9, 300 sec: 111300.1). Total num frames: 1882587136. Throughput: 0: 27864.1. Samples: 470699520. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:24:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:24:45,742][98493] Updated weights for policy 0, policy_version 919238 (0.0010)
+[2023-07-06 15:24:46,269][98493] Updated weights for policy 0, policy_version 919296 (0.0007)
+[2023-07-06 15:24:46,782][98493] Updated weights for policy 0, policy_version 919347 (0.0007)
+[2023-07-06 15:24:47,222][98493] Updated weights for policy 0, policy_version 919399 (0.0007)
+[2023-07-06 15:24:48,396][98493] Updated weights for policy 0, policy_version 919428 (0.0007)
+[2023-07-06 15:24:48,821][98493] Updated weights for policy 0, policy_version 919483 (0.0007)
+[2023-07-06 15:24:49,764][98243] Fps is (10 sec: 108133.3, 60 sec: 109227.2, 300 sec: 111078.0). Total num frames: 1883111424. Throughput: 0: 28068.9. Samples: 470869504. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:24:49,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:24:50,629][98493] Updated weights for policy 0, policy_version 919525 (0.0007)
+[2023-07-06 15:24:51,110][98493] Updated weights for policy 0, policy_version 919584 (0.0007)
+[2023-07-06 15:24:51,693][98493] Updated weights for policy 0, policy_version 919648 (0.0006)
+[2023-07-06 15:24:53,217][98493] Updated weights for policy 0, policy_version 919696 (0.0007)
+[2023-07-06 15:24:53,615][98493] Updated weights for policy 0, policy_version 919743 (0.0008)
+[2023-07-06 15:24:54,765][98243] Fps is (10 sec: 104854.7, 60 sec: 109227.3, 300 sec: 111077.9). Total num frames: 1883635712. Throughput: 0: 27795.8. Samples: 470949376. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:24:54,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:24:55,237][98493] Updated weights for policy 0, policy_version 919802 (0.0007)
+[2023-07-06 15:24:55,709][98493] Updated weights for policy 0, policy_version 919848 (0.0008)
+[2023-07-06 15:24:56,148][98493] Updated weights for policy 0, policy_version 919904 (0.0007)
+[2023-07-06 15:24:57,993][98493] Updated weights for policy 0, policy_version 919958 (0.0007)
+[2023-07-06 15:24:58,330][98493] Updated weights for policy 0, policy_version 919996 (0.0007)
+[2023-07-06 15:24:59,764][98243] Fps is (10 sec: 108136.0, 60 sec: 109226.6, 300 sec: 111189.1). Total num frames: 1884192768. Throughput: 0: 27921.2. Samples: 471118848. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:24:59,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:24:59,950][98493] Updated weights for policy 0, policy_version 920040 (0.0007)
+[2023-07-06 15:25:00,054][98449] Signal inference workers to stop experience collection... (47500 times)
+[2023-07-06 15:25:00,087][98493] InferenceWorker_p0-w0: stopping experience collection (47500 times)
+[2023-07-06 15:25:00,136][98449] Signal inference workers to resume experience collection... (47500 times)
+[2023-07-06 15:25:00,136][98493] InferenceWorker_p0-w0: resuming experience collection (47500 times)
+[2023-07-06 15:25:00,546][98493] Updated weights for policy 0, policy_version 920112 (0.0008)
+[2023-07-06 15:25:01,127][98493] Updated weights for policy 0, policy_version 920176 (0.0008)
+[2023-07-06 15:25:02,903][98493] Updated weights for policy 0, policy_version 920227 (0.0007)
+[2023-07-06 15:25:04,764][98243] Fps is (10 sec: 108137.2, 60 sec: 107588.3, 300 sec: 111189.0). Total num frames: 1884717056. Throughput: 0: 27921.0. Samples: 471286784. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:25:04,888][98493] Updated weights for policy 0, policy_version 920288 (0.0007)
+[2023-07-06 15:25:05,517][98493] Updated weights for policy 0, policy_version 920355 (0.0007)
+[2023-07-06 15:25:06,085][98493] Updated weights for policy 0, policy_version 920421 (0.0007)
+[2023-07-06 15:25:07,148][98493] Updated weights for policy 0, policy_version 920454 (0.0006)
+[2023-07-06 15:25:07,585][98493] Updated weights for policy 0, policy_version 920508 (0.0007)
+[2023-07-06 15:25:09,716][98493] Updated weights for policy 0, policy_version 920560 (0.0007)
+[2023-07-06 15:25:09,764][98243] Fps is (10 sec: 111410.9, 60 sec: 108680.6, 300 sec: 111189.0). Total num frames: 1885306880. Throughput: 0: 27750.4. Samples: 471362560. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:09,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:25:10,242][98493] Updated weights for policy 0, policy_version 920613 (0.0007)
+[2023-07-06 15:25:10,750][98493] Updated weights for policy 0, policy_version 920672 (0.0007)
+[2023-07-06 15:25:11,965][98493] Updated weights for policy 0, policy_version 920736 (0.0007)
+[2023-07-06 15:25:14,135][98493] Updated weights for policy 0, policy_version 920774 (0.0006)
+[2023-07-06 15:25:14,690][98493] Updated weights for policy 0, policy_version 920839 (0.0007)
+[2023-07-06 15:25:14,764][98243] Fps is (10 sec: 117965.9, 60 sec: 109773.2, 300 sec: 111189.1). Total num frames: 1885896704. Throughput: 0: 27864.2. Samples: 471535104. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:14,764][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:25:15,292][98493] Updated weights for policy 0, policy_version 920912 (0.0007)
+[2023-07-06 15:25:16,588][98449] Signal inference workers to stop experience collection... (47550 times)
+[2023-07-06 15:25:16,608][98493] InferenceWorker_p0-w0: stopping experience collection (47550 times)
+[2023-07-06 15:25:16,670][98449] Signal inference workers to resume experience collection... (47550 times)
+[2023-07-06 15:25:16,671][98493] InferenceWorker_p0-w0: resuming experience collection (47550 times)
+[2023-07-06 15:25:16,672][98493] Updated weights for policy 0, policy_version 920976 (0.0007)
+[2023-07-06 15:25:18,747][98493] Updated weights for policy 0, policy_version 921028 (0.0007)
+[2023-07-06 15:25:19,189][98493] Updated weights for policy 0, policy_version 921076 (0.0007)
+[2023-07-06 15:25:19,712][98493] Updated weights for policy 0, policy_version 921136 (0.0007)
+[2023-07-06 15:25:19,764][98243] Fps is (10 sec: 117965.0, 60 sec: 110865.0, 300 sec: 111411.2). Total num frames: 1886486528. Throughput: 0: 27716.2. Samples: 471697920. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:19,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:25:20,140][98493] Updated weights for policy 0, policy_version 921184 (0.0008)
+[2023-07-06 15:25:21,448][98493] Updated weights for policy 0, policy_version 921232 (0.0006)
+[2023-07-06 15:25:23,318][98493] Updated weights for policy 0, policy_version 921282 (0.0006)
+[2023-07-06 15:25:23,782][98493] Updated weights for policy 0, policy_version 921335 (0.0009)
+[2023-07-06 15:25:24,425][98493] Updated weights for policy 0, policy_version 921408 (0.0008)
+[2023-07-06 15:25:24,764][98243] Fps is (10 sec: 121240.0, 60 sec: 112503.5, 300 sec: 111744.5). Total num frames: 1887109120. Throughput: 0: 27898.3. Samples: 471782400. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:24,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:25:24,932][98493] Updated weights for policy 0, policy_version 921465 (0.0008)
+[2023-07-06 15:25:26,311][98493] Updated weights for policy 0, policy_version 921495 (0.0007)
+[2023-07-06 15:25:27,881][98493] Updated weights for policy 0, policy_version 921552 (0.0006)
+[2023-07-06 15:25:28,284][98493] Updated weights for policy 0, policy_version 921598 (0.0007)
+[2023-07-06 15:25:28,880][98493] Updated weights for policy 0, policy_version 921648 (0.0008)
+[2023-07-06 15:25:29,708][98493] Updated weights for policy 0, policy_version 921712 (0.0007)
+[2023-07-06 15:25:29,764][98243] Fps is (10 sec: 117964.3, 60 sec: 112503.4, 300 sec: 111855.6). Total num frames: 1887666176. Throughput: 0: 27807.3. Samples: 471950848. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:29,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:25:30,995][98493] Updated weights for policy 0, policy_version 921764 (0.0007)
+[2023-07-06 15:25:32,774][98493] Updated weights for policy 0, policy_version 921828 (0.0009)
+[2023-07-06 15:25:33,197][98493] Updated weights for policy 0, policy_version 921872 (0.0007)
+[2023-07-06 15:25:33,614][98493] Updated weights for policy 0, policy_version 921920 (0.0006)
+[2023-07-06 15:25:34,123][98449] Signal inference workers to stop experience collection... (47600 times)
+[2023-07-06 15:25:34,172][98493] InferenceWorker_p0-w0: stopping experience collection (47600 times)
+[2023-07-06 15:25:34,218][98449] Signal inference workers to resume experience collection... (47600 times)
+[2023-07-06 15:25:34,218][98493] InferenceWorker_p0-w0: resuming experience collection (47600 times)
+[2023-07-06 15:25:34,764][98243] Fps is (10 sec: 111411.6, 60 sec: 112503.4, 300 sec: 111855.5). Total num frames: 1888223232. Throughput: 0: 27636.7. Samples: 472113152. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:25:35,394][98493] Updated weights for policy 0, policy_version 921986 (0.0007)
+[2023-07-06 15:25:35,852][98493] Updated weights for policy 0, policy_version 922042 (0.0008)
+[2023-07-06 15:25:37,807][98493] Updated weights for policy 0, policy_version 922097 (0.0008)
+[2023-07-06 15:25:38,324][98493] Updated weights for policy 0, policy_version 922160 (0.0007)
+[2023-07-06 15:25:39,237][98493] Updated weights for policy 0, policy_version 922224 (0.0007)
+[2023-07-06 15:25:39,764][98243] Fps is (10 sec: 108132.5, 60 sec: 111957.0, 300 sec: 111633.3). Total num frames: 1888747520. Throughput: 0: 27830.1. Samples: 472201728. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:39,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:25:40,243][98493] Updated weights for policy 0, policy_version 922275 (0.0006)
+[2023-07-06 15:25:42,002][98493] Updated weights for policy 0, policy_version 922305 (0.0007)
+[2023-07-06 15:25:42,454][98493] Updated weights for policy 0, policy_version 922355 (0.0008)
+[2023-07-06 15:25:42,940][98493] Updated weights for policy 0, policy_version 922416 (0.0007)
+[2023-07-06 15:25:44,015][98493] Updated weights for policy 0, policy_version 922471 (0.0007)
+[2023-07-06 15:25:44,764][98243] Fps is (10 sec: 108135.3, 60 sec: 111957.5, 300 sec: 111633.4). Total num frames: 1889304576. Throughput: 0: 27795.9. Samples: 472369664. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:44,764][98243] Avg episode reward: [(0, '9.940')]
+[2023-07-06 15:25:44,778][98493] Updated weights for policy 0, policy_version 922528 (0.0006)
+[2023-07-06 15:25:46,897][98493] Updated weights for policy 0, policy_version 922592 (0.0007)
+[2023-07-06 15:25:47,533][98493] Updated weights for policy 0, policy_version 922663 (0.0007)
+[2023-07-06 15:25:48,697][98493] Updated weights for policy 0, policy_version 922713 (0.0007)
+[2023-07-06 15:25:49,043][98493] Updated weights for policy 0, policy_version 922752 (0.0006)
+[2023-07-06 15:25:49,764][98243] Fps is (10 sec: 114690.9, 60 sec: 113049.9, 300 sec: 111633.4). Total num frames: 1889894400. Throughput: 0: 27693.6. Samples: 472532992. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:49,764][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:25:49,835][98493] Updated weights for policy 0, policy_version 922810 (0.0007)
+[2023-07-06 15:25:51,638][98493] Updated weights for policy 0, policy_version 922874 (0.0007)
+[2023-07-06 15:25:52,026][98449] Signal inference workers to stop experience collection... (47650 times)
+[2023-07-06 15:25:52,075][98493] InferenceWorker_p0-w0: stopping experience collection (47650 times)
+[2023-07-06 15:25:52,138][98449] Signal inference workers to resume experience collection... (47650 times)
+[2023-07-06 15:25:52,138][98493] InferenceWorker_p0-w0: resuming experience collection (47650 times)
+[2023-07-06 15:25:52,221][98493] Updated weights for policy 0, policy_version 922936 (0.0007)
+[2023-07-06 15:25:53,492][98493] Updated weights for policy 0, policy_version 922981 (0.0008)
+[2023-07-06 15:25:54,434][98493] Updated weights for policy 0, policy_version 923040 (0.0007)
+[2023-07-06 15:25:54,764][98243] Fps is (10 sec: 114685.8, 60 sec: 113596.0, 300 sec: 111522.2). Total num frames: 1890451456. Throughput: 0: 27830.0. Samples: 472614912. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:54,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:25:55,940][98493] Updated weights for policy 0, policy_version 923088 (0.0006)
+[2023-07-06 15:25:56,334][98493] Updated weights for policy 0, policy_version 923136 (0.0006)
+[2023-07-06 15:25:56,970][98493] Updated weights for policy 0, policy_version 923194 (0.0007)
+[2023-07-06 15:25:58,226][98493] Updated weights for policy 0, policy_version 923248 (0.0007)
+[2023-07-06 15:25:59,078][98493] Updated weights for policy 0, policy_version 923280 (0.0007)
+[2023-07-06 15:25:59,519][98493] Updated weights for policy 0, policy_version 923328 (0.0007)
+[2023-07-06 15:25:59,789][98243] Fps is (10 sec: 107865.0, 60 sec: 113002.6, 300 sec: 111513.0). Total num frames: 1890975744. Throughput: 0: 27700.9. Samples: 472782336. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:25:59,790][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:26:00,945][98493] Updated weights for policy 0, policy_version 923383 (0.0007)
+[2023-07-06 15:26:01,635][98493] Updated weights for policy 0, policy_version 923427 (0.0007)
+[2023-07-06 15:26:02,737][98493] Updated weights for policy 0, policy_version 923479 (0.0008)
+[2023-07-06 15:26:03,957][98493] Updated weights for policy 0, policy_version 923539 (0.0007)
+[2023-07-06 15:26:04,320][98493] Updated weights for policy 0, policy_version 923584 (0.0006)
+[2023-07-06 15:26:04,765][98243] Fps is (10 sec: 104854.9, 60 sec: 113048.9, 300 sec: 111411.1). Total num frames: 1891500032. Throughput: 0: 27829.8. Samples: 472950272. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:26:04,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:26:05,589][98493] Updated weights for policy 0, policy_version 923639 (0.0006)
+[2023-07-06 15:26:06,280][98493] Updated weights for policy 0, policy_version 923687 (0.0008)
+[2023-07-06 15:26:07,670][98493] Updated weights for policy 0, policy_version 923744 (0.0007)
+[2023-07-06 15:26:08,358][98493] Updated weights for policy 0, policy_version 923781 (0.0006)
+[2023-07-06 15:26:09,667][98493] Updated weights for policy 0, policy_version 923841 (0.0007)
+[2023-07-06 15:26:09,764][98243] Fps is (10 sec: 108404.0, 60 sec: 112503.4, 300 sec: 111189.0). Total num frames: 1892057088. Throughput: 0: 27830.0. Samples: 473034752. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:26:09,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:26:10,133][98493] Updated weights for policy 0, policy_version 923898 (0.0007)
+[2023-07-06 15:26:11,016][98493] Updated weights for policy 0, policy_version 923952 (0.0007)
+[2023-07-06 15:26:12,374][98449] Signal inference workers to stop experience collection... (47700 times)
+[2023-07-06 15:26:12,416][98493] InferenceWorker_p0-w0: stopping experience collection (47700 times)
+[2023-07-06 15:26:12,466][98449] Signal inference workers to resume experience collection... (47700 times)
+[2023-07-06 15:26:12,467][98493] InferenceWorker_p0-w0: resuming experience collection (47700 times)
+[2023-07-06 15:26:12,468][98493] Updated weights for policy 0, policy_version 924000 (0.0007)
+[2023-07-06 15:26:13,087][98493] Updated weights for policy 0, policy_version 924036 (0.0006)
+[2023-07-06 15:26:13,547][98493] Updated weights for policy 0, policy_version 924096 (0.0007)
+[2023-07-06 15:26:14,765][98243] Fps is (10 sec: 114689.3, 60 sec: 112502.8, 300 sec: 111411.1). Total num frames: 1892646912. Throughput: 0: 27795.8. Samples: 473201664. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:26:14,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:26:14,771][98493] Updated weights for policy 0, policy_version 924157 (0.0007)
+[2023-07-06 15:26:15,695][98493] Updated weights for policy 0, policy_version 924208 (0.0006)
+[2023-07-06 15:26:17,033][98493] Updated weights for policy 0, policy_version 924240 (0.0007)
+[2023-07-06 15:26:17,433][98493] Updated weights for policy 0, policy_version 924288 (0.0006)
+[2023-07-06 15:26:18,052][98493] Updated weights for policy 0, policy_version 924342 (0.0008)
+[2023-07-06 15:26:19,308][98493] Updated weights for policy 0, policy_version 924400 (0.0007)
+[2023-07-06 15:26:19,764][98243] Fps is (10 sec: 114686.6, 60 sec: 111957.0, 300 sec: 111522.2). Total num frames: 1893203968. Throughput: 0: 27977.9. Samples: 473372160. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:26:19,765][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:26:20,325][98493] Updated weights for policy 0, policy_version 924448 (0.0008)
+[2023-07-06 15:26:21,540][98493] Updated weights for policy 0, policy_version 924485 (0.0007)
+[2023-07-06 15:26:21,942][98493] Updated weights for policy 0, policy_version 924535 (0.0007)
+[2023-07-06 15:26:22,511][98493] Updated weights for policy 0, policy_version 924580 (0.0007)
+[2023-07-06 15:26:24,000][98493] Updated weights for policy 0, policy_version 924640 (0.0007)
+[2023-07-06 15:26:24,764][98243] Fps is (10 sec: 108135.2, 60 sec: 110318.7, 300 sec: 111189.0). Total num frames: 1893728256. Throughput: 0: 27852.8. Samples: 473455104. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:26:24,765][98243] Avg episode reward: [(0, '9.910')]
+[2023-07-06 15:26:24,966][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000924704_1893793792.pth...
+[2023-07-06 15:26:24,967][98493] Updated weights for policy 0, policy_version 924704 (0.0007)
+[2023-07-06 15:26:25,055][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000911616_1866989568.pth
+[2023-07-06 15:26:26,407][98493] Updated weights for policy 0, policy_version 924760 (0.0007)
+[2023-07-06 15:26:26,975][98493] Updated weights for policy 0, policy_version 924805 (0.0007)
+[2023-07-06 15:26:27,417][98493] Updated weights for policy 0, policy_version 924858 (0.0008)
+[2023-07-06 15:26:28,919][98493] Updated weights for policy 0, policy_version 924912 (0.0007)
+[2023-07-06 15:26:29,764][98243] Fps is (10 sec: 111413.2, 60 sec: 110865.1, 300 sec: 111300.1). Total num frames: 1894318080. Throughput: 0: 27864.1. Samples: 473623552. Policy #0 lag: (min: 6.0, avg: 112.8, max: 262.0)
+[2023-07-06 15:26:29,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:26:29,784][98493] Updated weights for policy 0, policy_version 924966 (0.0007)
+[2023-07-06 15:26:31,080][98493] Updated weights for policy 0, policy_version 924993 (0.0006)
+[2023-07-06 15:26:31,472][98449] Signal inference workers to stop experience collection... (47750 times)
+[2023-07-06 15:26:31,519][98493] InferenceWorker_p0-w0: stopping experience collection (47750 times)
+[2023-07-06 15:26:31,558][98449] Signal inference workers to resume experience collection... (47750 times)
+[2023-07-06 15:26:31,559][98493] InferenceWorker_p0-w0: resuming experience collection (47750 times)
+[2023-07-06 15:26:31,638][98493] Updated weights for policy 0, policy_version 925060 (0.0008)
+[2023-07-06 15:26:32,062][98493] Updated weights for policy 0, policy_version 925111 (0.0006)
+[2023-07-06 15:26:33,542][98493] Updated weights for policy 0, policy_version 925154 (0.0008)
+[2023-07-06 15:26:34,487][98493] Updated weights for policy 0, policy_version 925219 (0.0007)
+[2023-07-06 15:26:34,764][98243] Fps is (10 sec: 117967.1, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1894907904. Throughput: 0: 27852.8. Samples: 473786368. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:26:34,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:26:36,286][98493] Updated weights for policy 0, policy_version 925286 (0.0006)
+[2023-07-06 15:26:36,889][98493] Updated weights for policy 0, policy_version 925353 (0.0007)
+[2023-07-06 15:26:38,266][98493] Updated weights for policy 0, policy_version 925408 (0.0006)
+[2023-07-06 15:26:38,559][98493] Updated weights for policy 0, policy_version 925440 (0.0021)
+[2023-07-06 15:26:39,291][98493] Updated weights for policy 0, policy_version 925494 (0.0007)
+[2023-07-06 15:26:39,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.6, 300 sec: 111522.3). Total num frames: 1895432192. Throughput: 0: 27932.5. Samples: 473871872. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:26:39,764][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:26:40,986][98493] Updated weights for policy 0, policy_version 925540 (0.0007)
+[2023-07-06 15:26:41,576][98493] Updated weights for policy 0, policy_version 925605 (0.0008)
+[2023-07-06 15:26:42,861][98493] Updated weights for policy 0, policy_version 925657 (0.0007)
+[2023-07-06 15:26:43,748][98493] Updated weights for policy 0, policy_version 925697 (0.0008)
+[2023-07-06 15:26:44,764][98243] Fps is (10 sec: 104857.5, 60 sec: 110864.9, 300 sec: 111522.3). Total num frames: 1895956480. Throughput: 0: 27959.3. Samples: 474039808. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:26:44,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:26:45,396][98493] Updated weights for policy 0, policy_version 925763 (0.0007)
+[2023-07-06 15:26:45,917][98493] Updated weights for policy 0, policy_version 925824 (0.0008)
+[2023-07-06 15:26:46,463][98493] Updated weights for policy 0, policy_version 925882 (0.0007)
+[2023-07-06 15:26:47,775][98493] Updated weights for policy 0, policy_version 925923 (0.0006)
+[2023-07-06 15:26:48,669][98493] Updated weights for policy 0, policy_version 925993 (0.0006)
+[2023-07-06 15:26:49,764][98243] Fps is (10 sec: 104857.1, 60 sec: 109772.6, 300 sec: 111522.3). Total num frames: 1896480768. Throughput: 0: 27944.0. Samples: 474207744. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:26:49,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:26:49,915][98493] Updated weights for policy 0, policy_version 926017 (0.0007)
+[2023-07-06 15:26:50,040][98449] Signal inference workers to stop experience collection... (47800 times)
+[2023-07-06 15:26:50,068][98493] InferenceWorker_p0-w0: stopping experience collection (47800 times)
+[2023-07-06 15:26:50,121][98449] Signal inference workers to resume experience collection... (47800 times)
+[2023-07-06 15:26:50,121][98493] InferenceWorker_p0-w0: resuming experience collection (47800 times)
+[2023-07-06 15:26:50,272][98493] Updated weights for policy 0, policy_version 926064 (0.0007)
+[2023-07-06 15:26:50,794][98493] Updated weights for policy 0, policy_version 926119 (0.0006)
+[2023-07-06 15:26:52,283][98493] Updated weights for policy 0, policy_version 926160 (0.0006)
+[2023-07-06 15:26:52,671][98493] Updated weights for policy 0, policy_version 926207 (0.0007)
+[2023-07-06 15:26:53,379][98493] Updated weights for policy 0, policy_version 926268 (0.0008)
+[2023-07-06 15:26:54,764][98243] Fps is (10 sec: 114689.1, 60 sec: 110865.5, 300 sec: 111744.6). Total num frames: 1897103360. Throughput: 0: 27921.1. Samples: 474291200. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:26:54,764][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:26:54,830][98493] Updated weights for policy 0, policy_version 926329 (0.0008)
+[2023-07-06 15:26:55,651][98493] Updated weights for policy 0, policy_version 926373 (0.0007)
+[2023-07-06 15:26:56,919][98493] Updated weights for policy 0, policy_version 926422 (0.0006)
+[2023-07-06 15:26:57,994][98493] Updated weights for policy 0, policy_version 926486 (0.0007)
+[2023-07-06 15:26:58,344][98493] Updated weights for policy 0, policy_version 926528 (0.0006)
+[2023-07-06 15:26:59,505][98493] Updated weights for policy 0, policy_version 926585 (0.0007)
+[2023-07-06 15:26:59,764][98243] Fps is (10 sec: 117965.3, 60 sec: 111457.5, 300 sec: 111522.3). Total num frames: 1897660416. Throughput: 0: 27909.9. Samples: 474457600. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:26:59,765][98243] Avg episode reward: [(0, '9.890')]
+[2023-07-06 15:27:00,380][98493] Updated weights for policy 0, policy_version 926631 (0.0007)
+[2023-07-06 15:27:01,789][98493] Updated weights for policy 0, policy_version 926690 (0.0007)
+[2023-07-06 15:27:02,560][98493] Updated weights for policy 0, policy_version 926739 (0.0007)
+[2023-07-06 15:27:02,914][98493] Updated weights for policy 0, policy_version 926784 (0.0006)
+[2023-07-06 15:27:04,012][98493] Updated weights for policy 0, policy_version 926822 (0.0006)
+[2023-07-06 15:27:04,764][98243] Fps is (10 sec: 108133.5, 60 sec: 111411.9, 300 sec: 111522.3). Total num frames: 1898184704. Throughput: 0: 27909.8. Samples: 474628096. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:04,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:27:04,916][98493] Updated weights for policy 0, policy_version 926873 (0.0007)
+[2023-07-06 15:27:06,053][98493] Updated weights for policy 0, policy_version 926914 (0.0007)
+[2023-07-06 15:27:06,557][98493] Updated weights for policy 0, policy_version 926975 (0.0007)
+[2023-07-06 15:27:07,586][98493] Updated weights for policy 0, policy_version 927034 (0.0006)
+[2023-07-06 15:27:08,769][98449] Signal inference workers to stop experience collection... (47850 times)
+[2023-07-06 15:27:08,805][98493] InferenceWorker_p0-w0: stopping experience collection (47850 times)
+[2023-07-06 15:27:08,809][98493] Updated weights for policy 0, policy_version 927075 (0.0007)
+[2023-07-06 15:27:08,871][98449] Signal inference workers to resume experience collection... (47850 times)
+[2023-07-06 15:27:08,871][98493] InferenceWorker_p0-w0: resuming experience collection (47850 times)
+[2023-07-06 15:27:09,426][98493] Updated weights for policy 0, policy_version 927136 (0.0007)
+[2023-07-06 15:27:09,764][98243] Fps is (10 sec: 117964.6, 60 sec: 113049.6, 300 sec: 111966.6). Total num frames: 1898840064. Throughput: 0: 27818.8. Samples: 474706944. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:09,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:27:10,934][98493] Updated weights for policy 0, policy_version 927184 (0.0008)
+[2023-07-06 15:27:11,355][98493] Updated weights for policy 0, policy_version 927232 (0.0009)
+[2023-07-06 15:27:12,264][98493] Updated weights for policy 0, policy_version 927284 (0.0007)
+[2023-07-06 15:27:13,585][98493] Updated weights for policy 0, policy_version 927332 (0.0006)
+[2023-07-06 15:27:14,009][98493] Updated weights for policy 0, policy_version 927376 (0.0008)
+[2023-07-06 15:27:14,764][98243] Fps is (10 sec: 117963.8, 60 sec: 111957.7, 300 sec: 111966.5). Total num frames: 1899364352. Throughput: 0: 27864.1. Samples: 474877440. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:14,765][98243] Avg episode reward: [(0, '9.880')]
+[2023-07-06 15:27:15,496][98493] Updated weights for policy 0, policy_version 927425 (0.0007)
+[2023-07-06 15:27:16,594][98493] Updated weights for policy 0, policy_version 927489 (0.0007)
+[2023-07-06 15:27:17,112][98493] Updated weights for policy 0, policy_version 927550 (0.0008)
+[2023-07-06 15:27:18,437][98493] Updated weights for policy 0, policy_version 927600 (0.0007)
+[2023-07-06 15:27:18,920][98493] Updated weights for policy 0, policy_version 927650 (0.0008)
+[2023-07-06 15:27:19,764][98243] Fps is (10 sec: 104858.4, 60 sec: 111411.6, 300 sec: 111633.4). Total num frames: 1899888640. Throughput: 0: 27898.3. Samples: 475041792. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:19,764][98243] Avg episode reward: [(0, '9.900')]
+[2023-07-06 15:27:20,635][98493] Updated weights for policy 0, policy_version 927712 (0.0007)
+[2023-07-06 15:27:21,391][98493] Updated weights for policy 0, policy_version 927761 (0.0007)
+[2023-07-06 15:27:22,786][98493] Updated weights for policy 0, policy_version 927809 (0.0007)
+[2023-07-06 15:27:23,229][98493] Updated weights for policy 0, policy_version 927864 (0.0007)
+[2023-07-06 15:27:23,845][98493] Updated weights for policy 0, policy_version 927924 (0.0007)
+[2023-07-06 15:27:24,764][98243] Fps is (10 sec: 104858.1, 60 sec: 111411.5, 300 sec: 111522.4). Total num frames: 1900412928. Throughput: 0: 27886.9. Samples: 475126784. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:27:25,502][98493] Updated weights for policy 0, policy_version 927960 (0.0007)
+[2023-07-06 15:27:26,074][98493] Updated weights for policy 0, policy_version 928026 (0.0007)
+[2023-07-06 15:27:26,363][98493] Updated weights for policy 0, policy_version 928064 (0.0007)
+[2023-07-06 15:27:27,599][98449] Signal inference workers to stop experience collection... (47900 times)
+[2023-07-06 15:27:27,641][98493] InferenceWorker_p0-w0: stopping experience collection (47900 times)
+[2023-07-06 15:27:27,676][98449] Signal inference workers to resume experience collection... (47900 times)
+[2023-07-06 15:27:27,676][98493] InferenceWorker_p0-w0: resuming experience collection (47900 times)
+[2023-07-06 15:27:27,932][98493] Updated weights for policy 0, policy_version 928125 (0.0007)
+[2023-07-06 15:27:28,591][98493] Updated weights for policy 0, policy_version 928178 (0.0007)
+[2023-07-06 15:27:29,764][98243] Fps is (10 sec: 104855.9, 60 sec: 110318.7, 300 sec: 111300.1). Total num frames: 1900937216. Throughput: 0: 27773.1. Samples: 475289600. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:27:30,246][98493] Updated weights for policy 0, policy_version 928224 (0.0011)
+[2023-07-06 15:27:30,803][98493] Updated weights for policy 0, policy_version 928288 (0.0007)
+[2023-07-06 15:27:32,508][98493] Updated weights for policy 0, policy_version 928352 (0.0007)
+[2023-07-06 15:27:33,045][98493] Updated weights for policy 0, policy_version 928403 (0.0008)
+[2023-07-06 15:27:34,764][98243] Fps is (10 sec: 104856.5, 60 sec: 109226.4, 300 sec: 111077.9). Total num frames: 1901461504. Throughput: 0: 27875.5. Samples: 475462144. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:34,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:27:34,831][98493] Updated weights for policy 0, policy_version 928449 (0.0006)
+[2023-07-06 15:27:35,286][98493] Updated weights for policy 0, policy_version 928502 (0.0007)
+[2023-07-06 15:27:35,775][98493] Updated weights for policy 0, policy_version 928561 (0.0007)
+[2023-07-06 15:27:37,113][98493] Updated weights for policy 0, policy_version 928610 (0.0007)
+[2023-07-06 15:27:38,106][98493] Updated weights for policy 0, policy_version 928676 (0.0007)
+[2023-07-06 15:27:39,632][98493] Updated weights for policy 0, policy_version 928727 (0.0006)
+[2023-07-06 15:27:39,764][98243] Fps is (10 sec: 111413.0, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 1902051328. Throughput: 0: 27818.6. Samples: 475543040. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:39,764][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:27:40,168][98493] Updated weights for policy 0, policy_version 928790 (0.0007)
+[2023-07-06 15:27:40,516][98493] Updated weights for policy 0, policy_version 928832 (0.0007)
+[2023-07-06 15:27:41,917][98493] Updated weights for policy 0, policy_version 928891 (0.0008)
+[2023-07-06 15:27:43,032][98493] Updated weights for policy 0, policy_version 928935 (0.0010)
+[2023-07-06 15:27:44,110][98493] Updated weights for policy 0, policy_version 928978 (0.0007)
+[2023-07-06 15:27:44,664][98449] Signal inference workers to stop experience collection... (47950 times)
+[2023-07-06 15:27:44,682][98493] Updated weights for policy 0, policy_version 929043 (0.0006)
+[2023-07-06 15:27:44,701][98493] InferenceWorker_p0-w0: stopping experience collection (47950 times)
+[2023-07-06 15:27:44,752][98449] Signal inference workers to resume experience collection... (47950 times)
+[2023-07-06 15:27:44,752][98493] InferenceWorker_p0-w0: resuming experience collection (47950 times)
+[2023-07-06 15:27:44,764][98243] Fps is (10 sec: 124519.3, 60 sec: 112503.4, 300 sec: 111633.3). Total num frames: 1902706688. Throughput: 0: 27886.9. Samples: 475712512. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:44,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:27:46,148][98493] Updated weights for policy 0, policy_version 929091 (0.0007)
+[2023-07-06 15:27:46,594][98493] Updated weights for policy 0, policy_version 929149 (0.0007)
+[2023-07-06 15:27:47,624][98493] Updated weights for policy 0, policy_version 929200 (0.0006)
+[2023-07-06 15:27:48,768][98493] Updated weights for policy 0, policy_version 929219 (0.0007)
+[2023-07-06 15:27:49,270][98493] Updated weights for policy 0, policy_version 929272 (0.0007)
+[2023-07-06 15:27:49,764][98243] Fps is (10 sec: 121242.3, 60 sec: 113049.9, 300 sec: 111411.2). Total num frames: 1903263744. Throughput: 0: 27773.2. Samples: 475877888. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:49,764][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:27:49,842][98493] Updated weights for policy 0, policy_version 929341 (0.0007)
+[2023-07-06 15:27:51,174][98493] Updated weights for policy 0, policy_version 929392 (0.0009)
+[2023-07-06 15:27:52,122][98493] Updated weights for policy 0, policy_version 929442 (0.0008)
+[2023-07-06 15:27:53,459][98493] Updated weights for policy 0, policy_version 929489 (0.0008)
+[2023-07-06 15:27:53,796][98493] Updated weights for policy 0, policy_version 929536 (0.0006)
+[2023-07-06 15:27:54,462][98493] Updated weights for policy 0, policy_version 929600 (0.0007)
+[2023-07-06 15:27:54,764][98243] Fps is (10 sec: 111410.3, 60 sec: 111956.9, 300 sec: 111522.2). Total num frames: 1903820800. Throughput: 0: 27909.6. Samples: 475962880. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:54,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:27:55,848][98493] Updated weights for policy 0, policy_version 929664 (0.0007)
+[2023-07-06 15:27:56,958][98493] Updated weights for policy 0, policy_version 929728 (0.0007)
+[2023-07-06 15:27:58,667][98493] Updated weights for policy 0, policy_version 929783 (0.0007)
+[2023-07-06 15:27:59,161][98493] Updated weights for policy 0, policy_version 929827 (0.0007)
+[2023-07-06 15:27:59,764][98243] Fps is (10 sec: 108133.2, 60 sec: 111411.2, 300 sec: 111523.0). Total num frames: 1904345088. Throughput: 0: 27807.3. Samples: 476128768. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:27:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:28:00,319][98493] Updated weights for policy 0, policy_version 929888 (0.0007)
+[2023-07-06 15:28:01,123][98493] Updated weights for policy 0, policy_version 929936 (0.0007)
+[2023-07-06 15:28:02,901][98493] Updated weights for policy 0, policy_version 929987 (0.0006)
+[2023-07-06 15:28:03,544][98493] Updated weights for policy 0, policy_version 930051 (0.0007)
+[2023-07-06 15:28:03,827][98449] Signal inference workers to stop experience collection... (48000 times)
+[2023-07-06 15:28:03,853][98493] InferenceWorker_p0-w0: stopping experience collection (48000 times)
+[2023-07-06 15:28:03,923][98449] Signal inference workers to resume experience collection... (48000 times)
+[2023-07-06 15:28:03,923][98493] InferenceWorker_p0-w0: resuming experience collection (48000 times)
+[2023-07-06 15:28:04,025][98493] Updated weights for policy 0, policy_version 930110 (0.0007)
+[2023-07-06 15:28:04,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111410.8, 300 sec: 111522.2). Total num frames: 1904869376. Throughput: 0: 27898.1. Samples: 476297216. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:28:04,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:28:05,365][98493] Updated weights for policy 0, policy_version 930176 (0.0008)
+[2023-07-06 15:28:06,222][98493] Updated weights for policy 0, policy_version 930236 (0.0006)
+[2023-07-06 15:28:07,908][98493] Updated weights for policy 0, policy_version 930279 (0.0007)
+[2023-07-06 15:28:08,509][98493] Updated weights for policy 0, policy_version 930336 (0.0007)
+[2023-07-06 15:28:09,556][98493] Updated weights for policy 0, policy_version 930389 (0.0008)
+[2023-07-06 15:28:09,764][98243] Fps is (10 sec: 111411.6, 60 sec: 110319.0, 300 sec: 111744.5). Total num frames: 1905459200. Throughput: 0: 27921.1. Samples: 476383232. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:28:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:28:09,925][98493] Updated weights for policy 0, policy_version 930432 (0.0006)
+[2023-07-06 15:28:10,749][98493] Updated weights for policy 0, policy_version 930480 (0.0006)
+[2023-07-06 15:28:12,345][98493] Updated weights for policy 0, policy_version 930516 (0.0006)
+[2023-07-06 15:28:13,257][98493] Updated weights for policy 0, policy_version 930584 (0.0007)
+[2023-07-06 15:28:14,288][98493] Updated weights for policy 0, policy_version 930640 (0.0007)
+[2023-07-06 15:28:14,766][98243] Fps is (10 sec: 117949.4, 60 sec: 111408.5, 300 sec: 111744.0). Total num frames: 1906049024. Throughput: 0: 27942.9. Samples: 476547072. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:28:14,766][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:28:15,094][98493] Updated weights for policy 0, policy_version 930692 (0.0007)
+[2023-07-06 15:28:15,580][98493] Updated weights for policy 0, policy_version 930752 (0.0006)
+[2023-07-06 15:28:17,912][98493] Updated weights for policy 0, policy_version 930817 (0.0007)
+[2023-07-06 15:28:19,100][98493] Updated weights for policy 0, policy_version 930883 (0.0007)
+[2023-07-06 15:28:19,618][98493] Updated weights for policy 0, policy_version 930944 (0.0007)
+[2023-07-06 15:28:19,764][98243] Fps is (10 sec: 114688.6, 60 sec: 111957.4, 300 sec: 111744.8). Total num frames: 1906606080. Throughput: 0: 27784.7. Samples: 476712448. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:28:19,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:28:20,153][98493] Updated weights for policy 0, policy_version 931008 (0.0008)
+[2023-07-06 15:28:22,120][98493] Updated weights for policy 0, policy_version 931065 (0.0006)
+[2023-07-06 15:28:22,845][98493] Updated weights for policy 0, policy_version 931110 (0.0006)
+[2023-07-06 15:28:23,754][98449] Signal inference workers to stop experience collection... (48050 times)
+[2023-07-06 15:28:23,784][98493] InferenceWorker_p0-w0: stopping experience collection (48050 times)
+[2023-07-06 15:28:23,852][98449] Signal inference workers to resume experience collection... (48050 times)
+[2023-07-06 15:28:23,852][98493] InferenceWorker_p0-w0: resuming experience collection (48050 times)
+[2023-07-06 15:28:24,070][98493] Updated weights for policy 0, policy_version 931174 (0.0008)
+[2023-07-06 15:28:24,500][98493] Updated weights for policy 0, policy_version 931216 (0.0007)
+[2023-07-06 15:28:24,764][98243] Fps is (10 sec: 111428.0, 60 sec: 112503.5, 300 sec: 111744.4). Total num frames: 1907163136. Throughput: 0: 27886.9. Samples: 476797952. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:28:24,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:28:24,883][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000931264_1907228672.pth...
+[2023-07-06 15:28:24,911][98493] Updated weights for policy 0, policy_version 931264 (0.0006)
+[2023-07-06 15:28:24,930][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000918144_1880358912.pth
+[2023-07-06 15:28:26,694][98493] Updated weights for policy 0, policy_version 931322 (0.0007)
+[2023-07-06 15:28:27,640][98493] Updated weights for policy 0, policy_version 931376 (0.0007)
+[2023-07-06 15:28:28,672][98493] Updated weights for policy 0, policy_version 931424 (0.0008)
+[2023-07-06 15:28:29,452][98493] Updated weights for policy 0, policy_version 931488 (0.0007)
+[2023-07-06 15:28:29,764][98243] Fps is (10 sec: 114687.5, 60 sec: 113596.0, 300 sec: 111744.4). Total num frames: 1907752960. Throughput: 0: 27875.6. Samples: 476966912. Policy #0 lag: (min: 28.0, avg: 147.8, max: 284.0)
+[2023-07-06 15:28:29,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:28:30,875][98493] Updated weights for policy 0, policy_version 931543 (0.0007)
+[2023-07-06 15:28:32,051][98493] Updated weights for policy 0, policy_version 931588 (0.0007)
+[2023-07-06 15:28:33,097][98493] Updated weights for policy 0, policy_version 931649 (0.0007)
+[2023-07-06 15:28:33,926][98493] Updated weights for policy 0, policy_version 931713 (0.0008)
+[2023-07-06 15:28:34,415][98493] Updated weights for policy 0, policy_version 931776 (0.0008)
+[2023-07-06 15:28:34,764][98243] Fps is (10 sec: 111411.3, 60 sec: 113596.0, 300 sec: 111522.3). Total num frames: 1908277248. Throughput: 0: 27841.4. Samples: 477130752. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:28:34,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 15:28:35,842][98493] Updated weights for policy 0, policy_version 931830 (0.0006)
+[2023-07-06 15:28:37,135][98493] Updated weights for policy 0, policy_version 931876 (0.0007)
+[2023-07-06 15:28:37,905][98493] Updated weights for policy 0, policy_version 931928 (0.0008)
+[2023-07-06 15:28:38,731][98493] Updated weights for policy 0, policy_version 931970 (0.0006)
+[2023-07-06 15:28:39,224][98493] Updated weights for policy 0, policy_version 932032 (0.0007)
+[2023-07-06 15:28:39,764][98243] Fps is (10 sec: 104855.1, 60 sec: 112503.0, 300 sec: 111300.0). Total num frames: 1908801536. Throughput: 0: 27886.9. Samples: 477217792. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:28:39,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:28:40,542][98493] Updated weights for policy 0, policy_version 932087 (0.0007)
+[2023-07-06 15:28:41,862][98493] Updated weights for policy 0, policy_version 932128 (0.0007)
+[2023-07-06 15:28:42,345][98493] Updated weights for policy 0, policy_version 932176 (0.0008)
+[2023-07-06 15:28:42,544][98449] Signal inference workers to stop experience collection... (48100 times)
+[2023-07-06 15:28:42,577][98493] InferenceWorker_p0-w0: stopping experience collection (48100 times)
+[2023-07-06 15:28:42,612][98449] Signal inference workers to resume experience collection... (48100 times)
+[2023-07-06 15:28:42,612][98493] InferenceWorker_p0-w0: resuming experience collection (48100 times)
+[2023-07-06 15:28:43,510][98493] Updated weights for policy 0, policy_version 932240 (0.0006)
+[2023-07-06 15:28:44,575][98493] Updated weights for policy 0, policy_version 932291 (0.0007)
+[2023-07-06 15:28:44,764][98243] Fps is (10 sec: 108135.1, 60 sec: 110865.3, 300 sec: 111189.2). Total num frames: 1909358592. Throughput: 0: 27898.4. Samples: 477384192. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:28:44,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:28:45,000][98493] Updated weights for policy 0, policy_version 932347 (0.0007)
+[2023-07-06 15:28:46,905][98493] Updated weights for policy 0, policy_version 932391 (0.0007)
+[2023-07-06 15:28:47,393][98493] Updated weights for policy 0, policy_version 932448 (0.0007)
+[2023-07-06 15:28:48,422][98493] Updated weights for policy 0, policy_version 932503 (0.0007)
+[2023-07-06 15:28:49,334][98493] Updated weights for policy 0, policy_version 932547 (0.0008)
+[2023-07-06 15:28:49,764][98243] Fps is (10 sec: 114690.1, 60 sec: 111411.0, 300 sec: 111411.4). Total num frames: 1909948416. Throughput: 0: 27875.7. Samples: 477551616. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:28:49,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:28:49,778][98493] Updated weights for policy 0, policy_version 932604 (0.0006)
+[2023-07-06 15:28:51,502][98493] Updated weights for policy 0, policy_version 932656 (0.0006)
+[2023-07-06 15:28:52,094][98493] Updated weights for policy 0, policy_version 932720 (0.0008)
+[2023-07-06 15:28:53,185][98493] Updated weights for policy 0, policy_version 932757 (0.0006)
+[2023-07-06 15:28:53,511][98493] Updated weights for policy 0, policy_version 932798 (0.0006)
+[2023-07-06 15:28:54,435][98493] Updated weights for policy 0, policy_version 932856 (0.0007)
+[2023-07-06 15:28:54,764][98243] Fps is (10 sec: 114686.8, 60 sec: 111411.4, 300 sec: 111411.2). Total num frames: 1910505472. Throughput: 0: 27830.0. Samples: 477635584. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:28:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:28:56,048][98493] Updated weights for policy 0, policy_version 932912 (0.0006)
+[2023-07-06 15:28:56,438][98493] Updated weights for policy 0, policy_version 932951 (0.0007)
+[2023-07-06 15:28:57,821][98493] Updated weights for policy 0, policy_version 933024 (0.0007)
+[2023-07-06 15:28:58,848][98493] Updated weights for policy 0, policy_version 933063 (0.0006)
+[2023-07-06 15:28:59,764][98243] Fps is (10 sec: 108133.0, 60 sec: 111410.9, 300 sec: 111077.9). Total num frames: 1911029760. Throughput: 0: 28012.9. Samples: 477807616. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:28:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:29:00,162][98493] Updated weights for policy 0, policy_version 933121 (0.0007)
+[2023-07-06 15:29:00,600][98493] Updated weights for policy 0, policy_version 933177 (0.0007)
+[2023-07-06 15:29:00,972][98449] Signal inference workers to stop experience collection... (48150 times)
+[2023-07-06 15:29:00,994][98493] InferenceWorker_p0-w0: stopping experience collection (48150 times)
+[2023-07-06 15:29:01,059][98449] Signal inference workers to resume experience collection... (48150 times)
+[2023-07-06 15:29:01,059][98493] InferenceWorker_p0-w0: resuming experience collection (48150 times)
+[2023-07-06 15:29:01,153][98493] Updated weights for policy 0, policy_version 933222 (0.0007)
+[2023-07-06 15:29:02,477][98493] Updated weights for policy 0, policy_version 933280 (0.0007)
+[2023-07-06 15:29:03,695][98493] Updated weights for policy 0, policy_version 933328 (0.0009)
+[2023-07-06 15:29:04,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.4, 300 sec: 111078.0). Total num frames: 1911554048. Throughput: 0: 28023.4. Samples: 477973504. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:04,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:29:04,954][98493] Updated weights for policy 0, policy_version 933392 (0.0007)
+[2023-07-06 15:29:05,758][98493] Updated weights for policy 0, policy_version 933444 (0.0007)
+[2023-07-06 15:29:07,202][98493] Updated weights for policy 0, policy_version 933506 (0.0008)
+[2023-07-06 15:29:07,704][98493] Updated weights for policy 0, policy_version 933568 (0.0007)
+[2023-07-06 15:29:08,799][98493] Updated weights for policy 0, policy_version 933621 (0.0008)
+[2023-07-06 15:29:09,734][98493] Updated weights for policy 0, policy_version 933664 (0.0007)
+[2023-07-06 15:29:09,764][98243] Fps is (10 sec: 111413.5, 60 sec: 111411.3, 300 sec: 111300.2). Total num frames: 1912143872. Throughput: 0: 27909.7. Samples: 478053888. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:09,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:29:10,554][98493] Updated weights for policy 0, policy_version 933715 (0.0007)
+[2023-07-06 15:29:10,898][98493] Updated weights for policy 0, policy_version 933758 (0.0007)
+[2023-07-06 15:29:12,203][98493] Updated weights for policy 0, policy_version 933819 (0.0007)
+[2023-07-06 15:29:13,474][98493] Updated weights for policy 0, policy_version 933886 (0.0007)
+[2023-07-06 15:29:14,642][98493] Updated weights for policy 0, policy_version 933936 (0.0007)
+[2023-07-06 15:29:14,764][98243] Fps is (10 sec: 117966.2, 60 sec: 111414.1, 300 sec: 111522.3). Total num frames: 1912733696. Throughput: 0: 27886.9. Samples: 478221824. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:14,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:29:15,206][98493] Updated weights for policy 0, policy_version 933988 (0.0015)
+[2023-07-06 15:29:16,567][98493] Updated weights for policy 0, policy_version 934032 (0.0007)
+[2023-07-06 15:29:18,119][98493] Updated weights for policy 0, policy_version 934081 (0.0007)
+[2023-07-06 15:29:18,511][98493] Updated weights for policy 0, policy_version 934129 (0.0008)
+[2023-07-06 15:29:19,271][98493] Updated weights for policy 0, policy_version 934164 (0.0007)
+[2023-07-06 15:29:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110865.0, 300 sec: 111522.3). Total num frames: 1913257984. Throughput: 0: 27921.1. Samples: 478387200. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:19,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:29:19,778][98493] Updated weights for policy 0, policy_version 934224 (0.0008)
+[2023-07-06 15:29:19,995][98449] Signal inference workers to stop experience collection... (48200 times)
+[2023-07-06 15:29:20,023][98493] InferenceWorker_p0-w0: stopping experience collection (48200 times)
+[2023-07-06 15:29:20,085][98449] Signal inference workers to resume experience collection... (48200 times)
+[2023-07-06 15:29:20,085][98493] InferenceWorker_p0-w0: resuming experience collection (48200 times)
+[2023-07-06 15:29:20,251][98493] Updated weights for policy 0, policy_version 934272 (0.0007)
+[2023-07-06 15:29:21,422][98493] Updated weights for policy 0, policy_version 934307 (0.0007)
+[2023-07-06 15:29:23,004][98493] Updated weights for policy 0, policy_version 934368 (0.0007)
+[2023-07-06 15:29:24,017][98493] Updated weights for policy 0, policy_version 934416 (0.0007)
+[2023-07-06 15:29:24,650][98493] Updated weights for policy 0, policy_version 934483 (0.0008)
+[2023-07-06 15:29:24,764][98243] Fps is (10 sec: 111410.9, 60 sec: 111411.2, 300 sec: 111633.3). Total num frames: 1913847808. Throughput: 0: 27944.0. Samples: 478475264. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:24,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:29:24,969][98493] Updated weights for policy 0, policy_version 934528 (0.0008)
+[2023-07-06 15:29:26,060][98493] Updated weights for policy 0, policy_version 934585 (0.0007)
+[2023-07-06 15:29:27,760][98493] Updated weights for policy 0, policy_version 934624 (0.0006)
+[2023-07-06 15:29:28,631][98493] Updated weights for policy 0, policy_version 934660 (0.0006)
+[2023-07-06 15:29:29,119][98493] Updated weights for policy 0, policy_version 934710 (0.0008)
+[2023-07-06 15:29:29,661][98493] Updated weights for policy 0, policy_version 934779 (0.0007)
+[2023-07-06 15:29:29,764][98243] Fps is (10 sec: 117964.7, 60 sec: 111411.2, 300 sec: 111744.4). Total num frames: 1914437632. Throughput: 0: 27977.9. Samples: 478643200. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:29,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:29:30,471][98493] Updated weights for policy 0, policy_version 934832 (0.0007)
+[2023-07-06 15:29:32,637][98493] Updated weights for policy 0, policy_version 934884 (0.0007)
+[2023-07-06 15:29:33,710][98493] Updated weights for policy 0, policy_version 934952 (0.0007)
+[2023-07-06 15:29:34,278][98493] Updated weights for policy 0, policy_version 935016 (0.0007)
+[2023-07-06 15:29:34,764][98243] Fps is (10 sec: 111410.8, 60 sec: 111411.2, 300 sec: 111633.4). Total num frames: 1914961920. Throughput: 0: 27818.7. Samples: 478803456. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:34,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:29:34,985][98493] Updated weights for policy 0, policy_version 935072 (0.0009)
+[2023-07-06 15:29:37,413][98493] Updated weights for policy 0, policy_version 935136 (0.0008)
+[2023-07-06 15:29:38,505][98493] Updated weights for policy 0, policy_version 935191 (0.0007)
+[2023-07-06 15:29:38,933][98449] Signal inference workers to stop experience collection... (48250 times)
+[2023-07-06 15:29:38,953][98493] Updated weights for policy 0, policy_version 935233 (0.0007)
+[2023-07-06 15:29:38,967][98493] InferenceWorker_p0-w0: stopping experience collection (48250 times)
+[2023-07-06 15:29:39,039][98449] Signal inference workers to resume experience collection... (48250 times)
+[2023-07-06 15:29:39,039][98493] InferenceWorker_p0-w0: resuming experience collection (48250 times)
+[2023-07-06 15:29:39,439][98493] Updated weights for policy 0, policy_version 935296 (0.0008)
+[2023-07-06 15:29:39,764][98243] Fps is (10 sec: 111409.6, 60 sec: 112503.6, 300 sec: 111744.4). Total num frames: 1915551744. Throughput: 0: 27818.6. Samples: 478887424. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:39,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:29:39,978][98493] Updated weights for policy 0, policy_version 935352 (0.0008)
+[2023-07-06 15:29:42,628][98493] Updated weights for policy 0, policy_version 935417 (0.0007)
+[2023-07-06 15:29:43,452][98493] Updated weights for policy 0, policy_version 935472 (0.0007)
+[2023-07-06 15:29:43,948][98493] Updated weights for policy 0, policy_version 935525 (0.0007)
+[2023-07-06 15:29:44,443][98493] Updated weights for policy 0, policy_version 935584 (0.0007)
+[2023-07-06 15:29:44,766][98243] Fps is (10 sec: 117945.6, 60 sec: 113046.4, 300 sec: 111966.0). Total num frames: 1916141568. Throughput: 0: 27681.2. Samples: 479053312. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:44,766][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:29:47,368][98493] Updated weights for policy 0, policy_version 935638 (0.0008)
+[2023-07-06 15:29:47,897][98493] Updated weights for policy 0, policy_version 935682 (0.0007)
+[2023-07-06 15:29:48,534][98493] Updated weights for policy 0, policy_version 935760 (0.0007)
+[2023-07-06 15:29:49,055][98493] Updated weights for policy 0, policy_version 935811 (0.0007)
+[2023-07-06 15:29:49,548][98493] Updated weights for policy 0, policy_version 935872 (0.0007)
+[2023-07-06 15:29:49,764][98243] Fps is (10 sec: 111412.2, 60 sec: 111957.3, 300 sec: 111966.7). Total num frames: 1916665856. Throughput: 0: 27466.0. Samples: 479209472. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:49,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:29:52,499][98493] Updated weights for policy 0, policy_version 935931 (0.0007)
+[2023-07-06 15:29:53,117][98493] Updated weights for policy 0, policy_version 935987 (0.0008)
+[2023-07-06 15:29:53,693][98493] Updated weights for policy 0, policy_version 936056 (0.0007)
+[2023-07-06 15:29:54,156][98493] Updated weights for policy 0, policy_version 936112 (0.0008)
+[2023-07-06 15:29:54,764][98243] Fps is (10 sec: 104874.7, 60 sec: 111411.2, 300 sec: 111855.5). Total num frames: 1917190144. Throughput: 0: 27704.8. Samples: 479300608. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:54,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:29:56,855][98449] Signal inference workers to stop experience collection... (48300 times)
+[2023-07-06 15:29:56,891][98493] InferenceWorker_p0-w0: stopping experience collection (48300 times)
+[2023-07-06 15:29:56,930][98449] Signal inference workers to resume experience collection... (48300 times)
+[2023-07-06 15:29:56,930][98493] InferenceWorker_p0-w0: resuming experience collection (48300 times)
+[2023-07-06 15:29:57,017][98493] Updated weights for policy 0, policy_version 936163 (0.0007)
+[2023-07-06 15:29:57,568][98493] Updated weights for policy 0, policy_version 936208 (0.0008)
+[2023-07-06 15:29:58,083][98493] Updated weights for policy 0, policy_version 936260 (0.0008)
+[2023-07-06 15:29:58,644][98493] Updated weights for policy 0, policy_version 936324 (0.0008)
+[2023-07-06 15:29:59,116][98493] Updated weights for policy 0, policy_version 936384 (0.0006)
+[2023-07-06 15:29:59,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.4, 300 sec: 111855.5). Total num frames: 1917714432. Throughput: 0: 27568.3. Samples: 479462400. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:29:59,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:30:01,788][98493] Updated weights for policy 0, policy_version 936441 (0.0007)
+[2023-07-06 15:30:02,758][98493] Updated weights for policy 0, policy_version 936498 (0.0008)
+[2023-07-06 15:30:03,268][98493] Updated weights for policy 0, policy_version 936560 (0.0007)
+[2023-07-06 15:30:03,755][98493] Updated weights for policy 0, policy_version 936611 (0.0007)
+[2023-07-06 15:30:04,764][98243] Fps is (10 sec: 104857.7, 60 sec: 111411.3, 300 sec: 111633.4). Total num frames: 1918238720. Throughput: 0: 27613.8. Samples: 479629824. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:30:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:30:06,144][98493] Updated weights for policy 0, policy_version 936673 (0.0008)
+[2023-07-06 15:30:07,082][98493] Updated weights for policy 0, policy_version 936720 (0.0007)
+[2023-07-06 15:30:07,741][98493] Updated weights for policy 0, policy_version 936792 (0.0009)
+[2023-07-06 15:30:08,185][98493] Updated weights for policy 0, policy_version 936843 (0.0006)
+[2023-07-06 15:30:08,633][98493] Updated weights for policy 0, policy_version 936895 (0.0006)
+[2023-07-06 15:30:09,764][98243] Fps is (10 sec: 104856.0, 60 sec: 110318.5, 300 sec: 111411.1). Total num frames: 1918763008. Throughput: 0: 27500.0. Samples: 479712768. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:30:09,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:30:10,727][98493] Updated weights for policy 0, policy_version 936953 (0.0007)
+[2023-07-06 15:30:11,978][98493] Updated weights for policy 0, policy_version 936994 (0.0007)
+[2023-07-06 15:30:12,419][98493] Updated weights for policy 0, policy_version 937044 (0.0007)
+[2023-07-06 15:30:12,542][98449] Signal inference workers to stop experience collection... (48350 times)
+[2023-07-06 15:30:12,569][98493] InferenceWorker_p0-w0: stopping experience collection (48350 times)
+[2023-07-06 15:30:12,639][98449] Signal inference workers to resume experience collection... (48350 times)
+[2023-07-06 15:30:12,639][98493] InferenceWorker_p0-w0: resuming experience collection (48350 times)
+[2023-07-06 15:30:12,877][98493] Updated weights for policy 0, policy_version 937094 (0.0007)
+[2023-07-06 15:30:13,307][98493] Updated weights for policy 0, policy_version 937145 (0.0006)
+[2023-07-06 15:30:14,764][98243] Fps is (10 sec: 104856.7, 60 sec: 109226.4, 300 sec: 111189.0). Total num frames: 1919287296. Throughput: 0: 27477.3. Samples: 479879680. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:30:14,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:30:15,311][98493] Updated weights for policy 0, policy_version 937200 (0.0007)
+[2023-07-06 15:30:16,562][98493] Updated weights for policy 0, policy_version 937252 (0.0008)
+[2023-07-06 15:30:17,142][98493] Updated weights for policy 0, policy_version 937313 (0.0007)
+[2023-07-06 15:30:17,523][98493] Updated weights for policy 0, policy_version 937360 (0.0007)
+[2023-07-06 15:30:19,673][98493] Updated weights for policy 0, policy_version 937414 (0.0006)
+[2023-07-06 15:30:19,764][98243] Fps is (10 sec: 108136.5, 60 sec: 109772.8, 300 sec: 110966.9). Total num frames: 1919844352. Throughput: 0: 27739.1. Samples: 480051712. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:30:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:30:20,097][98493] Updated weights for policy 0, policy_version 937468 (0.0006)
+[2023-07-06 15:30:21,241][98493] Updated weights for policy 0, policy_version 937509 (0.0008)
+[2023-07-06 15:30:21,822][98493] Updated weights for policy 0, policy_version 937574 (0.0008)
+[2023-07-06 15:30:22,400][98493] Updated weights for policy 0, policy_version 937634 (0.0008)
+[2023-07-06 15:30:24,629][98493] Updated weights for policy 0, policy_version 937699 (0.0008)
+[2023-07-06 15:30:24,764][98243] Fps is (10 sec: 114688.7, 60 sec: 109772.7, 300 sec: 111078.0). Total num frames: 1920434176. Throughput: 0: 27602.5. Samples: 480129536. Policy #0 lag: (min: 4.0, avg: 115.0, max: 260.0)
+[2023-07-06 15:30:24,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:30:24,823][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000937728_1920466944.pth...
+[2023-07-06 15:30:24,867][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000924704_1893793792.pth
+[2023-07-06 15:30:25,827][98493] Updated weights for policy 0, policy_version 937753 (0.0007)
+[2023-07-06 15:30:26,372][98493] Updated weights for policy 0, policy_version 937809 (0.0007)
+[2023-07-06 15:30:26,818][98493] Updated weights for policy 0, policy_version 937859 (0.0007)
+[2023-07-06 15:30:27,303][98493] Updated weights for policy 0, policy_version 937920 (0.0008)
+[2023-07-06 15:30:29,535][98493] Updated weights for policy 0, policy_version 937977 (0.0007)
+[2023-07-06 15:30:29,764][98243] Fps is (10 sec: 114685.4, 60 sec: 109226.3, 300 sec: 111077.9). Total num frames: 1920991232. Throughput: 0: 27728.5. Samples: 480301056. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:29,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:30:30,516][98449] Signal inference workers to stop experience collection... (48400 times)
+[2023-07-06 15:30:30,545][98493] InferenceWorker_p0-w0: stopping experience collection (48400 times)
+[2023-07-06 15:30:30,602][98449] Signal inference workers to resume experience collection... (48400 times)
+[2023-07-06 15:30:30,602][98493] InferenceWorker_p0-w0: resuming experience collection (48400 times)
+[2023-07-06 15:30:30,873][98493] Updated weights for policy 0, policy_version 938032 (0.0007)
+[2023-07-06 15:30:31,378][98493] Updated weights for policy 0, policy_version 938084 (0.0008)
+[2023-07-06 15:30:31,947][98493] Updated weights for policy 0, policy_version 938148 (0.0008)
+[2023-07-06 15:30:33,785][98493] Updated weights for policy 0, policy_version 938192 (0.0007)
+[2023-07-06 15:30:34,764][98243] Fps is (10 sec: 108134.5, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1921515520. Throughput: 0: 27932.4. Samples: 480466432. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:30:35,187][98493] Updated weights for policy 0, policy_version 938244 (0.0007)
+[2023-07-06 15:30:35,705][98493] Updated weights for policy 0, policy_version 938304 (0.0008)
+[2023-07-06 15:30:36,308][98493] Updated weights for policy 0, policy_version 938372 (0.0008)
+[2023-07-06 15:30:36,800][98493] Updated weights for policy 0, policy_version 938432 (0.0007)
+[2023-07-06 15:30:39,073][98493] Updated weights for policy 0, policy_version 938489 (0.0007)
+[2023-07-06 15:30:39,764][98243] Fps is (10 sec: 104857.9, 60 sec: 108134.3, 300 sec: 110966.8). Total num frames: 1922039808. Throughput: 0: 27704.8. Samples: 480547328. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:30:40,424][98493] Updated weights for policy 0, policy_version 938554 (0.0007)
+[2023-07-06 15:30:40,918][98493] Updated weights for policy 0, policy_version 938608 (0.0007)
+[2023-07-06 15:30:41,450][98493] Updated weights for policy 0, policy_version 938668 (0.0007)
+[2023-07-06 15:30:43,297][98493] Updated weights for policy 0, policy_version 938690 (0.0007)
+[2023-07-06 15:30:43,714][98493] Updated weights for policy 0, policy_version 938746 (0.0006)
+[2023-07-06 15:30:44,764][98243] Fps is (10 sec: 104858.6, 60 sec: 107045.2, 300 sec: 110744.7). Total num frames: 1922564096. Throughput: 0: 27841.5. Samples: 480715264. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:44,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:30:45,146][98493] Updated weights for policy 0, policy_version 938802 (0.0007)
+[2023-07-06 15:30:45,652][98493] Updated weights for policy 0, policy_version 938864 (0.0007)
+[2023-07-06 15:30:45,850][98449] Signal inference workers to stop experience collection... (48450 times)
+[2023-07-06 15:30:45,897][98493] InferenceWorker_p0-w0: stopping experience collection (48450 times)
+[2023-07-06 15:30:45,933][98449] Signal inference workers to resume experience collection... (48450 times)
+[2023-07-06 15:30:45,933][98493] InferenceWorker_p0-w0: resuming experience collection (48450 times)
+[2023-07-06 15:30:46,158][98493] Updated weights for policy 0, policy_version 938916 (0.0007)
+[2023-07-06 15:30:48,189][98493] Updated weights for policy 0, policy_version 938960 (0.0007)
+[2023-07-06 15:30:49,312][98493] Updated weights for policy 0, policy_version 939011 (0.0007)
+[2023-07-06 15:30:49,764][98243] Fps is (10 sec: 114689.9, 60 sec: 108680.6, 300 sec: 110966.9). Total num frames: 1923186688. Throughput: 0: 27864.2. Samples: 480883712. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:49,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:30:49,808][98493] Updated weights for policy 0, policy_version 939072 (0.0008)
+[2023-07-06 15:30:50,229][98493] Updated weights for policy 0, policy_version 939120 (0.0008)
+[2023-07-06 15:30:50,640][98493] Updated weights for policy 0, policy_version 939156 (0.0006)
+[2023-07-06 15:30:50,992][98493] Updated weights for policy 0, policy_version 939200 (0.0007)
+[2023-07-06 15:30:52,945][98493] Updated weights for policy 0, policy_version 939255 (0.0018)
+[2023-07-06 15:30:54,168][98493] Updated weights for policy 0, policy_version 939287 (0.0006)
+[2023-07-06 15:30:54,737][98493] Updated weights for policy 0, policy_version 939350 (0.0007)
+[2023-07-06 15:30:54,764][98243] Fps is (10 sec: 121241.6, 60 sec: 109773.0, 300 sec: 111198.5). Total num frames: 1923776512. Throughput: 0: 27932.6. Samples: 480969728. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:54,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:30:55,353][98493] Updated weights for policy 0, policy_version 939424 (0.0008)
+[2023-07-06 15:30:57,376][98493] Updated weights for policy 0, policy_version 939472 (0.0007)
+[2023-07-06 15:30:58,733][98493] Updated weights for policy 0, policy_version 939521 (0.0007)
+[2023-07-06 15:30:59,201][98493] Updated weights for policy 0, policy_version 939578 (0.0007)
+[2023-07-06 15:30:59,764][98243] Fps is (10 sec: 117964.7, 60 sec: 110865.1, 300 sec: 111411.3). Total num frames: 1924366336. Throughput: 0: 27978.0. Samples: 481138688. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:30:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:30:59,807][98493] Updated weights for policy 0, policy_version 939648 (0.0008)
+[2023-07-06 15:31:02,037][98493] Updated weights for policy 0, policy_version 939714 (0.0007)
+[2023-07-06 15:31:02,519][98493] Updated weights for policy 0, policy_version 939773 (0.0006)
+[2023-07-06 15:31:03,722][98449] Signal inference workers to stop experience collection... (48500 times)
+[2023-07-06 15:31:03,761][98493] InferenceWorker_p0-w0: stopping experience collection (48500 times)
+[2023-07-06 15:31:03,800][98449] Signal inference workers to resume experience collection... (48500 times)
+[2023-07-06 15:31:03,801][98493] InferenceWorker_p0-w0: resuming experience collection (48500 times)
+[2023-07-06 15:31:03,940][98493] Updated weights for policy 0, policy_version 939840 (0.0007)
+[2023-07-06 15:31:04,436][98493] Updated weights for policy 0, policy_version 939894 (0.0008)
+[2023-07-06 15:31:04,765][98243] Fps is (10 sec: 117960.3, 60 sec: 111956.8, 300 sec: 111522.2). Total num frames: 1924956160. Throughput: 0: 27636.4. Samples: 481295360. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:04,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 15:31:05,031][98493] Updated weights for policy 0, policy_version 939961 (0.0007)
+[2023-07-06 15:31:07,154][98493] Updated weights for policy 0, policy_version 940016 (0.0008)
+[2023-07-06 15:31:08,548][98493] Updated weights for policy 0, policy_version 940069 (0.0007)
+[2023-07-06 15:31:08,964][98493] Updated weights for policy 0, policy_version 940113 (0.0007)
+[2023-07-06 15:31:09,401][98493] Updated weights for policy 0, policy_version 940163 (0.0007)
+[2023-07-06 15:31:09,764][98243] Fps is (10 sec: 114688.2, 60 sec: 112503.8, 300 sec: 111411.3). Total num frames: 1925513216. Throughput: 0: 27875.6. Samples: 481383936. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:09,764][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:31:09,871][98493] Updated weights for policy 0, policy_version 940219 (0.0006)
+[2023-07-06 15:31:11,538][98493] Updated weights for policy 0, policy_version 940260 (0.0007)
+[2023-07-06 15:31:12,977][98493] Updated weights for policy 0, policy_version 940312 (0.0007)
+[2023-07-06 15:31:13,412][98493] Updated weights for policy 0, policy_version 940356 (0.0007)
+[2023-07-06 15:31:14,001][98493] Updated weights for policy 0, policy_version 940425 (0.0007)
+[2023-07-06 15:31:14,457][98493] Updated weights for policy 0, policy_version 940479 (0.0007)
+[2023-07-06 15:31:14,764][98243] Fps is (10 sec: 114691.5, 60 sec: 113595.9, 300 sec: 111522.3). Total num frames: 1926103040. Throughput: 0: 27807.4. Samples: 481552384. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:14,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:31:16,173][98493] Updated weights for policy 0, policy_version 940528 (0.0007)
+[2023-07-06 15:31:17,547][98493] Updated weights for policy 0, policy_version 940561 (0.0006)
+[2023-07-06 15:31:17,919][98493] Updated weights for policy 0, policy_version 940608 (0.0007)
+[2023-07-06 15:31:18,415][98493] Updated weights for policy 0, policy_version 940665 (0.0007)
+[2023-07-06 15:31:19,019][98493] Updated weights for policy 0, policy_version 940720 (0.0007)
+[2023-07-06 15:31:19,764][98243] Fps is (10 sec: 111410.8, 60 sec: 113049.5, 300 sec: 111522.3). Total num frames: 1926627328. Throughput: 0: 27830.0. Samples: 481718784. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:19,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:31:20,484][98449] Signal inference workers to stop experience collection... (48550 times)
+[2023-07-06 15:31:20,498][98493] InferenceWorker_p0-w0: stopping experience collection (48550 times)
+[2023-07-06 15:31:20,578][98449] Signal inference workers to resume experience collection... (48550 times)
+[2023-07-06 15:31:20,578][98493] InferenceWorker_p0-w0: resuming experience collection (48550 times)
+[2023-07-06 15:31:20,781][98493] Updated weights for policy 0, policy_version 940769 (0.0007)
+[2023-07-06 15:31:22,235][98493] Updated weights for policy 0, policy_version 940832 (0.0008)
+[2023-07-06 15:31:23,007][98493] Updated weights for policy 0, policy_version 940912 (0.0007)
+[2023-07-06 15:31:23,566][98493] Updated weights for policy 0, policy_version 940960 (0.0007)
+[2023-07-06 15:31:24,764][98243] Fps is (10 sec: 104857.3, 60 sec: 111957.3, 300 sec: 111300.1). Total num frames: 1927151616. Throughput: 0: 27966.7. Samples: 481805824. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:24,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:31:25,188][98493] Updated weights for policy 0, policy_version 941008 (0.0006)
+[2023-07-06 15:31:25,559][98493] Updated weights for policy 0, policy_version 941048 (0.0008)
+[2023-07-06 15:31:27,388][98493] Updated weights for policy 0, policy_version 941112 (0.0007)
+[2023-07-06 15:31:27,943][98493] Updated weights for policy 0, policy_version 941178 (0.0008)
+[2023-07-06 15:31:28,600][98493] Updated weights for policy 0, policy_version 941232 (0.0007)
+[2023-07-06 15:31:29,764][98243] Fps is (10 sec: 104856.8, 60 sec: 111411.4, 300 sec: 111077.9). Total num frames: 1927675904. Throughput: 0: 27852.7. Samples: 481968640. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:29,765][98243] Avg episode reward: [(0, '9.920')]
+[2023-07-06 15:31:30,043][98493] Updated weights for policy 0, policy_version 941269 (0.0010)
+[2023-07-06 15:31:31,612][98493] Updated weights for policy 0, policy_version 941328 (0.0006)
+[2023-07-06 15:31:32,254][98493] Updated weights for policy 0, policy_version 941401 (0.0007)
+[2023-07-06 15:31:33,094][98493] Updated weights for policy 0, policy_version 941456 (0.0007)
+[2023-07-06 15:31:34,613][98493] Updated weights for policy 0, policy_version 941520 (0.0032)
+[2023-07-06 15:31:34,765][98243] Fps is (10 sec: 111405.1, 60 sec: 112502.4, 300 sec: 111299.9). Total num frames: 1928265728. Throughput: 0: 27875.2. Samples: 482138112. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:34,766][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:31:36,260][98493] Updated weights for policy 0, policy_version 941569 (0.0007)
+[2023-07-06 15:31:36,748][98493] Updated weights for policy 0, policy_version 941632 (0.0007)
+[2023-07-06 15:31:37,197][98493] Updated weights for policy 0, policy_version 941680 (0.0007)
+[2023-07-06 15:31:38,178][98449] Signal inference workers to stop experience collection... (48600 times)
+[2023-07-06 15:31:38,197][98493] Updated weights for policy 0, policy_version 941732 (0.0007)
+[2023-07-06 15:31:38,225][98493] InferenceWorker_p0-w0: stopping experience collection (48600 times)
+[2023-07-06 15:31:38,265][98449] Signal inference workers to resume experience collection... (48600 times)
+[2023-07-06 15:31:38,266][98493] InferenceWorker_p0-w0: resuming experience collection (48600 times)
+[2023-07-06 15:31:39,055][98493] Updated weights for policy 0, policy_version 941764 (0.0007)
+[2023-07-06 15:31:39,541][98493] Updated weights for policy 0, policy_version 941822 (0.0007)
+[2023-07-06 15:31:39,764][98243] Fps is (10 sec: 117965.4, 60 sec: 113596.0, 300 sec: 111522.3). Total num frames: 1928855552. Throughput: 0: 27864.1. Samples: 482223616. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:39,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:31:41,174][98493] Updated weights for policy 0, policy_version 941860 (0.0008)
+[2023-07-06 15:31:41,600][98493] Updated weights for policy 0, policy_version 941909 (0.0006)
+[2023-07-06 15:31:42,618][98493] Updated weights for policy 0, policy_version 941969 (0.0008)
+[2023-07-06 15:31:42,923][98493] Updated weights for policy 0, policy_version 942008 (0.0007)
+[2023-07-06 15:31:43,839][98493] Updated weights for policy 0, policy_version 942052 (0.0007)
+[2023-07-06 15:31:44,764][98243] Fps is (10 sec: 111417.6, 60 sec: 113595.6, 300 sec: 111522.3). Total num frames: 1929379840. Throughput: 0: 27841.4. Samples: 482391552. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:44,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:31:45,539][98493] Updated weights for policy 0, policy_version 942088 (0.0007)
+[2023-07-06 15:31:46,019][98493] Updated weights for policy 0, policy_version 942144 (0.0008)
+[2023-07-06 15:31:46,519][98493] Updated weights for policy 0, policy_version 942200 (0.0008)
+[2023-07-06 15:31:47,740][98493] Updated weights for policy 0, policy_version 942266 (0.0007)
+[2023-07-06 15:31:48,504][98493] Updated weights for policy 0, policy_version 942329 (0.0007)
+[2023-07-06 15:31:49,764][98243] Fps is (10 sec: 104858.0, 60 sec: 111957.3, 300 sec: 111189.0). Total num frames: 1929904128. Throughput: 0: 28137.4. Samples: 482561536. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:31:50,459][98493] Updated weights for policy 0, policy_version 942376 (0.0007)
+[2023-07-06 15:31:50,970][98493] Updated weights for policy 0, policy_version 942432 (0.0008)
+[2023-07-06 15:31:52,213][98493] Updated weights for policy 0, policy_version 942496 (0.0007)
+[2023-07-06 15:31:52,874][98493] Updated weights for policy 0, policy_version 942544 (0.0007)
+[2023-07-06 15:31:54,764][98243] Fps is (10 sec: 104857.6, 60 sec: 110864.9, 300 sec: 111078.0). Total num frames: 1930428416. Throughput: 0: 28012.1. Samples: 482644480. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:54,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:31:54,908][98493] Updated weights for policy 0, policy_version 942597 (0.0007)
+[2023-07-06 15:31:55,473][98493] Updated weights for policy 0, policy_version 942661 (0.0008)
+[2023-07-06 15:31:55,911][98493] Updated weights for policy 0, policy_version 942715 (0.0007)
+[2023-07-06 15:31:56,763][98449] Signal inference workers to stop experience collection... (48650 times)
+[2023-07-06 15:31:56,804][98493] InferenceWorker_p0-w0: stopping experience collection (48650 times)
+[2023-07-06 15:31:56,855][98449] Signal inference workers to resume experience collection... (48650 times)
+[2023-07-06 15:31:56,856][98493] InferenceWorker_p0-w0: resuming experience collection (48650 times)
+[2023-07-06 15:31:56,938][98493] Updated weights for policy 0, policy_version 942757 (0.0006)
+[2023-07-06 15:31:57,670][98493] Updated weights for policy 0, policy_version 942822 (0.0009)
+[2023-07-06 15:31:59,764][98243] Fps is (10 sec: 104857.6, 60 sec: 109772.8, 300 sec: 111078.0). Total num frames: 1930952704. Throughput: 0: 27989.3. Samples: 482811904. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:31:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:31:59,878][98493] Updated weights for policy 0, policy_version 942864 (0.0007)
+[2023-07-06 15:32:00,456][98493] Updated weights for policy 0, policy_version 942928 (0.0008)
+[2023-07-06 15:32:01,428][98493] Updated weights for policy 0, policy_version 942979 (0.0008)
+[2023-07-06 15:32:02,192][98493] Updated weights for policy 0, policy_version 943041 (0.0008)
+[2023-07-06 15:32:02,643][98493] Updated weights for policy 0, policy_version 943100 (0.0007)
+[2023-07-06 15:32:04,765][98243] Fps is (10 sec: 111407.6, 60 sec: 109772.7, 300 sec: 110855.7). Total num frames: 1931542528. Throughput: 0: 28000.5. Samples: 482978816. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:32:04,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:32:04,945][98493] Updated weights for policy 0, policy_version 943168 (0.0008)
+[2023-07-06 15:32:05,471][98493] Updated weights for policy 0, policy_version 943226 (0.0008)
+[2023-07-06 15:32:06,447][98493] Updated weights for policy 0, policy_version 943280 (0.0008)
+[2023-07-06 15:32:07,097][98493] Updated weights for policy 0, policy_version 943328 (0.0007)
+[2023-07-06 15:32:09,525][98493] Updated weights for policy 0, policy_version 943384 (0.0007)
+[2023-07-06 15:32:09,764][98243] Fps is (10 sec: 114687.6, 60 sec: 109772.7, 300 sec: 110966.9). Total num frames: 1932099584. Throughput: 0: 27818.7. Samples: 483057664. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:32:09,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:32:10,098][98493] Updated weights for policy 0, policy_version 943456 (0.0008)
+[2023-07-06 15:32:10,375][98493] Updated weights for policy 0, policy_version 943488 (0.0007)
+[2023-07-06 15:32:11,354][98493] Updated weights for policy 0, policy_version 943546 (0.0029)
+[2023-07-06 15:32:11,900][98493] Updated weights for policy 0, policy_version 943611 (0.0007)
+[2023-07-06 15:32:14,662][98493] Updated weights for policy 0, policy_version 943671 (0.0008)
+[2023-07-06 15:32:14,764][98243] Fps is (10 sec: 111414.9, 60 sec: 109226.7, 300 sec: 111077.9). Total num frames: 1932656640. Throughput: 0: 28023.5. Samples: 483229696. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:32:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:32:14,904][98449] Signal inference workers to stop experience collection... (48700 times)
+[2023-07-06 15:32:14,941][98493] InferenceWorker_p0-w0: stopping experience collection (48700 times)
+[2023-07-06 15:32:14,983][98449] Signal inference workers to resume experience collection... (48700 times)
+[2023-07-06 15:32:14,983][98493] InferenceWorker_p0-w0: resuming experience collection (48700 times)
+[2023-07-06 15:32:15,138][98493] Updated weights for policy 0, policy_version 943728 (0.0007)
+[2023-07-06 15:32:15,982][98493] Updated weights for policy 0, policy_version 943781 (0.0009)
+[2023-07-06 15:32:16,434][98493] Updated weights for policy 0, policy_version 943829 (0.0006)
+[2023-07-06 15:32:18,883][98493] Updated weights for policy 0, policy_version 943874 (0.0009)
+[2023-07-06 15:32:19,485][98493] Updated weights for policy 0, policy_version 943942 (0.0007)
+[2023-07-06 15:32:19,764][98243] Fps is (10 sec: 114688.6, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 1933246464. Throughput: 0: 27932.8. Samples: 483395072. Policy #0 lag: (min: 90.0, avg: 183.6, max: 314.0)
+[2023-07-06 15:32:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:32:19,980][98493] Updated weights for policy 0, policy_version 944000 (0.0007)
+[2023-07-06 15:32:20,895][98493] Updated weights for policy 0, policy_version 944064 (0.0007)
+[2023-07-06 15:32:21,426][98493] Updated weights for policy 0, policy_version 944128 (0.0007)
+[2023-07-06 15:32:23,730][98493] Updated weights for policy 0, policy_version 944187 (0.0008)
+[2023-07-06 15:32:24,034][98493] Updated weights for policy 0, policy_version 944211 (0.0007)
+[2023-07-06 15:32:24,764][98243] Fps is (10 sec: 117964.4, 60 sec: 111411.2, 300 sec: 111522.3). Total num frames: 1933836288. Throughput: 0: 27864.2. Samples: 483477504. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:24,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:32:24,768][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000944256_1933836288.pth...
+[2023-07-06 15:32:24,804][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000931264_1907228672.pth
+[2023-07-06 15:32:25,336][98493] Updated weights for policy 0, policy_version 944272 (0.0008)
+[2023-07-06 15:32:25,996][98493] Updated weights for policy 0, policy_version 944345 (0.0008)
+[2023-07-06 15:32:27,969][98493] Updated weights for policy 0, policy_version 944387 (0.0007)
+[2023-07-06 15:32:28,440][98493] Updated weights for policy 0, policy_version 944448 (0.0007)
+[2023-07-06 15:32:29,147][98493] Updated weights for policy 0, policy_version 944511 (0.0006)
+[2023-07-06 15:32:29,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.4, 300 sec: 111522.3). Total num frames: 1934360576. Throughput: 0: 27818.7. Samples: 483643392. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:29,764][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:32:30,433][98493] Updated weights for policy 0, policy_version 944563 (0.0007)
+[2023-07-06 15:32:30,992][98493] Updated weights for policy 0, policy_version 944633 (0.0008)
+[2023-07-06 15:32:32,710][98449] Signal inference workers to stop experience collection... (48750 times)
+[2023-07-06 15:32:32,740][98493] InferenceWorker_p0-w0: stopping experience collection (48750 times)
+[2023-07-06 15:32:32,800][98449] Signal inference workers to resume experience collection... (48750 times)
+[2023-07-06 15:32:32,800][98493] InferenceWorker_p0-w0: resuming experience collection (48750 times)
+[2023-07-06 15:32:33,014][98493] Updated weights for policy 0, policy_version 944678 (0.0007)
+[2023-07-06 15:32:33,486][98493] Updated weights for policy 0, policy_version 944721 (0.0007)
+[2023-07-06 15:32:33,845][98493] Updated weights for policy 0, policy_version 944768 (0.0007)
+[2023-07-06 15:32:34,764][98243] Fps is (10 sec: 108134.7, 60 sec: 110866.1, 300 sec: 111411.2). Total num frames: 1934917632. Throughput: 0: 27773.1. Samples: 483811328. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:34,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:32:35,107][98493] Updated weights for policy 0, policy_version 944828 (0.0007)
+[2023-07-06 15:32:35,660][98493] Updated weights for policy 0, policy_version 944888 (0.0007)
+[2023-07-06 15:32:37,664][98493] Updated weights for policy 0, policy_version 944959 (0.0006)
+[2023-07-06 15:32:38,307][98493] Updated weights for policy 0, policy_version 945008 (0.0008)
+[2023-07-06 15:32:39,706][98493] Updated weights for policy 0, policy_version 945049 (0.0006)
+[2023-07-06 15:32:39,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110319.0, 300 sec: 111078.0). Total num frames: 1935474688. Throughput: 0: 27716.3. Samples: 483891712. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:32:40,267][98493] Updated weights for policy 0, policy_version 945111 (0.0008)
+[2023-07-06 15:32:42,119][98493] Updated weights for policy 0, policy_version 945168 (0.0007)
+[2023-07-06 15:32:42,819][98493] Updated weights for policy 0, policy_version 945222 (0.0007)
+[2023-07-06 15:32:43,252][98493] Updated weights for policy 0, policy_version 945274 (0.0008)
+[2023-07-06 15:32:44,488][98493] Updated weights for policy 0, policy_version 945328 (0.0008)
+[2023-07-06 15:32:44,764][98243] Fps is (10 sec: 117965.7, 60 sec: 111957.5, 300 sec: 111300.1). Total num frames: 1936097280. Throughput: 0: 27704.9. Samples: 484058624. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:44,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:32:44,980][98493] Updated weights for policy 0, policy_version 945384 (0.0007)
+[2023-07-06 15:32:46,937][98493] Updated weights for policy 0, policy_version 945427 (0.0007)
+[2023-07-06 15:32:47,454][98493] Updated weights for policy 0, policy_version 945474 (0.0007)
+[2023-07-06 15:32:47,916][98493] Updated weights for policy 0, policy_version 945531 (0.0006)
+[2023-07-06 15:32:49,441][98493] Updated weights for policy 0, policy_version 945588 (0.0008)
+[2023-07-06 15:32:49,569][98449] Signal inference workers to stop experience collection... (48800 times)
+[2023-07-06 15:32:49,606][98493] InferenceWorker_p0-w0: stopping experience collection (48800 times)
+[2023-07-06 15:32:49,663][98449] Signal inference workers to resume experience collection... (48800 times)
+[2023-07-06 15:32:49,663][98493] InferenceWorker_p0-w0: resuming experience collection (48800 times)
+[2023-07-06 15:32:49,764][98243] Fps is (10 sec: 114688.3, 60 sec: 111957.4, 300 sec: 111189.1). Total num frames: 1936621568. Throughput: 0: 27682.4. Samples: 484224512. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:49,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:32:49,953][98493] Updated weights for policy 0, policy_version 945648 (0.0008)
+[2023-07-06 15:32:51,616][98493] Updated weights for policy 0, policy_version 945701 (0.0006)
+[2023-07-06 15:32:52,308][98493] Updated weights for policy 0, policy_version 945744 (0.0006)
+[2023-07-06 15:32:53,728][98493] Updated weights for policy 0, policy_version 945808 (0.0006)
+[2023-07-06 15:32:54,335][98493] Updated weights for policy 0, policy_version 945874 (0.0007)
+[2023-07-06 15:32:54,764][98243] Fps is (10 sec: 114687.0, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1937244160. Throughput: 0: 27807.3. Samples: 484308992. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:32:56,180][98493] Updated weights for policy 0, policy_version 945923 (0.0007)
+[2023-07-06 15:32:56,894][98493] Updated weights for policy 0, policy_version 946000 (0.0007)
+[2023-07-06 15:32:57,294][98493] Updated weights for policy 0, policy_version 946044 (0.0006)
+[2023-07-06 15:32:58,877][98493] Updated weights for policy 0, policy_version 946104 (0.0007)
+[2023-07-06 15:32:59,403][98493] Updated weights for policy 0, policy_version 946172 (0.0007)
+[2023-07-06 15:32:59,764][98243] Fps is (10 sec: 114687.7, 60 sec: 113595.7, 300 sec: 111522.4). Total num frames: 1937768448. Throughput: 0: 27704.9. Samples: 484476416. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:32:59,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:33:01,238][98493] Updated weights for policy 0, policy_version 946224 (0.0007)
+[2023-07-06 15:33:01,633][98493] Updated weights for policy 0, policy_version 946262 (0.0007)
+[2023-07-06 15:33:03,129][98493] Updated weights for policy 0, policy_version 946306 (0.0007)
+[2023-07-06 15:33:03,715][98493] Updated weights for policy 0, policy_version 946377 (0.0007)
+[2023-07-06 15:33:04,131][98493] Updated weights for policy 0, policy_version 946428 (0.0007)
+[2023-07-06 15:33:04,764][98243] Fps is (10 sec: 104855.3, 60 sec: 112503.6, 300 sec: 111300.0). Total num frames: 1938292736. Throughput: 0: 27716.1. Samples: 484642304. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:04,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:33:06,036][98493] Updated weights for policy 0, policy_version 946496 (0.0007)
+[2023-07-06 15:33:06,562][98493] Updated weights for policy 0, policy_version 946553 (0.0007)
+[2023-07-06 15:33:07,842][98449] Signal inference workers to stop experience collection... (48850 times)
+[2023-07-06 15:33:07,870][98493] InferenceWorker_p0-w0: stopping experience collection (48850 times)
+[2023-07-06 15:33:07,931][98449] Signal inference workers to resume experience collection... (48850 times)
+[2023-07-06 15:33:07,932][98493] InferenceWorker_p0-w0: resuming experience collection (48850 times)
+[2023-07-06 15:33:08,159][98493] Updated weights for policy 0, policy_version 946600 (0.0008)
+[2023-07-06 15:33:08,587][98493] Updated weights for policy 0, policy_version 946644 (0.0007)
+[2023-07-06 15:33:08,956][98493] Updated weights for policy 0, policy_version 946688 (0.0008)
+[2023-07-06 15:33:09,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111957.4, 300 sec: 111078.5). Total num frames: 1938817024. Throughput: 0: 27795.9. Samples: 484728320. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:09,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:33:10,801][98493] Updated weights for policy 0, policy_version 946760 (0.0008)
+[2023-07-06 15:33:11,234][98493] Updated weights for policy 0, policy_version 946811 (0.0006)
+[2023-07-06 15:33:13,044][98493] Updated weights for policy 0, policy_version 946864 (0.0008)
+[2023-07-06 15:33:13,686][98493] Updated weights for policy 0, policy_version 946937 (0.0006)
+[2023-07-06 15:33:14,764][98243] Fps is (10 sec: 104860.0, 60 sec: 111411.2, 300 sec: 110966.9). Total num frames: 1939341312. Throughput: 0: 27704.9. Samples: 484890112. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:33:15,557][98493] Updated weights for policy 0, policy_version 946994 (0.0007)
+[2023-07-06 15:33:16,004][98493] Updated weights for policy 0, policy_version 947044 (0.0007)
+[2023-07-06 15:33:17,683][98493] Updated weights for policy 0, policy_version 947096 (0.0006)
+[2023-07-06 15:33:18,180][98493] Updated weights for policy 0, policy_version 947152 (0.0007)
+[2023-07-06 15:33:19,681][98493] Updated weights for policy 0, policy_version 947203 (0.0007)
+[2023-07-06 15:33:19,764][98243] Fps is (10 sec: 108134.0, 60 sec: 110864.9, 300 sec: 110966.9). Total num frames: 1939898368. Throughput: 0: 27750.4. Samples: 485060096. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:19,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:33:20,282][98493] Updated weights for policy 0, policy_version 947267 (0.0008)
+[2023-07-06 15:33:20,694][98493] Updated weights for policy 0, policy_version 947322 (0.0006)
+[2023-07-06 15:33:22,795][98493] Updated weights for policy 0, policy_version 947378 (0.0007)
+[2023-07-06 15:33:23,243][98493] Updated weights for policy 0, policy_version 947427 (0.0007)
+[2023-07-06 15:33:24,518][98449] Signal inference workers to stop experience collection... (48900 times)
+[2023-07-06 15:33:24,557][98493] InferenceWorker_p0-w0: stopping experience collection (48900 times)
+[2023-07-06 15:33:24,599][98449] Signal inference workers to resume experience collection... (48900 times)
+[2023-07-06 15:33:24,599][98493] InferenceWorker_p0-w0: resuming experience collection (48900 times)
+[2023-07-06 15:33:24,746][98493] Updated weights for policy 0, policy_version 947504 (0.0007)
+[2023-07-06 15:33:24,765][98243] Fps is (10 sec: 114684.5, 60 sec: 110864.5, 300 sec: 110966.8). Total num frames: 1940488192. Throughput: 0: 27807.1. Samples: 485143040. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:24,766][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 15:33:25,209][98493] Updated weights for policy 0, policy_version 947552 (0.0007)
+[2023-07-06 15:33:27,226][98493] Updated weights for policy 0, policy_version 947616 (0.0007)
+[2023-07-06 15:33:27,768][98493] Updated weights for policy 0, policy_version 947673 (0.0008)
+[2023-07-06 15:33:29,449][98493] Updated weights for policy 0, policy_version 947715 (0.0007)
+[2023-07-06 15:33:29,764][98243] Fps is (10 sec: 108135.4, 60 sec: 110319.0, 300 sec: 110855.8). Total num frames: 1940979712. Throughput: 0: 27727.6. Samples: 485306368. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:29,764][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 15:33:30,045][98493] Updated weights for policy 0, policy_version 947783 (0.0008)
+[2023-07-06 15:33:30,521][98493] Updated weights for policy 0, policy_version 947840 (0.0007)
+[2023-07-06 15:33:32,256][98493] Updated weights for policy 0, policy_version 947895 (0.0007)
+[2023-07-06 15:33:32,769][98493] Updated weights for policy 0, policy_version 947952 (0.0009)
+[2023-07-06 15:33:34,417][98493] Updated weights for policy 0, policy_version 948016 (0.0007)
+[2023-07-06 15:33:34,764][98243] Fps is (10 sec: 111414.8, 60 sec: 111411.2, 300 sec: 111189.1). Total num frames: 1941602304. Throughput: 0: 27716.3. Samples: 485471744. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:34,765][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 15:33:34,963][98493] Updated weights for policy 0, policy_version 948067 (0.0007)
+[2023-07-06 15:33:36,761][98493] Updated weights for policy 0, policy_version 948130 (0.0007)
+[2023-07-06 15:33:37,334][98493] Updated weights for policy 0, policy_version 948196 (0.0006)
+[2023-07-06 15:33:38,880][98493] Updated weights for policy 0, policy_version 948227 (0.0005)
+[2023-07-06 15:33:39,499][98493] Updated weights for policy 0, policy_version 948304 (0.0007)
+[2023-07-06 15:33:39,764][98243] Fps is (10 sec: 117964.9, 60 sec: 111411.3, 300 sec: 111189.0). Total num frames: 1942159360. Throughput: 0: 27625.3. Samples: 485552128. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:39,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:33:41,208][98493] Updated weights for policy 0, policy_version 948357 (0.0007)
+[2023-07-06 15:33:41,458][98449] Signal inference workers to stop experience collection... (48950 times)
+[2023-07-06 15:33:41,496][98493] InferenceWorker_p0-w0: stopping experience collection (48950 times)
+[2023-07-06 15:33:41,544][98449] Signal inference workers to resume experience collection... (48950 times)
+[2023-07-06 15:33:41,544][98493] InferenceWorker_p0-w0: resuming experience collection (48950 times)
+[2023-07-06 15:33:41,809][98493] Updated weights for policy 0, policy_version 948419 (0.0007)
+[2023-07-06 15:33:42,265][98493] Updated weights for policy 0, policy_version 948477 (0.0006)
+[2023-07-06 15:33:43,738][98493] Updated weights for policy 0, policy_version 948536 (0.0007)
+[2023-07-06 15:33:44,408][98493] Updated weights for policy 0, policy_version 948576 (0.0007)
+[2023-07-06 15:33:44,764][98243] Fps is (10 sec: 114687.8, 60 sec: 110864.9, 300 sec: 111189.0). Total num frames: 1942749184. Throughput: 0: 27568.3. Samples: 485716992. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:44,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:33:46,280][98493] Updated weights for policy 0, policy_version 948632 (0.0007)
+[2023-07-06 15:33:46,983][98493] Updated weights for policy 0, policy_version 948712 (0.0008)
+[2023-07-06 15:33:48,160][98493] Updated weights for policy 0, policy_version 948775 (0.0008)
+[2023-07-06 15:33:49,102][98493] Updated weights for policy 0, policy_version 948803 (0.0007)
+[2023-07-06 15:33:49,519][98493] Updated weights for policy 0, policy_version 948860 (0.0007)
+[2023-07-06 15:33:49,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 1943273472. Throughput: 0: 27568.5. Samples: 485882880. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:49,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:33:51,141][98493] Updated weights for policy 0, policy_version 948901 (0.0007)
+[2023-07-06 15:33:51,720][98493] Updated weights for policy 0, policy_version 948962 (0.0007)
+[2023-07-06 15:33:52,613][98493] Updated weights for policy 0, policy_version 949016 (0.0008)
+[2023-07-06 15:33:53,712][98493] Updated weights for policy 0, policy_version 949062 (0.0007)
+[2023-07-06 15:33:54,156][98493] Updated weights for policy 0, policy_version 949112 (0.0007)
+[2023-07-06 15:33:54,764][98243] Fps is (10 sec: 104857.5, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1943797760. Throughput: 0: 27522.8. Samples: 485966848. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:54,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:33:55,830][98493] Updated weights for policy 0, policy_version 949168 (0.0007)
+[2023-07-06 15:33:56,425][98493] Updated weights for policy 0, policy_version 949232 (0.0007)
+[2023-07-06 15:33:57,457][98493] Updated weights for policy 0, policy_version 949267 (0.0007)
+[2023-07-06 15:33:58,629][98493] Updated weights for policy 0, policy_version 949333 (0.0008)
+[2023-07-06 15:33:59,764][98243] Fps is (10 sec: 104857.2, 60 sec: 109226.7, 300 sec: 111078.0). Total num frames: 1944322048. Throughput: 0: 27625.3. Samples: 486133248. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:33:59,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:34:00,338][98449] Signal inference workers to stop experience collection... (49000 times)
+[2023-07-06 15:34:00,358][98493] InferenceWorker_p0-w0: stopping experience collection (49000 times)
+[2023-07-06 15:34:00,365][98493] Updated weights for policy 0, policy_version 949380 (0.0007)
+[2023-07-06 15:34:00,427][98449] Signal inference workers to resume experience collection... (49000 times)
+[2023-07-06 15:34:00,427][98493] InferenceWorker_p0-w0: resuming experience collection (49000 times)
+[2023-07-06 15:34:01,054][98493] Updated weights for policy 0, policy_version 949459 (0.0007)
+[2023-07-06 15:34:01,900][98493] Updated weights for policy 0, policy_version 949507 (0.0007)
+[2023-07-06 15:34:03,427][98493] Updated weights for policy 0, policy_version 949569 (0.0008)
+[2023-07-06 15:34:03,874][98493] Updated weights for policy 0, policy_version 949628 (0.0007)
+[2023-07-06 15:34:04,764][98243] Fps is (10 sec: 104858.0, 60 sec: 109227.1, 300 sec: 110855.8). Total num frames: 1944846336. Throughput: 0: 27534.3. Samples: 486299136. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:34:04,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:34:05,481][98493] Updated weights for policy 0, policy_version 949666 (0.0006)
+[2023-07-06 15:34:05,919][98493] Updated weights for policy 0, policy_version 949713 (0.0007)
+[2023-07-06 15:34:06,494][98493] Updated weights for policy 0, policy_version 949762 (0.0006)
+[2023-07-06 15:34:06,980][98493] Updated weights for policy 0, policy_version 949824 (0.0007)
+[2023-07-06 15:34:08,671][98493] Updated weights for policy 0, policy_version 949885 (0.0006)
+[2023-07-06 15:34:09,765][98243] Fps is (10 sec: 104854.1, 60 sec: 109226.1, 300 sec: 110633.5). Total num frames: 1945370624. Throughput: 0: 27500.1. Samples: 486380544. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:34:09,766][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:34:10,273][98493] Updated weights for policy 0, policy_version 949944 (0.0007)
+[2023-07-06 15:34:10,815][98493] Updated weights for policy 0, policy_version 950011 (0.0008)
+[2023-07-06 15:34:11,783][98493] Updated weights for policy 0, policy_version 950064 (0.0008)
+[2023-07-06 15:34:13,335][98493] Updated weights for policy 0, policy_version 950116 (0.0006)
+[2023-07-06 15:34:14,764][98243] Fps is (10 sec: 111411.7, 60 sec: 110319.1, 300 sec: 110855.8). Total num frames: 1945960448. Throughput: 0: 27545.6. Samples: 486545920. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:34:14,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:34:14,976][98493] Updated weights for policy 0, policy_version 950201 (0.0007)
+[2023-07-06 15:34:15,478][98493] Updated weights for policy 0, policy_version 950266 (0.0008)
+[2023-07-06 15:34:16,447][98493] Updated weights for policy 0, policy_version 950304 (0.0006)
+[2023-07-06 15:34:17,790][98449] Signal inference workers to stop experience collection... (49050 times)
+[2023-07-06 15:34:17,834][98493] InferenceWorker_p0-w0: stopping experience collection (49050 times)
+[2023-07-06 15:34:17,876][98449] Signal inference workers to resume experience collection... (49050 times)
+[2023-07-06 15:34:17,876][98493] InferenceWorker_p0-w0: resuming experience collection (49050 times)
+[2023-07-06 15:34:17,877][98493] Updated weights for policy 0, policy_version 950368 (0.0007)
+[2023-07-06 15:34:19,375][98493] Updated weights for policy 0, policy_version 950423 (0.0006)
+[2023-07-06 15:34:19,764][98243] Fps is (10 sec: 117968.8, 60 sec: 110865.2, 300 sec: 110855.8). Total num frames: 1946550272. Throughput: 0: 27545.6. Samples: 486711296. Policy #0 lag: (min: 15.0, avg: 92.6, max: 271.0)
+[2023-07-06 15:34:19,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:34:20,122][98493] Updated weights for policy 0, policy_version 950480 (0.0008)
+[2023-07-06 15:34:21,034][98493] Updated weights for policy 0, policy_version 950529 (0.0008)
+[2023-07-06 15:34:21,477][98493] Updated weights for policy 0, policy_version 950589 (0.0007)
+[2023-07-06 15:34:22,705][98493] Updated weights for policy 0, policy_version 950648 (0.0007)
+[2023-07-06 15:34:24,163][98493] Updated weights for policy 0, policy_version 950693 (0.0006)
+[2023-07-06 15:34:24,765][98243] Fps is (10 sec: 111407.6, 60 sec: 109772.9, 300 sec: 110633.5). Total num frames: 1947074560. Throughput: 0: 27522.7. Samples: 486790656. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:24,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 15:34:24,930][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000950736_1947107328.pth...
+[2023-07-06 15:34:24,986][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000937728_1920466944.pth
+[2023-07-06 15:34:25,020][98493] Updated weights for policy 0, policy_version 950737 (0.0007)
+[2023-07-06 15:34:25,825][98493] Updated weights for policy 0, policy_version 950788 (0.0006)
+[2023-07-06 15:34:27,177][98493] Updated weights for policy 0, policy_version 950864 (0.0007)
+[2023-07-06 15:34:28,676][98493] Updated weights for policy 0, policy_version 950928 (0.0007)
+[2023-07-06 15:34:29,045][98493] Updated weights for policy 0, policy_version 950972 (0.0007)
+[2023-07-06 15:34:29,764][98243] Fps is (10 sec: 108134.8, 60 sec: 110865.1, 300 sec: 110744.8). Total num frames: 1947631616. Throughput: 0: 27659.4. Samples: 486961664. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:29,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 15:34:30,033][98493] Updated weights for policy 0, policy_version 951037 (0.0006)
+[2023-07-06 15:34:30,846][98493] Updated weights for policy 0, policy_version 951095 (0.0007)
+[2023-07-06 15:34:32,196][98493] Updated weights for policy 0, policy_version 951152 (0.0008)
+[2023-07-06 15:34:33,412][98493] Updated weights for policy 0, policy_version 951190 (0.0007)
+[2023-07-06 15:34:34,524][98493] Updated weights for policy 0, policy_version 951248 (0.0007)
+[2023-07-06 15:34:34,764][98243] Fps is (10 sec: 111413.0, 60 sec: 109772.6, 300 sec: 110633.7). Total num frames: 1948188672. Throughput: 0: 27636.5. Samples: 487126528. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:34,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 15:34:34,879][98493] Updated weights for policy 0, policy_version 951290 (0.0007)
+[2023-07-06 15:34:35,548][98493] Updated weights for policy 0, policy_version 951344 (0.0008)
+[2023-07-06 15:34:36,769][98493] Updated weights for policy 0, policy_version 951392 (0.0007)
+[2023-07-06 15:34:37,829][98449] Signal inference workers to stop experience collection... (49100 times)
+[2023-07-06 15:34:37,841][98493] InferenceWorker_p0-w0: stopping experience collection (49100 times)
+[2023-07-06 15:34:37,915][98449] Signal inference workers to resume experience collection... (49100 times)
+[2023-07-06 15:34:37,916][98493] InferenceWorker_p0-w0: resuming experience collection (49100 times)
+[2023-07-06 15:34:38,126][98493] Updated weights for policy 0, policy_version 951458 (0.0011)
+[2023-07-06 15:34:39,246][98493] Updated weights for policy 0, policy_version 951491 (0.0010)
+[2023-07-06 15:34:39,761][98493] Updated weights for policy 0, policy_version 951551 (0.0007)
+[2023-07-06 15:34:39,764][98243] Fps is (10 sec: 111410.8, 60 sec: 109772.7, 300 sec: 110523.2). Total num frames: 1948745728. Throughput: 0: 27636.6. Samples: 487210496. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:39,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:34:40,200][98493] Updated weights for policy 0, policy_version 951600 (0.0007)
+[2023-07-06 15:34:41,723][98493] Updated weights for policy 0, policy_version 951664 (0.0007)
+[2023-07-06 15:34:42,657][98493] Updated weights for policy 0, policy_version 951712 (0.0006)
+[2023-07-06 15:34:44,255][98493] Updated weights for policy 0, policy_version 951776 (0.0007)
+[2023-07-06 15:34:44,764][98243] Fps is (10 sec: 111412.5, 60 sec: 109226.7, 300 sec: 110633.7). Total num frames: 1949302784. Throughput: 0: 27693.5. Samples: 487379456. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:44,764][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:34:44,909][98493] Updated weights for policy 0, policy_version 951832 (0.0008)
+[2023-07-06 15:34:45,647][98493] Updated weights for policy 0, policy_version 951876 (0.0007)
+[2023-07-06 15:34:47,204][98493] Updated weights for policy 0, policy_version 951952 (0.0007)
+[2023-07-06 15:34:48,798][98493] Updated weights for policy 0, policy_version 952016 (0.0007)
+[2023-07-06 15:34:49,566][98493] Updated weights for policy 0, policy_version 952065 (0.0007)
+[2023-07-06 15:34:49,764][98243] Fps is (10 sec: 111411.3, 60 sec: 109772.8, 300 sec: 110744.7). Total num frames: 1949859840. Throughput: 0: 27693.5. Samples: 487545344. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:49,764][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:34:49,988][98493] Updated weights for policy 0, policy_version 952121 (0.0007)
+[2023-07-06 15:34:50,638][98493] Updated weights for policy 0, policy_version 952187 (0.0007)
+[2023-07-06 15:34:52,137][98493] Updated weights for policy 0, policy_version 952230 (0.0007)
+[2023-07-06 15:34:53,771][98493] Updated weights for policy 0, policy_version 952280 (0.0007)
+[2023-07-06 15:34:54,371][98493] Updated weights for policy 0, policy_version 952336 (0.0006)
+[2023-07-06 15:34:54,764][98243] Fps is (10 sec: 114687.5, 60 sec: 110865.1, 300 sec: 110966.9). Total num frames: 1950449664. Throughput: 0: 27739.2. Samples: 487628800. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:34:55,038][98493] Updated weights for policy 0, policy_version 952400 (0.0008)
+[2023-07-06 15:34:56,486][98493] Updated weights for policy 0, policy_version 952450 (0.0006)
+[2023-07-06 15:34:56,608][98449] Signal inference workers to stop experience collection... (49150 times)
+[2023-07-06 15:34:56,632][98493] InferenceWorker_p0-w0: stopping experience collection (49150 times)
+[2023-07-06 15:34:56,707][98449] Signal inference workers to resume experience collection... (49150 times)
+[2023-07-06 15:34:56,707][98493] InferenceWorker_p0-w0: resuming experience collection (49150 times)
+[2023-07-06 15:34:56,928][98493] Updated weights for policy 0, policy_version 952508 (0.0007)
+[2023-07-06 15:34:58,697][98493] Updated weights for policy 0, policy_version 952560 (0.0007)
+[2023-07-06 15:34:59,221][98493] Updated weights for policy 0, policy_version 952609 (0.0007)
+[2023-07-06 15:34:59,764][98243] Fps is (10 sec: 114688.5, 60 sec: 111411.3, 300 sec: 111078.0). Total num frames: 1951006720. Throughput: 0: 27830.0. Samples: 487798272. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:34:59,764][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:34:59,880][98493] Updated weights for policy 0, policy_version 952664 (0.0007)
+[2023-07-06 15:35:01,184][98493] Updated weights for policy 0, policy_version 952707 (0.0006)
+[2023-07-06 15:35:01,630][98493] Updated weights for policy 0, policy_version 952767 (0.0007)
+[2023-07-06 15:35:03,100][98493] Updated weights for policy 0, policy_version 952804 (0.0006)
+[2023-07-06 15:35:03,622][98493] Updated weights for policy 0, policy_version 952848 (0.0006)
+[2023-07-06 15:35:04,283][98493] Updated weights for policy 0, policy_version 952912 (0.0007)
+[2023-07-06 15:35:04,764][98243] Fps is (10 sec: 121241.9, 60 sec: 113595.7, 300 sec: 111522.3). Total num frames: 1951662080. Throughput: 0: 27773.1. Samples: 487961088. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:04,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 15:35:06,294][98493] Updated weights for policy 0, policy_version 952979 (0.0007)
+[2023-07-06 15:35:06,596][98493] Updated weights for policy 0, policy_version 953022 (0.0006)
+[2023-07-06 15:35:07,686][98493] Updated weights for policy 0, policy_version 953073 (0.0007)
+[2023-07-06 15:35:08,280][98493] Updated weights for policy 0, policy_version 953136 (0.0008)
+[2023-07-06 15:35:09,218][98493] Updated weights for policy 0, policy_version 953184 (0.0007)
+[2023-07-06 15:35:09,479][98493] Updated weights for policy 0, policy_version 953214 (0.0006)
+[2023-07-06 15:35:09,764][98243] Fps is (10 sec: 117964.0, 60 sec: 113596.3, 300 sec: 111522.3). Total num frames: 1952186368. Throughput: 0: 27989.5. Samples: 488050176. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:35:11,244][98493] Updated weights for policy 0, policy_version 953273 (0.0008)
+[2023-07-06 15:35:12,274][98493] Updated weights for policy 0, policy_version 953312 (0.0007)
+[2023-07-06 15:35:12,707][98493] Updated weights for policy 0, policy_version 953360 (0.0007)
+[2023-07-06 15:35:13,585][98493] Updated weights for policy 0, policy_version 953409 (0.0006)
+[2023-07-06 15:35:14,039][98493] Updated weights for policy 0, policy_version 953466 (0.0007)
+[2023-07-06 15:35:14,764][98243] Fps is (10 sec: 104856.9, 60 sec: 112503.2, 300 sec: 111411.2). Total num frames: 1952710656. Throughput: 0: 27989.3. Samples: 488221184. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:35:15,310][98449] Signal inference workers to stop experience collection... (49200 times)
+[2023-07-06 15:35:15,363][98493] InferenceWorker_p0-w0: stopping experience collection (49200 times)
+[2023-07-06 15:35:15,419][98449] Signal inference workers to resume experience collection... (49200 times)
+[2023-07-06 15:35:15,420][98493] InferenceWorker_p0-w0: resuming experience collection (49200 times)
+[2023-07-06 15:35:15,530][98493] Updated weights for policy 0, policy_version 953510 (0.0008)
+[2023-07-06 15:35:16,904][98493] Updated weights for policy 0, policy_version 953568 (0.0008)
+[2023-07-06 15:35:17,543][98493] Updated weights for policy 0, policy_version 953640 (0.0007)
+[2023-07-06 15:35:18,666][98493] Updated weights for policy 0, policy_version 953686 (0.0007)
+[2023-07-06 15:35:19,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111411.1, 300 sec: 111189.0). Total num frames: 1953234944. Throughput: 0: 28080.4. Samples: 488390144. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:19,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 15:35:19,951][98493] Updated weights for policy 0, policy_version 953744 (0.0006)
+[2023-07-06 15:35:21,338][98493] Updated weights for policy 0, policy_version 953808 (0.0008)
+[2023-07-06 15:35:21,880][98493] Updated weights for policy 0, policy_version 953864 (0.0008)
+[2023-07-06 15:35:22,304][98493] Updated weights for policy 0, policy_version 953916 (0.0007)
+[2023-07-06 15:35:23,813][98493] Updated weights for policy 0, policy_version 953976 (0.0007)
+[2023-07-06 15:35:24,724][98493] Updated weights for policy 0, policy_version 954032 (0.0007)
+[2023-07-06 15:35:24,765][98243] Fps is (10 sec: 114682.9, 60 sec: 113049.1, 300 sec: 111411.1). Total num frames: 1953857536. Throughput: 0: 28011.8. Samples: 488471040. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:24,765][98243] Avg episode reward: [(0, '9.660')]
+[2023-07-06 15:35:26,363][98493] Updated weights for policy 0, policy_version 954070 (0.0008)
+[2023-07-06 15:35:26,811][98493] Updated weights for policy 0, policy_version 954117 (0.0007)
+[2023-07-06 15:35:27,262][98493] Updated weights for policy 0, policy_version 954172 (0.0007)
+[2023-07-06 15:35:28,708][98493] Updated weights for policy 0, policy_version 954224 (0.0007)
+[2023-07-06 15:35:29,242][98493] Updated weights for policy 0, policy_version 954278 (0.0007)
+[2023-07-06 15:35:29,764][98243] Fps is (10 sec: 117965.4, 60 sec: 113049.5, 300 sec: 111522.3). Total num frames: 1954414592. Throughput: 0: 28046.2. Samples: 488641536. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:29,765][98243] Avg episode reward: [(0, '9.690')]
+[2023-07-06 15:35:30,826][98493] Updated weights for policy 0, policy_version 954336 (0.0007)
+[2023-07-06 15:35:31,258][98493] Updated weights for policy 0, policy_version 954376 (0.0007)
+[2023-07-06 15:35:31,744][98493] Updated weights for policy 0, policy_version 954432 (0.0006)
+[2023-07-06 15:35:33,254][98449] Signal inference workers to stop experience collection... (49250 times)
+[2023-07-06 15:35:33,295][98493] InferenceWorker_p0-w0: stopping experience collection (49250 times)
+[2023-07-06 15:35:33,351][98449] Signal inference workers to resume experience collection... (49250 times)
+[2023-07-06 15:35:33,351][98493] InferenceWorker_p0-w0: resuming experience collection (49250 times)
+[2023-07-06 15:35:33,467][98493] Updated weights for policy 0, policy_version 954472 (0.0008)
+[2023-07-06 15:35:34,008][98493] Updated weights for policy 0, policy_version 954529 (0.0007)
+[2023-07-06 15:35:34,764][98243] Fps is (10 sec: 108139.0, 60 sec: 112503.5, 300 sec: 111522.3). Total num frames: 1954938880. Throughput: 0: 28103.0. Samples: 488809984. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:34,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:35:35,515][98493] Updated weights for policy 0, policy_version 954576 (0.0007)
+[2023-07-06 15:35:36,124][98493] Updated weights for policy 0, policy_version 954641 (0.0007)
+[2023-07-06 15:35:37,667][98493] Updated weights for policy 0, policy_version 954689 (0.0006)
+[2023-07-06 15:35:38,108][98493] Updated weights for policy 0, policy_version 954740 (0.0006)
+[2023-07-06 15:35:38,539][98493] Updated weights for policy 0, policy_version 954788 (0.0007)
+[2023-07-06 15:35:39,764][98243] Fps is (10 sec: 104857.1, 60 sec: 111957.2, 300 sec: 111522.2). Total num frames: 1955463168. Throughput: 0: 28148.6. Samples: 488895488. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:39,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:35:40,525][98493] Updated weights for policy 0, policy_version 954850 (0.0006)
+[2023-07-06 15:35:40,977][98493] Updated weights for policy 0, policy_version 954898 (0.0006)
+[2023-07-06 15:35:42,396][98493] Updated weights for policy 0, policy_version 954960 (0.0007)
+[2023-07-06 15:35:42,844][98493] Updated weights for policy 0, policy_version 955008 (0.0007)
+[2023-07-06 15:35:43,366][98493] Updated weights for policy 0, policy_version 955064 (0.0007)
+[2023-07-06 15:35:44,764][98243] Fps is (10 sec: 104858.3, 60 sec: 111411.1, 300 sec: 111189.0). Total num frames: 1955987456. Throughput: 0: 28023.4. Samples: 489059328. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:44,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:35:45,183][98493] Updated weights for policy 0, policy_version 955110 (0.0008)
+[2023-07-06 15:35:45,809][98493] Updated weights for policy 0, policy_version 955184 (0.0007)
+[2023-07-06 15:35:47,335][98493] Updated weights for policy 0, policy_version 955239 (0.0007)
+[2023-07-06 15:35:47,847][98493] Updated weights for policy 0, policy_version 955296 (0.0038)
+[2023-07-06 15:35:49,712][98493] Updated weights for policy 0, policy_version 955344 (0.0006)
+[2023-07-06 15:35:49,764][98243] Fps is (10 sec: 108135.4, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1956544512. Throughput: 0: 28239.7. Samples: 489231872. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:49,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:35:49,920][98449] Signal inference workers to stop experience collection... (49300 times)
+[2023-07-06 15:35:49,939][98493] InferenceWorker_p0-w0: stopping experience collection (49300 times)
+[2023-07-06 15:35:50,006][98449] Signal inference workers to resume experience collection... (49300 times)
+[2023-07-06 15:35:50,006][98493] InferenceWorker_p0-w0: resuming experience collection (49300 times)
+[2023-07-06 15:35:50,278][98493] Updated weights for policy 0, policy_version 955408 (0.0008)
+[2023-07-06 15:35:51,552][98493] Updated weights for policy 0, policy_version 955457 (0.0007)
+[2023-07-06 15:35:51,925][98493] Updated weights for policy 0, policy_version 955504 (0.0008)
+[2023-07-06 15:35:52,567][98493] Updated weights for policy 0, policy_version 955574 (0.0007)
+[2023-07-06 15:35:54,764][98243] Fps is (10 sec: 108134.7, 60 sec: 110319.0, 300 sec: 110855.8). Total num frames: 1957068800. Throughput: 0: 27921.1. Samples: 489306624. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:54,764][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:35:54,915][98493] Updated weights for policy 0, policy_version 955632 (0.0007)
+[2023-07-06 15:35:55,436][98493] Updated weights for policy 0, policy_version 955688 (0.0007)
+[2023-07-06 15:35:56,476][98493] Updated weights for policy 0, policy_version 955733 (0.0006)
+[2023-07-06 15:35:56,914][98493] Updated weights for policy 0, policy_version 955780 (0.0007)
+[2023-07-06 15:35:57,371][98493] Updated weights for policy 0, policy_version 955839 (0.0007)
+[2023-07-06 15:35:59,590][98493] Updated weights for policy 0, policy_version 955889 (0.0029)
+[2023-07-06 15:35:59,764][98243] Fps is (10 sec: 114687.5, 60 sec: 111411.1, 300 sec: 110967.0). Total num frames: 1957691392. Throughput: 0: 27966.6. Samples: 489479680. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:35:59,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:36:00,053][98493] Updated weights for policy 0, policy_version 955938 (0.0007)
+[2023-07-06 15:36:01,278][98493] Updated weights for policy 0, policy_version 956005 (0.0007)
+[2023-07-06 15:36:01,764][98493] Updated weights for policy 0, policy_version 956064 (0.0008)
+[2023-07-06 15:36:04,052][98493] Updated weights for policy 0, policy_version 956116 (0.0008)
+[2023-07-06 15:36:04,646][98493] Updated weights for policy 0, policy_version 956184 (0.0008)
+[2023-07-06 15:36:04,764][98243] Fps is (10 sec: 121240.4, 60 sec: 110318.8, 300 sec: 111077.9). Total num frames: 1958281216. Throughput: 0: 27898.3. Samples: 489645568. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:36:04,766][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:36:05,620][98493] Updated weights for policy 0, policy_version 956230 (0.0013)
+[2023-07-06 15:36:06,087][98449] Signal inference workers to stop experience collection... (49350 times)
+[2023-07-06 15:36:06,093][98493] Updated weights for policy 0, policy_version 956285 (0.0008)
+[2023-07-06 15:36:06,108][98449] Signal inference workers to resume experience collection... (49350 times)
+[2023-07-06 15:36:06,120][98493] InferenceWorker_p0-w0: stopping experience collection (49350 times)
+[2023-07-06 15:36:06,147][98493] InferenceWorker_p0-w0: resuming experience collection (49350 times)
+[2023-07-06 15:36:06,471][98493] Updated weights for policy 0, policy_version 956323 (0.0007)
+[2023-07-06 15:36:08,816][98493] Updated weights for policy 0, policy_version 956384 (0.0008)
+[2023-07-06 15:36:09,200][98493] Updated weights for policy 0, policy_version 956419 (0.0007)
+[2023-07-06 15:36:09,624][98493] Updated weights for policy 0, policy_version 956470 (0.0008)
+[2023-07-06 15:36:09,764][98243] Fps is (10 sec: 117964.0, 60 sec: 111411.1, 300 sec: 111077.9). Total num frames: 1958871040. Throughput: 0: 27955.5. Samples: 489729024. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:36:09,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:36:10,443][98493] Updated weights for policy 0, policy_version 956512 (0.0006)
+[2023-07-06 15:36:10,920][98493] Updated weights for policy 0, policy_version 956561 (0.0008)
+[2023-07-06 15:36:13,217][98493] Updated weights for policy 0, policy_version 956609 (0.0007)
+[2023-07-06 15:36:13,660][98493] Updated weights for policy 0, policy_version 956661 (0.0006)
+[2023-07-06 15:36:14,213][98493] Updated weights for policy 0, policy_version 956730 (0.0007)
+[2023-07-06 15:36:14,764][98243] Fps is (10 sec: 111413.0, 60 sec: 111411.4, 300 sec: 111078.0). Total num frames: 1959395328. Throughput: 0: 27955.2. Samples: 489899520. Policy #0 lag: (min: 28.0, avg: 146.6, max: 300.0)
+[2023-07-06 15:36:14,764][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:36:15,363][98493] Updated weights for policy 0, policy_version 956792 (0.0007)
+[2023-07-06 15:36:15,960][98493] Updated weights for policy 0, policy_version 956836 (0.0010)
+[2023-07-06 15:36:17,953][98493] Updated weights for policy 0, policy_version 956880 (0.0006)
+[2023-07-06 15:36:18,477][98493] Updated weights for policy 0, policy_version 956934 (0.0008)
+[2023-07-06 15:36:18,948][98493] Updated weights for policy 0, policy_version 956991 (0.0007)
+[2023-07-06 15:36:19,764][98243] Fps is (10 sec: 108134.4, 60 sec: 111957.3, 300 sec: 111189.0). Total num frames: 1959952384. Throughput: 0: 27909.7. Samples: 490065920. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:19,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:36:20,091][98493] Updated weights for policy 0, policy_version 957054 (0.0008)
+[2023-07-06 15:36:20,781][98493] Updated weights for policy 0, policy_version 957115 (0.0007)
+[2023-07-06 15:36:22,896][98493] Updated weights for policy 0, policy_version 957173 (0.0008)
+[2023-07-06 15:36:23,410][98493] Updated weights for policy 0, policy_version 957205 (0.0007)
+[2023-07-06 15:36:24,202][98449] Signal inference workers to stop experience collection... (49400 times)
+[2023-07-06 15:36:24,209][98493] InferenceWorker_p0-w0: stopping experience collection (49400 times)
+[2023-07-06 15:36:24,282][98449] Signal inference workers to resume experience collection... (49400 times)
+[2023-07-06 15:36:24,282][98493] InferenceWorker_p0-w0: resuming experience collection (49400 times)
+[2023-07-06 15:36:24,284][98493] Updated weights for policy 0, policy_version 957264 (0.0007)
+[2023-07-06 15:36:24,765][98243] Fps is (10 sec: 117960.5, 60 sec: 111957.7, 300 sec: 111522.2). Total num frames: 1960574976. Throughput: 0: 27875.4. Samples: 490149888. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:24,766][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:36:24,887][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000957328_1960607744.pth...
+[2023-07-06 15:36:24,958][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000944256_1933836288.pth
+[2023-07-06 15:36:24,993][98493] Updated weights for policy 0, policy_version 957330 (0.0009)
+[2023-07-06 15:36:27,366][98493] Updated weights for policy 0, policy_version 957399 (0.0007)
+[2023-07-06 15:36:28,313][98493] Updated weights for policy 0, policy_version 957446 (0.0008)
+[2023-07-06 15:36:28,798][98493] Updated weights for policy 0, policy_version 957504 (0.0006)
+[2023-07-06 15:36:29,261][98493] Updated weights for policy 0, policy_version 957553 (0.0012)
+[2023-07-06 15:36:29,765][98243] Fps is (10 sec: 121235.5, 60 sec: 112502.4, 300 sec: 111522.3). Total num frames: 1961164800. Throughput: 0: 27943.5. Samples: 490316800. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:36:29,772][98493] Updated weights for policy 0, policy_version 957604 (0.0011)
+[2023-07-06 15:36:31,992][98493] Updated weights for policy 0, policy_version 957652 (0.0006)
+[2023-07-06 15:36:33,224][98493] Updated weights for policy 0, policy_version 957715 (0.0008)
+[2023-07-06 15:36:33,673][98493] Updated weights for policy 0, policy_version 957762 (0.0008)
+[2023-07-06 15:36:34,159][98493] Updated weights for policy 0, policy_version 957824 (0.0007)
+[2023-07-06 15:36:34,689][98493] Updated weights for policy 0, policy_version 957882 (0.0007)
+[2023-07-06 15:36:34,764][98243] Fps is (10 sec: 117966.7, 60 sec: 113595.7, 300 sec: 111522.2). Total num frames: 1961754624. Throughput: 0: 27704.8. Samples: 490478592. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:36:36,744][98493] Updated weights for policy 0, policy_version 957936 (0.0006)
+[2023-07-06 15:36:38,159][98493] Updated weights for policy 0, policy_version 957989 (0.0007)
+[2023-07-06 15:36:38,851][98493] Updated weights for policy 0, policy_version 958058 (0.0008)
+[2023-07-06 15:36:39,450][98493] Updated weights for policy 0, policy_version 958128 (0.0008)
+[2023-07-06 15:36:39,764][98243] Fps is (10 sec: 111417.3, 60 sec: 113595.8, 300 sec: 111522.3). Total num frames: 1962278912. Throughput: 0: 28080.3. Samples: 490570240. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:39,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:36:41,482][98493] Updated weights for policy 0, policy_version 958185 (0.0008)
+[2023-07-06 15:36:42,792][98449] Signal inference workers to stop experience collection... (49450 times)
+[2023-07-06 15:36:42,834][98493] InferenceWorker_p0-w0: stopping experience collection (49450 times)
+[2023-07-06 15:36:42,842][98493] Updated weights for policy 0, policy_version 958232 (0.0007)
+[2023-07-06 15:36:42,877][98449] Signal inference workers to resume experience collection... (49450 times)
+[2023-07-06 15:36:42,877][98493] InferenceWorker_p0-w0: resuming experience collection (49450 times)
+[2023-07-06 15:36:43,329][98493] Updated weights for policy 0, policy_version 958288 (0.0008)
+[2023-07-06 15:36:44,002][98493] Updated weights for policy 0, policy_version 958368 (0.0009)
+[2023-07-06 15:36:44,764][98243] Fps is (10 sec: 104857.7, 60 sec: 113595.5, 300 sec: 111522.2). Total num frames: 1962803200. Throughput: 0: 27761.7. Samples: 490728960. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:36:45,957][98493] Updated weights for policy 0, policy_version 958424 (0.0006)
+[2023-07-06 15:36:47,585][98493] Updated weights for policy 0, policy_version 958468 (0.0006)
+[2023-07-06 15:36:48,201][98493] Updated weights for policy 0, policy_version 958530 (0.0007)
+[2023-07-06 15:36:48,704][98493] Updated weights for policy 0, policy_version 958592 (0.0007)
+[2023-07-06 15:36:49,227][98493] Updated weights for policy 0, policy_version 958650 (0.0007)
+[2023-07-06 15:36:49,764][98243] Fps is (10 sec: 104856.9, 60 sec: 113049.4, 300 sec: 111522.2). Total num frames: 1963327488. Throughput: 0: 27727.7. Samples: 490893312. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:49,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:36:50,823][98493] Updated weights for policy 0, policy_version 958689 (0.0007)
+[2023-07-06 15:36:52,227][98493] Updated weights for policy 0, policy_version 958752 (0.0006)
+[2023-07-06 15:36:52,982][98493] Updated weights for policy 0, policy_version 958788 (0.0006)
+[2023-07-06 15:36:53,570][98493] Updated weights for policy 0, policy_version 958855 (0.0007)
+[2023-07-06 15:36:54,012][98493] Updated weights for policy 0, policy_version 958904 (0.0007)
+[2023-07-06 15:36:54,764][98243] Fps is (10 sec: 104858.6, 60 sec: 113049.6, 300 sec: 111522.3). Total num frames: 1963851776. Throughput: 0: 27795.9. Samples: 490979840. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:54,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:36:55,504][98493] Updated weights for policy 0, policy_version 958944 (0.0011)
+[2023-07-06 15:36:56,950][98493] Updated weights for policy 0, policy_version 958992 (0.0007)
+[2023-07-06 15:36:57,541][98493] Updated weights for policy 0, policy_version 959044 (0.0008)
+[2023-07-06 15:36:58,035][98493] Updated weights for policy 0, policy_version 959104 (0.0008)
+[2023-07-06 15:36:58,545][98493] Updated weights for policy 0, policy_version 959160 (0.0008)
+[2023-07-06 15:36:59,764][98243] Fps is (10 sec: 104858.6, 60 sec: 111411.2, 300 sec: 111300.2). Total num frames: 1964376064. Throughput: 0: 27636.6. Samples: 491143168. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:36:59,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:37:00,127][98449] Signal inference workers to stop experience collection... (49500 times)
+[2023-07-06 15:37:00,165][98493] InferenceWorker_p0-w0: stopping experience collection (49500 times)
+[2023-07-06 15:37:00,207][98449] Signal inference workers to resume experience collection... (49500 times)
+[2023-07-06 15:37:00,208][98493] InferenceWorker_p0-w0: resuming experience collection (49500 times)
+[2023-07-06 15:37:00,281][98493] Updated weights for policy 0, policy_version 959204 (0.0007)
+[2023-07-06 15:37:01,968][98493] Updated weights for policy 0, policy_version 959266 (0.0007)
+[2023-07-06 15:37:02,470][98493] Updated weights for policy 0, policy_version 959328 (0.0007)
+[2023-07-06 15:37:02,979][98493] Updated weights for policy 0, policy_version 959384 (0.0007)
+[2023-07-06 15:37:04,764][98243] Fps is (10 sec: 104859.0, 60 sec: 110319.3, 300 sec: 111189.1). Total num frames: 1964900352. Throughput: 0: 27761.9. Samples: 491315200. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:04,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 15:37:04,766][98493] Updated weights for policy 0, policy_version 959440 (0.0006)
+[2023-07-06 15:37:05,162][98493] Updated weights for policy 0, policy_version 959484 (0.0006)
+[2023-07-06 15:37:06,848][98493] Updated weights for policy 0, policy_version 959536 (0.0007)
+[2023-07-06 15:37:07,370][98493] Updated weights for policy 0, policy_version 959589 (0.0016)
+[2023-07-06 15:37:07,951][98493] Updated weights for policy 0, policy_version 959655 (0.0006)
+[2023-07-06 15:37:09,426][98493] Updated weights for policy 0, policy_version 959687 (0.0007)
+[2023-07-06 15:37:09,764][98243] Fps is (10 sec: 111411.8, 60 sec: 110319.2, 300 sec: 111300.1). Total num frames: 1965490176. Throughput: 0: 27659.6. Samples: 491394560. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:09,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:37:09,862][98493] Updated weights for policy 0, policy_version 959738 (0.0006)
+[2023-07-06 15:37:11,530][98493] Updated weights for policy 0, policy_version 959795 (0.0008)
+[2023-07-06 15:37:12,091][98493] Updated weights for policy 0, policy_version 959860 (0.0008)
+[2023-07-06 15:37:12,579][98493] Updated weights for policy 0, policy_version 959921 (0.0007)
+[2023-07-06 15:37:14,347][98493] Updated weights for policy 0, policy_version 959984 (0.0007)
+[2023-07-06 15:37:14,765][98243] Fps is (10 sec: 117959.9, 60 sec: 111410.5, 300 sec: 111300.0). Total num frames: 1966080000. Throughput: 0: 27716.4. Samples: 491564032. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:14,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:37:16,021][98493] Updated weights for policy 0, policy_version 960037 (0.0008)
+[2023-07-06 15:37:16,387][98493] Updated weights for policy 0, policy_version 960069 (0.0007)
+[2023-07-06 15:37:16,616][98449] Signal inference workers to stop experience collection... (49550 times)
+[2023-07-06 15:37:16,660][98493] InferenceWorker_p0-w0: stopping experience collection (49550 times)
+[2023-07-06 15:37:16,709][98449] Signal inference workers to resume experience collection... (49550 times)
+[2023-07-06 15:37:16,709][98493] InferenceWorker_p0-w0: resuming experience collection (49550 times)
+[2023-07-06 15:37:16,856][98493] Updated weights for policy 0, policy_version 960128 (0.0007)
+[2023-07-06 15:37:17,353][98493] Updated weights for policy 0, policy_version 960188 (0.0007)
+[2023-07-06 15:37:18,860][98493] Updated weights for policy 0, policy_version 960240 (0.0007)
+[2023-07-06 15:37:19,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110865.3, 300 sec: 111078.0). Total num frames: 1966604288. Throughput: 0: 27818.8. Samples: 491730432. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:19,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:37:20,757][98493] Updated weights for policy 0, policy_version 960288 (0.0008)
+[2023-07-06 15:37:21,323][98493] Updated weights for policy 0, policy_version 960352 (0.0007)
+[2023-07-06 15:37:21,954][98493] Updated weights for policy 0, policy_version 960401 (0.0007)
+[2023-07-06 15:37:23,262][98493] Updated weights for policy 0, policy_version 960451 (0.0006)
+[2023-07-06 15:37:23,714][98493] Updated weights for policy 0, policy_version 960512 (0.0007)
+[2023-07-06 15:37:24,764][98243] Fps is (10 sec: 104860.0, 60 sec: 109227.1, 300 sec: 111077.9). Total num frames: 1967128576. Throughput: 0: 27568.3. Samples: 491810816. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:37:25,677][98493] Updated weights for policy 0, policy_version 960566 (0.0007)
+[2023-07-06 15:37:26,201][98493] Updated weights for policy 0, policy_version 960624 (0.0008)
+[2023-07-06 15:37:26,685][98493] Updated weights for policy 0, policy_version 960663 (0.0016)
+[2023-07-06 15:37:26,986][98493] Updated weights for policy 0, policy_version 960702 (0.0007)
+[2023-07-06 15:37:28,292][98493] Updated weights for policy 0, policy_version 960752 (0.0007)
+[2023-07-06 15:37:29,764][98243] Fps is (10 sec: 104857.2, 60 sec: 108135.4, 300 sec: 110966.9). Total num frames: 1967652864. Throughput: 0: 27830.1. Samples: 491981312. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:29,765][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:37:30,262][98493] Updated weights for policy 0, policy_version 960816 (0.0007)
+[2023-07-06 15:37:30,807][98493] Updated weights for policy 0, policy_version 960880 (0.0007)
+[2023-07-06 15:37:31,387][98493] Updated weights for policy 0, policy_version 960933 (0.0007)
+[2023-07-06 15:37:32,857][98493] Updated weights for policy 0, policy_version 960999 (0.0007)
+[2023-07-06 15:37:34,764][98243] Fps is (10 sec: 108134.2, 60 sec: 107588.3, 300 sec: 110966.8). Total num frames: 1968209920. Throughput: 0: 28023.5. Samples: 492154368. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:34,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:37:34,769][98493] Updated weights for policy 0, policy_version 961044 (0.0006)
+[2023-07-06 15:37:35,046][98449] Signal inference workers to stop experience collection... (49600 times)
+[2023-07-06 15:37:35,077][98493] InferenceWorker_p0-w0: stopping experience collection (49600 times)
+[2023-07-06 15:37:35,143][98449] Signal inference workers to resume experience collection... (49600 times)
+[2023-07-06 15:37:35,144][98493] InferenceWorker_p0-w0: resuming experience collection (49600 times)
+[2023-07-06 15:37:35,222][98493] Updated weights for policy 0, policy_version 961093 (0.0007)
+[2023-07-06 15:37:35,810][98493] Updated weights for policy 0, policy_version 961154 (0.0008)
+[2023-07-06 15:37:36,279][98493] Updated weights for policy 0, policy_version 961212 (0.0008)
+[2023-07-06 15:37:37,710][98493] Updated weights for policy 0, policy_version 961251 (0.0007)
+[2023-07-06 15:37:39,233][98493] Updated weights for policy 0, policy_version 961286 (0.0006)
+[2023-07-06 15:37:39,764][98243] Fps is (10 sec: 117964.9, 60 sec: 109226.7, 300 sec: 110966.9). Total num frames: 1968832512. Throughput: 0: 27852.8. Samples: 492233216. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:39,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:37:39,786][98493] Updated weights for policy 0, policy_version 961348 (0.0007)
+[2023-07-06 15:37:40,585][98493] Updated weights for policy 0, policy_version 961411 (0.0006)
+[2023-07-06 15:37:41,003][98493] Updated weights for policy 0, policy_version 961464 (0.0007)
+[2023-07-06 15:37:42,206][98493] Updated weights for policy 0, policy_version 961511 (0.0006)
+[2023-07-06 15:37:44,082][98493] Updated weights for policy 0, policy_version 961568 (0.0006)
+[2023-07-06 15:37:44,620][98493] Updated weights for policy 0, policy_version 961632 (0.0006)
+[2023-07-06 15:37:44,764][98243] Fps is (10 sec: 124521.2, 60 sec: 110865.5, 300 sec: 111300.2). Total num frames: 1969455104. Throughput: 0: 28080.4. Samples: 492406784. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:44,764][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:37:45,608][98493] Updated weights for policy 0, policy_version 961696 (0.0007)
+[2023-07-06 15:37:46,631][98493] Updated weights for policy 0, policy_version 961744 (0.0006)
+[2023-07-06 15:37:48,923][98493] Updated weights for policy 0, policy_version 961808 (0.0010)
+[2023-07-06 15:37:49,428][98493] Updated weights for policy 0, policy_version 961859 (0.0011)
+[2023-07-06 15:37:49,764][98243] Fps is (10 sec: 111411.2, 60 sec: 110319.1, 300 sec: 110855.8). Total num frames: 1969946624. Throughput: 0: 27875.5. Samples: 492569600. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:37:49,799][98493] Updated weights for policy 0, policy_version 961904 (0.0008)
+[2023-07-06 15:37:50,433][98493] Updated weights for policy 0, policy_version 961979 (0.0006)
+[2023-07-06 15:37:51,653][98449] Signal inference workers to stop experience collection... (49650 times)
+[2023-07-06 15:37:51,698][98493] InferenceWorker_p0-w0: stopping experience collection (49650 times)
+[2023-07-06 15:37:51,737][98449] Signal inference workers to resume experience collection... (49650 times)
+[2023-07-06 15:37:51,737][98493] InferenceWorker_p0-w0: resuming experience collection (49650 times)
+[2023-07-06 15:37:51,874][98493] Updated weights for policy 0, policy_version 962048 (0.0008)
+[2023-07-06 15:37:54,106][98493] Updated weights for policy 0, policy_version 962112 (0.0007)
+[2023-07-06 15:37:54,632][98493] Updated weights for policy 0, policy_version 962165 (0.0007)
+[2023-07-06 15:37:54,764][98243] Fps is (10 sec: 108132.3, 60 sec: 111411.1, 300 sec: 111077.9). Total num frames: 1970536448. Throughput: 0: 27921.0. Samples: 492651008. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:54,765][98243] Avg episode reward: [(0, '9.710')]
+[2023-07-06 15:37:55,052][98493] Updated weights for policy 0, policy_version 962214 (0.0008)
+[2023-07-06 15:37:56,376][98493] Updated weights for policy 0, policy_version 962272 (0.0007)
+[2023-07-06 15:37:58,259][98493] Updated weights for policy 0, policy_version 962330 (0.0006)
+[2023-07-06 15:37:58,790][98493] Updated weights for policy 0, policy_version 962394 (0.0006)
+[2023-07-06 15:37:59,750][98493] Updated weights for policy 0, policy_version 962464 (0.0007)
+[2023-07-06 15:37:59,764][98243] Fps is (10 sec: 117964.7, 60 sec: 112503.4, 300 sec: 111300.2). Total num frames: 1971126272. Throughput: 0: 27830.2. Samples: 492816384. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:37:59,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:38:00,015][98493] Updated weights for policy 0, policy_version 962494 (0.0007)
+[2023-07-06 15:38:01,636][98493] Updated weights for policy 0, policy_version 962555 (0.0007)
+[2023-07-06 15:38:03,293][98493] Updated weights for policy 0, policy_version 962616 (0.0007)
+[2023-07-06 15:38:03,699][98493] Updated weights for policy 0, policy_version 962663 (0.0007)
+[2023-07-06 15:38:04,239][98493] Updated weights for policy 0, policy_version 962704 (0.0007)
+[2023-07-06 15:38:04,611][98493] Updated weights for policy 0, policy_version 962746 (0.0007)
+[2023-07-06 15:38:04,764][98243] Fps is (10 sec: 117964.5, 60 sec: 113595.4, 300 sec: 111522.2). Total num frames: 1971716096. Throughput: 0: 27795.8. Samples: 492981248. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:38:04,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 15:38:06,162][98493] Updated weights for policy 0, policy_version 962800 (0.0007)
+[2023-07-06 15:38:07,535][98493] Updated weights for policy 0, policy_version 962836 (0.0007)
+[2023-07-06 15:38:08,013][98493] Updated weights for policy 0, policy_version 962887 (0.0009)
+[2023-07-06 15:38:08,427][98493] Updated weights for policy 0, policy_version 962939 (0.0008)
+[2023-07-06 15:38:08,936][98449] Signal inference workers to stop experience collection... (49700 times)
+[2023-07-06 15:38:08,975][98493] InferenceWorker_p0-w0: stopping experience collection (49700 times)
+[2023-07-06 15:38:09,017][98449] Signal inference workers to resume experience collection... (49700 times)
+[2023-07-06 15:38:09,017][98493] InferenceWorker_p0-w0: resuming experience collection (49700 times)
+[2023-07-06 15:38:09,091][98493] Updated weights for policy 0, policy_version 962999 (0.0008)
+[2023-07-06 15:38:09,764][98243] Fps is (10 sec: 111409.7, 60 sec: 112503.1, 300 sec: 111522.2). Total num frames: 1972240384. Throughput: 0: 28012.1. Samples: 493071360. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:38:09,765][98243] Avg episode reward: [(0, '9.700')]
+[2023-07-06 15:38:10,709][98493] Updated weights for policy 0, policy_version 963040 (0.0006)
+[2023-07-06 15:38:12,396][98493] Updated weights for policy 0, policy_version 963111 (0.0007)
+[2023-07-06 15:38:12,897][98493] Updated weights for policy 0, policy_version 963168 (0.0007)
+[2023-07-06 15:38:13,615][98493] Updated weights for policy 0, policy_version 963221 (0.0007)
+[2023-07-06 15:38:14,764][98243] Fps is (10 sec: 104858.6, 60 sec: 111411.8, 300 sec: 111411.2). Total num frames: 1972764672. Throughput: 0: 27886.9. Samples: 493236224. Policy #0 lag: (min: 15.0, avg: 93.9, max: 271.0)
+[2023-07-06 15:38:14,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:38:15,373][98493] Updated weights for policy 0, policy_version 963290 (0.0035)
+[2023-07-06 15:38:16,767][98493] Updated weights for policy 0, policy_version 963330 (0.0006)
+[2023-07-06 15:38:17,348][98493] Updated weights for policy 0, policy_version 963394 (0.0007)
+[2023-07-06 15:38:17,888][98493] Updated weights for policy 0, policy_version 963456 (0.0007)
+[2023-07-06 15:38:18,428][98493] Updated weights for policy 0, policy_version 963514 (0.0006)
+[2023-07-06 15:38:19,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111410.8, 300 sec: 111189.1). Total num frames: 1973288960. Throughput: 0: 27773.1. Samples: 493404160. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:19,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:38:20,422][98493] Updated weights for policy 0, policy_version 963579 (0.0007)
+[2023-07-06 15:38:21,861][98493] Updated weights for policy 0, policy_version 963644 (0.0011)
+[2023-07-06 15:38:22,643][98493] Updated weights for policy 0, policy_version 963706 (0.0007)
+[2023-07-06 15:38:23,092][98493] Updated weights for policy 0, policy_version 963760 (0.0006)
+[2023-07-06 15:38:24,764][98243] Fps is (10 sec: 104857.4, 60 sec: 111411.3, 300 sec: 111300.1). Total num frames: 1973813248. Throughput: 0: 27807.3. Samples: 493484544. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:24,765][98243] Avg episode reward: [(0, '9.680')]
+[2023-07-06 15:38:24,975][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000963808_1973878784.pth...
+[2023-07-06 15:38:25,037][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000950736_1947107328.pth
+[2023-07-06 15:38:25,239][98493] Updated weights for policy 0, policy_version 963833 (0.0007)
+[2023-07-06 15:38:26,486][98493] Updated weights for policy 0, policy_version 963888 (0.0007)
+[2023-07-06 15:38:26,875][98493] Updated weights for policy 0, policy_version 963928 (0.0007)
+[2023-07-06 15:38:27,343][98449] Signal inference workers to stop experience collection... (49750 times)
+[2023-07-06 15:38:27,370][98493] InferenceWorker_p0-w0: stopping experience collection (49750 times)
+[2023-07-06 15:38:27,379][98493] Updated weights for policy 0, policy_version 963972 (0.0006)
+[2023-07-06 15:38:27,440][98449] Signal inference workers to resume experience collection... (49750 times)
+[2023-07-06 15:38:27,440][98493] InferenceWorker_p0-w0: resuming experience collection (49750 times)
+[2023-07-06 15:38:27,856][98493] Updated weights for policy 0, policy_version 964029 (0.0007)
+[2023-07-06 15:38:29,764][98243] Fps is (10 sec: 111413.2, 60 sec: 112503.5, 300 sec: 111189.0). Total num frames: 1974403072. Throughput: 0: 27727.6. Samples: 493654528. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:29,765][98243] Avg episode reward: [(0, '9.640')]
+[2023-07-06 15:38:29,915][98493] Updated weights for policy 0, policy_version 964087 (0.0007)
+[2023-07-06 15:38:31,002][98493] Updated weights for policy 0, policy_version 964120 (0.0006)
+[2023-07-06 15:38:31,543][98493] Updated weights for policy 0, policy_version 964178 (0.0009)
+[2023-07-06 15:38:31,928][98493] Updated weights for policy 0, policy_version 964218 (0.0007)
+[2023-07-06 15:38:32,499][98493] Updated weights for policy 0, policy_version 964282 (0.0006)
+[2023-07-06 15:38:34,599][98493] Updated weights for policy 0, policy_version 964336 (0.0006)
+[2023-07-06 15:38:34,764][98243] Fps is (10 sec: 117965.3, 60 sec: 113049.8, 300 sec: 111300.1). Total num frames: 1974992896. Throughput: 0: 27886.9. Samples: 493824512. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:34,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:38:35,873][98493] Updated weights for policy 0, policy_version 964400 (0.0007)
+[2023-07-06 15:38:36,404][98493] Updated weights for policy 0, policy_version 964456 (0.0030)
+[2023-07-06 15:38:36,960][98493] Updated weights for policy 0, policy_version 964516 (0.0008)
+[2023-07-06 15:38:38,909][98493] Updated weights for policy 0, policy_version 964552 (0.0007)
+[2023-07-06 15:38:39,348][98493] Updated weights for policy 0, policy_version 964605 (0.0007)
+[2023-07-06 15:38:39,764][98243] Fps is (10 sec: 111408.8, 60 sec: 111410.8, 300 sec: 111077.9). Total num frames: 1975517184. Throughput: 0: 27852.7. Samples: 493904384. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:38:40,571][98493] Updated weights for policy 0, policy_version 964657 (0.0007)
+[2023-07-06 15:38:40,998][98493] Updated weights for policy 0, policy_version 964696 (0.0007)
+[2023-07-06 15:38:41,586][98493] Updated weights for policy 0, policy_version 964752 (0.0007)
+[2023-07-06 15:38:41,962][98493] Updated weights for policy 0, policy_version 964796 (0.0006)
+[2023-07-06 15:38:43,791][98493] Updated weights for policy 0, policy_version 964858 (0.0007)
+[2023-07-06 15:38:44,764][98243] Fps is (10 sec: 104854.8, 60 sec: 109772.1, 300 sec: 111077.9). Total num frames: 1976041472. Throughput: 0: 27943.7. Samples: 494073856. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:44,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:38:45,065][98493] Updated weights for policy 0, policy_version 964896 (0.0007)
+[2023-07-06 15:38:45,570][98449] Signal inference workers to stop experience collection... (49800 times)
+[2023-07-06 15:38:45,593][98493] InferenceWorker_p0-w0: stopping experience collection (49800 times)
+[2023-07-06 15:38:45,654][98449] Signal inference workers to resume experience collection... (49800 times)
+[2023-07-06 15:38:45,654][98493] InferenceWorker_p0-w0: resuming experience collection (49800 times)
+[2023-07-06 15:38:45,750][98493] Updated weights for policy 0, policy_version 964951 (0.0007)
+[2023-07-06 15:38:46,293][98493] Updated weights for policy 0, policy_version 965009 (0.0007)
+[2023-07-06 15:38:46,683][98493] Updated weights for policy 0, policy_version 965056 (0.0007)
+[2023-07-06 15:38:48,581][98493] Updated weights for policy 0, policy_version 965113 (0.0008)
+[2023-07-06 15:38:49,765][98243] Fps is (10 sec: 111409.3, 60 sec: 111410.5, 300 sec: 111300.0). Total num frames: 1976631296. Throughput: 0: 28034.7. Samples: 494242816. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:49,766][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:38:49,820][98493] Updated weights for policy 0, policy_version 965168 (0.0006)
+[2023-07-06 15:38:50,688][98493] Updated weights for policy 0, policy_version 965219 (0.0006)
+[2023-07-06 15:38:51,227][98493] Updated weights for policy 0, policy_version 965287 (0.0032)
+[2023-07-06 15:38:53,273][98493] Updated weights for policy 0, policy_version 965349 (0.0007)
+[2023-07-06 15:38:54,185][98493] Updated weights for policy 0, policy_version 965401 (0.0006)
+[2023-07-06 15:38:54,498][98493] Updated weights for policy 0, policy_version 965440 (0.0007)
+[2023-07-06 15:38:54,764][98243] Fps is (10 sec: 117965.7, 60 sec: 111411.0, 300 sec: 111522.2). Total num frames: 1977221120. Throughput: 0: 27898.3. Samples: 494326784. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:54,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:38:55,486][98493] Updated weights for policy 0, policy_version 965494 (0.0007)
+[2023-07-06 15:38:56,030][98493] Updated weights for policy 0, policy_version 965560 (0.0008)
+[2023-07-06 15:38:57,803][98493] Updated weights for policy 0, policy_version 965600 (0.0006)
+[2023-07-06 15:38:59,040][98493] Updated weights for policy 0, policy_version 965650 (0.0006)
+[2023-07-06 15:38:59,764][98243] Fps is (10 sec: 111414.9, 60 sec: 110318.9, 300 sec: 111522.3). Total num frames: 1977745408. Throughput: 0: 27943.8. Samples: 494493696. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:38:59,765][98243] Avg episode reward: [(0, '9.620')]
+[2023-07-06 15:39:00,119][98493] Updated weights for policy 0, policy_version 965718 (0.0007)
+[2023-07-06 15:39:00,673][98493] Updated weights for policy 0, policy_version 965782 (0.0008)
+[2023-07-06 15:39:02,376][98493] Updated weights for policy 0, policy_version 965840 (0.0007)
+[2023-07-06 15:39:03,828][98493] Updated weights for policy 0, policy_version 965891 (0.0007)
+[2023-07-06 15:39:03,951][98449] Signal inference workers to stop experience collection... (49850 times)
+[2023-07-06 15:39:03,969][98493] InferenceWorker_p0-w0: stopping experience collection (49850 times)
+[2023-07-06 15:39:04,045][98449] Signal inference workers to resume experience collection... (49850 times)
+[2023-07-06 15:39:04,046][98493] InferenceWorker_p0-w0: resuming experience collection (49850 times)
+[2023-07-06 15:39:04,266][98493] Updated weights for policy 0, policy_version 965949 (0.0007)
+[2023-07-06 15:39:04,764][98243] Fps is (10 sec: 108136.5, 60 sec: 109773.0, 300 sec: 111633.5). Total num frames: 1978302464. Throughput: 0: 27852.9. Samples: 494657536. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:04,765][98243] Avg episode reward: [(0, '9.830')]
+[2023-07-06 15:39:05,088][98493] Updated weights for policy 0, policy_version 966002 (0.0007)
+[2023-07-06 15:39:05,572][98493] Updated weights for policy 0, policy_version 966064 (0.0007)
+[2023-07-06 15:39:07,165][98493] Updated weights for policy 0, policy_version 966106 (0.0006)
+[2023-07-06 15:39:08,684][98493] Updated weights for policy 0, policy_version 966168 (0.0009)
+[2023-07-06 15:39:09,366][98493] Updated weights for policy 0, policy_version 966211 (0.0007)
+[2023-07-06 15:39:09,764][98243] Fps is (10 sec: 114688.1, 60 sec: 110865.3, 300 sec: 111633.3). Total num frames: 1978892288. Throughput: 0: 27932.4. Samples: 494741504. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:09,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:39:09,926][98493] Updated weights for policy 0, policy_version 966276 (0.0007)
+[2023-07-06 15:39:10,373][98493] Updated weights for policy 0, policy_version 966331 (0.0006)
+[2023-07-06 15:39:12,020][98493] Updated weights for policy 0, policy_version 966393 (0.0013)
+[2023-07-06 15:39:13,547][98493] Updated weights for policy 0, policy_version 966432 (0.0007)
+[2023-07-06 15:39:14,175][98493] Updated weights for policy 0, policy_version 966499 (0.0007)
+[2023-07-06 15:39:14,665][98493] Updated weights for policy 0, policy_version 966551 (0.0008)
+[2023-07-06 15:39:14,764][98243] Fps is (10 sec: 121241.2, 60 sec: 112503.5, 300 sec: 111744.4). Total num frames: 1979514880. Throughput: 0: 27921.1. Samples: 494910976. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:14,765][98243] Avg episode reward: [(0, '9.810')]
+[2023-07-06 15:39:16,347][98493] Updated weights for policy 0, policy_version 966595 (0.0006)
+[2023-07-06 15:39:17,936][98493] Updated weights for policy 0, policy_version 966657 (0.0008)
+[2023-07-06 15:39:18,410][98493] Updated weights for policy 0, policy_version 966719 (0.0029)
+[2023-07-06 15:39:18,918][98493] Updated weights for policy 0, policy_version 966778 (0.0009)
+[2023-07-06 15:39:19,480][98493] Updated weights for policy 0, policy_version 966822 (0.0006)
+[2023-07-06 15:39:19,764][98243] Fps is (10 sec: 121241.8, 60 sec: 113596.0, 300 sec: 111966.7). Total num frames: 1980104704. Throughput: 0: 27693.5. Samples: 495070720. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:19,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:39:21,076][98449] Signal inference workers to stop experience collection... (49900 times)
+[2023-07-06 15:39:21,108][98493] InferenceWorker_p0-w0: stopping experience collection (49900 times)
+[2023-07-06 15:39:21,116][98493] Updated weights for policy 0, policy_version 966872 (0.0008)
+[2023-07-06 15:39:21,156][98449] Signal inference workers to resume experience collection... (49900 times)
+[2023-07-06 15:39:21,157][98493] InferenceWorker_p0-w0: resuming experience collection (49900 times)
+[2023-07-06 15:39:22,707][98493] Updated weights for policy 0, policy_version 966935 (0.0006)
+[2023-07-06 15:39:23,032][98493] Updated weights for policy 0, policy_version 966974 (0.0006)
+[2023-07-06 15:39:23,889][98493] Updated weights for policy 0, policy_version 967043 (0.0007)
+[2023-07-06 15:39:24,764][98243] Fps is (10 sec: 111409.9, 60 sec: 113595.5, 300 sec: 111855.4). Total num frames: 1980628992. Throughput: 0: 27921.1. Samples: 495160832. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:24,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:39:26,121][98493] Updated weights for policy 0, policy_version 967127 (0.0007)
+[2023-07-06 15:39:26,439][98493] Updated weights for policy 0, policy_version 967168 (0.0007)
+[2023-07-06 15:39:27,777][98493] Updated weights for policy 0, policy_version 967227 (0.0007)
+[2023-07-06 15:39:28,589][98493] Updated weights for policy 0, policy_version 967267 (0.0007)
+[2023-07-06 15:39:29,168][98493] Updated weights for policy 0, policy_version 967335 (0.0007)
+[2023-07-06 15:39:29,764][98243] Fps is (10 sec: 104857.7, 60 sec: 112503.4, 300 sec: 111744.5). Total num frames: 1981153280. Throughput: 0: 27750.6. Samples: 495322624. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:29,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:39:30,752][98493] Updated weights for policy 0, policy_version 967363 (0.0007)
+[2023-07-06 15:39:31,233][98493] Updated weights for policy 0, policy_version 967421 (0.0007)
+[2023-07-06 15:39:32,466][98493] Updated weights for policy 0, policy_version 967479 (0.0006)
+[2023-07-06 15:39:33,302][98493] Updated weights for policy 0, policy_version 967536 (0.0007)
+[2023-07-06 15:39:33,823][98493] Updated weights for policy 0, policy_version 967587 (0.0007)
+[2023-07-06 15:39:34,764][98243] Fps is (10 sec: 104858.9, 60 sec: 111411.2, 300 sec: 111633.4). Total num frames: 1981677568. Throughput: 0: 27659.6. Samples: 495487488. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:34,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:39:35,597][98493] Updated weights for policy 0, policy_version 967619 (0.0006)
+[2023-07-06 15:39:36,051][98493] Updated weights for policy 0, policy_version 967675 (0.0007)
+[2023-07-06 15:39:37,028][98493] Updated weights for policy 0, policy_version 967728 (0.0007)
+[2023-07-06 15:39:37,914][98493] Updated weights for policy 0, policy_version 967776 (0.0009)
+[2023-07-06 15:39:38,296][98493] Updated weights for policy 0, policy_version 967810 (0.0008)
+[2023-07-06 15:39:38,588][98449] Signal inference workers to stop experience collection... (49950 times)
+[2023-07-06 15:39:38,619][98493] InferenceWorker_p0-w0: stopping experience collection (49950 times)
+[2023-07-06 15:39:38,661][98449] Signal inference workers to resume experience collection... (49950 times)
+[2023-07-06 15:39:38,661][98493] InferenceWorker_p0-w0: resuming experience collection (49950 times)
+[2023-07-06 15:39:38,808][98493] Updated weights for policy 0, policy_version 967872 (0.0006)
+[2023-07-06 15:39:39,764][98243] Fps is (10 sec: 104857.0, 60 sec: 111411.5, 300 sec: 111522.3). Total num frames: 1982201856. Throughput: 0: 27705.0. Samples: 495573504. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:39,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:39:40,918][98493] Updated weights for policy 0, policy_version 967936 (0.0007)
+[2023-07-06 15:39:41,835][98493] Updated weights for policy 0, policy_version 967996 (0.0007)
+[2023-07-06 15:39:42,870][98493] Updated weights for policy 0, policy_version 968048 (0.0007)
+[2023-07-06 15:39:43,332][98493] Updated weights for policy 0, policy_version 968096 (0.0007)
+[2023-07-06 15:39:44,764][98243] Fps is (10 sec: 104857.2, 60 sec: 111411.6, 300 sec: 111411.2). Total num frames: 1982726144. Throughput: 0: 27591.1. Samples: 495735296. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:44,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:39:45,111][98493] Updated weights for policy 0, policy_version 968144 (0.0006)
+[2023-07-06 15:39:46,168][98493] Updated weights for policy 0, policy_version 968194 (0.0007)
+[2023-07-06 15:39:46,608][98493] Updated weights for policy 0, policy_version 968250 (0.0008)
+[2023-07-06 15:39:47,449][98493] Updated weights for policy 0, policy_version 968304 (0.0007)
+[2023-07-06 15:39:48,022][98493] Updated weights for policy 0, policy_version 968368 (0.0006)
+[2023-07-06 15:39:49,764][98243] Fps is (10 sec: 104857.3, 60 sec: 110319.5, 300 sec: 111189.0). Total num frames: 1983250432. Throughput: 0: 27830.0. Samples: 495909888. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:49,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:39:50,069][98493] Updated weights for policy 0, policy_version 968420 (0.0007)
+[2023-07-06 15:39:50,949][98493] Updated weights for policy 0, policy_version 968472 (0.0007)
+[2023-07-06 15:39:51,969][98493] Updated weights for policy 0, policy_version 968536 (0.0008)
+[2023-07-06 15:39:52,448][98493] Updated weights for policy 0, policy_version 968592 (0.0007)
+[2023-07-06 15:39:54,565][98493] Updated weights for policy 0, policy_version 968647 (0.0007)
+[2023-07-06 15:39:54,764][98243] Fps is (10 sec: 111410.6, 60 sec: 110319.1, 300 sec: 111300.1). Total num frames: 1983840256. Throughput: 0: 27648.0. Samples: 495985664. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:54,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:39:54,995][98493] Updated weights for policy 0, policy_version 968698 (0.0007)
+[2023-07-06 15:39:56,010][98493] Updated weights for policy 0, policy_version 968752 (0.0007)
+[2023-07-06 15:39:56,787][98493] Updated weights for policy 0, policy_version 968816 (0.0007)
+[2023-07-06 15:39:56,959][98449] Signal inference workers to stop experience collection... (50000 times)
+[2023-07-06 15:39:56,993][98493] InferenceWorker_p0-w0: stopping experience collection (50000 times)
+[2023-07-06 15:39:57,039][98449] Signal inference workers to resume experience collection... (50000 times)
+[2023-07-06 15:39:57,039][98493] InferenceWorker_p0-w0: resuming experience collection (50000 times)
+[2023-07-06 15:39:57,346][98493] Updated weights for policy 0, policy_version 968880 (0.0008)
+[2023-07-06 15:39:59,617][98493] Updated weights for policy 0, policy_version 968929 (0.0007)
+[2023-07-06 15:39:59,764][98243] Fps is (10 sec: 114689.0, 60 sec: 110865.1, 300 sec: 110966.9). Total num frames: 1984397312. Throughput: 0: 27693.5. Samples: 496157184. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:39:59,765][98243] Avg episode reward: [(0, '9.870')]
+[2023-07-06 15:40:00,459][98493] Updated weights for policy 0, policy_version 968977 (0.0007)
+[2023-07-06 15:40:01,143][98493] Updated weights for policy 0, policy_version 969040 (0.0007)
+[2023-07-06 15:40:01,645][98493] Updated weights for policy 0, policy_version 969091 (0.0007)
+[2023-07-06 15:40:02,131][98493] Updated weights for policy 0, policy_version 969152 (0.0007)
+[2023-07-06 15:40:04,621][98493] Updated weights for policy 0, policy_version 969209 (0.0006)
+[2023-07-06 15:40:04,764][98243] Fps is (10 sec: 111411.9, 60 sec: 110865.0, 300 sec: 111078.0). Total num frames: 1984954368. Throughput: 0: 27830.0. Samples: 496323072. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:40:04,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:40:05,164][98493] Updated weights for policy 0, policy_version 969252 (0.0007)
+[2023-07-06 15:40:05,941][98493] Updated weights for policy 0, policy_version 969312 (0.0006)
+[2023-07-06 15:40:06,419][98493] Updated weights for policy 0, policy_version 969350 (0.0007)
+[2023-07-06 15:40:06,846][98493] Updated weights for policy 0, policy_version 969402 (0.0007)
+[2023-07-06 15:40:09,418][98493] Updated weights for policy 0, policy_version 969456 (0.0007)
+[2023-07-06 15:40:09,764][98243] Fps is (10 sec: 111411.0, 60 sec: 110319.0, 300 sec: 111189.1). Total num frames: 1985511424. Throughput: 0: 27670.8. Samples: 496406016. Policy #0 lag: (min: 63.0, avg: 172.4, max: 319.0)
+[2023-07-06 15:40:09,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:40:09,905][98493] Updated weights for policy 0, policy_version 969508 (0.0007)
+[2023-07-06 15:40:10,467][98493] Updated weights for policy 0, policy_version 969568 (0.0007)
+[2023-07-06 15:40:11,395][98493] Updated weights for policy 0, policy_version 969632 (0.0008)
+[2023-07-06 15:40:14,005][98493] Updated weights for policy 0, policy_version 969680 (0.0006)
+[2023-07-06 15:40:14,654][98493] Updated weights for policy 0, policy_version 969747 (0.0007)
+[2023-07-06 15:40:14,764][98243] Fps is (10 sec: 111411.3, 60 sec: 109226.7, 300 sec: 111300.1). Total num frames: 1986068480. Throughput: 0: 27875.5. Samples: 496577024. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:14,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:40:15,207][98449] Signal inference workers to stop experience collection... (50050 times)
+[2023-07-06 15:40:15,243][98493] Updated weights for policy 0, policy_version 969810 (0.0007)
+[2023-07-06 15:40:15,252][98493] InferenceWorker_p0-w0: stopping experience collection (50050 times)
+[2023-07-06 15:40:15,308][98449] Signal inference workers to resume experience collection... (50050 times)
+[2023-07-06 15:40:15,309][98493] InferenceWorker_p0-w0: resuming experience collection (50050 times)
+[2023-07-06 15:40:15,574][98493] Updated weights for policy 0, policy_version 969852 (0.0007)
+[2023-07-06 15:40:16,284][98493] Updated weights for policy 0, policy_version 969905 (0.0007)
+[2023-07-06 15:40:18,643][98493] Updated weights for policy 0, policy_version 969952 (0.0011)
+[2023-07-06 15:40:19,126][98493] Updated weights for policy 0, policy_version 970000 (0.0007)
+[2023-07-06 15:40:19,672][98493] Updated weights for policy 0, policy_version 970052 (0.0006)
+[2023-07-06 15:40:19,764][98243] Fps is (10 sec: 117962.6, 60 sec: 109772.5, 300 sec: 111300.2). Total num frames: 1986691072. Throughput: 0: 27795.8. Samples: 496738304. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:19,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:40:20,130][98493] Updated weights for policy 0, policy_version 970106 (0.0006)
+[2023-07-06 15:40:20,941][98493] Updated weights for policy 0, policy_version 970149 (0.0008)
+[2023-07-06 15:40:23,524][98493] Updated weights for policy 0, policy_version 970208 (0.0007)
+[2023-07-06 15:40:24,026][98493] Updated weights for policy 0, policy_version 970260 (0.0007)
+[2023-07-06 15:40:24,477][98493] Updated weights for policy 0, policy_version 970311 (0.0008)
+[2023-07-06 15:40:24,764][98243] Fps is (10 sec: 117965.2, 60 sec: 110319.2, 300 sec: 111300.1). Total num frames: 1987248128. Throughput: 0: 27807.3. Samples: 496824832. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:24,764][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:40:24,926][98493] Updated weights for policy 0, policy_version 970366 (0.0007)
+[2023-07-06 15:40:24,936][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000970368_1987313664.pth...
+[2023-07-06 15:40:24,979][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000957328_1960607744.pth
+[2023-07-06 15:40:25,566][98493] Updated weights for policy 0, policy_version 970406 (0.0007)
+[2023-07-06 15:40:28,196][98493] Updated weights for policy 0, policy_version 970451 (0.0006)
+[2023-07-06 15:40:28,679][98493] Updated weights for policy 0, policy_version 970512 (0.0007)
+[2023-07-06 15:40:29,227][98493] Updated weights for policy 0, policy_version 970568 (0.0007)
+[2023-07-06 15:40:29,666][98493] Updated weights for policy 0, policy_version 970623 (0.0009)
+[2023-07-06 15:40:29,764][98243] Fps is (10 sec: 114689.9, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 1987837952. Throughput: 0: 27943.8. Samples: 496992768. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:29,765][98243] Avg episode reward: [(0, '9.770')]
+[2023-07-06 15:40:30,349][98493] Updated weights for policy 0, policy_version 970681 (0.0007)
+[2023-07-06 15:40:33,051][98493] Updated weights for policy 0, policy_version 970727 (0.0008)
+[2023-07-06 15:40:33,463][98449] Signal inference workers to stop experience collection... (50100 times)
+[2023-07-06 15:40:33,498][98493] InferenceWorker_p0-w0: stopping experience collection (50100 times)
+[2023-07-06 15:40:33,542][98449] Signal inference workers to resume experience collection... (50100 times)
+[2023-07-06 15:40:33,542][98493] InferenceWorker_p0-w0: resuming experience collection (50100 times)
+[2023-07-06 15:40:33,543][98493] Updated weights for policy 0, policy_version 970784 (0.0007)
+[2023-07-06 15:40:34,153][98493] Updated weights for policy 0, policy_version 970838 (0.0006)
+[2023-07-06 15:40:34,764][98243] Fps is (10 sec: 111409.1, 60 sec: 111410.9, 300 sec: 111522.2). Total num frames: 1988362240. Throughput: 0: 27636.6. Samples: 497153536. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:34,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:40:34,891][98493] Updated weights for policy 0, policy_version 970886 (0.0008)
+[2023-07-06 15:40:35,301][98493] Updated weights for policy 0, policy_version 970940 (0.0006)
+[2023-07-06 15:40:37,654][98493] Updated weights for policy 0, policy_version 970992 (0.0007)
+[2023-07-06 15:40:38,179][98493] Updated weights for policy 0, policy_version 971042 (0.0007)
+[2023-07-06 15:40:38,782][98493] Updated weights for policy 0, policy_version 971104 (0.0007)
+[2023-07-06 15:40:39,764][98243] Fps is (10 sec: 108133.4, 60 sec: 111957.2, 300 sec: 111633.3). Total num frames: 1988919296. Throughput: 0: 27909.7. Samples: 497241600. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:39,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:40:39,766][98493] Updated weights for policy 0, policy_version 971153 (0.0007)
+[2023-07-06 15:40:41,961][98493] Updated weights for policy 0, policy_version 971224 (0.0007)
+[2023-07-06 15:40:42,928][98493] Updated weights for policy 0, policy_version 971296 (0.0008)
+[2023-07-06 15:40:43,359][98493] Updated weights for policy 0, policy_version 971344 (0.0007)
+[2023-07-06 15:40:44,453][98493] Updated weights for policy 0, policy_version 971395 (0.0007)
+[2023-07-06 15:40:44,764][98243] Fps is (10 sec: 111412.8, 60 sec: 112503.5, 300 sec: 111633.3). Total num frames: 1989476352. Throughput: 0: 27659.4. Samples: 497401856. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:44,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:40:44,956][98493] Updated weights for policy 0, policy_version 971456 (0.0007)
+[2023-07-06 15:40:46,828][98493] Updated weights for policy 0, policy_version 971496 (0.0007)
+[2023-07-06 15:40:47,541][98493] Updated weights for policy 0, policy_version 971539 (0.0008)
+[2023-07-06 15:40:48,088][98493] Updated weights for policy 0, policy_version 971602 (0.0007)
+[2023-07-06 15:40:48,479][98493] Updated weights for policy 0, policy_version 971648 (0.0007)
+[2023-07-06 15:40:49,579][98493] Updated weights for policy 0, policy_version 971699 (0.0006)
+[2023-07-06 15:40:49,764][98243] Fps is (10 sec: 114689.6, 60 sec: 113595.9, 300 sec: 111855.5). Total num frames: 1990066176. Throughput: 0: 27704.9. Samples: 497569792. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:49,765][98243] Avg episode reward: [(0, '9.730')]
+[2023-07-06 15:40:51,307][98493] Updated weights for policy 0, policy_version 971744 (0.0007)
+[2023-07-06 15:40:52,089][98449] Signal inference workers to stop experience collection... (50150 times)
+[2023-07-06 15:40:52,104][98493] Updated weights for policy 0, policy_version 971777 (0.0007)
+[2023-07-06 15:40:52,118][98493] InferenceWorker_p0-w0: stopping experience collection (50150 times)
+[2023-07-06 15:40:52,179][98449] Signal inference workers to resume experience collection... (50150 times)
+[2023-07-06 15:40:52,179][98493] InferenceWorker_p0-w0: resuming experience collection (50150 times)
+[2023-07-06 15:40:52,537][98493] Updated weights for policy 0, policy_version 971828 (0.0006)
+[2023-07-06 15:40:53,090][98493] Updated weights for policy 0, policy_version 971900 (0.0009)
+[2023-07-06 15:40:54,235][98493] Updated weights for policy 0, policy_version 971961 (0.0007)
+[2023-07-06 15:40:54,764][98243] Fps is (10 sec: 111409.2, 60 sec: 112503.3, 300 sec: 111522.2). Total num frames: 1990590464. Throughput: 0: 27784.4. Samples: 497656320. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:54,765][98243] Avg episode reward: [(0, '9.850')]
+[2023-07-06 15:40:56,211][98493] Updated weights for policy 0, policy_version 972007 (0.0006)
+[2023-07-06 15:40:57,119][98493] Updated weights for policy 0, policy_version 972066 (0.0007)
+[2023-07-06 15:40:57,669][98493] Updated weights for policy 0, policy_version 972134 (0.0006)
+[2023-07-06 15:40:58,552][98493] Updated weights for policy 0, policy_version 972178 (0.0007)
+[2023-07-06 15:40:59,764][98243] Fps is (10 sec: 104857.8, 60 sec: 111957.4, 300 sec: 111300.2). Total num frames: 1991114752. Throughput: 0: 27625.3. Samples: 497820160. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:40:59,765][98243] Avg episode reward: [(0, '9.820')]
+[2023-07-06 15:41:00,906][98493] Updated weights for policy 0, policy_version 972240 (0.0007)
+[2023-07-06 15:41:01,448][98493] Updated weights for policy 0, policy_version 972304 (0.0008)
+[2023-07-06 15:41:02,090][98493] Updated weights for policy 0, policy_version 972368 (0.0008)
+[2023-07-06 15:41:03,257][98493] Updated weights for policy 0, policy_version 972422 (0.0007)
+[2023-07-06 15:41:03,660][98493] Updated weights for policy 0, policy_version 972473 (0.0007)
+[2023-07-06 15:41:04,764][98243] Fps is (10 sec: 104859.7, 60 sec: 111411.2, 300 sec: 111078.0). Total num frames: 1991639040. Throughput: 0: 27841.5. Samples: 497991168. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:04,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:41:05,863][98493] Updated weights for policy 0, policy_version 972528 (0.0007)
+[2023-07-06 15:41:06,537][98493] Updated weights for policy 0, policy_version 972584 (0.0007)
+[2023-07-06 15:41:07,111][98493] Updated weights for policy 0, policy_version 972656 (0.0007)
+[2023-07-06 15:41:08,333][98493] Updated weights for policy 0, policy_version 972707 (0.0007)
+[2023-07-06 15:41:09,764][98243] Fps is (10 sec: 104856.8, 60 sec: 110865.0, 300 sec: 111077.9). Total num frames: 1992163328. Throughput: 0: 27647.9. Samples: 498068992. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:09,765][98243] Avg episode reward: [(0, '9.840')]
+[2023-07-06 15:41:10,240][98449] Signal inference workers to stop experience collection... (50200 times)
+[2023-07-06 15:41:10,270][98493] InferenceWorker_p0-w0: stopping experience collection (50200 times)
+[2023-07-06 15:41:10,336][98449] Signal inference workers to resume experience collection... (50200 times)
+[2023-07-06 15:41:10,336][98493] InferenceWorker_p0-w0: resuming experience collection (50200 times)
+[2023-07-06 15:41:10,495][98493] Updated weights for policy 0, policy_version 972768 (0.0006)
+[2023-07-06 15:41:11,593][98493] Updated weights for policy 0, policy_version 972835 (0.0007)
+[2023-07-06 15:41:12,085][98493] Updated weights for policy 0, policy_version 972896 (0.0008)
+[2023-07-06 15:41:12,850][98493] Updated weights for policy 0, policy_version 972944 (0.0007)
+[2023-07-06 15:41:13,245][98493] Updated weights for policy 0, policy_version 972992 (0.0007)
+[2023-07-06 15:41:14,764][98243] Fps is (10 sec: 108134.5, 60 sec: 110865.1, 300 sec: 111078.0). Total num frames: 1992720384. Throughput: 0: 27636.6. Samples: 498236416. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:14,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:41:15,032][98493] Updated weights for policy 0, policy_version 973050 (0.0007)
+[2023-07-06 15:41:16,416][98493] Updated weights for policy 0, policy_version 973120 (0.0029)
+[2023-07-06 15:41:16,908][98493] Updated weights for policy 0, policy_version 973182 (0.0007)
+[2023-07-06 15:41:17,851][98493] Updated weights for policy 0, policy_version 973232 (0.0007)
+[2023-07-06 15:41:19,543][98493] Updated weights for policy 0, policy_version 973281 (0.0007)
+[2023-07-06 15:41:19,764][98243] Fps is (10 sec: 117966.2, 60 sec: 110865.6, 300 sec: 111078.1). Total num frames: 1993342976. Throughput: 0: 27796.1. Samples: 498404352. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:19,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:41:20,742][98493] Updated weights for policy 0, policy_version 973335 (0.0007)
+[2023-07-06 15:41:21,177][98493] Updated weights for policy 0, policy_version 973381 (0.0008)
+[2023-07-06 15:41:21,641][98493] Updated weights for policy 0, policy_version 973439 (0.0007)
+[2023-07-06 15:41:22,859][98493] Updated weights for policy 0, policy_version 973499 (0.0008)
+[2023-07-06 15:41:24,325][98493] Updated weights for policy 0, policy_version 973568 (0.0007)
+[2023-07-06 15:41:24,764][98243] Fps is (10 sec: 114687.7, 60 sec: 110318.9, 300 sec: 110856.0). Total num frames: 1993867264. Throughput: 0: 27670.8. Samples: 498486784. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:24,765][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:41:25,628][98493] Updated weights for policy 0, policy_version 973625 (0.0007)
+[2023-07-06 15:41:26,189][98493] Updated weights for policy 0, policy_version 973685 (0.0008)
+[2023-07-06 15:41:27,396][98493] Updated weights for policy 0, policy_version 973712 (0.0006)
+[2023-07-06 15:41:27,453][98449] Signal inference workers to stop experience collection... (50250 times)
+[2023-07-06 15:41:27,477][98493] InferenceWorker_p0-w0: stopping experience collection (50250 times)
+[2023-07-06 15:41:27,548][98449] Signal inference workers to resume experience collection... (50250 times)
+[2023-07-06 15:41:27,548][98493] InferenceWorker_p0-w0: resuming experience collection (50250 times)
+[2023-07-06 15:41:28,440][98493] Updated weights for policy 0, policy_version 973761 (0.0006)
+[2023-07-06 15:41:28,924][98493] Updated weights for policy 0, policy_version 973824 (0.0007)
+[2023-07-06 15:41:29,764][98243] Fps is (10 sec: 104856.8, 60 sec: 109226.7, 300 sec: 110633.7). Total num frames: 1994391552. Throughput: 0: 27852.8. Samples: 498655232. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:29,765][98243] Avg episode reward: [(0, '9.860')]
+[2023-07-06 15:41:30,155][98493] Updated weights for policy 0, policy_version 973874 (0.0007)
+[2023-07-06 15:41:30,739][98493] Updated weights for policy 0, policy_version 973920 (0.0007)
+[2023-07-06 15:41:32,004][98493] Updated weights for policy 0, policy_version 973968 (0.0007)
+[2023-07-06 15:41:33,209][98493] Updated weights for policy 0, policy_version 974019 (0.0008)
+[2023-07-06 15:41:34,614][98493] Updated weights for policy 0, policy_version 974082 (0.0008)
+[2023-07-06 15:41:34,764][98243] Fps is (10 sec: 108134.6, 60 sec: 109773.1, 300 sec: 110744.7). Total num frames: 1994948608. Throughput: 0: 27875.5. Samples: 498824192. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:34,765][98243] Avg episode reward: [(0, '9.750')]
+[2023-07-06 15:41:35,388][98493] Updated weights for policy 0, policy_version 974145 (0.0007)
+[2023-07-06 15:41:35,851][98493] Updated weights for policy 0, policy_version 974204 (0.0007)
+[2023-07-06 15:41:36,950][98493] Updated weights for policy 0, policy_version 974256 (0.0006)
+[2023-07-06 15:41:38,146][98493] Updated weights for policy 0, policy_version 974295 (0.0006)
+[2023-07-06 15:41:39,459][98493] Updated weights for policy 0, policy_version 974368 (0.0006)
+[2023-07-06 15:41:39,764][98243] Fps is (10 sec: 117965.3, 60 sec: 110865.4, 300 sec: 111078.0). Total num frames: 1995571200. Throughput: 0: 27784.7. Samples: 498906624. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:39,764][98243] Avg episode reward: [(0, '9.670')]
+[2023-07-06 15:41:39,780][98493] Updated weights for policy 0, policy_version 974400 (0.0007)
+[2023-07-06 15:41:40,371][98493] Updated weights for policy 0, policy_version 974456 (0.0007)
+[2023-07-06 15:41:41,846][98493] Updated weights for policy 0, policy_version 974522 (0.0006)
+[2023-07-06 15:41:42,981][98493] Updated weights for policy 0, policy_version 974576 (0.0007)
+[2023-07-06 15:41:44,103][98493] Updated weights for policy 0, policy_version 974613 (0.0007)
+[2023-07-06 15:41:44,634][98493] Updated weights for policy 0, policy_version 974672 (0.0007)
+[2023-07-06 15:41:44,764][98243] Fps is (10 sec: 117965.5, 60 sec: 110865.2, 300 sec: 111189.1). Total num frames: 1996128256. Throughput: 0: 27875.6. Samples: 499074560. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:44,764][98243] Avg episode reward: [(0, '9.790')]
+[2023-07-06 15:41:46,089][98493] Updated weights for policy 0, policy_version 974722 (0.0007)
+[2023-07-06 15:41:47,311][98449] Signal inference workers to stop experience collection... (50300 times)
+[2023-07-06 15:41:47,334][98493] InferenceWorker_p0-w0: stopping experience collection (50300 times)
+[2023-07-06 15:41:47,356][98493] Updated weights for policy 0, policy_version 974786 (0.0007)
+[2023-07-06 15:41:47,424][98449] Signal inference workers to resume experience collection... (50300 times)
+[2023-07-06 15:41:47,424][98493] InferenceWorker_p0-w0: resuming experience collection (50300 times)
+[2023-07-06 15:41:47,849][98493] Updated weights for policy 0, policy_version 974848 (0.0007)
+[2023-07-06 15:41:49,086][98493] Updated weights for policy 0, policy_version 974905 (0.0007)
+[2023-07-06 15:41:49,764][98243] Fps is (10 sec: 111411.1, 60 sec: 110319.0, 300 sec: 111300.1). Total num frames: 1996685312. Throughput: 0: 27750.4. Samples: 499239936. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:49,765][98243] Avg episode reward: [(0, '9.740')]
+[2023-07-06 15:41:49,954][98493] Updated weights for policy 0, policy_version 974968 (0.0007)
+[2023-07-06 15:41:51,168][98493] Updated weights for policy 0, policy_version 975013 (0.0006)
+[2023-07-06 15:41:52,325][98493] Updated weights for policy 0, policy_version 975079 (0.0007)
+[2023-07-06 15:41:53,268][98493] Updated weights for policy 0, policy_version 975107 (0.0006)
+[2023-07-06 15:41:53,705][98493] Updated weights for policy 0, policy_version 975159 (0.0006)
+[2023-07-06 15:41:54,550][98493] Updated weights for policy 0, policy_version 975227 (0.0015)
+[2023-07-06 15:41:54,764][98243] Fps is (10 sec: 114686.4, 60 sec: 111411.4, 300 sec: 111522.2). Total num frames: 1997275136. Throughput: 0: 27864.2. Samples: 499322880. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:54,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:41:56,003][98493] Updated weights for policy 0, policy_version 975291 (0.0007)
+[2023-07-06 15:41:57,123][98493] Updated weights for policy 0, policy_version 975344 (0.0007)
+[2023-07-06 15:41:57,931][98493] Updated weights for policy 0, policy_version 975384 (0.0006)
+[2023-07-06 15:41:59,000][98493] Updated weights for policy 0, policy_version 975431 (0.0007)
+[2023-07-06 15:41:59,764][98243] Fps is (10 sec: 111411.2, 60 sec: 111411.2, 300 sec: 111522.2). Total num frames: 1997799424. Throughput: 0: 27875.6. Samples: 499490816. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:41:59,765][98243] Avg episode reward: [(0, '9.800')]
+[2023-07-06 15:42:00,452][98493] Updated weights for policy 0, policy_version 975489 (0.0008)
+[2023-07-06 15:42:00,951][98493] Updated weights for policy 0, policy_version 975548 (0.0006)
+[2023-07-06 15:42:01,615][98493] Updated weights for policy 0, policy_version 975590 (0.0006)
+[2023-07-06 15:42:02,696][98493] Updated weights for policy 0, policy_version 975633 (0.0008)
+[2023-07-06 15:42:03,045][98493] Updated weights for policy 0, policy_version 975680 (0.0007)
+[2023-07-06 15:42:04,765][98243] Fps is (10 sec: 104854.5, 60 sec: 111410.5, 300 sec: 111300.0). Total num frames: 1998323712. Throughput: 0: 27920.8. Samples: 499660800. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:42:04,766][98243] Avg episode reward: [(0, '9.760')]
+[2023-07-06 15:42:05,218][98493] Updated weights for policy 0, policy_version 975749 (0.0007)
+[2023-07-06 15:42:05,734][98493] Updated weights for policy 0, policy_version 975807 (0.0007)
+[2023-07-06 15:42:06,265][98449] Signal inference workers to stop experience collection... (50350 times)
+[2023-07-06 15:42:06,311][98493] InferenceWorker_p0-w0: stopping experience collection (50350 times)
+[2023-07-06 15:42:06,392][98449] Signal inference workers to resume experience collection... (50350 times)
+[2023-07-06 15:42:06,392][98493] InferenceWorker_p0-w0: resuming experience collection (50350 times)
+[2023-07-06 15:42:06,474][98493] Updated weights for policy 0, policy_version 975864 (0.0008)
+[2023-07-06 15:42:07,550][98493] Updated weights for policy 0, policy_version 975929 (0.0007)
+[2023-07-06 15:42:08,618][98493] Updated weights for policy 0, policy_version 975971 (0.0008)
+[2023-07-06 15:42:09,765][98243] Fps is (10 sec: 104854.5, 60 sec: 111410.8, 300 sec: 111078.0). Total num frames: 1998848000. Throughput: 0: 27864.0. Samples: 499740672. Policy #0 lag: (min: 6.0, avg: 69.1, max: 262.0)
+[2023-07-06 15:42:09,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:42:09,992][98493] Updated weights for policy 0, policy_version 976032 (0.0007)
+[2023-07-06 15:42:10,943][98493] Updated weights for policy 0, policy_version 976096 (0.0006)
+[2023-07-06 15:42:12,020][98493] Updated weights for policy 0, policy_version 976144 (0.0007)
+[2023-07-06 15:42:13,227][98493] Updated weights for policy 0, policy_version 976195 (0.0006)
+[2023-07-06 15:42:13,679][98493] Updated weights for policy 0, policy_version 976251 (0.0006)
+[2023-07-06 15:42:14,697][98493] Updated weights for policy 0, policy_version 976304 (0.0007)
+[2023-07-06 15:42:14,764][98243] Fps is (10 sec: 114692.4, 60 sec: 112503.5, 300 sec: 111411.2). Total num frames: 1999470592. Throughput: 0: 27875.6. Samples: 499909632. Policy #0 lag: (min: 6.0, avg: 120.4, max: 262.0)
+[2023-07-06 15:42:14,765][98243] Avg episode reward: [(0, '9.720')]
+[2023-07-06 15:42:15,590][98493] Updated weights for policy 0, policy_version 976355 (0.0009)
+[2023-07-06 15:42:16,752][98493] Updated weights for policy 0, policy_version 976400 (0.0006)
+[2023-07-06 15:42:17,820][98493] Updated weights for policy 0, policy_version 976449 (0.0007)
+[2023-07-06 15:42:18,250][98493] Updated weights for policy 0, policy_version 976508 (0.0007)
+[2023-07-06 15:42:19,240][98493] Updated weights for policy 0, policy_version 976560 (0.0007)
+[2023-07-06 15:42:19,764][98243] Fps is (10 sec: 117968.0, 60 sec: 111411.1, 300 sec: 111522.3). Total num frames: 2000027648. Throughput: 0: 27932.4. Samples: 500081152. Policy #0 lag: (min: 6.0, avg: 120.4, max: 262.0)
+[2023-07-06 15:42:19,765][98243] Avg episode reward: [(0, '9.780')]
+[2023-07-06 15:42:19,921][98495] Stopping RolloutWorker_w2...
+[2023-07-06 15:42:19,921][98492] Stopping RolloutWorker_w0...
+[2023-07-06 15:42:19,921][98494] Stopping RolloutWorker_w1...
+[2023-07-06 15:42:19,921][98243] Component RolloutWorker_w2 stopped!
+[2023-07-06 15:42:19,921][98492] Loop rollout_proc0_evt_loop terminating...
+[2023-07-06 15:42:19,921][98495] Loop rollout_proc2_evt_loop terminating...
+[2023-07-06 15:42:19,921][98496] Stopping RolloutWorker_w3...
+[2023-07-06 15:42:19,921][98494] Loop rollout_proc1_evt_loop terminating...
+[2023-07-06 15:42:19,921][98496] Loop rollout_proc3_evt_loop terminating...
+[2023-07-06 15:42:19,921][98243] Component RolloutWorker_w1 stopped!
+[2023-07-06 15:42:19,922][98243] Component RolloutWorker_w0 stopped!
+[2023-07-06 15:42:19,922][98243] Component RolloutWorker_w3 stopped!
+[2023-07-06 15:42:19,982][98449] Stopping Batcher_0...
+[2023-07-06 15:42:19,982][98243] Component Batcher_0 stopped!
+[2023-07-06 15:42:19,983][98449] Loop batcher_evt_loop terminating...
+[2023-07-06 15:42:19,998][98493] Weights refcount: 2 0
+[2023-07-06 15:42:19,999][98493] Stopping InferenceWorker_p0-w0...
+[2023-07-06 15:42:19,999][98493] Loop inference_proc0-0_evt_loop terminating...
+[2023-07-06 15:42:19,999][98243] Component InferenceWorker_p0-w0 stopped!
+[2023-07-06 15:42:20,058][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000976608_2000093184.pth...
+[2023-07-06 15:42:20,084][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000963808_1973878784.pth
+[2023-07-06 15:42:20,180][98449] Saving train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000976624_2000125952.pth...
+[2023-07-06 15:42:20,198][98449] Removing train_dir/atari_2b/20221014_2B__atari_surround_1111/checkpoint_p0/checkpoint_000970368_1987313664.pth
+[2023-07-06 15:42:20,201][98449] Stopping LearnerWorker_p0...
+[2023-07-06 15:42:20,201][98243] Component LearnerWorker_p0 stopped!
+[2023-07-06 15:42:20,201][98449] Loop learner_proc0_evt_loop terminating...
+[2023-07-06 15:42:20,201][98243] Waiting for process learner_proc0 to stop...
+[2023-07-06 15:42:20,677][98243] Waiting for process inference_proc0-0 to join...
+[2023-07-06 15:42:20,677][98243] Waiting for process rollout_proc0 to join...
+[2023-07-06 15:42:20,677][98243] Waiting for process rollout_proc1 to join...
+[2023-07-06 15:42:20,677][98243] Waiting for process rollout_proc2 to join...
+[2023-07-06 15:42:20,677][98243] Waiting for process rollout_proc3 to join...
+[2023-07-06 15:42:20,677][98243] Batcher 0 profile tree view:
+batching: 1269.7024, releasing_batches: 2082.8411
+[2023-07-06 15:42:20,677][98243] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0051
+  wait_policy_total: 8924.3574
+update_model: 165.5688
+  weight_update: 0.0008
+one_step: 0.0401
+  handle_policy_step: 6681.5445
+    deserialize: 9.0489, stack: 670.4393, obs_to_device_normalize: 4338.5571, forward: 1283.2066, prepare_outputs: 260.0265, send_messages: 49.4367
+[2023-07-06 15:42:20,678][98243] Learner 0 profile tree view:
+misc: 0.2050, prepare_batch: 2947.7065
+train: 5657.5878
+  epoch_init: 1.6077, minibatch_init: 63.7073, losses_postprocess: 547.5264, kl_divergence: 237.6841, update: 2312.3538, after_optimizer: 1406.8866
+  calculate_losses: 1007.0637
+    losses_init: 2.1363, forward_head: 336.9467, bptt_initial: 7.8460, bptt: 9.2566, tail: 233.1102, advantages_returns: 64.7268, losses: 279.0909
+[2023-07-06 15:42:20,678][98243] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.3248, enqueue_policy_requests: 762.9936, process_policy_outputs: 29.6739, env_step: 12828.8403, finalize_trajectories: 10.9515, complete_rollouts: 1.6076
+post_env_step: 121.2250
+  process_env_step: 17.9174
+[2023-07-06 15:42:20,678][98243] RolloutWorker_w3 profile tree view:
+wait_for_trajectories: 0.3280, enqueue_policy_requests: 767.1297, process_policy_outputs: 29.8499, env_step: 12817.4488, finalize_trajectories: 11.1227, complete_rollouts: 2.2310
+post_env_step: 120.2989
+  process_env_step: 17.6785
+[2023-07-06 15:42:20,678][98243] Loop Runner_EvtLoop terminating...
+[2023-07-06 15:42:20,678][98243] Runner profile tree view:
+main_loop: 17988.5962
+[2023-07-06 15:42:20,678][98243] Collected {0: 2000125952}, FPS: 111188.6