diff --git "a/sf_log.txt" "b/sf_log.txt"
--- "a/sf_log.txt"
+++ "b/sf_log.txt"
@@ -16939,3 +16939,1999 @@ omegaconf.errors.ConfigAttributeError: Missing key count
 [2024-06-06 16:30:57,318][24114] Fps is (10 sec: 44263.0, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 747388928. Throughput: 0: 44495.1. Samples: 228684900. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
 [2024-06-06 16:30:57,318][24114] Avg episode reward: [(0, '0.273')]
 [2024-06-06 16:30:57,361][24347] Updated weights for policy 0, policy_version 45618 (0.0040)
+[2024-06-06 16:33:45,098][24114] Fps is (10 sec: 1896.5, 60 sec: 11473.0, 300 sec: 28524.7). Total num frames: 747470848. Throughput: 0: 9658.8. Samples: 228821180. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,098][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,105][24114] Fps is (10 sec: 488.2, 60 sec: 10532.1, 300 sec: 28332.7). Total num frames: 747470848. Throughput: 0: 8597.0. Samples: 228821180. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,106][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,113][24114] Fps is (10 sec: 0.0, 60 sec: 9855.3, 300 sec: 28173.2). Total num frames: 747470848. Throughput: 0: 7424.6. Samples: 228821180. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,113][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,119][24114] Fps is (10 sec: 0.0, 60 sec: 8988.3, 300 sec: 27972.9). Total num frames: 747470848. Throughput: 0: 6947.1. Samples: 228821180. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,119][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,129][24114] Fps is (10 sec: 0.0, 60 sec: 8078.4, 300 sec: 27767.5). Total num frames: 747470848. Throughput: 0: 5747.5. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,129][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,134][24114] Fps is (10 sec: 0.0, 60 sec: 7288.6, 300 sec: 27595.9). Total num frames: 747470848. Throughput: 0: 4410.2. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,134][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,138][24114] Fps is (10 sec: 0.0, 60 sec: 6287.8, 300 sec: 27382.0). Total num frames: 747470848. Throughput: 0: 3773.6. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,138][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,142][24114] Fps is (10 sec: 0.0, 60 sec: 5233.8, 300 sec: 27201.8). Total num frames: 747470848. Throughput: 0: 2377.6. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,142][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,145][24114] Fps is (10 sec: 0.0, 60 sec: 4032.7, 300 sec: 26978.1). Total num frames: 747470848. Throughput: 0: 826.6. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,145][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,149][24114] Fps is (10 sec: 0.0, 60 sec: 2948.3, 300 sec: 26788.7). Total num frames: 747470848. Throughput: 0: 47923.9. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,149][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,153][24114] Fps is (10 sec: 0.0, 60 sec: 1895.9, 300 sec: 26554.5). Total num frames: 747470848. Throughput: 0: 50657.3. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,153][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,169][24114] Fps is (10 sec: 0.0, 60 sec: 488.1, 300 sec: 26272.9). Total num frames: 747470848. Throughput: 0: 43581.1. Samples: 228823620. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,169][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,173][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 26067.5). Total num frames: 747470848. Throughput: 0: 66921.6. Samples: 228824800. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,173][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,177][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 25856.8). Total num frames: 747470848. Throughput: 0: 24559.9. Samples: 228824800. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,177][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,182][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 25556.2). Total num frames: 747470848. Throughput: 0: 24539.6. Samples: 228824800. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,182][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,185][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 25376.2). Total num frames: 747470848. Throughput: 0: 25097.4. Samples: 228824800. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,185][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,186][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000045623_747487232.pth...
+[2024-06-06 16:33:45,206][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 25103.6). Total num frames: 747470848. Throughput: 0: 18342.5. Samples: 228824800. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,206][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,219][24114] Fps is (10 sec: 478958.1, 60 sec: 191468.2, 300 sec: 24824.2). Total num frames: 747487232. Throughput: 0: 31381.1. Samples: 228825940. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,220][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,220][24114] Fps is (10 sec: 1138116.5, 60 sec: 198872.2, 300 sec: 24582.5). Total num frames: 747487232. Throughput: 0: 41654.7. Samples: 228826600. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,221][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,221][24114] Fps is (10 sec: 0.0, 60 sec: 206534.7, 300 sec: 24379.4). Total num frames: 747487232. Throughput: 0: 43959.4. Samples: 228826600. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,221][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,222][24114] Fps is (10 sec: 0.0, 60 sec: 214875.3, 300 sec: 23987.9). Total num frames: 747487232. Throughput: 0: 56359.0. Samples: 228826600. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,222][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,222][24114] Fps is (10 sec: 0.0, 60 sec: 223654.7, 300 sec: 23770.2). Total num frames: 747487232. Throughput: 0: 47693.6. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,222][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,223][24114] Fps is (10 sec: 0.0, 60 sec: 235837.4, 300 sec: 23452.5). Total num frames: 747487232. Throughput: 0: 51299.2. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,223][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,223][24114] Fps is (10 sec: 0.0, 60 sec: 300254.2, 300 sec: 23078.1). Total num frames: 747487232. Throughput: 0: 56391.2. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,223][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,228][24114] Fps is (10 sec: 0.0, 60 sec: 301328.5, 300 sec: 22740.1). Total num frames: 747487232. Throughput: 0: 55198.8. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,228][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,228][24114] Fps is (10 sec: 0.0, 60 sec: 319900.7, 300 sec: 22491.0). Total num frames: 747487232. Throughput: 0: 105029.3. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,228][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,229][24114] Fps is (10 sec: 0.0, 60 sec: 348774.9, 300 sec: 22084.4). Total num frames: 747487232. Throughput: 0: 126436.0. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,229][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,229][24114] Fps is (10 sec: 0.0, 60 sec: 370259.8, 300 sec: 21665.3). Total num frames: 747487232. Throughput: 0: 60795.2. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,230][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,230][24114] Fps is (10 sec: 0.0, 60 sec: 685269.2, 300 sec: 21439.1). Total num frames: 747487232. Throughput: 0: 60590.3. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,230][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,231][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 20996.2). Total num frames: 747487232. Throughput: 0: 60189.3. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,231][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,231][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 20539.0). Total num frames: 747487232. Throughput: 0: 0.0. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,232][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,232][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 20337.1). Total num frames: 747487232. Throughput: 0: 0.0. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,232][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,233][24114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 19798.4). Total num frames: 747487232. Throughput: 0: 0.0. Samples: 228827140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:33:45,233][24114] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:33:45,251][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000045196_740491264.pth
+[2024-06-06 16:33:45,372][24114] Heartbeat reconnected after 180 seconds from RolloutWorker_w21
+[2024-06-06 16:33:46,748][24347] Updated weights for policy 0, policy_version 45628 (0.0034)
+[2024-06-06 16:33:47,318][24114] Fps is (10 sec: 54980.5, 60 sec: 54720.6, 300 sec: 19549.7). Total num frames: 747601920. Throughput: 0: 14120.5. Samples: 228856660. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 16:33:47,319][24114] Avg episode reward: [(0, '0.282')]
+[2024-06-06 16:33:49,810][24347] Updated weights for policy 0, policy_version 45638 (0.0027)
+[2024-06-06 16:33:52,320][24114] Fps is (10 sec: 43924.3, 60 sec: 43862.5, 300 sec: 19549.6). Total num frames: 747798528. Throughput: 0: 34909.4. Samples: 229074700. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 16:33:52,320][24114] Avg episode reward: [(0, '0.270')]
+[2024-06-06 16:33:54,010][24347] Updated weights for policy 0, policy_version 45648 (0.0033)
+[2024-06-06 16:33:57,000][24347] Updated weights for policy 0, policy_version 45658 (0.0048)
+[2024-06-06 16:33:57,318][24114] Fps is (10 sec: 45875.7, 60 sec: 47412.7, 300 sec: 19716.3). Total num frames: 748060672. Throughput: 0: 42727.5. Samples: 229343680. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 16:33:57,319][24114] Avg episode reward: [(0, '0.276')]
+[2024-06-06 16:34:00,989][24347] Updated weights for policy 0, policy_version 45668 (0.0032)
+[2024-06-06 16:34:02,318][24114] Fps is (10 sec: 47522.2, 60 sec: 46015.6, 300 sec: 19605.3). Total num frames: 748273664. Throughput: 0: 38610.3. Samples: 229486940. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 16:34:02,319][24114] Avg episode reward: [(0, '0.279')]
+[2024-06-06 16:34:04,419][24347] Updated weights for policy 0, policy_version 45678 (0.0039)
+[2024-06-06 16:34:07,318][24114] Fps is (10 sec: 40960.1, 60 sec: 44502.4, 300 sec: 19549.7). Total num frames: 748470272. Throughput: 0: 41710.5. Samples: 229748440. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 16:34:07,318][24114] Avg episode reward: [(0, '0.277')]
+[2024-06-06 16:34:08,470][24347] Updated weights for policy 0, policy_version 45688 (0.0025)
+[2024-06-06 16:34:11,749][24347] Updated weights for policy 0, policy_version 45698 (0.0033)
+[2024-06-06 16:34:12,318][24114] Fps is (10 sec: 45875.1, 60 sec: 45966.0, 300 sec: 19771.9). Total num frames: 748732416. Throughput: 0: 43991.6. Samples: 230018760. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 16:34:12,319][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:34:15,927][24347] Updated weights for policy 0, policy_version 45708 (0.0028)
+[2024-06-06 16:34:17,318][24114] Fps is (10 sec: 47514.0, 60 sec: 45442.3, 300 sec: 19605.3). Total num frames: 748945408. Throughput: 0: 41529.0. Samples: 230159660. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:34:17,318][24114] Avg episode reward: [(0, '0.282')]
+[2024-06-06 16:34:18,857][24347] Updated weights for policy 0, policy_version 45718 (0.0028)
+[2024-06-06 16:34:22,318][24114] Fps is (10 sec: 44236.8, 60 sec: 45501.2, 300 sec: 19660.8). Total num frames: 749174784. Throughput: 0: 43187.8. Samples: 230428800. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:34:22,319][24114] Avg episode reward: [(0, '0.282')]
+[2024-06-06 16:34:22,331][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000045726_749174784.pth...
+[2024-06-06 16:34:22,373][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000045522_745832448.pth
+[2024-06-06 16:34:22,996][24347] Updated weights for policy 0, policy_version 45728 (0.0028)
+[2024-06-06 16:34:26,324][24347] Updated weights for policy 0, policy_version 45738 (0.0039)
+[2024-06-06 16:34:27,318][24114] Fps is (10 sec: 45874.4, 60 sec: 45546.3, 300 sec: 19716.3). Total num frames: 749404160. Throughput: 0: 44456.9. Samples: 230698120. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:34:27,319][24114] Avg episode reward: [(0, '0.287')]
+[2024-06-06 16:34:30,080][24347] Updated weights for policy 0, policy_version 45748 (0.0045)
+[2024-06-06 16:34:32,318][24114] Fps is (10 sec: 44237.6, 60 sec: 45234.2, 300 sec: 19660.8). Total num frames: 749617152. Throughput: 0: 43868.6. Samples: 230830740. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:34:32,318][24114] Avg episode reward: [(0, '0.283')]
+[2024-06-06 16:34:33,887][24347] Updated weights for policy 0, policy_version 45758 (0.0029)
+[2024-06-06 16:34:37,318][24114] Fps is (10 sec: 44237.5, 60 sec: 45296.3, 300 sec: 19660.9). Total num frames: 749846528. Throughput: 0: 45134.0. Samples: 231105640. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:34:37,318][24114] Avg episode reward: [(0, '0.279')]
+[2024-06-06 16:34:37,554][24347] Updated weights for policy 0, policy_version 45768 (0.0037)
+[2024-06-06 16:34:41,054][24347] Updated weights for policy 0, policy_version 45778 (0.0020)
+[2024-06-06 16:34:42,324][24114] Fps is (10 sec: 44210.2, 60 sec: 45055.8, 300 sec: 19715.9). Total num frames: 750059520. Throughput: 0: 45067.4. Samples: 231371980. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:34:42,325][24114] Avg episode reward: [(0, '0.283')]
+[2024-06-06 16:34:45,016][24347] Updated weights for policy 0, policy_version 45788 (0.0038)
+[2024-06-06 16:34:47,318][24114] Fps is (10 sec: 47512.8, 60 sec: 45329.1, 300 sec: 19771.9). Total num frames: 750321664. Throughput: 0: 44972.9. Samples: 231510720. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-06 16:34:47,319][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:34:48,016][24347] Updated weights for policy 0, policy_version 45798 (0.0035)
+[2024-06-06 16:34:52,127][24347] Updated weights for policy 0, policy_version 45808 (0.0033)
+[2024-06-06 16:34:52,318][24114] Fps is (10 sec: 45902.7, 60 sec: 45330.5, 300 sec: 19716.3). Total num frames: 750518272. Throughput: 0: 45187.6. Samples: 231781880. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-06 16:34:52,318][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:34:55,606][24347] Updated weights for policy 0, policy_version 45818 (0.0027)
+[2024-06-06 16:34:57,318][24114] Fps is (10 sec: 40960.0, 60 sec: 44509.8, 300 sec: 19716.6). Total num frames: 750731264. Throughput: 0: 45166.2. Samples: 232051240. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-06 16:34:57,319][24114] Avg episode reward: [(0, '0.278')]
+[2024-06-06 16:34:59,247][24347] Updated weights for policy 0, policy_version 45828 (0.0031)
+[2024-06-06 16:35:02,318][24114] Fps is (10 sec: 45875.2, 60 sec: 45056.1, 300 sec: 19660.8). Total num frames: 750977024. Throughput: 0: 44999.5. Samples: 232184640. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-06 16:35:02,318][24114] Avg episode reward: [(0, '0.279')]
+[2024-06-06 16:35:03,010][24347] Updated weights for policy 0, policy_version 45838 (0.0040)
+[2024-06-06 16:35:04,810][24326] Signal inference workers to stop experience collection... (3400 times)
+[2024-06-06 16:35:04,811][24326] Signal inference workers to resume experience collection... (3400 times)
+[2024-06-06 16:35:04,828][24347] InferenceWorker_p0-w0: stopping experience collection (3400 times)
+[2024-06-06 16:35:04,828][24347] InferenceWorker_p0-w0: resuming experience collection (3400 times)
+[2024-06-06 16:35:06,606][24347] Updated weights for policy 0, policy_version 45848 (0.0035)
+[2024-06-06 16:35:07,318][24114] Fps is (10 sec: 47513.6, 60 sec: 45602.1, 300 sec: 19771.9). Total num frames: 751206400. Throughput: 0: 45012.5. Samples: 232454360. Policy #0 lag: (min: 0.0, avg: 10.4, max: 22.0)
+[2024-06-06 16:35:07,319][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:35:10,061][24347] Updated weights for policy 0, policy_version 45858 (0.0031)
+[2024-06-06 16:35:12,318][24114] Fps is (10 sec: 44236.1, 60 sec: 44782.9, 300 sec: 19716.3). Total num frames: 751419392. Throughput: 0: 45204.9. Samples: 232732340. Policy #0 lag: (min: 1.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:35:12,319][24114] Avg episode reward: [(0, '0.281')]
+[2024-06-06 16:35:13,921][24347] Updated weights for policy 0, policy_version 45868 (0.0027)
+[2024-06-06 16:35:17,126][24347] Updated weights for policy 0, policy_version 45878 (0.0034)
+[2024-06-06 16:35:17,318][24114] Fps is (10 sec: 45875.3, 60 sec: 45328.9, 300 sec: 19771.9). Total num frames: 751665152. Throughput: 0: 45210.1. Samples: 232865200. Policy #0 lag: (min: 1.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:35:17,319][24114] Avg episode reward: [(0, '0.277')]
+[2024-06-06 16:35:21,104][24347] Updated weights for policy 0, policy_version 45888 (0.0035)
+[2024-06-06 16:35:22,318][24114] Fps is (10 sec: 47514.2, 60 sec: 45329.2, 300 sec: 19883.0). Total num frames: 751894528. Throughput: 0: 45172.8. Samples: 233138420. Policy #0 lag: (min: 1.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:35:22,318][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:35:24,369][24347] Updated weights for policy 0, policy_version 45898 (0.0035)
+[2024-06-06 16:35:27,318][24114] Fps is (10 sec: 42599.0, 60 sec: 44783.1, 300 sec: 19771.9). Total num frames: 752091136. Throughput: 0: 45492.3. Samples: 233418860. Policy #0 lag: (min: 1.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:35:27,318][24114] Avg episode reward: [(0, '0.275')]
+[2024-06-06 16:35:28,207][24347] Updated weights for policy 0, policy_version 45908 (0.0021)
+[2024-06-06 16:35:31,850][24347] Updated weights for policy 0, policy_version 45918 (0.0035)
+[2024-06-06 16:35:32,318][24114] Fps is (10 sec: 42598.5, 60 sec: 45056.0, 300 sec: 19771.9). Total num frames: 752320512. Throughput: 0: 45177.9. Samples: 233543720. Policy #0 lag: (min: 1.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:35:32,318][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:35:35,551][24347] Updated weights for policy 0, policy_version 45928 (0.0037)
+[2024-06-06 16:35:37,319][24114] Fps is (10 sec: 47506.5, 60 sec: 45327.9, 300 sec: 19771.8). Total num frames: 752566272. Throughput: 0: 45274.1. Samples: 233819280. Policy #0 lag: (min: 1.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:35:37,320][24114] Avg episode reward: [(0, '0.281')]
+[2024-06-06 16:35:39,191][24347] Updated weights for policy 0, policy_version 45938 (0.0034)
+[2024-06-06 16:35:42,318][24114] Fps is (10 sec: 47513.3, 60 sec: 45606.6, 300 sec: 19827.8). Total num frames: 752795648. Throughput: 0: 45313.8. Samples: 234090360. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:35:42,318][24114] Avg episode reward: [(0, '0.285')]
+[2024-06-06 16:35:42,869][24347] Updated weights for policy 0, policy_version 45948 (0.0026)
+[2024-06-06 16:35:46,428][24347] Updated weights for policy 0, policy_version 45958 (0.0034)
+[2024-06-06 16:35:47,318][24114] Fps is (10 sec: 42604.3, 60 sec: 44509.9, 300 sec: 19827.4). Total num frames: 752992256. Throughput: 0: 45371.0. Samples: 234226340. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:35:47,319][24114] Avg episode reward: [(0, '0.280')]
+[2024-06-06 16:35:49,779][24347] Updated weights for policy 0, policy_version 45968 (0.0032)
+[2024-06-06 16:35:52,318][24114] Fps is (10 sec: 44237.0, 60 sec: 45329.0, 300 sec: 19827.4). Total num frames: 753238016. Throughput: 0: 45274.8. Samples: 234491720. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:35:52,318][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:35:53,623][24347] Updated weights for policy 0, policy_version 45978 (0.0032)
+[2024-06-06 16:35:57,092][24347] Updated weights for policy 0, policy_version 45988 (0.0036)
+[2024-06-06 16:35:57,318][24114] Fps is (10 sec: 47514.0, 60 sec: 45602.2, 300 sec: 45352.8). Total num frames: 753467392. Throughput: 0: 45163.3. Samples: 234764680. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:35:57,318][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:36:00,909][24347] Updated weights for policy 0, policy_version 45998 (0.0028)
+[2024-06-06 16:36:02,318][24114] Fps is (10 sec: 44237.0, 60 sec: 45056.0, 300 sec: 45254.8). Total num frames: 753680384. Throughput: 0: 45221.0. Samples: 234900140. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:36:02,318][24114] Avg episode reward: [(0, '0.281')]
+[2024-06-06 16:36:04,189][24347] Updated weights for policy 0, policy_version 46008 (0.0035)
+[2024-06-06 16:36:07,318][24114] Fps is (10 sec: 44236.9, 60 sec: 45056.1, 300 sec: 45279.0). Total num frames: 753909760. Throughput: 0: 45067.2. Samples: 235166440. Policy #0 lag: (min: 0.0, avg: 8.5, max: 21.0)
+[2024-06-06 16:36:07,318][24114] Avg episode reward: [(0, '0.282')]
+[2024-06-06 16:36:08,416][24347] Updated weights for policy 0, policy_version 46018 (0.0029)
+[2024-06-06 16:36:11,606][24347] Updated weights for policy 0, policy_version 46028 (0.0042)
+[2024-06-06 16:36:12,318][24114] Fps is (10 sec: 49151.6, 60 sec: 45875.3, 300 sec: 45523.8). Total num frames: 754171904. Throughput: 0: 45053.7. Samples: 235446280. Policy #0 lag: (min: 1.0, avg: 8.6, max: 21.0)
+[2024-06-06 16:36:12,319][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:36:15,514][24347] Updated weights for policy 0, policy_version 46038 (0.0034)
+[2024-06-06 16:36:17,318][24114] Fps is (10 sec: 44236.1, 60 sec: 44782.9, 300 sec: 45215.4). Total num frames: 754352128. Throughput: 0: 45349.2. Samples: 235584440. Policy #0 lag: (min: 1.0, avg: 8.6, max: 21.0)
+[2024-06-06 16:36:17,319][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:36:18,838][24347] Updated weights for policy 0, policy_version 46048 (0.0028)
+[2024-06-06 16:36:22,318][24114] Fps is (10 sec: 40960.4, 60 sec: 44783.0, 300 sec: 45237.7). Total num frames: 754581504. Throughput: 0: 45251.7. Samples: 235855540. Policy #0 lag: (min: 1.0, avg: 8.6, max: 21.0)
+[2024-06-06 16:36:22,318][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:36:22,431][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000046057_754597888.pth...
+[2024-06-06 16:36:22,486][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000045623_747487232.pth
+[2024-06-06 16:36:22,647][24347] Updated weights for policy 0, policy_version 46058 (0.0035)
+[2024-06-06 16:36:25,091][24326] Signal inference workers to stop experience collection... (3450 times)
+[2024-06-06 16:36:25,139][24347] InferenceWorker_p0-w0: stopping experience collection (3450 times)
+[2024-06-06 16:36:25,198][24326] Signal inference workers to resume experience collection... (3450 times)
+[2024-06-06 16:36:25,198][24347] InferenceWorker_p0-w0: resuming experience collection (3450 times)
+[2024-06-06 16:36:26,055][24347] Updated weights for policy 0, policy_version 46068 (0.0035)
+[2024-06-06 16:36:27,320][24114] Fps is (10 sec: 49142.8, 60 sec: 45873.7, 300 sec: 45460.1). Total num frames: 754843648. Throughput: 0: 45178.1. Samples: 236123460. Policy #0 lag: (min: 1.0, avg: 8.6, max: 21.0)
+[2024-06-06 16:36:27,321][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:36:29,934][24347] Updated weights for policy 0, policy_version 46078 (0.0038)
+[2024-06-06 16:36:32,318][24114] Fps is (10 sec: 47513.6, 60 sec: 45602.1, 300 sec: 45376.0). Total num frames: 755056640. Throughput: 0: 45351.6. Samples: 236267160. Policy #0 lag: (min: 1.0, avg: 8.6, max: 21.0)
+[2024-06-06 16:36:32,318][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:36:33,322][24347] Updated weights for policy 0, policy_version 46088 (0.0041)
+[2024-06-06 16:36:37,318][24114] Fps is (10 sec: 40967.6, 60 sec: 44783.9, 300 sec: 45201.1). Total num frames: 755253248. Throughput: 0: 45443.0. Samples: 236536660. Policy #0 lag: (min: 1.0, avg: 8.6, max: 21.0)
+[2024-06-06 16:36:37,319][24114] Avg episode reward: [(0, '0.282')]
+[2024-06-06 16:36:37,569][24347] Updated weights for policy 0, policy_version 46098 (0.0039)
+[2024-06-06 16:36:40,366][24347] Updated weights for policy 0, policy_version 46108 (0.0021)
+[2024-06-06 16:36:42,318][24114] Fps is (10 sec: 45875.2, 60 sec: 45329.1, 300 sec: 45406.1). Total num frames: 755515392. Throughput: 0: 45369.8. Samples: 236806320. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:36:42,318][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:36:44,690][24347] Updated weights for policy 0, policy_version 46118 (0.0030)
+[2024-06-06 16:36:47,318][24114] Fps is (10 sec: 47514.4, 60 sec: 45602.2, 300 sec: 45330.1). Total num frames: 755728384. Throughput: 0: 45525.8. Samples: 236948800. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:36:47,318][24114] Avg episode reward: [(0, '0.282')]
+[2024-06-06 16:36:47,556][24347] Updated weights for policy 0, policy_version 46128 (0.0033)
+[2024-06-06 16:36:51,672][24347] Updated weights for policy 0, policy_version 46138 (0.0025)
+[2024-06-06 16:36:52,318][24114] Fps is (10 sec: 44236.9, 60 sec: 45329.1, 300 sec: 45348.4). Total num frames: 755957760. Throughput: 0: 45660.4. Samples: 237221160. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:36:52,318][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:36:54,994][24347] Updated weights for policy 0, policy_version 46148 (0.0039)
+[2024-06-06 16:36:57,318][24114] Fps is (10 sec: 45875.1, 60 sec: 45329.1, 300 sec: 45363.1). Total num frames: 756187136. Throughput: 0: 45265.0. Samples: 237483200. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:36:57,318][24114] Avg episode reward: [(0, '0.287')]
+[2024-06-06 16:36:59,106][24347] Updated weights for policy 0, policy_version 46158 (0.0026)
+[2024-06-06 16:37:02,217][24347] Updated weights for policy 0, policy_version 46168 (0.0033)
+[2024-06-06 16:37:02,318][24114] Fps is (10 sec: 45875.4, 60 sec: 45602.2, 300 sec: 45377.1). Total num frames: 756416512. Throughput: 0: 45404.2. Samples: 237627620. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:37:02,318][24114] Avg episode reward: [(0, '0.280')]
+[2024-06-06 16:37:06,426][24347] Updated weights for policy 0, policy_version 46178 (0.0037)
+[2024-06-06 16:37:07,318][24114] Fps is (10 sec: 44236.5, 60 sec: 45329.0, 300 sec: 45309.3). Total num frames: 756629504. Throughput: 0: 45452.4. Samples: 237900900. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:37:07,318][24114] Avg episode reward: [(0, '0.281')]
+[2024-06-06 16:37:09,294][24347] Updated weights for policy 0, policy_version 46188 (0.0031)
+[2024-06-06 16:37:12,318][24114] Fps is (10 sec: 45874.4, 60 sec: 45056.0, 300 sec: 45402.8). Total num frames: 756875264. Throughput: 0: 45517.5. Samples: 238171660. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:37:12,318][24114] Avg episode reward: [(0, '0.285')]
+[2024-06-06 16:37:13,371][24347] Updated weights for policy 0, policy_version 46198 (0.0031)
+[2024-06-06 16:37:16,592][24347] Updated weights for policy 0, policy_version 46208 (0.0043)
+[2024-06-06 16:37:17,318][24114] Fps is (10 sec: 49152.2, 60 sec: 46148.3, 300 sec: 45495.7). Total num frames: 757121024. Throughput: 0: 45339.5. Samples: 238307440. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:37:17,318][24114] Avg episode reward: [(0, '0.285')]
+[2024-06-06 16:37:20,346][24347] Updated weights for policy 0, policy_version 46218 (0.0029)
+[2024-06-06 16:37:22,318][24114] Fps is (10 sec: 44236.6, 60 sec: 45602.0, 300 sec: 45280.8). Total num frames: 757317632. Throughput: 0: 45428.9. Samples: 238580960. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:37:22,319][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:37:23,735][24326] Signal inference workers to stop experience collection... (3500 times)
+[2024-06-06 16:37:23,762][24347] InferenceWorker_p0-w0: stopping experience collection (3500 times)
+[2024-06-06 16:37:23,791][24326] Signal inference workers to resume experience collection... (3500 times)
+[2024-06-06 16:37:23,792][24347] InferenceWorker_p0-w0: resuming experience collection (3500 times)
+[2024-06-06 16:37:23,949][24347] Updated weights for policy 0, policy_version 46228 (0.0035)
+[2024-06-06 16:37:27,318][24114] Fps is (10 sec: 40959.4, 60 sec: 44784.3, 300 sec: 45220.6). Total num frames: 757530624. Throughput: 0: 45391.8. Samples: 238848960. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:37:27,319][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:37:27,908][24347] Updated weights for policy 0, policy_version 46238 (0.0034)
+[2024-06-06 16:37:31,172][24347] Updated weights for policy 0, policy_version 46248 (0.0031)
+[2024-06-06 16:37:32,318][24114] Fps is (10 sec: 49152.0, 60 sec: 45875.1, 300 sec: 45451.6). Total num frames: 757809152. Throughput: 0: 45187.4. Samples: 238982240. Policy #0 lag: (min: 1.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:37:32,319][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:37:35,233][24347] Updated weights for policy 0, policy_version 46258 (0.0031)
+[2024-06-06 16:37:37,320][24114] Fps is (10 sec: 45868.1, 60 sec: 45600.9, 300 sec: 45248.7). Total num frames: 757989376. Throughput: 0: 45328.9. Samples: 239261040. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-06 16:37:37,320][24114] Avg episode reward: [(0, '0.284')]
+[2024-06-06 16:37:38,190][24347] Updated weights for policy 0, policy_version 46268 (0.0027)
+[2024-06-06 16:37:42,294][24347] Updated weights for policy 0, policy_version 46278 (0.0028)
+[2024-06-06 16:37:42,318][24114] Fps is (10 sec: 40960.3, 60 sec: 45055.9, 300 sec: 45262.4). Total num frames: 758218752. Throughput: 0: 45475.5. Samples: 239529600. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-06 16:37:42,319][24114] Avg episode reward: [(0, '0.279')]
+[2024-06-06 16:37:45,580][24347] Updated weights for policy 0, policy_version 46288 (0.0037)
+[2024-06-06 16:37:47,318][24114] Fps is (10 sec: 47521.4, 60 sec: 45602.0, 300 sec: 45342.8). Total num frames: 758464512. Throughput: 0: 45398.5. Samples: 239670560. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-06 16:37:47,319][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:37:49,353][24347] Updated weights for policy 0, policy_version 46298 (0.0028)
+[2024-06-06 16:37:52,318][24114] Fps is (10 sec: 42597.9, 60 sec: 44782.8, 300 sec: 45154.8). Total num frames: 758644736. Throughput: 0: 45221.2. Samples: 239935860. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-06 16:37:52,321][24114] Avg episode reward: [(0, '0.285')]
+[2024-06-06 16:37:52,943][24347] Updated weights for policy 0, policy_version 46308 (0.0027)
+[2024-06-06 16:37:56,698][24347] Updated weights for policy 0, policy_version 46318 (0.0030)
+[2024-06-06 16:37:57,318][24114] Fps is (10 sec: 42598.6, 60 sec: 45056.0, 300 sec: 45234.8). Total num frames: 758890496. Throughput: 0: 45234.3. Samples: 240207200. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-06 16:37:57,318][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:37:59,998][24347] Updated weights for policy 0, policy_version 46328 (0.0029)
+[2024-06-06 16:38:02,318][24114] Fps is (10 sec: 47514.4, 60 sec: 45055.9, 300 sec: 45247.4). Total num frames: 759119872. Throughput: 0: 45128.0. Samples: 240338200. Policy #0 lag: (min: 0.0, avg: 9.6, max: 20.0)
+[2024-06-06 16:38:02,318][24114] Avg episode reward: [(0, '0.285')]
+[2024-06-06 16:38:04,168][24347] Updated weights for policy 0, policy_version 46338 (0.0027)
+[2024-06-06 16:38:07,219][24347] Updated weights for policy 0, policy_version 46348 (0.0025)
+[2024-06-06 16:38:07,318][24114] Fps is (10 sec: 47513.6, 60 sec: 45602.2, 300 sec: 45322.0). Total num frames: 759365632. Throughput: 0: 45136.6. Samples: 240612100. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-06 16:38:07,318][24114] Avg episode reward: [(0, '0.287')]
+[2024-06-06 16:38:11,243][24347] Updated weights for policy 0, policy_version 46358 (0.0035)
+[2024-06-06 16:38:12,319][24114] Fps is (10 sec: 47506.5, 60 sec: 45328.0, 300 sec: 45332.2). Total num frames: 759595008. Throughput: 0: 45222.6. Samples: 240884040. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-06 16:38:12,320][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:38:14,663][24347] Updated weights for policy 0, policy_version 46368 (0.0034)
+[2024-06-06 16:38:17,318][24114] Fps is (10 sec: 44236.6, 60 sec: 44782.9, 300 sec: 45282.3). Total num frames: 759808000. Throughput: 0: 45303.6. Samples: 241020900. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-06 16:38:17,318][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:38:18,156][24347] Updated weights for policy 0, policy_version 46378 (0.0036)
+[2024-06-06 16:38:21,853][24326] Signal inference workers to stop experience collection... (3550 times)
+[2024-06-06 16:38:21,902][24347] InferenceWorker_p0-w0: stopping experience collection (3550 times)
+[2024-06-06 16:38:21,960][24326] Signal inference workers to resume experience collection... (3550 times)
+[2024-06-06 16:38:21,960][24347] InferenceWorker_p0-w0: resuming experience collection (3550 times)
+[2024-06-06 16:38:21,962][24347] Updated weights for policy 0, policy_version 46388 (0.0031)
+[2024-06-06 16:38:22,318][24114] Fps is (10 sec: 45882.5, 60 sec: 45602.3, 300 sec: 45352.2). Total num frames: 760053760. Throughput: 0: 45234.7. Samples: 241296520. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-06 16:38:22,318][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:38:22,457][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000046391_760070144.pth...
+[2024-06-06 16:38:22,519][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000045726_749174784.pth
+[2024-06-06 16:38:25,700][24347] Updated weights for policy 0, policy_version 46398 (0.0028)
+[2024-06-06 16:38:27,318][24114] Fps is (10 sec: 44236.6, 60 sec: 45329.1, 300 sec: 45245.4). Total num frames: 760250368. Throughput: 0: 45072.4. Samples: 241557860. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-06 16:38:27,319][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:38:29,217][24347] Updated weights for policy 0, policy_version 46408 (0.0037)
+[2024-06-06 16:38:32,318][24114] Fps is (10 sec: 42597.8, 60 sec: 44509.9, 300 sec: 45256.5). Total num frames: 760479744. Throughput: 0: 44793.3. Samples: 241686260. Policy #0 lag: (min: 0.0, avg: 9.2, max: 22.0)
+[2024-06-06 16:38:32,319][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:38:32,969][24347] Updated weights for policy 0, policy_version 46418 (0.0034)
+[2024-06-06 16:38:36,302][24347] Updated weights for policy 0, policy_version 46428 (0.0035)
+[2024-06-06 16:38:37,318][24114] Fps is (10 sec: 47513.6, 60 sec: 45603.3, 300 sec: 45323.3). Total num frames: 760725504. Throughput: 0: 45271.2. Samples: 241973060. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:38:37,319][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:38:39,903][24347] Updated weights for policy 0, policy_version 46438 (0.0038)
+[2024-06-06 16:38:42,318][24114] Fps is (10 sec: 44236.7, 60 sec: 45056.0, 300 sec: 45153.2). Total num frames: 760922112. Throughput: 0: 45133.7. Samples: 242238220. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:38:42,319][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:38:43,880][24347] Updated weights for policy 0, policy_version 46448 (0.0036)
+[2024-06-06 16:38:47,286][24347] Updated weights for policy 0, policy_version 46458 (0.0026)
+[2024-06-06 16:38:47,324][24114] Fps is (10 sec: 44210.9, 60 sec: 45051.6, 300 sec: 45319.2). Total num frames: 761167872. Throughput: 0: 45131.8. Samples: 242369400. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:38:47,325][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:38:51,140][24347] Updated weights for policy 0, policy_version 46468 (0.0025)
+[2024-06-06 16:38:52,318][24114] Fps is (10 sec: 49151.5, 60 sec: 46148.3, 300 sec: 45264.2). Total num frames: 761413632. Throughput: 0: 45306.9. Samples: 242650920. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:38:52,319][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:38:54,542][24347] Updated weights for policy 0, policy_version 46478 (0.0027)
+[2024-06-06 16:38:57,318][24114] Fps is (10 sec: 40984.5, 60 sec: 44782.9, 300 sec: 45097.7). Total num frames: 761577472. Throughput: 0: 45164.2. Samples: 242916360. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:38:57,318][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:38:58,123][24347] Updated weights for policy 0, policy_version 46488 (0.0031)
+[2024-06-06 16:39:02,142][24347] Updated weights for policy 0, policy_version 46498 (0.0033)
+[2024-06-06 16:39:02,318][24114] Fps is (10 sec: 42598.7, 60 sec: 45329.0, 300 sec: 45319.8). Total num frames: 761839616. Throughput: 0: 44946.6. Samples: 243043500. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:39:02,319][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:39:05,438][24347] Updated weights for policy 0, policy_version 46508 (0.0033)
+[2024-06-06 16:39:07,318][24114] Fps is (10 sec: 49151.7, 60 sec: 45056.0, 300 sec: 45208.7). Total num frames: 762068992. Throughput: 0: 44963.0. Samples: 243319860. Policy #0 lag: (min: 0.0, avg: 8.3, max: 21.0)
+[2024-06-06 16:39:07,319][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:39:09,150][24347] Updated weights for policy 0, policy_version 46518 (0.0030)
+[2024-06-06 16:39:12,318][24114] Fps is (10 sec: 42598.9, 60 sec: 44511.0, 300 sec: 45153.2). Total num frames: 762265600. Throughput: 0: 45378.8. Samples: 243599900. Policy #0 lag: (min: 0.0, avg: 8.3, max: 21.0)
+[2024-06-06 16:39:12,318][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:39:12,813][24347] Updated weights for policy 0, policy_version 46528 (0.0034)
+[2024-06-06 16:39:12,974][24326] Signal inference workers to stop experience collection... (3600 times)
+[2024-06-06 16:39:13,017][24347] InferenceWorker_p0-w0: stopping experience collection (3600 times)
+[2024-06-06 16:39:13,027][24326] Signal inference workers to resume experience collection... (3600 times)
+[2024-06-06 16:39:13,031][24347] InferenceWorker_p0-w0: resuming experience collection (3600 times)
+[2024-06-06 16:39:16,410][24347] Updated weights for policy 0, policy_version 46538 (0.0024)
+[2024-06-06 16:39:17,318][24114] Fps is (10 sec: 45875.5, 60 sec: 45329.1, 300 sec: 45264.3). Total num frames: 762527744. Throughput: 0: 45370.7. Samples: 243727940. Policy #0 lag: (min: 0.0, avg: 8.3, max: 21.0)
+[2024-06-06 16:39:17,318][24114] Avg episode reward: [(0, '0.283')]
+[2024-06-06 16:39:20,055][24347] Updated weights for policy 0, policy_version 46548 (0.0031)
+[2024-06-06 16:39:22,318][24114] Fps is (10 sec: 47512.5, 60 sec: 44782.7, 300 sec: 45208.7). Total num frames: 762740736. Throughput: 0: 44797.7. Samples: 243988960. Policy #0 lag: (min: 0.0, avg: 8.3, max: 21.0)
+[2024-06-06 16:39:22,319][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:39:23,635][24347] Updated weights for policy 0, policy_version 46558 (0.0028)
+[2024-06-06 16:39:27,318][24114] Fps is (10 sec: 42598.5, 60 sec: 45056.1, 300 sec: 45208.7). Total num frames: 762953728. Throughput: 0: 44899.2. Samples: 244258680. Policy #0 lag: (min: 0.0, avg: 8.3, max: 21.0)
+[2024-06-06 16:39:27,318][24114] Avg episode reward: [(0, '0.287')]
+[2024-06-06 16:39:27,358][24347] Updated weights for policy 0, policy_version 46568 (0.0026)
+[2024-06-06 16:39:31,004][24347] Updated weights for policy 0, policy_version 46578 (0.0045)
+[2024-06-06 16:39:32,318][24114] Fps is (10 sec: 44237.3, 60 sec: 45056.0, 300 sec: 45208.7). Total num frames: 763183104. Throughput: 0: 44971.2. Samples: 244392840. Policy #0 lag: (min: 0.0, avg: 8.3, max: 21.0)
+[2024-06-06 16:39:32,318][24114] Avg episode reward: [(0, '0.280')]
+[2024-06-06 16:39:34,643][24347] Updated weights for policy 0, policy_version 46588 (0.0026)
+[2024-06-06 16:39:37,318][24114] Fps is (10 sec: 44236.5, 60 sec: 44509.9, 300 sec: 45209.6). Total num frames: 763396096. Throughput: 0: 44707.7. Samples: 244662760. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:39:37,318][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:39:38,020][24347] Updated weights for policy 0, policy_version 46598 (0.0032)
+[2024-06-06 16:39:42,210][24347] Updated weights for policy 0, policy_version 46608 (0.0031)
+[2024-06-06 16:39:42,318][24114] Fps is (10 sec: 44237.3, 60 sec: 45056.1, 300 sec: 45097.7). Total num frames: 763625472. Throughput: 0: 44934.7. Samples: 244938420. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:39:42,318][24114] Avg episode reward: [(0, '0.277')]
+[2024-06-06 16:39:45,304][24347] Updated weights for policy 0, policy_version 46618 (0.0036)
+[2024-06-06 16:39:47,318][24114] Fps is (10 sec: 45875.2, 60 sec: 44787.4, 300 sec: 45208.7). Total num frames: 763854848. Throughput: 0: 45073.0. Samples: 245071780. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:39:47,319][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:39:49,409][24347] Updated weights for policy 0, policy_version 46628 (0.0032)
+[2024-06-06 16:39:52,318][24114] Fps is (10 sec: 45874.6, 60 sec: 44509.9, 300 sec: 45264.3). Total num frames: 764084224. Throughput: 0: 44702.2. Samples: 245331460. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:39:52,319][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:39:52,724][24347] Updated weights for policy 0, policy_version 46638 (0.0032)
+[2024-06-06 16:39:56,841][24347] Updated weights for policy 0, policy_version 46648 (0.0048)
+[2024-06-06 16:39:57,318][24114] Fps is (10 sec: 44237.1, 60 sec: 45329.1, 300 sec: 45153.2). Total num frames: 764297216. Throughput: 0: 44603.1. Samples: 245607040. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:39:57,318][24114] Avg episode reward: [(0, '0.280')]
+[2024-06-06 16:40:00,146][24347] Updated weights for policy 0, policy_version 46658 (0.0042)
+[2024-06-06 16:40:02,318][24114] Fps is (10 sec: 42598.9, 60 sec: 44510.0, 300 sec: 45097.7). Total num frames: 764510208. Throughput: 0: 44617.3. Samples: 245735720. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 16:40:02,318][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:40:04,076][24347] Updated weights for policy 0, policy_version 46668 (0.0032)
+[2024-06-06 16:40:07,257][24347] Updated weights for policy 0, policy_version 46678 (0.0031)
+[2024-06-06 16:40:07,318][24114] Fps is (10 sec: 47513.2, 60 sec: 45056.0, 300 sec: 45264.3). Total num frames: 764772352. Throughput: 0: 44850.8. Samples: 246007240. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:40:07,319][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:40:11,330][24347] Updated weights for policy 0, policy_version 46688 (0.0021)
+[2024-06-06 16:40:12,318][24114] Fps is (10 sec: 49152.0, 60 sec: 45602.1, 300 sec: 45208.7). Total num frames: 765001728. Throughput: 0: 45006.2. Samples: 246283960. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:40:12,318][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:40:14,362][24347] Updated weights for policy 0, policy_version 46698 (0.0030)
+[2024-06-06 16:40:17,318][24114] Fps is (10 sec: 40960.0, 60 sec: 44236.8, 300 sec: 45042.1). Total num frames: 765181952. Throughput: 0: 44906.3. Samples: 246413620. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:40:17,319][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:40:18,605][24347] Updated weights for policy 0, policy_version 46708 (0.0033)
+[2024-06-06 16:40:21,179][24326] Signal inference workers to stop experience collection... (3650 times)
+[2024-06-06 16:40:21,210][24347] InferenceWorker_p0-w0: stopping experience collection (3650 times)
+[2024-06-06 16:40:21,248][24326] Signal inference workers to resume experience collection... (3650 times)
+[2024-06-06 16:40:21,248][24347] InferenceWorker_p0-w0: resuming experience collection (3650 times)
+[2024-06-06 16:40:21,871][24347] Updated weights for policy 0, policy_version 46718 (0.0021)
+[2024-06-06 16:40:22,320][24114] Fps is (10 sec: 42589.9, 60 sec: 44781.6, 300 sec: 45208.4). Total num frames: 765427712. Throughput: 0: 44847.4. Samples: 246680980. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:40:22,320][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:40:22,339][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000046718_765427712.pth...
+[2024-06-06 16:40:22,405][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000046057_754597888.pth
+[2024-06-06 16:40:26,101][24347] Updated weights for policy 0, policy_version 46728 (0.0031)
+[2024-06-06 16:40:27,321][24114] Fps is (10 sec: 45860.1, 60 sec: 44780.4, 300 sec: 45152.7). Total num frames: 765640704. Throughput: 0: 44629.1. Samples: 246946880. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:40:27,322][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:40:29,229][24347] Updated weights for policy 0, policy_version 46738 (0.0031)
+[2024-06-06 16:40:32,318][24114] Fps is (10 sec: 42606.4, 60 sec: 44509.9, 300 sec: 45042.3). Total num frames: 765853696. Throughput: 0: 44680.8. Samples: 247082420. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:40:32,318][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:40:33,509][24347] Updated weights for policy 0, policy_version 46748 (0.0030)
+[2024-06-06 16:40:36,299][24347] Updated weights for policy 0, policy_version 46758 (0.0024)
+[2024-06-06 16:40:37,318][24114] Fps is (10 sec: 45890.7, 60 sec: 45056.0, 300 sec: 45097.7). Total num frames: 766099456. Throughput: 0: 44920.6. Samples: 247352880. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:40:37,318][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:40:40,702][24347] Updated weights for policy 0, policy_version 46768 (0.0027)
+[2024-06-06 16:40:42,318][24114] Fps is (10 sec: 47513.9, 60 sec: 45056.0, 300 sec: 45208.7). Total num frames: 766328832. Throughput: 0: 44836.8. Samples: 247624700. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:40:42,319][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:40:43,480][24347] Updated weights for policy 0, policy_version 46778 (0.0025)
+[2024-06-06 16:40:47,318][24114] Fps is (10 sec: 42597.5, 60 sec: 44509.8, 300 sec: 45042.1). Total num frames: 766525440. Throughput: 0: 44979.8. Samples: 247759820. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:40:47,319][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:40:47,995][24347] Updated weights for policy 0, policy_version 46788 (0.0029)
+[2024-06-06 16:40:50,983][24347] Updated weights for policy 0, policy_version 46798 (0.0035)
+[2024-06-06 16:40:52,318][24114] Fps is (10 sec: 42598.4, 60 sec: 44509.9, 300 sec: 45042.1). Total num frames: 766754816. Throughput: 0: 44816.9. Samples: 248024000. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:40:52,318][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:40:55,554][24347] Updated weights for policy 0, policy_version 46808 (0.0033)
+[2024-06-06 16:40:57,318][24114] Fps is (10 sec: 47513.9, 60 sec: 45055.9, 300 sec: 45153.2). Total num frames: 767000576. Throughput: 0: 44688.8. Samples: 248294960. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:40:57,319][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:40:58,312][24347] Updated weights for policy 0, policy_version 46818 (0.0031)
+[2024-06-06 16:41:02,318][24114] Fps is (10 sec: 44236.8, 60 sec: 44782.9, 300 sec: 45042.1). Total num frames: 767197184. Throughput: 0: 44958.2. Samples: 248436740. Policy #0 lag: (min: 0.0, avg: 10.1, max: 22.0)
+[2024-06-06 16:41:02,319][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:41:02,898][24347] Updated weights for policy 0, policy_version 46828 (0.0038)
+[2024-06-06 16:41:05,401][24347] Updated weights for policy 0, policy_version 46838 (0.0036)
+[2024-06-06 16:41:07,318][24114] Fps is (10 sec: 42598.4, 60 sec: 44236.8, 300 sec: 44931.0). Total num frames: 767426560. Throughput: 0: 44873.0. Samples: 248700180. Policy #0 lag: (min: 0.0, avg: 8.3, max: 19.0)
+[2024-06-06 16:41:07,319][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:41:10,071][24347] Updated weights for policy 0, policy_version 46848 (0.0034)
+[2024-06-06 16:41:12,318][24114] Fps is (10 sec: 50790.4, 60 sec: 45056.0, 300 sec: 45264.3). Total num frames: 767705088. Throughput: 0: 44954.4. Samples: 248969680. Policy #0 lag: (min: 0.0, avg: 8.3, max: 19.0)
+[2024-06-06 16:41:12,319][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:41:12,524][24347] Updated weights for policy 0, policy_version 46858 (0.0033)
+[2024-06-06 16:41:17,180][24347] Updated weights for policy 0, policy_version 46868 (0.0033)
+[2024-06-06 16:41:17,318][24114] Fps is (10 sec: 45875.7, 60 sec: 45056.0, 300 sec: 45097.6). Total num frames: 767885312. Throughput: 0: 44945.9. Samples: 249104980. Policy #0 lag: (min: 0.0, avg: 8.3, max: 19.0)
+[2024-06-06 16:41:17,319][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:41:20,091][24347] Updated weights for policy 0, policy_version 46878 (0.0032)
+[2024-06-06 16:41:22,318][24114] Fps is (10 sec: 39321.5, 60 sec: 44511.3, 300 sec: 44931.3). Total num frames: 768098304. Throughput: 0: 44858.1. Samples: 249371500. Policy #0 lag: (min: 0.0, avg: 8.3, max: 19.0)
+[2024-06-06 16:41:22,319][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:41:24,643][24347] Updated weights for policy 0, policy_version 46888 (0.0028)
+[2024-06-06 16:41:27,255][24347] Updated weights for policy 0, policy_version 46898 (0.0036)
+[2024-06-06 16:41:27,318][24114] Fps is (10 sec: 49151.7, 60 sec: 45604.6, 300 sec: 45153.2). Total num frames: 768376832. Throughput: 0: 44845.3. Samples: 249642740. Policy #0 lag: (min: 0.0, avg: 8.3, max: 19.0)
+[2024-06-06 16:41:27,319][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:41:31,901][24326] Signal inference workers to stop experience collection... (3700 times)
+[2024-06-06 16:41:31,932][24347] InferenceWorker_p0-w0: stopping experience collection (3700 times)
+[2024-06-06 16:41:31,963][24326] Signal inference workers to resume experience collection... (3700 times)
+[2024-06-06 16:41:31,967][24347] InferenceWorker_p0-w0: resuming experience collection (3700 times)
+[2024-06-06 16:41:32,126][24347] Updated weights for policy 0, policy_version 46908 (0.0039)
+[2024-06-06 16:41:32,318][24114] Fps is (10 sec: 45875.2, 60 sec: 45056.0, 300 sec: 45097.7). Total num frames: 768557056. Throughput: 0: 44985.0. Samples: 249784140. Policy #0 lag: (min: 1.0, avg: 8.5, max: 19.0)
+[2024-06-06 16:41:32,319][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:41:34,504][24347] Updated weights for policy 0, policy_version 46918 (0.0028)
+[2024-06-06 16:41:37,318][24114] Fps is (10 sec: 39321.6, 60 sec: 44509.8, 300 sec: 44931.0). Total num frames: 768770048. Throughput: 0: 45072.4. Samples: 250052260. Policy #0 lag: (min: 1.0, avg: 8.5, max: 19.0)
+[2024-06-06 16:41:37,319][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:41:39,169][24347] Updated weights for policy 0, policy_version 46928 (0.0040)
+[2024-06-06 16:41:41,656][24347] Updated weights for policy 0, policy_version 46938 (0.0034)
+[2024-06-06 16:41:42,320][24114] Fps is (10 sec: 47504.5, 60 sec: 45054.6, 300 sec: 45097.3). Total num frames: 769032192. Throughput: 0: 44819.5. Samples: 250311920. Policy #0 lag: (min: 1.0, avg: 8.5, max: 19.0)
+[2024-06-06 16:41:42,320][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:41:46,599][24347] Updated weights for policy 0, policy_version 46948 (0.0035)
+[2024-06-06 16:41:47,318][24114] Fps is (10 sec: 47513.3, 60 sec: 45329.1, 300 sec: 45042.1). Total num frames: 769245184. Throughput: 0: 44945.3. Samples: 250459280. Policy #0 lag: (min: 1.0, avg: 8.5, max: 19.0)
+[2024-06-06 16:41:47,319][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:41:49,155][24347] Updated weights for policy 0, policy_version 46958 (0.0030)
+[2024-06-06 16:41:52,324][24114] Fps is (10 sec: 40943.8, 60 sec: 44778.5, 300 sec: 44930.1). Total num frames: 769441792. Throughput: 0: 44928.9. Samples: 250722240. Policy #0 lag: (min: 1.0, avg: 8.5, max: 19.0)
+[2024-06-06 16:41:52,324][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:41:53,680][24347] Updated weights for policy 0, policy_version 46968 (0.0031)
+[2024-06-06 16:41:56,340][24347] Updated weights for policy 0, policy_version 46978 (0.0028)
+[2024-06-06 16:41:57,318][24114] Fps is (10 sec: 45875.4, 60 sec: 45056.0, 300 sec: 45042.1). Total num frames: 769703936. Throughput: 0: 44946.2. Samples: 250992260. Policy #0 lag: (min: 1.0, avg: 8.5, max: 19.0)
+[2024-06-06 16:41:57,319][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:42:01,249][24347] Updated weights for policy 0, policy_version 46988 (0.0028)
+[2024-06-06 16:42:02,318][24114] Fps is (10 sec: 47542.0, 60 sec: 45329.1, 300 sec: 45042.1). Total num frames: 769916928. Throughput: 0: 45073.4. Samples: 251133280. Policy #0 lag: (min: 0.0, avg: 10.2, max: 23.0)
+[2024-06-06 16:42:02,318][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:42:03,769][24347] Updated weights for policy 0, policy_version 46998 (0.0024)
+[2024-06-06 16:42:07,318][24114] Fps is (10 sec: 40960.3, 60 sec: 44783.0, 300 sec: 44875.5). Total num frames: 770113536. Throughput: 0: 45157.4. Samples: 251403580. Policy #0 lag: (min: 0.0, avg: 10.2, max: 23.0)
+[2024-06-06 16:42:07,318][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:42:08,385][24347] Updated weights for policy 0, policy_version 47008 (0.0024)
+[2024-06-06 16:42:11,249][24347] Updated weights for policy 0, policy_version 47018 (0.0035)
+[2024-06-06 16:42:12,318][24114] Fps is (10 sec: 44236.0, 60 sec: 44236.7, 300 sec: 44875.5). Total num frames: 770359296. Throughput: 0: 44843.0. Samples: 251660680. Policy #0 lag: (min: 0.0, avg: 10.2, max: 23.0)
+[2024-06-06 16:42:12,319][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:42:15,711][24347] Updated weights for policy 0, policy_version 47028 (0.0026)
+[2024-06-06 16:42:17,320][24114] Fps is (10 sec: 49142.4, 60 sec: 45327.6, 300 sec: 45041.8). Total num frames: 770605056. Throughput: 0: 44894.1. Samples: 251804460. Policy #0 lag: (min: 0.0, avg: 10.2, max: 23.0)
+[2024-06-06 16:42:17,329][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:42:18,282][24347] Updated weights for policy 0, policy_version 47038 (0.0026)
+[2024-06-06 16:42:22,318][24114] Fps is (10 sec: 40960.8, 60 sec: 44510.0, 300 sec: 44875.5). Total num frames: 770768896. Throughput: 0: 44839.2. Samples: 252070020. Policy #0 lag: (min: 0.0, avg: 10.2, max: 23.0)
+[2024-06-06 16:42:22,318][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:42:22,527][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000047046_770801664.pth...
+[2024-06-06 16:42:22,588][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000046391_760070144.pth
+[2024-06-06 16:42:23,087][24347] Updated weights for policy 0, policy_version 47048 (0.0045)
+[2024-06-06 16:42:25,669][24347] Updated weights for policy 0, policy_version 47058 (0.0028)
+[2024-06-06 16:42:27,318][24114] Fps is (10 sec: 40968.1, 60 sec: 43963.8, 300 sec: 44764.4). Total num frames: 771014656. Throughput: 0: 45010.0. Samples: 252337280. Policy #0 lag: (min: 0.0, avg: 10.2, max: 23.0)
+[2024-06-06 16:42:27,318][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:42:30,333][24347] Updated weights for policy 0, policy_version 47068 (0.0038)
+[2024-06-06 16:42:31,349][24326] Signal inference workers to stop experience collection... (3750 times)
+[2024-06-06 16:42:31,379][24347] InferenceWorker_p0-w0: stopping experience collection (3750 times)
+[2024-06-06 16:42:31,407][24326] Signal inference workers to resume experience collection... (3750 times)
+[2024-06-06 16:42:31,408][24347] InferenceWorker_p0-w0: resuming experience collection (3750 times)
+[2024-06-06 16:42:32,318][24114] Fps is (10 sec: 52429.0, 60 sec: 45602.2, 300 sec: 45097.9). Total num frames: 771293184. Throughput: 0: 44850.9. Samples: 252477560. Policy #0 lag: (min: 0.0, avg: 10.1, max: 20.0)
+[2024-06-06 16:42:32,318][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:42:32,829][24347] Updated weights for policy 0, policy_version 47078 (0.0036)
+[2024-06-06 16:42:37,318][24114] Fps is (10 sec: 42598.2, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 771440640. Throughput: 0: 44957.9. Samples: 252745080. Policy #0 lag: (min: 0.0, avg: 10.1, max: 20.0)
+[2024-06-06 16:42:37,319][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:42:37,791][24347] Updated weights for policy 0, policy_version 47088 (0.0044)
+[2024-06-06 16:42:40,058][24347] Updated weights for policy 0, policy_version 47098 (0.0026)
+[2024-06-06 16:42:42,318][24114] Fps is (10 sec: 40959.3, 60 sec: 44511.3, 300 sec: 44875.5). Total num frames: 771702784. Throughput: 0: 44803.5. Samples: 253008420. Policy #0 lag: (min: 0.0, avg: 10.1, max: 20.0)
+[2024-06-06 16:42:42,319][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:42:44,969][24347] Updated weights for policy 0, policy_version 47108 (0.0032)
+[2024-06-06 16:42:47,318][24114] Fps is (10 sec: 52428.9, 60 sec: 45329.2, 300 sec: 45153.2). Total num frames: 771964928. Throughput: 0: 44649.3. Samples: 253142500. Policy #0 lag: (min: 0.0, avg: 10.1, max: 20.0)
+[2024-06-06 16:42:47,319][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:42:47,410][24347] Updated weights for policy 0, policy_version 47118 (0.0020)
+[2024-06-06 16:42:52,318][24114] Fps is (10 sec: 42598.8, 60 sec: 44787.4, 300 sec: 44875.5). Total num frames: 772128768. Throughput: 0: 44573.3. Samples: 253409380. Policy #0 lag: (min: 0.0, avg: 10.1, max: 20.0)
+[2024-06-06 16:42:52,318][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:42:52,375][24347] Updated weights for policy 0, policy_version 47128 (0.0047)
+[2024-06-06 16:42:55,040][24347] Updated weights for policy 0, policy_version 47138 (0.0027)
+[2024-06-06 16:42:57,318][24114] Fps is (10 sec: 39321.7, 60 sec: 44236.9, 300 sec: 44875.5). Total num frames: 772358144. Throughput: 0: 44857.5. Samples: 253679260. Policy #0 lag: (min: 0.0, avg: 10.1, max: 20.0)
+[2024-06-06 16:42:57,318][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:42:59,778][24347] Updated weights for policy 0, policy_version 47148 (0.0039)
+[2024-06-06 16:43:02,138][24347] Updated weights for policy 0, policy_version 47158 (0.0043)
+[2024-06-06 16:43:02,318][24114] Fps is (10 sec: 50789.6, 60 sec: 45328.9, 300 sec: 44986.6). Total num frames: 772636672. Throughput: 0: 44676.9. Samples: 253814840. Policy #0 lag: (min: 2.0, avg: 11.5, max: 24.0)
+[2024-06-06 16:43:02,319][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:43:07,099][24347] Updated weights for policy 0, policy_version 47168 (0.0024)
+[2024-06-06 16:43:07,318][24114] Fps is (10 sec: 44235.6, 60 sec: 44782.7, 300 sec: 44764.6). Total num frames: 772800512. Throughput: 0: 44703.7. Samples: 254081700. Policy #0 lag: (min: 2.0, avg: 11.5, max: 24.0)
+[2024-06-06 16:43:07,319][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:43:09,404][24347] Updated weights for policy 0, policy_version 47178 (0.0036)
+[2024-06-06 16:43:12,318][24114] Fps is (10 sec: 40960.0, 60 sec: 44782.9, 300 sec: 44875.5). Total num frames: 773046272. Throughput: 0: 44656.7. Samples: 254346840. Policy #0 lag: (min: 2.0, avg: 11.5, max: 24.0)
+[2024-06-06 16:43:12,319][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:43:14,531][24347] Updated weights for policy 0, policy_version 47188 (0.0031)
+[2024-06-06 16:43:17,050][24347] Updated weights for policy 0, policy_version 47198 (0.0023)
+[2024-06-06 16:43:17,318][24114] Fps is (10 sec: 49153.5, 60 sec: 44784.4, 300 sec: 44875.5). Total num frames: 773292032. Throughput: 0: 44527.5. Samples: 254481300. Policy #0 lag: (min: 2.0, avg: 11.5, max: 24.0)
+[2024-06-06 16:43:17,318][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:43:21,869][24347] Updated weights for policy 0, policy_version 47208 (0.0040)
+[2024-06-06 16:43:22,318][24114] Fps is (10 sec: 42598.9, 60 sec: 45055.9, 300 sec: 44820.0). Total num frames: 773472256. Throughput: 0: 44710.7. Samples: 254757060. Policy #0 lag: (min: 2.0, avg: 11.5, max: 24.0)
+[2024-06-06 16:43:22,318][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:43:24,754][24347] Updated weights for policy 0, policy_version 47218 (0.0032)
+[2024-06-06 16:43:27,318][24114] Fps is (10 sec: 40959.6, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 773701632. Throughput: 0: 44634.2. Samples: 255016960. Policy #0 lag: (min: 2.0, avg: 11.5, max: 24.0)
+[2024-06-06 16:43:27,319][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:43:28,958][24347] Updated weights for policy 0, policy_version 47228 (0.0025)
+[2024-06-06 16:43:31,790][24347] Updated weights for policy 0, policy_version 47238 (0.0034)
+[2024-06-06 16:43:32,318][24114] Fps is (10 sec: 47513.2, 60 sec: 44236.7, 300 sec: 44820.0). Total num frames: 773947392. Throughput: 0: 44843.9. Samples: 255160480. Policy #0 lag: (min: 1.0, avg: 12.2, max: 23.0)
+[2024-06-06 16:43:32,318][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:43:36,651][24347] Updated weights for policy 0, policy_version 47248 (0.0048)
+[2024-06-06 16:43:37,318][24114] Fps is (10 sec: 45875.7, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 774160384. Throughput: 0: 44755.1. Samples: 255423360. Policy #0 lag: (min: 1.0, avg: 12.2, max: 23.0)
+[2024-06-06 16:43:37,318][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:43:39,020][24347] Updated weights for policy 0, policy_version 47258 (0.0040)
+[2024-06-06 16:43:42,319][24114] Fps is (10 sec: 42594.7, 60 sec: 44509.2, 300 sec: 44765.2). Total num frames: 774373376. Throughput: 0: 44472.8. Samples: 255680580. Policy #0 lag: (min: 1.0, avg: 12.2, max: 23.0)
+[2024-06-06 16:43:42,324][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:43:43,771][24326] Signal inference workers to stop experience collection... (3800 times)
+[2024-06-06 16:43:43,823][24326] Signal inference workers to resume experience collection... (3800 times)
+[2024-06-06 16:43:43,823][24347] InferenceWorker_p0-w0: stopping experience collection (3800 times)
+[2024-06-06 16:43:43,840][24347] InferenceWorker_p0-w0: resuming experience collection (3800 times)
+[2024-06-06 16:43:43,968][24347] Updated weights for policy 0, policy_version 47268 (0.0040)
+[2024-06-06 16:43:46,387][24347] Updated weights for policy 0, policy_version 47278 (0.0038)
+[2024-06-06 16:43:47,318][24114] Fps is (10 sec: 45875.2, 60 sec: 44236.8, 300 sec: 44764.5). Total num frames: 774619136. Throughput: 0: 44465.5. Samples: 255815780. Policy #0 lag: (min: 1.0, avg: 12.2, max: 23.0)
+[2024-06-06 16:43:47,318][24114] Avg episode reward: [(0, '0.300')]
+[2024-06-06 16:43:51,167][24347] Updated weights for policy 0, policy_version 47288 (0.0028)
+[2024-06-06 16:43:52,318][24114] Fps is (10 sec: 47518.6, 60 sec: 45329.1, 300 sec: 44986.6). Total num frames: 774848512. Throughput: 0: 44627.5. Samples: 256089920. Policy #0 lag: (min: 1.0, avg: 12.2, max: 23.0)
+[2024-06-06 16:43:52,318][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:43:54,110][24347] Updated weights for policy 0, policy_version 47298 (0.0033)
+[2024-06-06 16:43:57,318][24114] Fps is (10 sec: 42598.3, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 775045120. Throughput: 0: 44492.2. Samples: 256348980. Policy #0 lag: (min: 1.0, avg: 12.2, max: 23.0)
+[2024-06-06 16:43:57,319][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:43:58,382][24347] Updated weights for policy 0, policy_version 47308 (0.0033)
+[2024-06-06 16:44:01,422][24347] Updated weights for policy 0, policy_version 47318 (0.0027)
+[2024-06-06 16:44:02,318][24114] Fps is (10 sec: 42598.1, 60 sec: 43963.9, 300 sec: 44764.4). Total num frames: 775274496. Throughput: 0: 44560.4. Samples: 256486520. Policy #0 lag: (min: 0.0, avg: 11.6, max: 25.0)
+[2024-06-06 16:44:02,318][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:44:05,888][24347] Updated weights for policy 0, policy_version 47328 (0.0045)
+[2024-06-06 16:44:07,324][24114] Fps is (10 sec: 45848.1, 60 sec: 45051.8, 300 sec: 44874.6). Total num frames: 775503872. Throughput: 0: 44492.0. Samples: 256759460. Policy #0 lag: (min: 0.0, avg: 11.6, max: 25.0)
+[2024-06-06 16:44:07,324][24114] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:44:08,569][24347] Updated weights for policy 0, policy_version 47338 (0.0033)
+[2024-06-06 16:44:12,318][24114] Fps is (10 sec: 42597.8, 60 sec: 44236.8, 300 sec: 44653.3). Total num frames: 775700480. Throughput: 0: 44646.2. Samples: 257026040. Policy #0 lag: (min: 0.0, avg: 11.6, max: 25.0)
+[2024-06-06 16:44:12,319][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:44:13,261][24347] Updated weights for policy 0, policy_version 47348 (0.0042)
+[2024-06-06 16:44:16,089][24347] Updated weights for policy 0, policy_version 47358 (0.0031)
+[2024-06-06 16:44:17,318][24114] Fps is (10 sec: 45902.5, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 775962624. Throughput: 0: 44361.9. Samples: 257156760. Policy #0 lag: (min: 0.0, avg: 11.6, max: 25.0)
+[2024-06-06 16:44:17,318][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:44:20,404][24347] Updated weights for policy 0, policy_version 47368 (0.0032)
+[2024-06-06 16:44:22,318][24114] Fps is (10 sec: 49152.5, 60 sec: 45329.1, 300 sec: 44875.5). Total num frames: 776192000. Throughput: 0: 44680.4. Samples: 257433980. Policy #0 lag: (min: 0.0, avg: 11.6, max: 25.0)
+[2024-06-06 16:44:22,318][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:44:22,331][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000047375_776192000.pth...
+[2024-06-06 16:44:22,403][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000046718_765427712.pth
+[2024-06-06 16:44:23,624][24347] Updated weights for policy 0, policy_version 47378 (0.0028)
+[2024-06-06 16:44:27,318][24114] Fps is (10 sec: 42597.7, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 776388608. Throughput: 0: 44887.9. Samples: 257700500. Policy #0 lag: (min: 0.0, avg: 11.6, max: 25.0)
+[2024-06-06 16:44:27,319][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:44:27,722][24347] Updated weights for policy 0, policy_version 47388 (0.0029)
+[2024-06-06 16:44:30,618][24347] Updated weights for policy 0, policy_version 47398 (0.0036)
+[2024-06-06 16:44:32,318][24114] Fps is (10 sec: 42598.1, 60 sec: 44509.9, 300 sec: 44820.0). Total num frames: 776617984. Throughput: 0: 44783.9. Samples: 257831060. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:44:32,319][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:44:35,304][24347] Updated weights for policy 0, policy_version 47408 (0.0043)
+[2024-06-06 16:44:37,318][24114] Fps is (10 sec: 45876.0, 60 sec: 44782.9, 300 sec: 44820.0). Total num frames: 776847360. Throughput: 0: 44638.6. Samples: 258098660. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:44:37,318][24114] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:44:37,916][24347] Updated weights for policy 0, policy_version 47418 (0.0038)
+[2024-06-06 16:44:42,318][24114] Fps is (10 sec: 42598.8, 60 sec: 44510.6, 300 sec: 44708.9). Total num frames: 777043968. Throughput: 0: 44931.1. Samples: 258370880. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:44:42,318][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:44:42,389][24347] Updated weights for policy 0, policy_version 47428 (0.0031)
+[2024-06-06 16:44:45,387][24347] Updated weights for policy 0, policy_version 47438 (0.0025)
+[2024-06-06 16:44:47,318][24114] Fps is (10 sec: 44236.8, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 777289728. Throughput: 0: 44683.1. Samples: 258497260. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:44:47,318][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:44:49,585][24347] Updated weights for policy 0, policy_version 47448 (0.0033)
+[2024-06-06 16:44:52,318][24114] Fps is (10 sec: 47513.6, 60 sec: 44509.8, 300 sec: 44820.0). Total num frames: 777519104. Throughput: 0: 44652.6. Samples: 258768560. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:44:52,318][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:44:52,991][24347] Updated weights for policy 0, policy_version 47458 (0.0040)
+[2024-06-06 16:44:57,133][24347] Updated weights for policy 0, policy_version 47468 (0.0033)
+[2024-06-06 16:44:57,318][24114] Fps is (10 sec: 42597.5, 60 sec: 44509.7, 300 sec: 44764.4). Total num frames: 777715712. Throughput: 0: 44791.0. Samples: 259041640. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:44:57,319][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:44:59,300][24326] Signal inference workers to stop experience collection... (3850 times)
+[2024-06-06 16:44:59,301][24326] Signal inference workers to resume experience collection... (3850 times)
+[2024-06-06 16:44:59,337][24347] InferenceWorker_p0-w0: stopping experience collection (3850 times)
+[2024-06-06 16:44:59,337][24347] InferenceWorker_p0-w0: resuming experience collection (3850 times)
+[2024-06-06 16:45:00,179][24347] Updated weights for policy 0, policy_version 47478 (0.0027)
+[2024-06-06 16:45:02,318][24114] Fps is (10 sec: 44236.3, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 777961472. Throughput: 0: 44800.3. Samples: 259172780. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-06 16:45:02,319][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:45:04,543][24347] Updated weights for policy 0, policy_version 47488 (0.0032)
+[2024-06-06 16:45:07,303][24347] Updated weights for policy 0, policy_version 47498 (0.0043)
+[2024-06-06 16:45:07,318][24114] Fps is (10 sec: 49152.2, 60 sec: 45060.3, 300 sec: 44764.4). Total num frames: 778207232. Throughput: 0: 44483.0. Samples: 259435720. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-06 16:45:07,319][24114] Avg episode reward: [(0, '0.306')]
+[2024-06-06 16:45:11,707][24347] Updated weights for policy 0, policy_version 47508 (0.0029)
+[2024-06-06 16:45:12,318][24114] Fps is (10 sec: 44237.2, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 778403840. Throughput: 0: 44596.6. Samples: 259707340. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-06 16:45:12,318][24114] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:45:14,737][24347] Updated weights for policy 0, policy_version 47518 (0.0025)
+[2024-06-06 16:45:17,318][24114] Fps is (10 sec: 40960.0, 60 sec: 44236.7, 300 sec: 44709.2). Total num frames: 778616832. Throughput: 0: 44616.4. Samples: 259838800. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-06 16:45:17,319][24114] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:45:18,627][24347] Updated weights for policy 0, policy_version 47528 (0.0038)
+[2024-06-06 16:45:22,019][24347] Updated weights for policy 0, policy_version 47538 (0.0034)
+[2024-06-06 16:45:22,318][24114] Fps is (10 sec: 45875.4, 60 sec: 44509.9, 300 sec: 44820.5). Total num frames: 778862592. Throughput: 0: 44829.3. Samples: 260115980. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-06 16:45:22,318][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:45:26,068][24347] Updated weights for policy 0, policy_version 47548 (0.0040)
+[2024-06-06 16:45:27,318][24114] Fps is (10 sec: 47514.0, 60 sec: 45056.1, 300 sec: 44875.5). Total num frames: 779091968. Throughput: 0: 44919.9. Samples: 260392280. Policy #0 lag: (min: 0.0, avg: 10.7, max: 22.0)
+[2024-06-06 16:45:27,319][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:45:29,351][24347] Updated weights for policy 0, policy_version 47558 (0.0043)
+[2024-06-06 16:45:32,318][24114] Fps is (10 sec: 44236.3, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 779304960. Throughput: 0: 44859.5. Samples: 260515940. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:45:32,319][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:45:33,538][24347] Updated weights for policy 0, policy_version 47568 (0.0026)
+[2024-06-06 16:45:36,630][24347] Updated weights for policy 0, policy_version 47578 (0.0023)
+[2024-06-06 16:45:37,318][24114] Fps is (10 sec: 44237.2, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 779534336. Throughput: 0: 44890.7. Samples: 260788640. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:45:37,318][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:45:40,931][24347] Updated weights for policy 0, policy_version 47588 (0.0043)
+[2024-06-06 16:45:42,318][24114] Fps is (10 sec: 45874.8, 60 sec: 45329.0, 300 sec: 44875.5). Total num frames: 779763712. Throughput: 0: 44700.0. Samples: 261053140. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:45:42,319][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:45:43,931][24347] Updated weights for policy 0, policy_version 47598 (0.0034)
+[2024-06-06 16:45:47,318][24114] Fps is (10 sec: 42598.4, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 779960320. Throughput: 0: 44837.0. Samples: 261190440. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:45:47,318][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:45:48,069][24347] Updated weights for policy 0, policy_version 47608 (0.0031)
+[2024-06-06 16:45:51,339][24347] Updated weights for policy 0, policy_version 47618 (0.0039)
+[2024-06-06 16:45:52,318][24114] Fps is (10 sec: 45875.8, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 780222464. Throughput: 0: 44953.9. Samples: 261458640. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:45:52,319][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:45:55,103][24347] Updated weights for policy 0, policy_version 47628 (0.0037)
+[2024-06-06 16:45:57,318][24114] Fps is (10 sec: 45874.7, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 780419072. Throughput: 0: 44883.9. Samples: 261727120. Policy #0 lag: (min: 0.0, avg: 11.1, max: 23.0)
+[2024-06-06 16:45:57,319][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:45:58,780][24347] Updated weights for policy 0, policy_version 47638 (0.0036)
+[2024-06-06 16:46:02,318][24114] Fps is (10 sec: 40959.9, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 780632064. Throughput: 0: 44857.9. Samples: 261857400. Policy #0 lag: (min: 0.0, avg: 11.5, max: 22.0)
+[2024-06-06 16:46:02,318][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:46:02,741][24347] Updated weights for policy 0, policy_version 47648 (0.0041)
+[2024-06-06 16:46:06,179][24347] Updated weights for policy 0, policy_version 47658 (0.0039)
+[2024-06-06 16:46:07,318][24114] Fps is (10 sec: 45875.1, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 780877824. Throughput: 0: 44673.6. Samples: 262126300. Policy #0 lag: (min: 0.0, avg: 11.5, max: 22.0)
+[2024-06-06 16:46:07,319][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:46:10,169][24347] Updated weights for policy 0, policy_version 47668 (0.0038)
+[2024-06-06 16:46:12,318][24114] Fps is (10 sec: 45875.4, 60 sec: 44782.9, 300 sec: 44764.4). Total num frames: 781090816. Throughput: 0: 44532.1. Samples: 262396220. Policy #0 lag: (min: 0.0, avg: 11.5, max: 22.0)
+[2024-06-06 16:46:12,318][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:46:13,210][24347] Updated weights for policy 0, policy_version 47678 (0.0027)
+[2024-06-06 16:46:17,178][24347] Updated weights for policy 0, policy_version 47688 (0.0032)
+[2024-06-06 16:46:17,318][24114] Fps is (10 sec: 44237.5, 60 sec: 45056.1, 300 sec: 44820.0). Total num frames: 781320192. Throughput: 0: 44910.3. Samples: 262536900. Policy #0 lag: (min: 0.0, avg: 11.5, max: 22.0)
+[2024-06-06 16:46:17,318][24114] Avg episode reward: [(0, '0.305')]
+[2024-06-06 16:46:20,649][24347] Updated weights for policy 0, policy_version 47698 (0.0034)
+[2024-06-06 16:46:22,320][24114] Fps is (10 sec: 44227.6, 60 sec: 44508.3, 300 sec: 44597.5). Total num frames: 781533184. Throughput: 0: 44739.3. Samples: 262802000. Policy #0 lag: (min: 0.0, avg: 11.5, max: 22.0)
+[2024-06-06 16:46:22,321][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:46:22,378][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000047702_781549568.pth...
+[2024-06-06 16:46:22,434][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000047046_770801664.pth
+[2024-06-06 16:46:24,189][24326] Signal inference workers to stop experience collection... (3900 times)
+[2024-06-06 16:46:24,220][24347] InferenceWorker_p0-w0: stopping experience collection (3900 times)
+[2024-06-06 16:46:24,245][24326] Signal inference workers to resume experience collection... (3900 times)
+[2024-06-06 16:46:24,252][24347] InferenceWorker_p0-w0: resuming experience collection (3900 times)
+[2024-06-06 16:46:24,382][24347] Updated weights for policy 0, policy_version 47708 (0.0022)
+[2024-06-06 16:46:27,318][24114] Fps is (10 sec: 44236.5, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 781762560. Throughput: 0: 44923.6. Samples: 263074700. Policy #0 lag: (min: 0.0, avg: 11.5, max: 22.0)
+[2024-06-06 16:46:27,319][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:46:28,131][24347] Updated weights for policy 0, policy_version 47718 (0.0030)
+[2024-06-06 16:46:31,873][24347] Updated weights for policy 0, policy_version 47728 (0.0045)
+[2024-06-06 16:46:32,318][24114] Fps is (10 sec: 45884.7, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 781991936. Throughput: 0: 44927.5. Samples: 263212180. Policy #0 lag: (min: 0.0, avg: 9.4, max: 21.0)
+[2024-06-06 16:46:32,318][24114] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:46:35,233][24347] Updated weights for policy 0, policy_version 47738 (0.0050)
+[2024-06-06 16:46:37,318][24114] Fps is (10 sec: 44236.7, 60 sec: 44509.8, 300 sec: 44653.6). Total num frames: 782204928. Throughput: 0: 44726.6. Samples: 263471340. Policy #0 lag: (min: 0.0, avg: 9.4, max: 21.0)
+[2024-06-06 16:46:37,319][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:46:39,245][24347] Updated weights for policy 0, policy_version 47748 (0.0041)
+[2024-06-06 16:46:42,302][24347] Updated weights for policy 0, policy_version 47758 (0.0021)
+[2024-06-06 16:46:42,322][24114] Fps is (10 sec: 47492.4, 60 sec: 45052.7, 300 sec: 44819.3). Total num frames: 782467072. Throughput: 0: 44801.4. Samples: 263743380. Policy #0 lag: (min: 0.0, avg: 9.4, max: 21.0)
+[2024-06-06 16:46:42,323][24114] Avg episode reward: [(0, '0.286')]
+[2024-06-06 16:46:46,415][24347] Updated weights for policy 0, policy_version 47768 (0.0033)
+[2024-06-06 16:46:47,318][24114] Fps is (10 sec: 44237.1, 60 sec: 44782.9, 300 sec: 44765.3). Total num frames: 782647296. Throughput: 0: 44880.9. Samples: 263877040. Policy #0 lag: (min: 0.0, avg: 9.4, max: 21.0)
+[2024-06-06 16:46:47,318][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:46:49,916][24347] Updated weights for policy 0, policy_version 47778 (0.0030)
+[2024-06-06 16:46:52,318][24114] Fps is (10 sec: 40978.4, 60 sec: 44236.8, 300 sec: 44653.4). Total num frames: 782876672. Throughput: 0: 44769.9. Samples: 264140940. Policy #0 lag: (min: 0.0, avg: 9.4, max: 21.0)
+[2024-06-06 16:46:52,318][24114] Avg episode reward: [(0, '0.300')]
+[2024-06-06 16:46:53,669][24347] Updated weights for policy 0, policy_version 47788 (0.0033)
+[2024-06-06 16:46:57,318][24114] Fps is (10 sec: 44235.8, 60 sec: 44509.8, 300 sec: 44653.3). Total num frames: 783089664. Throughput: 0: 44727.3. Samples: 264408960. Policy #0 lag: (min: 0.0, avg: 9.4, max: 21.0)
+[2024-06-06 16:46:57,319][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:46:57,658][24347] Updated weights for policy 0, policy_version 47798 (0.0032)
+[2024-06-06 16:47:01,187][24347] Updated weights for policy 0, policy_version 47808 (0.0032)
+[2024-06-06 16:47:02,318][24114] Fps is (10 sec: 45875.1, 60 sec: 45056.0, 300 sec: 44820.0). Total num frames: 783335424. Throughput: 0: 44641.3. Samples: 264545760. Policy #0 lag: (min: 1.0, avg: 10.1, max: 21.0)
+[2024-06-06 16:47:02,318][24114] Avg episode reward: [(0, '0.305')]
+[2024-06-06 16:47:04,716][24347] Updated weights for policy 0, policy_version 47818 (0.0044)
+[2024-06-06 16:47:07,318][24114] Fps is (10 sec: 44238.0, 60 sec: 44236.9, 300 sec: 44653.4). Total num frames: 783532032. Throughput: 0: 44602.1. Samples: 264809000. Policy #0 lag: (min: 1.0, avg: 10.1, max: 21.0)
+[2024-06-06 16:47:07,318][24114] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:47:08,365][24347] Updated weights for policy 0, policy_version 47828 (0.0036)
+[2024-06-06 16:47:11,746][24347] Updated weights for policy 0, policy_version 47838 (0.0025)
+[2024-06-06 16:47:12,319][24114] Fps is (10 sec: 45869.4, 60 sec: 45055.0, 300 sec: 44709.0). Total num frames: 783794176. Throughput: 0: 44425.9. Samples: 265073920. Policy #0 lag: (min: 1.0, avg: 10.1, max: 21.0)
+[2024-06-06 16:47:12,320][24114] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:47:15,899][24347] Updated weights for policy 0, policy_version 47848 (0.0053)
+[2024-06-06 16:47:17,318][24114] Fps is (10 sec: 47512.9, 60 sec: 44782.8, 300 sec: 44875.5). Total num frames: 784007168. Throughput: 0: 44457.2. Samples: 265212760. Policy #0 lag: (min: 1.0, avg: 10.1, max: 21.0)
+[2024-06-06 16:47:17,319][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:47:19,398][24347] Updated weights for policy 0, policy_version 47858 (0.0027)
+[2024-06-06 16:47:22,318][24114] Fps is (10 sec: 44242.0, 60 sec: 45057.5, 300 sec: 44819.9). Total num frames: 784236544. Throughput: 0: 44735.5. Samples: 265484440. Policy #0 lag: (min: 1.0, avg: 10.1, max: 21.0)
+[2024-06-06 16:47:22,318][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:47:23,469][24347] Updated weights for policy 0, policy_version 47868 (0.0037)
+[2024-06-06 16:47:26,855][24347] Updated weights for policy 0, policy_version 47878 (0.0030)
+[2024-06-06 16:47:27,318][24114] Fps is (10 sec: 44237.0, 60 sec: 44782.9, 300 sec: 44597.8). Total num frames: 784449536. Throughput: 0: 44608.8. Samples: 265750580. Policy #0 lag: (min: 1.0, avg: 10.1, max: 21.0)
+[2024-06-06 16:47:27,319][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:47:30,670][24347] Updated weights for policy 0, policy_version 47888 (0.0031)
+[2024-06-06 16:47:32,318][24114] Fps is (10 sec: 42598.3, 60 sec: 44509.8, 300 sec: 44820.0). Total num frames: 784662528. Throughput: 0: 44472.8. Samples: 265878320. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-06 16:47:32,319][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:47:34,078][24347] Updated weights for policy 0, policy_version 47898 (0.0037)
+[2024-06-06 16:47:37,318][24114] Fps is (10 sec: 44236.5, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 784891904. Throughput: 0: 44610.9. Samples: 266148440. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-06 16:47:37,319][24114] Avg episode reward: [(0, '0.295')]
+[2024-06-06 16:47:37,846][24347] Updated weights for policy 0, policy_version 47908 (0.0024)
+[2024-06-06 16:47:41,064][24347] Updated weights for policy 0, policy_version 47918 (0.0029)
+[2024-06-06 16:47:42,318][24114] Fps is (10 sec: 45875.7, 60 sec: 44240.1, 300 sec: 44597.8). Total num frames: 785121280. Throughput: 0: 44660.2. Samples: 266418660. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-06 16:47:42,318][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:47:45,271][24347] Updated weights for policy 0, policy_version 47928 (0.0037)
+[2024-06-06 16:47:47,318][24114] Fps is (10 sec: 45875.3, 60 sec: 45055.9, 300 sec: 44819.9). Total num frames: 785350656. Throughput: 0: 44716.7. Samples: 266558020. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-06 16:47:47,319][24114] Avg episode reward: [(0, '0.296')]
+[2024-06-06 16:47:48,789][24347] Updated weights for policy 0, policy_version 47938 (0.0028)
+[2024-06-06 16:47:49,280][24326] Signal inference workers to stop experience collection... (3950 times)
+[2024-06-06 16:47:49,325][24347] InferenceWorker_p0-w0: stopping experience collection (3950 times)
+[2024-06-06 16:47:49,333][24326] Signal inference workers to resume experience collection... (3950 times)
+[2024-06-06 16:47:49,341][24347] InferenceWorker_p0-w0: resuming experience collection (3950 times)
+[2024-06-06 16:47:52,318][24114] Fps is (10 sec: 44235.9, 60 sec: 44782.8, 300 sec: 44764.4). Total num frames: 785563648. Throughput: 0: 44832.7. Samples: 266826480. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-06 16:47:52,319][24114] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:47:52,457][24347] Updated weights for policy 0, policy_version 47948 (0.0030)
+[2024-06-06 16:47:56,307][24347] Updated weights for policy 0, policy_version 47958 (0.0034)
+[2024-06-06 16:47:57,318][24114] Fps is (10 sec: 44236.9, 60 sec: 45056.1, 300 sec: 44597.8). Total num frames: 785793024. Throughput: 0: 44811.8. Samples: 267090400. Policy #0 lag: (min: 0.0, avg: 10.3, max: 21.0)
+[2024-06-06 16:47:57,319][24114] Avg episode reward: [(0, '0.291')]
+[2024-06-06 16:47:59,680][24347] Updated weights for policy 0, policy_version 47968 (0.0042)
+[2024-06-06 16:48:02,318][24114] Fps is (10 sec: 45876.2, 60 sec: 44783.0, 300 sec: 44820.0). Total num frames: 786022400. Throughput: 0: 44575.7. Samples: 267218660. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-06 16:48:02,318][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:48:03,718][24347] Updated weights for policy 0, policy_version 47978 (0.0035)
+[2024-06-06 16:48:07,011][24347] Updated weights for policy 0, policy_version 47988 (0.0034)
+[2024-06-06 16:48:07,318][24114] Fps is (10 sec: 44237.0, 60 sec: 45055.9, 300 sec: 44708.9). Total num frames: 786235392. Throughput: 0: 44477.8. Samples: 267485940. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-06 16:48:07,320][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:48:10,946][24347] Updated weights for policy 0, policy_version 47998 (0.0032)
+[2024-06-06 16:48:12,318][24114] Fps is (10 sec: 44236.4, 60 sec: 44510.8, 300 sec: 44653.3). Total num frames: 786464768. Throughput: 0: 44565.8. Samples: 267756040. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-06 16:48:12,319][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:48:14,956][24347] Updated weights for policy 0, policy_version 48008 (0.0031)
+[2024-06-06 16:48:17,318][24114] Fps is (10 sec: 42598.1, 60 sec: 44236.8, 300 sec: 44708.9). Total num frames: 786661376. Throughput: 0: 44743.9. Samples: 267891800. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-06 16:48:17,319][24114] Avg episode reward: [(0, '0.305')]
+[2024-06-06 16:48:18,439][24347] Updated weights for policy 0, policy_version 48018 (0.0023)
+[2024-06-06 16:48:22,009][24347] Updated weights for policy 0, policy_version 48028 (0.0023)
+[2024-06-06 16:48:22,320][24114] Fps is (10 sec: 42590.3, 60 sec: 44235.4, 300 sec: 44708.6). Total num frames: 786890752. Throughput: 0: 44562.2. Samples: 268153820. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-06 16:48:22,321][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:48:22,336][24326] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048028_786890752.pth...
+[2024-06-06 16:48:22,398][24326] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000047375_776192000.pth
+[2024-06-06 16:48:25,980][24347] Updated weights for policy 0, policy_version 48038 (0.0032)
+[2024-06-06 16:48:27,318][24114] Fps is (10 sec: 44235.4, 60 sec: 44236.5, 300 sec: 44597.7). Total num frames: 787103744. Throughput: 0: 44460.8. Samples: 268419420. Policy #0 lag: (min: 0.0, avg: 9.7, max: 21.0)
+[2024-06-06 16:48:27,319][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:48:29,286][24347] Updated weights for policy 0, policy_version 48048 (0.0024)
+[2024-06-06 16:48:32,320][24114] Fps is (10 sec: 45875.1, 60 sec: 44781.5, 300 sec: 44708.6). Total num frames: 787349504. Throughput: 0: 44324.9. Samples: 268552720. Policy #0 lag: (min: 1.0, avg: 11.4, max: 21.0)
+[2024-06-06 16:48:32,321][24114] Avg episode reward: [(0, '0.300')]
+[2024-06-06 16:48:33,187][24347] Updated weights for policy 0, policy_version 48058 (0.0030)
+[2024-06-06 16:48:36,842][24347] Updated weights for policy 0, policy_version 48068 (0.0028)
+[2024-06-06 16:48:37,318][24114] Fps is (10 sec: 44238.9, 60 sec: 44236.9, 300 sec: 44653.5). Total num frames: 787546112. Throughput: 0: 44261.5. Samples: 268818240. Policy #0 lag: (min: 1.0, avg: 11.4, max: 21.0)
+[2024-06-06 16:48:37,319][24114] Avg episode reward: [(0, '0.285')]
+[2024-06-06 16:48:40,388][24347] Updated weights for policy 0, policy_version 48078 (0.0038)
+[2024-06-06 16:48:42,324][24114] Fps is (10 sec: 45856.6, 60 sec: 44778.4, 300 sec: 44708.0). Total num frames: 787808256. Throughput: 0: 44463.5. Samples: 269091520. Policy #0 lag: (min: 1.0, avg: 11.4, max: 21.0)
+[2024-06-06 16:48:42,325][24114] Avg episode reward: [(0, '0.297')]
+[2024-06-06 16:48:44,341][24347] Updated weights for policy 0, policy_version 48088 (0.0027)
+[2024-06-06 16:48:47,320][24114] Fps is (10 sec: 45866.2, 60 sec: 44235.5, 300 sec: 44597.5). Total num frames: 788004864. Throughput: 0: 44827.3. Samples: 269235980. Policy #0 lag: (min: 1.0, avg: 11.4, max: 21.0)
+[2024-06-06 16:48:47,320][24114] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:48:47,854][24347] Updated weights for policy 0, policy_version 48098 (0.0042)
+[2024-06-06 16:48:51,386][24347] Updated weights for policy 0, policy_version 48108 (0.0039)
+[2024-06-06 16:48:52,318][24114] Fps is (10 sec: 44263.1, 60 sec: 44783.0, 300 sec: 44764.4). Total num frames: 788250624. Throughput: 0: 44654.7. Samples: 269495400. Policy #0 lag: (min: 1.0, avg: 11.4, max: 21.0)
+[2024-06-06 16:48:52,319][24114] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:48:55,453][24347] Updated weights for policy 0, policy_version 48118 (0.0040)
+[2024-06-06 16:48:57,318][24114] Fps is (10 sec: 44245.4, 60 sec: 44236.9, 300 sec: 44653.3). Total num frames: 788447232. Throughput: 0: 44545.8. Samples: 269760600. Policy #0 lag: (min: 1.0, avg: 11.4, max: 21.0)
+[2024-06-06 16:48:57,318][24114] Avg episode reward: [(0, '0.292')]
+[2024-06-06 16:48:58,735][24347] Updated weights for policy 0, policy_version 48128 (0.0032)
+[2024-06-06 16:49:02,318][24114] Fps is (10 sec: 40960.5, 60 sec: 43963.7, 300 sec: 44598.7). Total num frames: 788660224. Throughput: 0: 44514.9. Samples: 269894960. Policy #0 lag: (min: 0.0, avg: 11.5, max: 23.0)
+[2024-06-06 16:49:02,318][24114] Avg episode reward: [(0, '0.290')]
+[2024-06-06 16:49:02,778][24347] Updated weights for policy 0, policy_version 48138 (0.0032)
+[2024-06-06 16:49:04,542][24326] Signal inference workers to stop experience collection... (4000 times)
+[2024-06-06 16:49:04,543][24326] Signal inference workers to resume experience collection... (4000 times)
+[2024-06-06 16:49:04,585][24347] InferenceWorker_p0-w0: stopping experience collection (4000 times)
+[2024-06-06 16:49:04,585][24347] InferenceWorker_p0-w0: resuming experience collection (4000 times)
+[2024-06-06 16:49:06,237][24347] Updated weights for policy 0, policy_version 48148 (0.0034)
+[2024-06-06 16:49:07,318][24114] Fps is (10 sec: 45875.3, 60 sec: 44509.9, 300 sec: 44764.4). Total num frames: 788905984. Throughput: 0: 44784.6. Samples: 270169040. Policy #0 lag: (min: 0.0, avg: 11.5, max: 23.0)
+[2024-06-06 16:49:07,318][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:49:09,775][24347] Updated weights for policy 0, policy_version 48158 (0.0028)
+[2024-06-06 16:49:12,318][24114] Fps is (10 sec: 49151.3, 60 sec: 44782.9, 300 sec: 44708.9). Total num frames: 789151744. Throughput: 0: 44620.8. Samples: 270427340. Policy #0 lag: (min: 0.0, avg: 11.5, max: 23.0)
+[2024-06-06 16:49:12,319][24114] Avg episode reward: [(0, '0.294')]
+[2024-06-06 16:49:13,936][24347] Updated weights for policy 0, policy_version 48168 (0.0042)
+[2024-06-06 16:49:17,318][24114] Fps is (10 sec: 42598.2, 60 sec: 44510.0, 300 sec: 44542.3). Total num frames: 789331968. Throughput: 0: 44718.4. Samples: 270564960. Policy #0 lag: (min: 0.0, avg: 11.5, max: 23.0)
+[2024-06-06 16:49:17,318][24114] Avg episode reward: [(0, '0.293')]
+[2024-06-06 16:49:17,352][24347] Updated weights for policy 0, policy_version 48178 (0.0021)
+[2024-06-06 16:49:21,006][24347] Updated weights for policy 0, policy_version 48188 (0.0033)
+[2024-06-06 16:49:22,318][24114] Fps is (10 sec: 42599.0, 60 sec: 44784.4, 300 sec: 44708.9). Total num frames: 789577728. Throughput: 0: 44815.1. Samples: 270834920. Policy #0 lag: (min: 0.0, avg: 11.5, max: 23.0)
+[2024-06-06 16:49:22,318][24114] Avg episode reward: [(0, '0.283')]
+[2024-06-06 16:49:24,780][24347] Updated weights for policy 0, policy_version 48198 (0.0031)
+[2024-06-06 16:49:27,318][24114] Fps is (10 sec: 47513.8, 60 sec: 45056.4, 300 sec: 44708.9). Total num frames: 789807104. Throughput: 0: 44464.2. Samples: 271092140. Policy #0 lag: (min: 0.0, avg: 11.5, max: 23.0)
+[2024-06-06 16:49:27,318][24114] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:49:28,336][24347] Updated weights for policy 0, policy_version 48208 (0.0022)
+[2024-06-06 16:49:32,117][24347] Updated weights for policy 0, policy_version 48218 (0.0034)
+[2024-06-06 16:49:32,324][24114] Fps is (10 sec: 42573.5, 60 sec: 44233.9, 300 sec: 44596.9). Total num frames: 790003712. Throughput: 0: 44299.3. Samples: 271229620. Policy #0 lag: (min: 0.0, avg: 8.9, max: 21.0)
+[2024-06-06 16:49:32,324][24114] Avg episode reward: [(0, '0.289')]
+[2024-06-06 16:49:35,724][24347] Updated weights for policy 0, policy_version 48228 (0.0032)
+[2024-06-06 16:49:45,934][27571] Saving configuration to /workspace/metta/train_dir/p2.metta.4/config.json...
+[2024-06-06 16:49:45,951][27571] Rollout worker 0 uses device cpu
+[2024-06-06 16:49:45,952][27571] Rollout worker 1 uses device cpu
+[2024-06-06 16:49:45,952][27571] Rollout worker 2 uses device cpu
+[2024-06-06 16:49:45,952][27571] Rollout worker 3 uses device cpu
+[2024-06-06 16:49:45,952][27571] Rollout worker 4 uses device cpu
+[2024-06-06 16:49:45,953][27571] Rollout worker 5 uses device cpu
+[2024-06-06 16:49:45,953][27571] Rollout worker 6 uses device cpu
+[2024-06-06 16:49:45,953][27571] Rollout worker 7 uses device cpu
+[2024-06-06 16:49:45,953][27571] Rollout worker 8 uses device cpu
+[2024-06-06 16:49:45,954][27571] Rollout worker 9 uses device cpu
+[2024-06-06 16:49:45,954][27571] Rollout worker 10 uses device cpu
+[2024-06-06 16:49:45,954][27571] Rollout worker 11 uses device cpu
+[2024-06-06 16:49:45,954][27571] Rollout worker 12 uses device cpu
+[2024-06-06 16:49:45,955][27571] Rollout worker 13 uses device cpu
+[2024-06-06 16:49:45,955][27571] Rollout worker 14 uses device cpu
+[2024-06-06 16:49:45,955][27571] Rollout worker 15 uses device cpu
+[2024-06-06 16:49:45,955][27571] Rollout worker 16 uses device cpu
+[2024-06-06 16:49:45,956][27571] Rollout worker 17 uses device cpu
+[2024-06-06 16:49:45,956][27571] Rollout worker 18 uses device cpu
+[2024-06-06 16:49:45,956][27571] Rollout worker 19 uses device cpu
+[2024-06-06 16:49:45,957][27571] Rollout worker 20 uses device cpu
+[2024-06-06 16:49:45,957][27571] Rollout worker 21 uses device cpu
+[2024-06-06 16:49:45,957][27571] Rollout worker 22 uses device cpu
+[2024-06-06 16:49:45,957][27571] Rollout worker 23 uses device cpu
+[2024-06-06 16:49:45,958][27571] Rollout worker 24 uses device cpu
+[2024-06-06 16:49:45,958][27571] Rollout worker 25 uses device cpu
+[2024-06-06 16:49:45,958][27571] Rollout worker 26 uses device cpu
+[2024-06-06 16:49:45,959][27571] Rollout worker 27 uses device cpu
+[2024-06-06 16:49:45,959][27571] Rollout worker 28 uses device cpu
+[2024-06-06 16:49:45,959][27571] Rollout worker 29 uses device cpu
+[2024-06-06 16:49:45,959][27571] Rollout worker 30 uses device cpu
+[2024-06-06 16:49:45,960][27571] Rollout worker 31 uses device cpu
+[2024-06-06 16:49:46,499][27571] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-06 16:49:46,499][27571] InferenceWorker_p0-w0: min num requests: 10
+[2024-06-06 16:49:46,546][27571] Starting all processes...
+[2024-06-06 16:49:46,547][27571] Starting process learner_proc0
+[2024-06-06 16:49:46,818][27571] Starting all processes...
+[2024-06-06 16:49:46,821][27571] Starting process inference_proc0-0
+[2024-06-06 16:49:46,822][27571] Starting process rollout_proc0
+[2024-06-06 16:49:46,822][27571] Starting process rollout_proc2
+[2024-06-06 16:49:46,822][27571] Starting process rollout_proc1
+[2024-06-06 16:49:46,823][27571] Starting process rollout_proc3
+[2024-06-06 16:49:46,824][27571] Starting process rollout_proc4
+[2024-06-06 16:49:46,824][27571] Starting process rollout_proc5
+[2024-06-06 16:49:46,824][27571] Starting process rollout_proc6
+[2024-06-06 16:49:46,826][27571] Starting process rollout_proc7
+[2024-06-06 16:49:46,827][27571] Starting process rollout_proc8
+[2024-06-06 16:49:46,828][27571] Starting process rollout_proc9
+[2024-06-06 16:49:46,828][27571] Starting process rollout_proc10
+[2024-06-06 16:49:46,828][27571] Starting process rollout_proc11
+[2024-06-06 16:49:46,830][27571] Starting process rollout_proc12
+[2024-06-06 16:49:46,838][27571] Starting process rollout_proc25
+[2024-06-06 16:49:46,832][27571] Starting process rollout_proc14
+[2024-06-06 16:49:46,832][27571] Starting process rollout_proc15
+[2024-06-06 16:49:46,832][27571] Starting process rollout_proc16
+[2024-06-06 16:49:46,833][27571] Starting process rollout_proc17
+[2024-06-06 16:49:46,834][27571] Starting process rollout_proc18
+[2024-06-06 16:49:46,834][27571] Starting process rollout_proc19
+[2024-06-06 16:49:46,834][27571] Starting process rollout_proc20
+[2024-06-06 16:49:46,834][27571] Starting process rollout_proc21
+[2024-06-06 16:49:46,834][27571] Starting process rollout_proc22
+[2024-06-06 16:49:46,836][27571] Starting process rollout_proc23
+[2024-06-06 16:49:46,838][27571] Starting process rollout_proc24
+[2024-06-06 16:49:46,830][27571] Starting process rollout_proc13
+[2024-06-06 16:49:46,842][27571] Starting process rollout_proc26
+[2024-06-06 16:49:46,842][27571] Starting process rollout_proc27
+[2024-06-06 16:49:46,843][27571] Starting process rollout_proc28
+[2024-06-06 16:49:46,843][27571] Starting process rollout_proc29
+[2024-06-06 16:49:46,845][27571] Starting process rollout_proc30
+[2024-06-06 16:49:46,849][27571] Starting process rollout_proc31
+[2024-06-06 16:49:48,732][27830] Worker 28 uses CPU cores [28]
+[2024-06-06 16:49:49,046][27783] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-06 16:49:49,046][27783] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2024-06-06 16:49:49,058][27783] Num visible devices: 1
+[2024-06-06 16:49:49,072][27783] Setting fixed seed 0
+[2024-06-06 16:49:49,074][27783] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-06 16:49:49,074][27783] Initializing actor-critic model on device cuda:0
+[2024-06-06 16:49:49,096][27820] Worker 17 uses CPU cores [17]
+[2024-06-06 16:49:49,102][27829] Worker 27 uses CPU cores [27]
+[2024-06-06 16:49:49,102][27812] Worker 8 uses CPU cores [8]
+[2024-06-06 16:49:49,103][27805] Worker 2 uses CPU cores [2]
+[2024-06-06 16:49:49,104][27818] Worker 25 uses CPU cores [25]
+[2024-06-06 16:49:49,111][27810] Worker 4 uses CPU cores [4]
+[2024-06-06 16:49:49,120][27828] Worker 22 uses CPU cores [22]
+[2024-06-06 16:49:49,124][27819] Worker 15 uses CPU cores [15]
+[2024-06-06 16:49:49,139][27821] Worker 16 uses CPU cores [16]
+[2024-06-06 16:49:49,156][27826] Worker 24 uses CPU cores [24]
+[2024-06-06 16:49:49,168][27804] Worker 0 uses CPU cores [0]
+[2024-06-06 16:49:49,212][27817] Worker 14 uses CPU cores [14]
+[2024-06-06 16:49:49,216][27834] Worker 13 uses CPU cores [13]
+[2024-06-06 16:49:49,224][27832] Worker 29 uses CPU cores [29]
+[2024-06-06 16:49:49,243][27827] Worker 21 uses CPU cores [21]
+[2024-06-06 16:49:49,244][27825] Worker 23 uses CPU cores [23]
+[2024-06-06 16:49:49,262][27811] Worker 9 uses CPU cores [9]
+[2024-06-06 16:49:49,268][27803] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-06 16:49:49,268][27803] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2024-06-06 16:49:49,277][27803] Num visible devices: 1
+[2024-06-06 16:49:49,316][27814] Worker 11 uses CPU cores [11]
+[2024-06-06 16:49:49,319][27807] Worker 6 uses CPU cores [6]
+[2024-06-06 16:49:49,336][27806] Worker 1 uses CPU cores [1]
+[2024-06-06 16:49:49,347][27815] Worker 10 uses CPU cores [10]
+[2024-06-06 16:49:49,360][27816] Worker 12 uses CPU cores [12]
+[2024-06-06 16:49:49,371][27822] Worker 18 uses CPU cores [18]
+[2024-06-06 16:49:49,408][27808] Worker 3 uses CPU cores [3]
+[2024-06-06 16:49:49,409][27823] Worker 19 uses CPU cores [19]
+[2024-06-06 16:49:49,424][27833] Worker 30 uses CPU cores [30]
+[2024-06-06 16:49:49,430][27813] Worker 7 uses CPU cores [7]
+[2024-06-06 16:49:49,438][27831] Worker 26 uses CPU cores [26]
+[2024-06-06 16:49:49,460][27835] Worker 31 uses CPU cores [31]
+[2024-06-06 16:49:49,471][27824] Worker 20 uses CPU cores [20]
+[2024-06-06 16:49:49,477][27809] Worker 5 uses CPU cores [5]
+[2024-06-06 16:49:49,974][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,975][27783] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:49,979][27783] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:49,979][27783] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:49,979][27783] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:49,979][27783] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:50,019][27783] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:50,024][27783] Created Actor Critic model with architecture:
+[2024-06-06 16:49:50,024][27783] SampleFactoryAgentWrapper(
+  (obs_normalizer): ObservationNormalizer()
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (agent): MettaAgent(
+    (_encoder): MultiFeatureSetEncoder(
+      (feature_set_encoders): ModuleDict(
+        (grid_obs): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (agent): RunningMeanStdInPlace()
+              (altar): RunningMeanStdInPlace()
+              (converter): RunningMeanStdInPlace()
+              (generator): RunningMeanStdInPlace()
+              (wall): RunningMeanStdInPlace()
+              (agent:dir): RunningMeanStdInPlace()
+              (agent:energy): RunningMeanStdInPlace()
+              (agent:frozen): RunningMeanStdInPlace()
+              (agent:hp): RunningMeanStdInPlace()
+              (agent:id): RunningMeanStdInPlace()
+              (agent:inv_r1): RunningMeanStdInPlace()
+              (agent:inv_r2): RunningMeanStdInPlace()
+              (agent:inv_r3): RunningMeanStdInPlace()
+              (agent:shield): RunningMeanStdInPlace()
+              (altar:hp): RunningMeanStdInPlace()
+              (altar:state): RunningMeanStdInPlace()
+              (converter:hp): RunningMeanStdInPlace()
+              (converter:state): RunningMeanStdInPlace()
+              (generator:amount): RunningMeanStdInPlace()
+              (generator:hp): RunningMeanStdInPlace()
+              (generator:state): RunningMeanStdInPlace()
+              (wall:hp): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=125, out_features=512, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=512, out_features=512, bias=True)
+            (3): ELU(alpha=1.0)
+            (4): Linear(in_features=512, out_features=512, bias=True)
+            (5): ELU(alpha=1.0)
+            (6): Linear(in_features=512, out_features=512, bias=True)
+            (7): ELU(alpha=1.0)
+          )
+        )
+        (global_vars): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (_steps): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=5, out_features=8, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=8, out_features=8, bias=True)
+            (3): ELU(alpha=1.0)
+          )
+        )
+        (last_action): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (last_action_id): RunningMeanStdInPlace()
+              (last_action_val): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=5, out_features=8, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=8, out_features=8, bias=True)
+            (3): ELU(alpha=1.0)
+          )
+        )
+        (last_reward): FeatureSetEncoder(
+          (_normalizer): FeatureListNormalizer(
+            (_norms_dict): ModuleDict(
+              (last_reward): RunningMeanStdInPlace()
+            )
+          )
+          (embedding_net): Sequential(
+            (0): Linear(in_features=5, out_features=8, bias=True)
+            (1): ELU(alpha=1.0)
+            (2): Linear(in_features=8, out_features=8, bias=True)
+            (3): ELU(alpha=1.0)
+          )
+        )
+      )
+      (merged_encoder): Sequential(
+        (0): Linear(in_features=536, out_features=512, bias=True)
+        (1): ELU(alpha=1.0)
+        (2): Linear(in_features=512, out_features=512, bias=True)
+        (3): ELU(alpha=1.0)
+        (4): Linear(in_features=512, out_features=512, bias=True)
+        (5): ELU(alpha=1.0)
+      )
+    )
+    (_core): ModelCoreRNN(
+      (core): GRU(512, 512)
+    )
+    (_decoder): Decoder(
+      (mlp): Identity()
+    )
+    (_critic_linear): Linear(in_features=512, out_features=1, bias=True)
+    (_action_parameterization): ActionParameterizationDefault(
+      (distribution_linear): Linear(in_features=512, out_features=16, bias=True)
+    )
+  )
+)
+[2024-06-06 16:49:50,092][27783] Using optimizer <class 'torch.optim.adam.Adam'>
+[2024-06-06 16:49:50,282][27783] Loading state from checkpoint /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048028_786890752.pth...
+[2024-06-06 16:49:50,297][27783] Loading model from checkpoint
+[2024-06-06 16:49:50,298][27783] Loaded experiment state at self.train_step=48028, self.env_steps=786890752
+[2024-06-06 16:49:50,298][27783] Initialized policy 0 weights for model version 48028
+[2024-06-06 16:49:50,300][27783] LearnerWorker_p0 finished initialization!
+[2024-06-06 16:49:50,300][27783] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,035][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,036][27803] RunningMeanStd input shape: (11, 11)
+[2024-06-06 16:49:51,039][27803] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:51,039][27803] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:51,039][27803] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:51,040][27803] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:51,079][27803] RunningMeanStd input shape: (1,)
+[2024-06-06 16:49:51,101][27571] Inference worker 0-0 is ready!
+[2024-06-06 16:49:51,102][27571] All inference workers are ready! Signal rollout workers to start!
+[2024-06-06 16:49:53,656][27571] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 786890752. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-06-06 16:49:53,660][27825] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,663][27820] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,663][27826] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,666][27824] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,668][27835] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,672][27821] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,680][27828] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,680][27827] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,683][27831] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,686][27833] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,686][27818] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,711][27830] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,712][27832] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,715][27822] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,741][27809] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,746][27806] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,747][27808] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,749][27811] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,751][27819] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,754][27834] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,757][27814] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,758][27810] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,758][27813] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,758][27805] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,762][27823] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,762][27812] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,763][27816] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,764][27804] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,765][27815] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,771][27807] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,772][27817] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:53,806][27829] Decorrelating experience for 0 frames...
+[2024-06-06 16:49:55,140][27820] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,150][27825] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,157][27826] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,166][27824] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,173][27821] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,197][27835] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,208][27827] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,215][27831] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,220][27828] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,221][27818] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,226][27833] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,262][27822] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,279][27809] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,281][27832] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,300][27808] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,300][27811] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,305][27806] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,309][27834] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,311][27819] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,315][27813] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,322][27810] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,324][27814] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,324][27830] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,328][27805] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,330][27804] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,331][27816] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,331][27812] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,334][27815] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,341][27807] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,344][27817] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,368][27823] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:55,388][27829] Decorrelating experience for 256 frames...
+[2024-06-06 16:49:58,656][27571] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 786890752. Throughput: 0: 6783.8. Samples: 33920. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-06-06 16:50:01,836][27812] Worker 8, sleep for 37.500 sec to decorrelate experience collection
+[2024-06-06 16:50:01,876][27817] Worker 14, sleep for 65.625 sec to decorrelate experience collection
+[2024-06-06 16:50:01,876][27815] Worker 10, sleep for 46.875 sec to decorrelate experience collection
+[2024-06-06 16:50:01,885][27826] Worker 24, sleep for 112.500 sec to decorrelate experience collection
+[2024-06-06 16:50:01,885][27824] Worker 20, sleep for 93.750 sec to decorrelate experience collection
+[2024-06-06 16:50:01,892][27811] Worker 9, sleep for 42.188 sec to decorrelate experience collection
+[2024-06-06 16:50:01,893][27814] Worker 11, sleep for 51.562 sec to decorrelate experience collection
+[2024-06-06 16:50:01,899][27819] Worker 15, sleep for 70.312 sec to decorrelate experience collection
+[2024-06-06 16:50:01,900][27834] Worker 13, sleep for 60.938 sec to decorrelate experience collection
+[2024-06-06 16:50:01,901][27828] Worker 22, sleep for 103.125 sec to decorrelate experience collection
+[2024-06-06 16:50:01,906][27816] Worker 12, sleep for 56.250 sec to decorrelate experience collection
+[2024-06-06 16:50:01,908][27808] Worker 3, sleep for 14.062 sec to decorrelate experience collection
+[2024-06-06 16:50:01,908][27818] Worker 25, sleep for 117.188 sec to decorrelate experience collection
+[2024-06-06 16:50:01,909][27833] Worker 30, sleep for 140.625 sec to decorrelate experience collection
+[2024-06-06 16:50:01,909][27822] Worker 18, sleep for 84.375 sec to decorrelate experience collection
+[2024-06-06 16:50:01,909][27835] Worker 31, sleep for 145.312 sec to decorrelate experience collection
+[2024-06-06 16:50:01,917][27827] Worker 21, sleep for 98.438 sec to decorrelate experience collection
+[2024-06-06 16:50:01,918][27821] Worker 16, sleep for 75.000 sec to decorrelate experience collection
+[2024-06-06 16:50:01,919][27805] Worker 2, sleep for 9.375 sec to decorrelate experience collection
+[2024-06-06 16:50:01,921][27830] Worker 28, sleep for 131.250 sec to decorrelate experience collection
+[2024-06-06 16:50:01,921][27831] Worker 26, sleep for 121.875 sec to decorrelate experience collection
+[2024-06-06 16:50:01,923][27832] Worker 29, sleep for 135.938 sec to decorrelate experience collection
+[2024-06-06 16:50:01,926][27806] Worker 1, sleep for 4.688 sec to decorrelate experience collection
+[2024-06-06 16:50:01,931][27825] Worker 23, sleep for 107.812 sec to decorrelate experience collection
+[2024-06-06 16:50:01,939][27809] Worker 5, sleep for 23.438 sec to decorrelate experience collection
+[2024-06-06 16:50:01,939][27807] Worker 6, sleep for 28.125 sec to decorrelate experience collection
+[2024-06-06 16:50:01,939][27813] Worker 7, sleep for 32.812 sec to decorrelate experience collection
+[2024-06-06 16:50:01,940][27820] Worker 17, sleep for 79.688 sec to decorrelate experience collection
+[2024-06-06 16:50:01,978][27783] Signal inference workers to stop experience collection...
+[2024-06-06 16:50:01,986][27823] Worker 19, sleep for 89.062 sec to decorrelate experience collection
+[2024-06-06 16:50:02,037][27803] InferenceWorker_p0-w0: stopping experience collection
+[2024-06-06 16:50:02,075][27829] Worker 27, sleep for 126.562 sec to decorrelate experience collection
+[2024-06-06 16:50:02,502][27783] Signal inference workers to resume experience collection...
+[2024-06-06 16:50:02,502][27803] InferenceWorker_p0-w0: resuming experience collection
+[2024-06-06 16:50:02,833][27810] Worker 4, sleep for 18.750 sec to decorrelate experience collection
+[2024-06-06 16:50:03,625][27803] Updated weights for policy 0, policy_version 48038 (0.0012)
+[2024-06-06 16:50:03,656][27571] Fps is (10 sec: 16383.6, 60 sec: 16383.6, 300 sec: 16383.6). Total num frames: 787054592. Throughput: 0: 32829.2. Samples: 328300. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-06 16:50:06,495][27571] Heartbeat connected on Batcher_0
+[2024-06-06 16:50:06,497][27571] Heartbeat connected on LearnerWorker_p0
+[2024-06-06 16:50:06,503][27571] Heartbeat connected on RolloutWorker_w0
+[2024-06-06 16:50:06,558][27571] Heartbeat connected on InferenceWorker_p0-w0
+[2024-06-06 16:50:06,636][27806] Worker 1 awakens!
+[2024-06-06 16:50:06,649][27571] Heartbeat connected on RolloutWorker_w1
+[2024-06-06 16:50:08,656][27571] Fps is (10 sec: 16384.4, 60 sec: 10922.7, 300 sec: 10922.7). Total num frames: 787054592. Throughput: 0: 22100.1. Samples: 331500. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-06 16:50:11,335][27805] Worker 2 awakens!
+[2024-06-06 16:50:11,344][27571] Heartbeat connected on RolloutWorker_w2
+[2024-06-06 16:50:13,656][27571] Fps is (10 sec: 1638.5, 60 sec: 9011.3, 300 sec: 9011.3). Total num frames: 787070976. Throughput: 0: 17303.2. Samples: 346060. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-06 16:50:16,041][27808] Worker 3 awakens!
+[2024-06-06 16:50:16,053][27571] Heartbeat connected on RolloutWorker_w3
+[2024-06-06 16:50:18,656][27571] Fps is (10 sec: 3276.8, 60 sec: 7864.3, 300 sec: 7864.3). Total num frames: 787087360. Throughput: 0: 14812.8. Samples: 370320. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-06 16:50:21,676][27810] Worker 4 awakens!
+[2024-06-06 16:50:21,680][27571] Heartbeat connected on RolloutWorker_w4
+[2024-06-06 16:50:23,656][27571] Fps is (10 sec: 6553.6, 60 sec: 8192.1, 300 sec: 8192.1). Total num frames: 787136512. Throughput: 0: 12812.1. Samples: 384360. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-06 16:50:23,656][27571] Avg episode reward: [(0, '0.197')]
+[2024-06-06 16:50:25,478][27809] Worker 5 awakens!
+[2024-06-06 16:50:25,484][27571] Heartbeat connected on RolloutWorker_w5
+[2024-06-06 16:50:28,656][27571] Fps is (10 sec: 9830.6, 60 sec: 8426.1, 300 sec: 8426.1). Total num frames: 787185664. Throughput: 0: 12977.8. Samples: 454220. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-06-06 16:50:28,656][27571] Avg episode reward: [(0, '0.214')]
+[2024-06-06 16:50:29,845][27803] Updated weights for policy 0, policy_version 48048 (0.0015)
+[2024-06-06 16:50:30,168][27807] Worker 6 awakens!
+[2024-06-06 16:50:30,173][27571] Heartbeat connected on RolloutWorker_w6
+[2024-06-06 16:50:33,656][27571] Fps is (10 sec: 16384.0, 60 sec: 10240.1, 300 sec: 10240.1). Total num frames: 787300352. Throughput: 0: 13956.6. Samples: 558260. Policy #0 lag: (min: 0.0, avg: 2.2, max: 5.0)
+[2024-06-06 16:50:33,656][27571] Avg episode reward: [(0, '0.230')]
+[2024-06-06 16:50:34,852][27813] Worker 7 awakens!
+[2024-06-06 16:50:34,857][27571] Heartbeat connected on RolloutWorker_w7
+[2024-06-06 16:50:37,175][27803] Updated weights for policy 0, policy_version 48058 (0.0011)
+[2024-06-06 16:50:38,656][27571] Fps is (10 sec: 21299.2, 60 sec: 11286.8, 300 sec: 11286.8). Total num frames: 787398656. Throughput: 0: 13888.1. Samples: 624960. Policy #0 lag: (min: 0.0, avg: 2.2, max: 5.0)
+[2024-06-06 16:50:38,656][27571] Avg episode reward: [(0, '0.235')]
+[2024-06-06 16:50:39,436][27812] Worker 8 awakens!
+[2024-06-06 16:50:39,440][27571] Heartbeat connected on RolloutWorker_w8
+[2024-06-06 16:50:43,656][27571] Fps is (10 sec: 19660.8, 60 sec: 12124.2, 300 sec: 12124.2). Total num frames: 787496960. Throughput: 0: 16065.0. Samples: 756840. Policy #0 lag: (min: 0.0, avg: 2.2, max: 5.0)
+[2024-06-06 16:50:43,656][27571] Avg episode reward: [(0, '0.258')]
+[2024-06-06 16:50:44,180][27811] Worker 9 awakens!
+[2024-06-06 16:50:44,186][27571] Heartbeat connected on RolloutWorker_w9
+[2024-06-06 16:50:44,725][27803] Updated weights for policy 0, policy_version 48068 (0.0012)
+[2024-06-06 16:50:48,656][27571] Fps is (10 sec: 24575.8, 60 sec: 13703.0, 300 sec: 13703.0). Total num frames: 787644416. Throughput: 0: 12956.6. Samples: 911340. Policy #0 lag: (min: 0.0, avg: 2.2, max: 5.0)
+[2024-06-06 16:50:48,656][27571] Avg episode reward: [(0, '0.274')]
+[2024-06-06 16:50:48,848][27815] Worker 10 awakens!
+[2024-06-06 16:50:48,854][27571] Heartbeat connected on RolloutWorker_w10
+[2024-06-06 16:50:50,442][27803] Updated weights for policy 0, policy_version 48078 (0.0015)
+[2024-06-06 16:50:53,522][27814] Worker 11 awakens!
+[2024-06-06 16:50:53,530][27571] Heartbeat connected on RolloutWorker_w11
+[2024-06-06 16:50:53,656][27571] Fps is (10 sec: 29491.3, 60 sec: 15018.7, 300 sec: 15018.7). Total num frames: 787791872. Throughput: 0: 14960.1. Samples: 1004700. Policy #0 lag: (min: 0.0, avg: 2.2, max: 5.0)
+[2024-06-06 16:50:53,656][27571] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:50:55,943][27803] Updated weights for policy 0, policy_version 48088 (0.0014)
+[2024-06-06 16:50:58,257][27816] Worker 12 awakens!
+[2024-06-06 16:50:58,263][27571] Heartbeat connected on RolloutWorker_w12
+[2024-06-06 16:50:58,656][27571] Fps is (10 sec: 31129.5, 60 sec: 17749.4, 300 sec: 16384.0). Total num frames: 787955712. Throughput: 0: 18770.2. Samples: 1190720. Policy #0 lag: (min: 0.0, avg: 2.2, max: 5.0)
+[2024-06-06 16:50:58,656][27571] Avg episode reward: [(0, '0.288')]
+[2024-06-06 16:51:00,735][27803] Updated weights for policy 0, policy_version 48098 (0.0014)
+[2024-06-06 16:51:02,872][27834] Worker 13 awakens!
+[2024-06-06 16:51:02,880][27571] Heartbeat connected on RolloutWorker_w13
+[2024-06-06 16:51:03,656][27571] Fps is (10 sec: 32767.7, 60 sec: 17749.5, 300 sec: 17554.3). Total num frames: 788119552. Throughput: 0: 22733.0. Samples: 1393300. Policy #0 lag: (min: 0.0, avg: 25.9, max: 74.0)
+[2024-06-06 16:51:03,656][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:51:03,674][27783] Saving new best policy, reward=0.313!
+[2024-06-06 16:51:05,304][27803] Updated weights for policy 0, policy_version 48108 (0.0022)
+[2024-06-06 16:51:07,601][27817] Worker 14 awakens!
+[2024-06-06 16:51:07,610][27571] Heartbeat connected on RolloutWorker_w14
+[2024-06-06 16:51:08,656][27571] Fps is (10 sec: 34406.6, 60 sec: 20753.1, 300 sec: 18787.0). Total num frames: 788299776. Throughput: 0: 24808.0. Samples: 1500720. Policy #0 lag: (min: 0.0, avg: 25.9, max: 74.0)
+[2024-06-06 16:51:08,656][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:51:10,023][27803] Updated weights for policy 0, policy_version 48118 (0.0019)
+[2024-06-06 16:51:12,311][27819] Worker 15 awakens!
+[2024-06-06 16:51:12,319][27571] Heartbeat connected on RolloutWorker_w15
+[2024-06-06 16:51:13,656][27571] Fps is (10 sec: 36044.2, 60 sec: 23483.7, 300 sec: 19865.6). Total num frames: 788480000. Throughput: 0: 28015.0. Samples: 1714900. Policy #0 lag: (min: 0.0, avg: 25.9, max: 74.0)
+[2024-06-06 16:51:13,657][27571] Avg episode reward: [(0, '0.322')]
+[2024-06-06 16:51:13,666][27783] Saving new best policy, reward=0.322!
+[2024-06-06 16:51:14,229][27803] Updated weights for policy 0, policy_version 48128 (0.0018)
+[2024-06-06 16:51:17,018][27821] Worker 16 awakens!
+[2024-06-06 16:51:17,028][27571] Heartbeat connected on RolloutWorker_w16
+[2024-06-06 16:51:18,656][27571] Fps is (10 sec: 37682.7, 60 sec: 26487.5, 300 sec: 21010.1). Total num frames: 788676608. Throughput: 0: 30219.9. Samples: 1918160. Policy #0 lag: (min: 0.0, avg: 25.9, max: 74.0)
+[2024-06-06 16:51:18,656][27571] Avg episode reward: [(0, '0.328')]
+[2024-06-06 16:51:18,657][27783] Saving new best policy, reward=0.328!
+[2024-06-06 16:51:19,216][27803] Updated weights for policy 0, policy_version 48138 (0.0021)
+[2024-06-06 16:51:21,727][27820] Worker 17 awakens!
+[2024-06-06 16:51:21,738][27571] Heartbeat connected on RolloutWorker_w17
+[2024-06-06 16:51:23,401][27803] Updated weights for policy 0, policy_version 48148 (0.0026)
+[2024-06-06 16:51:23,656][27571] Fps is (10 sec: 37683.4, 60 sec: 28671.9, 300 sec: 21845.4). Total num frames: 788856832. Throughput: 0: 31316.3. Samples: 2034200. Policy #0 lag: (min: 0.0, avg: 25.9, max: 74.0)
+[2024-06-06 16:51:23,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:51:26,384][27822] Worker 18 awakens!
+[2024-06-06 16:51:26,394][27571] Heartbeat connected on RolloutWorker_w18
+[2024-06-06 16:51:27,910][27803] Updated weights for policy 0, policy_version 48158 (0.0022)
+[2024-06-06 16:51:28,656][27571] Fps is (10 sec: 34406.9, 60 sec: 30583.4, 300 sec: 22420.3). Total num frames: 789020672. Throughput: 0: 33222.6. Samples: 2251860. Policy #0 lag: (min: 0.0, avg: 25.9, max: 74.0)
+[2024-06-06 16:51:28,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:51:31,150][27823] Worker 19 awakens!
+[2024-06-06 16:51:31,161][27571] Heartbeat connected on RolloutWorker_w19
+[2024-06-06 16:51:32,521][27803] Updated weights for policy 0, policy_version 48168 (0.0042)
+[2024-06-06 16:51:33,656][27571] Fps is (10 sec: 37683.2, 60 sec: 32221.8, 300 sec: 23429.1). Total num frames: 789233664. Throughput: 0: 34752.8. Samples: 2475220. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:51:33,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:51:35,740][27824] Worker 20 awakens!
+[2024-06-06 16:51:35,751][27571] Heartbeat connected on RolloutWorker_w20
+[2024-06-06 16:51:37,146][27803] Updated weights for policy 0, policy_version 48178 (0.0030)
+[2024-06-06 16:51:38,656][27571] Fps is (10 sec: 40959.6, 60 sec: 33860.2, 300 sec: 24185.9). Total num frames: 789430272. Throughput: 0: 35523.0. Samples: 2603240. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:51:38,656][27571] Avg episode reward: [(0, '0.318')]
+[2024-06-06 16:51:40,455][27827] Worker 21 awakens!
+[2024-06-06 16:51:40,467][27571] Heartbeat connected on RolloutWorker_w21
+[2024-06-06 16:51:41,055][27803] Updated weights for policy 0, policy_version 48188 (0.0030)
+[2024-06-06 16:51:43,656][27571] Fps is (10 sec: 37683.4, 60 sec: 35225.5, 300 sec: 24725.0). Total num frames: 789610496. Throughput: 0: 36688.5. Samples: 2841700. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:51:43,656][27571] Avg episode reward: [(0, '0.322')]
+[2024-06-06 16:51:43,695][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048195_789626880.pth...
+[2024-06-06 16:51:43,759][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000047702_781549568.pth
+[2024-06-06 16:51:44,495][27803] Updated weights for policy 0, policy_version 48198 (0.0025)
+[2024-06-06 16:51:45,127][27828] Worker 22 awakens!
+[2024-06-06 16:51:45,139][27571] Heartbeat connected on RolloutWorker_w22
+[2024-06-06 16:51:48,656][27571] Fps is (10 sec: 37683.5, 60 sec: 36044.8, 300 sec: 25359.6). Total num frames: 789807104. Throughput: 0: 37698.2. Samples: 3089720. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:51:48,656][27571] Avg episode reward: [(0, '0.328')]
+[2024-06-06 16:51:49,112][27803] Updated weights for policy 0, policy_version 48208 (0.0027)
+[2024-06-06 16:51:49,844][27825] Worker 23 awakens!
+[2024-06-06 16:51:49,856][27571] Heartbeat connected on RolloutWorker_w23
+[2024-06-06 16:51:53,656][27571] Fps is (10 sec: 37682.8, 60 sec: 36590.8, 300 sec: 25804.8). Total num frames: 789987328. Throughput: 0: 37795.4. Samples: 3201520. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:51:53,657][27571] Avg episode reward: [(0, '0.332')]
+[2024-06-06 16:51:53,720][27783] Saving new best policy, reward=0.332!
+[2024-06-06 16:51:53,727][27803] Updated weights for policy 0, policy_version 48218 (0.0032)
+[2024-06-06 16:51:54,484][27826] Worker 24 awakens!
+[2024-06-06 16:51:54,496][27571] Heartbeat connected on RolloutWorker_w24
+[2024-06-06 16:51:56,285][27803] Updated weights for policy 0, policy_version 48228 (0.0024)
+[2024-06-06 16:51:58,656][27571] Fps is (10 sec: 39321.1, 60 sec: 37410.1, 300 sec: 26476.6). Total num frames: 790200320. Throughput: 0: 38525.8. Samples: 3448560. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:51:58,656][27571] Avg episode reward: [(0, '0.326')]
+[2024-06-06 16:51:59,196][27818] Worker 25 awakens!
+[2024-06-06 16:51:59,208][27571] Heartbeat connected on RolloutWorker_w25
+[2024-06-06 16:52:01,123][27803] Updated weights for policy 0, policy_version 48238 (0.0022)
+[2024-06-06 16:52:03,656][27571] Fps is (10 sec: 47513.7, 60 sec: 39048.4, 300 sec: 27474.7). Total num frames: 790462464. Throughput: 0: 39534.6. Samples: 3697220. Policy #0 lag: (min: 0.0, avg: 8.3, max: 16.0)
+[2024-06-06 16:52:03,656][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 16:52:03,896][27831] Worker 26 awakens!
+[2024-06-06 16:52:03,909][27571] Heartbeat connected on RolloutWorker_w26
+[2024-06-06 16:52:05,297][27803] Updated weights for policy 0, policy_version 48248 (0.0036)
+[2024-06-06 16:52:08,230][27803] Updated weights for policy 0, policy_version 48258 (0.0022)
+[2024-06-06 16:52:08,656][27571] Fps is (10 sec: 45875.8, 60 sec: 39321.6, 300 sec: 27913.5). Total num frames: 790659072. Throughput: 0: 40072.5. Samples: 3837460. Policy #0 lag: (min: 0.0, avg: 62.0, max: 218.0)
+[2024-06-06 16:52:08,656][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 16:52:08,736][27829] Worker 27 awakens!
+[2024-06-06 16:52:08,750][27571] Heartbeat connected on RolloutWorker_w27
+[2024-06-06 16:52:13,271][27830] Worker 28 awakens!
+[2024-06-06 16:52:13,282][27571] Heartbeat connected on RolloutWorker_w28
+[2024-06-06 16:52:13,314][27803] Updated weights for policy 0, policy_version 48268 (0.0034)
+[2024-06-06 16:52:13,656][27571] Fps is (10 sec: 37683.7, 60 sec: 39321.7, 300 sec: 28203.9). Total num frames: 790839296. Throughput: 0: 41069.3. Samples: 4099980. Policy #0 lag: (min: 0.0, avg: 62.0, max: 218.0)
+[2024-06-06 16:52:13,656][27571] Avg episode reward: [(0, '0.328')]
+[2024-06-06 16:52:15,539][27803] Updated weights for policy 0, policy_version 48278 (0.0028)
+[2024-06-06 16:52:17,961][27832] Worker 29 awakens!
+[2024-06-06 16:52:17,975][27571] Heartbeat connected on RolloutWorker_w29
+[2024-06-06 16:52:18,656][27571] Fps is (10 sec: 40959.5, 60 sec: 39867.7, 300 sec: 28813.3). Total num frames: 791068672. Throughput: 0: 41680.9. Samples: 4350860. Policy #0 lag: (min: 0.0, avg: 62.0, max: 218.0)
+[2024-06-06 16:52:18,658][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 16:52:20,420][27803] Updated weights for policy 0, policy_version 48288 (0.0024)
+[2024-06-06 16:52:22,634][27833] Worker 30 awakens!
+[2024-06-06 16:52:22,652][27571] Heartbeat connected on RolloutWorker_w30
+[2024-06-06 16:52:23,087][27803] Updated weights for policy 0, policy_version 48298 (0.0034)
+[2024-06-06 16:52:23,656][27571] Fps is (10 sec: 49151.8, 60 sec: 41233.1, 300 sec: 29600.5). Total num frames: 791330816. Throughput: 0: 41644.5. Samples: 4477240. Policy #0 lag: (min: 0.0, avg: 62.0, max: 218.0)
+[2024-06-06 16:52:23,656][27571] Avg episode reward: [(0, '0.316')]
+[2024-06-06 16:52:27,324][27835] Worker 31 awakens!
+[2024-06-06 16:52:27,338][27571] Heartbeat connected on RolloutWorker_w31
+[2024-06-06 16:52:27,686][27803] Updated weights for policy 0, policy_version 48308 (0.0027)
+[2024-06-06 16:52:28,656][27571] Fps is (10 sec: 45875.4, 60 sec: 41779.1, 300 sec: 29914.0). Total num frames: 791527424. Throughput: 0: 42364.9. Samples: 4748120. Policy #0 lag: (min: 0.0, avg: 62.0, max: 218.0)
+[2024-06-06 16:52:28,657][27571] Avg episode reward: [(0, '0.319')]
+[2024-06-06 16:52:30,168][27803] Updated weights for policy 0, policy_version 48318 (0.0033)
+[2024-06-06 16:52:33,656][27571] Fps is (10 sec: 39321.4, 60 sec: 41506.2, 300 sec: 30208.0). Total num frames: 791724032. Throughput: 0: 42974.1. Samples: 5023560. Policy #0 lag: (min: 0.0, avg: 62.0, max: 218.0)
+[2024-06-06 16:52:33,656][27571] Avg episode reward: [(0, '0.331')]
+[2024-06-06 16:52:34,355][27783] Signal inference workers to stop experience collection... (50 times)
+[2024-06-06 16:52:34,390][27803] InferenceWorker_p0-w0: stopping experience collection (50 times)
+[2024-06-06 16:52:34,418][27783] Signal inference workers to resume experience collection... (50 times)
+[2024-06-06 16:52:34,419][27803] InferenceWorker_p0-w0: resuming experience collection (50 times)
+[2024-06-06 16:52:35,194][27803] Updated weights for policy 0, policy_version 48328 (0.0026)
+[2024-06-06 16:52:37,411][27803] Updated weights for policy 0, policy_version 48338 (0.0028)
+[2024-06-06 16:52:38,656][27571] Fps is (10 sec: 47513.3, 60 sec: 42871.4, 300 sec: 30980.7). Total num frames: 792002560. Throughput: 0: 43351.1. Samples: 5152320. Policy #0 lag: (min: 0.0, avg: 6.6, max: 19.0)
+[2024-06-06 16:52:38,657][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 16:52:42,457][27803] Updated weights for policy 0, policy_version 48348 (0.0036)
+[2024-06-06 16:52:43,656][27571] Fps is (10 sec: 49151.8, 60 sec: 43417.6, 300 sec: 31322.4). Total num frames: 792215552. Throughput: 0: 43988.0. Samples: 5428020. Policy #0 lag: (min: 0.0, avg: 6.6, max: 19.0)
+[2024-06-06 16:52:43,657][27571] Avg episode reward: [(0, '0.321')]
+[2024-06-06 16:52:44,564][27803] Updated weights for policy 0, policy_version 48358 (0.0042)
+[2024-06-06 16:52:48,657][27571] Fps is (10 sec: 37678.8, 60 sec: 42870.5, 300 sec: 31363.5). Total num frames: 792379392. Throughput: 0: 44435.3. Samples: 5696860. Policy #0 lag: (min: 0.0, avg: 6.6, max: 19.0)
+[2024-06-06 16:52:48,658][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:52:49,823][27803] Updated weights for policy 0, policy_version 48368 (0.0033)
+[2024-06-06 16:52:52,054][27803] Updated weights for policy 0, policy_version 48378 (0.0028)
+[2024-06-06 16:52:53,656][27571] Fps is (10 sec: 44236.0, 60 sec: 44509.8, 300 sec: 32039.8). Total num frames: 792657920. Throughput: 0: 44023.3. Samples: 5818520. Policy #0 lag: (min: 0.0, avg: 6.6, max: 19.0)
+[2024-06-06 16:52:53,657][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 16:52:57,038][27803] Updated weights for policy 0, policy_version 48388 (0.0041)
+[2024-06-06 16:52:58,656][27571] Fps is (10 sec: 50797.5, 60 sec: 44783.1, 300 sec: 32413.8). Total num frames: 792887296. Throughput: 0: 44270.8. Samples: 6092160. Policy #0 lag: (min: 0.0, avg: 6.6, max: 19.0)
+[2024-06-06 16:52:58,656][27571] Avg episode reward: [(0, '0.320')]
+[2024-06-06 16:52:59,499][27803] Updated weights for policy 0, policy_version 48398 (0.0033)
+[2024-06-06 16:53:03,656][27571] Fps is (10 sec: 40961.3, 60 sec: 43417.7, 300 sec: 32509.3). Total num frames: 793067520. Throughput: 0: 44686.4. Samples: 6361740. Policy #0 lag: (min: 0.0, avg: 6.6, max: 19.0)
+[2024-06-06 16:53:03,656][27571] Avg episode reward: [(0, '0.319')]
+[2024-06-06 16:53:04,530][27803] Updated weights for policy 0, policy_version 48408 (0.0046)
+[2024-06-06 16:53:06,754][27803] Updated weights for policy 0, policy_version 48418 (0.0039)
+[2024-06-06 16:53:08,656][27571] Fps is (10 sec: 42597.7, 60 sec: 44236.7, 300 sec: 32936.1). Total num frames: 793313280. Throughput: 0: 44542.6. Samples: 6481660. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:53:08,656][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 16:53:12,025][27803] Updated weights for policy 0, policy_version 48428 (0.0026)
+[2024-06-06 16:53:13,656][27571] Fps is (10 sec: 50790.4, 60 sec: 45602.1, 300 sec: 33423.4). Total num frames: 793575424. Throughput: 0: 44756.1. Samples: 6762140. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:53:13,656][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 16:53:13,985][27803] Updated weights for policy 0, policy_version 48438 (0.0044)
+[2024-06-06 16:53:18,656][27571] Fps is (10 sec: 40960.6, 60 sec: 44237.0, 300 sec: 33327.5). Total num frames: 793722880. Throughput: 0: 44678.8. Samples: 7034100. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:53:18,656][27571] Avg episode reward: [(0, '0.336')]
+[2024-06-06 16:53:18,666][27783] Saving new best policy, reward=0.336!
+[2024-06-06 16:53:19,117][27803] Updated weights for policy 0, policy_version 48448 (0.0026)
+[2024-06-06 16:53:21,462][27803] Updated weights for policy 0, policy_version 48458 (0.0031)
+[2024-06-06 16:53:23,656][27571] Fps is (10 sec: 40959.4, 60 sec: 44236.7, 300 sec: 33782.3). Total num frames: 793985024. Throughput: 0: 44469.8. Samples: 7153460. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:53:23,657][27571] Avg episode reward: [(0, '0.328')]
+[2024-06-06 16:53:26,462][27803] Updated weights for policy 0, policy_version 48468 (0.0037)
+[2024-06-06 16:53:28,656][27571] Fps is (10 sec: 52428.0, 60 sec: 45329.1, 300 sec: 34215.9). Total num frames: 794247168. Throughput: 0: 44514.7. Samples: 7431180. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:53:28,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:53:28,821][27803] Updated weights for policy 0, policy_version 48478 (0.0033)
+[2024-06-06 16:53:33,656][27571] Fps is (10 sec: 40960.3, 60 sec: 44509.9, 300 sec: 34108.5). Total num frames: 794394624. Throughput: 0: 44513.7. Samples: 7699920. Policy #0 lag: (min: 0.0, avg: 8.8, max: 21.0)
+[2024-06-06 16:53:33,656][27571] Avg episode reward: [(0, '0.319')]
+[2024-06-06 16:53:34,143][27803] Updated weights for policy 0, policy_version 48488 (0.0040)
+[2024-06-06 16:53:35,913][27803] Updated weights for policy 0, policy_version 48498 (0.0032)
+[2024-06-06 16:53:38,656][27571] Fps is (10 sec: 39321.6, 60 sec: 43963.8, 300 sec: 34442.8). Total num frames: 794640384. Throughput: 0: 44571.4. Samples: 7824220. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-06 16:53:38,656][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 16:53:41,212][27783] Signal inference workers to stop experience collection... (100 times)
+[2024-06-06 16:53:41,212][27783] Signal inference workers to resume experience collection... (100 times)
+[2024-06-06 16:53:41,246][27803] InferenceWorker_p0-w0: stopping experience collection (100 times)
+[2024-06-06 16:53:41,247][27803] InferenceWorker_p0-w0: resuming experience collection (100 times)
+[2024-06-06 16:53:41,338][27803] Updated weights for policy 0, policy_version 48508 (0.0037)
+[2024-06-06 16:53:43,181][27803] Updated weights for policy 0, policy_version 48518 (0.0030)
+[2024-06-06 16:53:43,656][27571] Fps is (10 sec: 52428.7, 60 sec: 45056.0, 300 sec: 34905.1). Total num frames: 794918912. Throughput: 0: 44543.8. Samples: 8096640. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-06 16:53:43,656][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:53:43,674][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048518_794918912.pth...
+[2024-06-06 16:53:43,747][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048028_786890752.pth
+[2024-06-06 16:53:48,656][27571] Fps is (10 sec: 42598.2, 60 sec: 44783.8, 300 sec: 34789.9). Total num frames: 795066368. Throughput: 0: 44634.1. Samples: 8370280. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-06 16:53:48,659][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 16:53:48,749][27803] Updated weights for policy 0, policy_version 48528 (0.0039)
+[2024-06-06 16:53:50,778][27803] Updated weights for policy 0, policy_version 48538 (0.0037)
+[2024-06-06 16:53:53,656][27571] Fps is (10 sec: 37683.4, 60 sec: 43963.9, 300 sec: 35020.8). Total num frames: 795295744. Throughput: 0: 44593.8. Samples: 8488380. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-06 16:53:53,656][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 16:53:55,862][27803] Updated weights for policy 0, policy_version 48548 (0.0035)
+[2024-06-06 16:53:58,207][27803] Updated weights for policy 0, policy_version 48558 (0.0037)
+[2024-06-06 16:53:58,656][27571] Fps is (10 sec: 50791.3, 60 sec: 44782.9, 300 sec: 35443.0). Total num frames: 795574272. Throughput: 0: 44422.7. Samples: 8761160. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-06 16:53:58,656][27571] Avg episode reward: [(0, '0.320')]
+[2024-06-06 16:54:03,417][27803] Updated weights for policy 0, policy_version 48568 (0.0033)
+[2024-06-06 16:54:03,656][27571] Fps is (10 sec: 45874.8, 60 sec: 44782.8, 300 sec: 35455.0). Total num frames: 795754496. Throughput: 0: 44590.9. Samples: 9040700. Policy #0 lag: (min: 0.0, avg: 11.6, max: 23.0)
+[2024-06-06 16:54:03,656][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 16:54:05,435][27803] Updated weights for policy 0, policy_version 48578 (0.0029)
+[2024-06-06 16:54:08,656][27571] Fps is (10 sec: 40959.2, 60 sec: 44509.8, 300 sec: 35659.3). Total num frames: 795983872. Throughput: 0: 44460.9. Samples: 9154200. Policy #0 lag: (min: 0.0, avg: 13.4, max: 23.0)
+[2024-06-06 16:54:08,656][27571] Avg episode reward: [(0, '0.320')]
+[2024-06-06 16:54:10,750][27803] Updated weights for policy 0, policy_version 48588 (0.0040)
+[2024-06-06 16:54:12,637][27803] Updated weights for policy 0, policy_version 48598 (0.0024)
+[2024-06-06 16:54:13,656][27571] Fps is (10 sec: 49150.9, 60 sec: 44509.6, 300 sec: 35981.8). Total num frames: 796246016. Throughput: 0: 44313.9. Samples: 9425320. Policy #0 lag: (min: 0.0, avg: 13.4, max: 23.0)
+[2024-06-06 16:54:13,657][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 16:54:18,123][27803] Updated weights for policy 0, policy_version 48608 (0.0035)
+[2024-06-06 16:54:18,656][27571] Fps is (10 sec: 45875.7, 60 sec: 45329.0, 300 sec: 36044.8). Total num frames: 796442624. Throughput: 0: 44479.6. Samples: 9701500. Policy #0 lag: (min: 0.0, avg: 13.4, max: 23.0)
+[2024-06-06 16:54:18,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:54:20,224][27803] Updated weights for policy 0, policy_version 48618 (0.0036)
+[2024-06-06 16:54:23,656][27571] Fps is (10 sec: 40961.6, 60 sec: 44510.0, 300 sec: 36166.2). Total num frames: 796655616. Throughput: 0: 44553.9. Samples: 9829140. Policy #0 lag: (min: 0.0, avg: 13.4, max: 23.0)
+[2024-06-06 16:54:23,656][27571] Avg episode reward: [(0, '0.325')]
+[2024-06-06 16:54:25,282][27803] Updated weights for policy 0, policy_version 48628 (0.0022)
+[2024-06-06 16:54:27,797][27803] Updated weights for policy 0, policy_version 48638 (0.0029)
+[2024-06-06 16:54:28,656][27571] Fps is (10 sec: 45874.8, 60 sec: 44236.8, 300 sec: 36402.3). Total num frames: 796901376. Throughput: 0: 44345.7. Samples: 10092200. Policy #0 lag: (min: 0.0, avg: 13.4, max: 23.0)
+[2024-06-06 16:54:28,657][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 16:54:32,588][27803] Updated weights for policy 0, policy_version 48648 (0.0033)
+[2024-06-06 16:54:33,656][27571] Fps is (10 sec: 44236.2, 60 sec: 45056.0, 300 sec: 36454.4). Total num frames: 797097984. Throughput: 0: 44491.6. Samples: 10372400. Policy #0 lag: (min: 0.0, avg: 13.4, max: 23.0)
+[2024-06-06 16:54:33,657][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 16:54:34,377][27783] Signal inference workers to stop experience collection... (150 times)
+[2024-06-06 16:54:34,415][27803] InferenceWorker_p0-w0: stopping experience collection (150 times)
+[2024-06-06 16:54:34,433][27783] Signal inference workers to resume experience collection... (150 times)
+[2024-06-06 16:54:34,433][27803] InferenceWorker_p0-w0: resuming experience collection (150 times)
+[2024-06-06 16:54:34,920][27803] Updated weights for policy 0, policy_version 48658 (0.0032)
+[2024-06-06 16:54:38,660][27571] Fps is (10 sec: 40943.8, 60 sec: 44506.9, 300 sec: 36561.7). Total num frames: 797310976. Throughput: 0: 44637.3. Samples: 10497240. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-06 16:54:38,661][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:54:40,098][27803] Updated weights for policy 0, policy_version 48668 (0.0037)
+[2024-06-06 16:54:42,269][27803] Updated weights for policy 0, policy_version 48678 (0.0022)
+[2024-06-06 16:54:43,656][27571] Fps is (10 sec: 45874.9, 60 sec: 43963.7, 300 sec: 36779.3). Total num frames: 797556736. Throughput: 0: 44346.4. Samples: 10756760. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-06 16:54:43,657][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:54:47,602][27803] Updated weights for policy 0, policy_version 48688 (0.0047)
+[2024-06-06 16:54:48,656][27571] Fps is (10 sec: 47532.9, 60 sec: 45329.1, 300 sec: 36933.5). Total num frames: 797786112. Throughput: 0: 44236.1. Samples: 11031320. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-06 16:54:48,656][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 16:54:50,140][27803] Updated weights for policy 0, policy_version 48698 (0.0037)
+[2024-06-06 16:54:53,656][27571] Fps is (10 sec: 40960.7, 60 sec: 44509.9, 300 sec: 37544.4). Total num frames: 797966336. Throughput: 0: 44681.9. Samples: 11164880. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-06 16:54:53,656][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:54:54,820][27803] Updated weights for policy 0, policy_version 48708 (0.0037)
+[2024-06-06 16:54:57,380][27803] Updated weights for policy 0, policy_version 48718 (0.0040)
+[2024-06-06 16:54:58,656][27571] Fps is (10 sec: 42598.0, 60 sec: 43963.6, 300 sec: 37822.1). Total num frames: 798212096. Throughput: 0: 44550.5. Samples: 11430080. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-06 16:54:58,659][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:55:01,972][27803] Updated weights for policy 0, policy_version 48728 (0.0030)
+[2024-06-06 16:55:03,656][27571] Fps is (10 sec: 47513.3, 60 sec: 44783.0, 300 sec: 38599.6). Total num frames: 798441472. Throughput: 0: 44425.7. Samples: 11700660. Policy #0 lag: (min: 0.0, avg: 11.3, max: 22.0)
+[2024-06-06 16:55:03,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:55:04,931][27803] Updated weights for policy 0, policy_version 48738 (0.0028)
+[2024-06-06 16:55:08,656][27571] Fps is (10 sec: 42598.4, 60 sec: 44236.8, 300 sec: 39210.5). Total num frames: 798638080. Throughput: 0: 44473.2. Samples: 11830440. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-06 16:55:08,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 16:55:09,403][27803] Updated weights for policy 0, policy_version 48748 (0.0039)
+[2024-06-06 16:55:12,862][27803] Updated weights for policy 0, policy_version 48758 (0.0036)
+[2024-06-06 16:55:13,656][27571] Fps is (10 sec: 42598.1, 60 sec: 43690.8, 300 sec: 39932.5). Total num frames: 798867456. Throughput: 0: 44430.6. Samples: 12091580. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-06 16:55:13,660][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:55:16,981][27803] Updated weights for policy 0, policy_version 48768 (0.0029)
+[2024-06-06 16:55:18,656][27571] Fps is (10 sec: 47513.5, 60 sec: 44509.8, 300 sec: 40599.0). Total num frames: 799113216. Throughput: 0: 44095.1. Samples: 12356680. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-06 16:55:18,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:55:19,946][27803] Updated weights for policy 0, policy_version 48778 (0.0027)
+[2024-06-06 16:55:23,656][27571] Fps is (10 sec: 44237.3, 60 sec: 44236.8, 300 sec: 41098.8). Total num frames: 799309824. Throughput: 0: 44454.2. Samples: 12497500. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-06 16:55:23,656][27571] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:55:24,098][27803] Updated weights for policy 0, policy_version 48788 (0.0035)
+[2024-06-06 16:55:27,367][27803] Updated weights for policy 0, policy_version 48798 (0.0031)
+[2024-06-06 16:55:28,656][27571] Fps is (10 sec: 42598.4, 60 sec: 43963.7, 300 sec: 41487.6). Total num frames: 799539200. Throughput: 0: 44595.2. Samples: 12763540. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-06 16:55:28,657][27571] Avg episode reward: [(0, '0.319')]
+[2024-06-06 16:55:31,136][27803] Updated weights for policy 0, policy_version 48808 (0.0040)
+[2024-06-06 16:55:33,656][27571] Fps is (10 sec: 47513.5, 60 sec: 44783.0, 300 sec: 41987.5). Total num frames: 799784960. Throughput: 0: 44512.9. Samples: 13034400. Policy #0 lag: (min: 0.0, avg: 9.5, max: 22.0)
+[2024-06-06 16:55:33,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:55:34,673][27803] Updated weights for policy 0, policy_version 48818 (0.0032)
+[2024-06-06 16:55:38,656][27571] Fps is (10 sec: 44237.0, 60 sec: 44512.8, 300 sec: 42320.7). Total num frames: 799981568. Throughput: 0: 44535.9. Samples: 13169000. Policy #0 lag: (min: 0.0, avg: 9.8, max: 23.0)
+[2024-06-06 16:55:38,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:55:38,783][27803] Updated weights for policy 0, policy_version 48828 (0.0031)
+[2024-06-06 16:55:42,048][27803] Updated weights for policy 0, policy_version 48838 (0.0025)
+[2024-06-06 16:55:43,656][27571] Fps is (10 sec: 40960.1, 60 sec: 43963.8, 300 sec: 42542.9). Total num frames: 800194560. Throughput: 0: 44502.3. Samples: 13432680. Policy #0 lag: (min: 0.0, avg: 9.8, max: 23.0)
+[2024-06-06 16:55:43,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:55:43,731][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048841_800210944.pth...
+[2024-06-06 16:55:43,806][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048195_789626880.pth
+[2024-06-06 16:55:46,125][27803] Updated weights for policy 0, policy_version 48848 (0.0034)
+[2024-06-06 16:55:47,154][27783] Signal inference workers to stop experience collection... (200 times)
+[2024-06-06 16:55:47,184][27803] InferenceWorker_p0-w0: stopping experience collection (200 times)
+[2024-06-06 16:55:47,263][27783] Signal inference workers to resume experience collection... (200 times)
+[2024-06-06 16:55:47,263][27803] InferenceWorker_p0-w0: resuming experience collection (200 times)
+[2024-06-06 16:55:48,656][27571] Fps is (10 sec: 47513.4, 60 sec: 44509.8, 300 sec: 42931.6). Total num frames: 800456704. Throughput: 0: 44513.3. Samples: 13703760. Policy #0 lag: (min: 0.0, avg: 9.8, max: 23.0)
+[2024-06-06 16:55:48,656][27571] Avg episode reward: [(0, '0.302')]
+[2024-06-06 16:55:49,030][27803] Updated weights for policy 0, policy_version 48858 (0.0033)
+[2024-06-06 16:55:53,191][27803] Updated weights for policy 0, policy_version 48868 (0.0036)
+[2024-06-06 16:55:53,658][27571] Fps is (10 sec: 47501.3, 60 sec: 45054.1, 300 sec: 43097.9). Total num frames: 800669696. Throughput: 0: 44668.2. Samples: 13840620. Policy #0 lag: (min: 0.0, avg: 9.8, max: 23.0)
+[2024-06-06 16:55:53,659][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:55:56,619][27803] Updated weights for policy 0, policy_version 48878 (0.0033)
+[2024-06-06 16:55:58,656][27571] Fps is (10 sec: 42598.9, 60 sec: 44509.9, 300 sec: 43264.9). Total num frames: 800882688. Throughput: 0: 44792.1. Samples: 14107220. Policy #0 lag: (min: 0.0, avg: 9.8, max: 23.0)
+[2024-06-06 16:55:58,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:56:00,399][27803] Updated weights for policy 0, policy_version 48888 (0.0030)
+[2024-06-06 16:56:03,656][27571] Fps is (10 sec: 45886.6, 60 sec: 44782.9, 300 sec: 43487.0). Total num frames: 801128448. Throughput: 0: 44786.7. Samples: 14372080. Policy #0 lag: (min: 0.0, avg: 9.8, max: 23.0)
+[2024-06-06 16:56:03,657][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:56:03,862][27803] Updated weights for policy 0, policy_version 48898 (0.0032)
+[2024-06-06 16:56:07,933][27803] Updated weights for policy 0, policy_version 48908 (0.0029)
+[2024-06-06 16:56:08,656][27571] Fps is (10 sec: 45874.9, 60 sec: 45056.0, 300 sec: 43598.1). Total num frames: 801341440. Throughput: 0: 44595.5. Samples: 14504300. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:08,657][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:56:11,113][27803] Updated weights for policy 0, policy_version 48918 (0.0036)
+[2024-06-06 16:56:13,656][27571] Fps is (10 sec: 42598.6, 60 sec: 44783.0, 300 sec: 43653.7). Total num frames: 801554432. Throughput: 0: 44695.2. Samples: 14774820. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:13,657][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 16:56:15,419][27803] Updated weights for policy 0, policy_version 48928 (0.0032)
+[2024-06-06 16:56:18,377][27803] Updated weights for policy 0, policy_version 48938 (0.0038)
+[2024-06-06 16:56:18,656][27571] Fps is (10 sec: 45874.9, 60 sec: 44782.9, 300 sec: 43875.8). Total num frames: 801800192. Throughput: 0: 44569.2. Samples: 15040020. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:18,657][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:56:22,633][27803] Updated weights for policy 0, policy_version 48948 (0.0037)
+[2024-06-06 16:56:23,656][27571] Fps is (10 sec: 45874.9, 60 sec: 45055.9, 300 sec: 44042.4). Total num frames: 802013184. Throughput: 0: 44610.6. Samples: 15176480. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:23,657][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:56:26,265][27803] Updated weights for policy 0, policy_version 48958 (0.0033)
+[2024-06-06 16:56:28,656][27571] Fps is (10 sec: 40960.7, 60 sec: 44510.0, 300 sec: 43986.9). Total num frames: 802209792. Throughput: 0: 44648.1. Samples: 15441840. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:28,656][27571] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:56:29,963][27803] Updated weights for policy 0, policy_version 48968 (0.0028)
+[2024-06-06 16:56:33,351][27803] Updated weights for policy 0, policy_version 48978 (0.0040)
+[2024-06-06 16:56:33,656][27571] Fps is (10 sec: 44237.1, 60 sec: 44509.8, 300 sec: 44153.5). Total num frames: 802455552. Throughput: 0: 44442.3. Samples: 15703660. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:33,656][27571] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:56:37,307][27803] Updated weights for policy 0, policy_version 48988 (0.0028)
+[2024-06-06 16:56:38,656][27571] Fps is (10 sec: 45875.2, 60 sec: 44783.0, 300 sec: 44264.6). Total num frames: 802668544. Throughput: 0: 44527.9. Samples: 15844260. Policy #0 lag: (min: 0.0, avg: 10.9, max: 21.0)
+[2024-06-06 16:56:38,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:56:40,762][27803] Updated weights for policy 0, policy_version 48998 (0.0037)
+[2024-06-06 16:56:43,656][27571] Fps is (10 sec: 42598.3, 60 sec: 44782.9, 300 sec: 44320.1). Total num frames: 802881536. Throughput: 0: 44473.7. Samples: 16108540. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-06 16:56:43,657][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 16:56:44,714][27803] Updated weights for policy 0, policy_version 49008 (0.0029)
+[2024-06-06 16:56:48,434][27803] Updated weights for policy 0, policy_version 49018 (0.0023)
+[2024-06-06 16:56:48,656][27571] Fps is (10 sec: 44236.0, 60 sec: 44236.8, 300 sec: 44486.7). Total num frames: 803110912. Throughput: 0: 44576.4. Samples: 16378020. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-06 16:56:48,657][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:56:52,152][27803] Updated weights for policy 0, policy_version 49028 (0.0032)
+[2024-06-06 16:56:53,656][27571] Fps is (10 sec: 47514.0, 60 sec: 44784.9, 300 sec: 44597.8). Total num frames: 803356672. Throughput: 0: 44672.5. Samples: 16514560. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-06 16:56:53,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:56:55,588][27803] Updated weights for policy 0, policy_version 49038 (0.0033)
+[2024-06-06 16:56:58,656][27571] Fps is (10 sec: 42598.8, 60 sec: 44236.8, 300 sec: 44320.1). Total num frames: 803536896. Throughput: 0: 44529.8. Samples: 16778660. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-06 16:56:58,656][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 16:56:59,145][27783] Signal inference workers to stop experience collection... (250 times)
+[2024-06-06 16:56:59,199][27803] InferenceWorker_p0-w0: stopping experience collection (250 times)
+[2024-06-06 16:56:59,259][27783] Signal inference workers to resume experience collection... (250 times)
+[2024-06-06 16:56:59,260][27803] InferenceWorker_p0-w0: resuming experience collection (250 times)
+[2024-06-06 16:56:59,403][27803] Updated weights for policy 0, policy_version 49048 (0.0027)
+[2024-06-06 16:57:02,744][27803] Updated weights for policy 0, policy_version 49058 (0.0039)
+[2024-06-06 16:57:03,656][27571] Fps is (10 sec: 42598.0, 60 sec: 44236.8, 300 sec: 44486.7). Total num frames: 803782656. Throughput: 0: 44442.2. Samples: 17039920. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-06 16:57:03,657][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:57:06,865][27803] Updated weights for policy 0, policy_version 49068 (0.0028)
+[2024-06-06 16:57:08,656][27571] Fps is (10 sec: 47513.6, 60 sec: 44509.9, 300 sec: 44653.3). Total num frames: 804012032. Throughput: 0: 44558.3. Samples: 17181600. Policy #0 lag: (min: 0.0, avg: 10.2, max: 22.0)
+[2024-06-06 16:57:08,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 16:57:10,191][27803] Updated weights for policy 0, policy_version 49078 (0.0039)
+[2024-06-06 16:57:13,656][27571] Fps is (10 sec: 42598.9, 60 sec: 44236.9, 300 sec: 44542.3). Total num frames: 804208640. Throughput: 0: 44416.0. Samples: 17440560. Policy #0 lag: (min: 1.0, avg: 12.0, max: 22.0)
+[2024-06-06 16:57:13,656][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:57:14,118][27803] Updated weights for policy 0, policy_version 49088 (0.0030)
+[2024-06-06 16:57:17,855][27803] Updated weights for policy 0, policy_version 49098 (0.0027)
+[2024-06-06 16:57:18,656][27571] Fps is (10 sec: 42598.5, 60 sec: 43963.8, 300 sec: 44431.2). Total num frames: 804438016. Throughput: 0: 44603.6. Samples: 17710820. Policy #0 lag: (min: 1.0, avg: 12.0, max: 22.0)
+[2024-06-06 16:57:18,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:57:21,420][27803] Updated weights for policy 0, policy_version 49108 (0.0037)
+[2024-06-06 16:57:23,656][27571] Fps is (10 sec: 47513.3, 60 sec: 44509.9, 300 sec: 44597.8). Total num frames: 804683776. Throughput: 0: 44561.7. Samples: 17849540. Policy #0 lag: (min: 1.0, avg: 12.0, max: 22.0)
+[2024-06-06 16:57:23,656][27571] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:57:25,005][27803] Updated weights for policy 0, policy_version 49118 (0.0034)
+[2024-06-06 16:57:28,624][27803] Updated weights for policy 0, policy_version 49128 (0.0021)
+[2024-06-06 16:57:28,656][27571] Fps is (10 sec: 47513.3, 60 sec: 45055.9, 300 sec: 44708.9). Total num frames: 804913152. Throughput: 0: 44579.1. Samples: 18114600. Policy #0 lag: (min: 1.0, avg: 12.0, max: 22.0)
+[2024-06-06 16:57:28,657][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 16:57:32,083][27803] Updated weights for policy 0, policy_version 49138 (0.0038)
+[2024-06-06 16:57:33,656][27571] Fps is (10 sec: 42598.5, 60 sec: 44236.8, 300 sec: 44431.2). Total num frames: 805109760. Throughput: 0: 44545.4. Samples: 18382560. Policy #0 lag: (min: 1.0, avg: 12.0, max: 22.0)
+[2024-06-06 16:57:33,660][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:57:36,296][27803] Updated weights for policy 0, policy_version 49148 (0.0027)
+[2024-06-06 16:57:38,660][27571] Fps is (10 sec: 44219.1, 60 sec: 44779.8, 300 sec: 44541.7). Total num frames: 805355520. Throughput: 0: 44531.5. Samples: 18518660. Policy #0 lag: (min: 1.0, avg: 12.0, max: 22.0)
+[2024-06-06 16:57:38,661][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 16:57:39,731][27803] Updated weights for policy 0, policy_version 49158 (0.0046)
+[2024-06-06 16:57:43,656][27571] Fps is (10 sec: 44237.3, 60 sec: 44510.0, 300 sec: 44653.6). Total num frames: 805552128. Throughput: 0: 44551.7. Samples: 18783480. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-06 16:57:43,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:57:43,751][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000049168_805568512.pth...
+[2024-06-06 16:57:43,759][27803] Updated weights for policy 0, policy_version 49168 (0.0029)
+[2024-06-06 16:57:43,801][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048518_794918912.pth
+[2024-06-06 16:57:47,190][27803] Updated weights for policy 0, policy_version 49178 (0.0042)
+[2024-06-06 16:57:48,656][27571] Fps is (10 sec: 42615.5, 60 sec: 44509.9, 300 sec: 44486.8). Total num frames: 805781504. Throughput: 0: 44691.1. Samples: 19051020. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-06 16:57:48,657][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 16:57:51,049][27803] Updated weights for policy 0, policy_version 49188 (0.0038)
+[2024-06-06 16:57:53,660][27571] Fps is (10 sec: 47493.6, 60 sec: 44506.8, 300 sec: 44541.6). Total num frames: 806027264. Throughput: 0: 44552.0. Samples: 19186620. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-06 16:57:53,661][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:57:54,236][27803] Updated weights for policy 0, policy_version 49198 (0.0041)
+[2024-06-06 16:57:58,184][27803] Updated weights for policy 0, policy_version 49208 (0.0037)
+[2024-06-06 16:57:58,657][27571] Fps is (10 sec: 45868.8, 60 sec: 45054.9, 300 sec: 44653.1). Total num frames: 806240256. Throughput: 0: 44771.4. Samples: 19455340. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-06 16:57:58,658][27571] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:58:01,541][27803] Updated weights for policy 0, policy_version 49218 (0.0029)
+[2024-06-06 16:58:03,656][27571] Fps is (10 sec: 40977.1, 60 sec: 44236.9, 300 sec: 44486.7). Total num frames: 806436864. Throughput: 0: 44597.8. Samples: 19717720. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-06 16:58:03,656][27571] Avg episode reward: [(0, '0.299')]
+[2024-06-06 16:58:05,807][27803] Updated weights for policy 0, policy_version 49228 (0.0037)
+[2024-06-06 16:58:08,656][27571] Fps is (10 sec: 42604.6, 60 sec: 44236.8, 300 sec: 44375.6). Total num frames: 806666240. Throughput: 0: 44430.2. Samples: 19848900. Policy #0 lag: (min: 0.0, avg: 9.5, max: 20.0)
+[2024-06-06 16:58:08,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 16:58:09,099][27803] Updated weights for policy 0, policy_version 49238 (0.0038)
+[2024-06-06 16:58:13,344][27803] Updated weights for policy 0, policy_version 49248 (0.0027)
+[2024-06-06 16:58:13,656][27571] Fps is (10 sec: 45874.5, 60 sec: 44782.8, 300 sec: 44653.3). Total num frames: 806895616. Throughput: 0: 44596.4. Samples: 20121440. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 16:58:13,657][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:58:16,614][27803] Updated weights for policy 0, policy_version 49258 (0.0025)
+[2024-06-06 16:58:18,656][27571] Fps is (10 sec: 42597.9, 60 sec: 44236.7, 300 sec: 44431.2). Total num frames: 807092224. Throughput: 0: 44533.2. Samples: 20386560. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 16:58:18,657][27571] Avg episode reward: [(0, '0.301')]
+[2024-06-06 16:58:20,344][27803] Updated weights for policy 0, policy_version 49268 (0.0031)
+[2024-06-06 16:58:22,296][27783] Signal inference workers to stop experience collection... (300 times)
+[2024-06-06 16:58:22,339][27803] InferenceWorker_p0-w0: stopping experience collection (300 times)
+[2024-06-06 16:58:22,349][27783] Signal inference workers to resume experience collection... (300 times)
+[2024-06-06 16:58:22,354][27803] InferenceWorker_p0-w0: resuming experience collection (300 times)
+[2024-06-06 16:58:23,656][27571] Fps is (10 sec: 45875.8, 60 sec: 44509.9, 300 sec: 44431.2). Total num frames: 807354368. Throughput: 0: 44414.3. Samples: 20517120. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 16:58:23,656][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:58:23,751][27803] Updated weights for policy 0, policy_version 49278 (0.0033)
+[2024-06-06 16:58:27,580][27803] Updated weights for policy 0, policy_version 49288 (0.0031)
+[2024-06-06 16:58:28,656][27571] Fps is (10 sec: 45875.3, 60 sec: 43963.7, 300 sec: 44597.8). Total num frames: 807550976. Throughput: 0: 44406.9. Samples: 20781800. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 16:58:28,657][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 16:58:31,026][27803] Updated weights for policy 0, policy_version 49298 (0.0031)
+[2024-06-06 16:58:33,656][27571] Fps is (10 sec: 40959.7, 60 sec: 44236.8, 300 sec: 44486.7). Total num frames: 807763968. Throughput: 0: 44438.2. Samples: 21050740. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 16:58:33,660][27571] Avg episode reward: [(0, '0.298')]
+[2024-06-06 16:58:35,457][27803] Updated weights for policy 0, policy_version 49308 (0.0027)
+[2024-06-06 16:58:38,417][27803] Updated weights for policy 0, policy_version 49318 (0.0038)
+[2024-06-06 16:58:38,656][27571] Fps is (10 sec: 47513.9, 60 sec: 44512.9, 300 sec: 44431.2). Total num frames: 808026112. Throughput: 0: 44328.5. Samples: 21181220. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 16:58:38,657][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 16:58:42,662][27803] Updated weights for policy 0, policy_version 49328 (0.0040)
+[2024-06-06 16:58:43,656][27571] Fps is (10 sec: 45874.7, 60 sec: 44509.7, 300 sec: 44597.8). Total num frames: 808222720. Throughput: 0: 44363.9. Samples: 21451660. Policy #0 lag: (min: 0.0, avg: 9.5, max: 24.0)
+[2024-06-06 16:58:43,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 16:58:46,095][27803] Updated weights for policy 0, policy_version 49338 (0.0031)
+[2024-06-06 16:58:48,656][27571] Fps is (10 sec: 42598.3, 60 sec: 44509.9, 300 sec: 44597.8). Total num frames: 808452096. Throughput: 0: 44610.1. Samples: 21725180. Policy #0 lag: (min: 0.0, avg: 9.5, max: 24.0)
+[2024-06-06 16:58:48,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:58:49,616][27803] Updated weights for policy 0, policy_version 49348 (0.0035)
+[2024-06-06 16:58:53,146][27803] Updated weights for policy 0, policy_version 49358 (0.0032)
+[2024-06-06 16:58:53,656][27571] Fps is (10 sec: 47513.9, 60 sec: 44512.9, 300 sec: 44486.7). Total num frames: 808697856. Throughput: 0: 44586.1. Samples: 21855280. Policy #0 lag: (min: 0.0, avg: 9.5, max: 24.0)
+[2024-06-06 16:58:53,657][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 16:58:57,000][27803] Updated weights for policy 0, policy_version 49368 (0.0040)
+[2024-06-06 16:58:58,656][27571] Fps is (10 sec: 44236.5, 60 sec: 44237.8, 300 sec: 44542.3). Total num frames: 808894464. Throughput: 0: 44380.0. Samples: 22118540. Policy #0 lag: (min: 0.0, avg: 9.5, max: 24.0)
+[2024-06-06 16:58:58,657][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 16:59:00,354][27803] Updated weights for policy 0, policy_version 49378 (0.0036)
+[2024-06-06 16:59:03,656][27571] Fps is (10 sec: 40960.0, 60 sec: 44509.8, 300 sec: 44486.7). Total num frames: 809107456. Throughput: 0: 44480.9. Samples: 22388200. Policy #0 lag: (min: 0.0, avg: 9.5, max: 24.0)
+[2024-06-06 16:59:03,668][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 16:59:04,582][27803] Updated weights for policy 0, policy_version 49388 (0.0041)
+[2024-06-06 16:59:07,784][27803] Updated weights for policy 0, policy_version 49398 (0.0028)
+[2024-06-06 16:59:08,656][27571] Fps is (10 sec: 45873.9, 60 sec: 44782.6, 300 sec: 44431.2). Total num frames: 809353216. Throughput: 0: 44442.7. Samples: 22517060. Policy #0 lag: (min: 0.0, avg: 9.5, max: 24.0)
+[2024-06-06 16:59:08,657][27571] Avg episode reward: [(0, '0.316')]
+[2024-06-06 16:59:12,137][27803] Updated weights for policy 0, policy_version 49408 (0.0027)
+[2024-06-06 16:59:13,656][27571] Fps is (10 sec: 45875.8, 60 sec: 44510.0, 300 sec: 44486.7). Total num frames: 809566208. Throughput: 0: 44526.8. Samples: 22785500. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:13,656][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 16:59:15,380][27803] Updated weights for policy 0, policy_version 49418 (0.0021)
+[2024-06-06 16:59:18,657][27571] Fps is (10 sec: 44234.0, 60 sec: 45055.3, 300 sec: 44542.1). Total num frames: 809795584. Throughput: 0: 44591.9. Samples: 23057420. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:18,657][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:59:19,182][27803] Updated weights for policy 0, policy_version 49428 (0.0038)
+[2024-06-06 16:59:22,423][27803] Updated weights for policy 0, policy_version 49438 (0.0035)
+[2024-06-06 16:59:23,656][27571] Fps is (10 sec: 44236.5, 60 sec: 44236.8, 300 sec: 44431.2). Total num frames: 810008576. Throughput: 0: 44655.1. Samples: 23190700. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:23,656][27571] Avg episode reward: [(0, '0.302')]
+[2024-06-06 16:59:26,538][27803] Updated weights for policy 0, policy_version 49448 (0.0036)
+[2024-06-06 16:59:28,656][27571] Fps is (10 sec: 44241.4, 60 sec: 44783.0, 300 sec: 44542.3). Total num frames: 810237952. Throughput: 0: 44515.3. Samples: 23454840. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:28,656][27571] Avg episode reward: [(0, '0.300')]
+[2024-06-06 16:59:29,826][27803] Updated weights for policy 0, policy_version 49458 (0.0035)
+[2024-06-06 16:59:33,656][27571] Fps is (10 sec: 44237.3, 60 sec: 44783.0, 300 sec: 44542.9). Total num frames: 810450944. Throughput: 0: 44417.9. Samples: 23723980. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:33,656][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 16:59:34,184][27803] Updated weights for policy 0, policy_version 49468 (0.0034)
+[2024-06-06 16:59:37,220][27803] Updated weights for policy 0, policy_version 49478 (0.0028)
+[2024-06-06 16:59:38,656][27571] Fps is (10 sec: 45874.4, 60 sec: 44509.8, 300 sec: 44542.3). Total num frames: 810696704. Throughput: 0: 44423.9. Samples: 23854360. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:38,657][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 16:59:41,537][27803] Updated weights for policy 0, policy_version 49488 (0.0027)
+[2024-06-06 16:59:43,656][27571] Fps is (10 sec: 47512.8, 60 sec: 45056.0, 300 sec: 44542.2). Total num frames: 810926080. Throughput: 0: 44645.8. Samples: 24127600. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 16:59:43,657][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 16:59:43,669][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000049495_810926080.pth...
+[2024-06-06 16:59:43,712][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000048841_800210944.pth
+[2024-06-06 16:59:44,780][27803] Updated weights for policy 0, policy_version 49498 (0.0032)
+[2024-06-06 16:59:48,656][27571] Fps is (10 sec: 42599.4, 60 sec: 44510.0, 300 sec: 44597.8). Total num frames: 811122688. Throughput: 0: 44536.6. Samples: 24392340. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-06 16:59:48,656][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 16:59:48,785][27803] Updated weights for policy 0, policy_version 49508 (0.0033)
+[2024-06-06 16:59:51,956][27803] Updated weights for policy 0, policy_version 49518 (0.0038)
+[2024-06-06 16:59:53,656][27571] Fps is (10 sec: 42598.6, 60 sec: 44236.8, 300 sec: 44542.3). Total num frames: 811352064. Throughput: 0: 44579.9. Samples: 24523140. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-06 16:59:53,656][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 16:59:55,028][27783] Signal inference workers to stop experience collection... (350 times)
+[2024-06-06 16:59:55,078][27803] InferenceWorker_p0-w0: stopping experience collection (350 times)
+[2024-06-06 16:59:55,085][27783] Signal inference workers to resume experience collection... (350 times)
+[2024-06-06 16:59:55,087][27803] InferenceWorker_p0-w0: resuming experience collection (350 times)
+[2024-06-06 16:59:56,289][27803] Updated weights for policy 0, policy_version 49528 (0.0031)
+[2024-06-06 16:59:58,656][27571] Fps is (10 sec: 45875.3, 60 sec: 44783.1, 300 sec: 44542.3). Total num frames: 811581440. Throughput: 0: 44780.5. Samples: 24800620. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-06 16:59:58,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 16:59:58,954][27803] Updated weights for policy 0, policy_version 49538 (0.0029)
+[2024-06-06 17:00:03,656][27571] Fps is (10 sec: 42598.6, 60 sec: 44509.9, 300 sec: 44542.3). Total num frames: 811778048. Throughput: 0: 44699.3. Samples: 25068840. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-06 17:00:03,656][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 17:00:03,780][27803] Updated weights for policy 0, policy_version 49548 (0.0036)
+[2024-06-06 17:00:06,526][27803] Updated weights for policy 0, policy_version 49558 (0.0025)
+[2024-06-06 17:00:08,656][27571] Fps is (10 sec: 44236.8, 60 sec: 44510.2, 300 sec: 44597.8). Total num frames: 812023808. Throughput: 0: 44529.0. Samples: 25194500. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-06 17:00:08,656][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 17:00:10,856][27803] Updated weights for policy 0, policy_version 49568 (0.0033)
+[2024-06-06 17:00:13,656][27571] Fps is (10 sec: 49152.0, 60 sec: 45056.0, 300 sec: 44597.8). Total num frames: 812269568. Throughput: 0: 44672.9. Samples: 25465120. Policy #0 lag: (min: 0.0, avg: 11.3, max: 23.0)
+[2024-06-06 17:00:13,656][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 17:00:14,127][27803] Updated weights for policy 0, policy_version 49578 (0.0043)
+[2024-06-06 17:00:17,947][27803] Updated weights for policy 0, policy_version 49588 (0.0041)
+[2024-06-06 17:00:18,656][27571] Fps is (10 sec: 42598.0, 60 sec: 44237.6, 300 sec: 44542.3). Total num frames: 812449792. Throughput: 0: 44532.8. Samples: 25727960. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-06 17:00:18,656][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 17:00:21,230][27803] Updated weights for policy 0, policy_version 49598 (0.0026)
+[2024-06-06 17:00:23,656][27571] Fps is (10 sec: 42598.1, 60 sec: 44782.9, 300 sec: 44597.8). Total num frames: 812695552. Throughput: 0: 44563.2. Samples: 25859700. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-06 17:00:23,660][27571] Avg episode reward: [(0, '0.316')]
+[2024-06-06 17:00:25,648][27803] Updated weights for policy 0, policy_version 49608 (0.0029)
+[2024-06-06 17:00:28,528][27803] Updated weights for policy 0, policy_version 49618 (0.0035)
+[2024-06-06 17:00:28,656][27571] Fps is (10 sec: 49151.7, 60 sec: 45055.9, 300 sec: 44597.8). Total num frames: 812941312. Throughput: 0: 44502.7. Samples: 26130220. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-06 17:00:28,660][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 17:00:33,281][27803] Updated weights for policy 0, policy_version 49628 (0.0037)
+[2024-06-06 17:00:33,656][27571] Fps is (10 sec: 40959.9, 60 sec: 44236.7, 300 sec: 44486.7). Total num frames: 813105152. Throughput: 0: 44573.2. Samples: 26398140. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-06 17:00:33,657][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 17:00:36,232][27803] Updated weights for policy 0, policy_version 49638 (0.0026)
+[2024-06-06 17:00:38,656][27571] Fps is (10 sec: 42598.4, 60 sec: 44510.0, 300 sec: 44653.3). Total num frames: 813367296. Throughput: 0: 44503.1. Samples: 26525780. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-06 17:00:38,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:00:40,391][27803] Updated weights for policy 0, policy_version 49648 (0.0031)
+[2024-06-06 17:00:43,471][27803] Updated weights for policy 0, policy_version 49658 (0.0036)
+[2024-06-06 17:00:43,656][27571] Fps is (10 sec: 49152.0, 60 sec: 44509.9, 300 sec: 44542.3). Total num frames: 813596672. Throughput: 0: 44325.6. Samples: 26795280. Policy #0 lag: (min: 0.0, avg: 9.5, max: 21.0)
+[2024-06-06 17:00:43,657][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 17:00:47,809][27803] Updated weights for policy 0, policy_version 49668 (0.0048)
+[2024-06-06 17:00:48,656][27571] Fps is (10 sec: 40959.5, 60 sec: 44236.6, 300 sec: 44431.5). Total num frames: 813776896. Throughput: 0: 44221.1. Samples: 27058800. Policy #0 lag: (min: 0.0, avg: 12.1, max: 23.0)
+[2024-06-06 17:00:48,665][27571] Avg episode reward: [(0, '0.316')]
+[2024-06-06 17:00:50,742][27803] Updated weights for policy 0, policy_version 49678 (0.0037)
+[2024-06-06 17:00:53,656][27571] Fps is (10 sec: 40960.1, 60 sec: 44236.8, 300 sec: 44486.7). Total num frames: 814006272. Throughput: 0: 44295.0. Samples: 27187780. Policy #0 lag: (min: 0.0, avg: 12.1, max: 23.0)
+[2024-06-06 17:00:53,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 17:00:54,887][27803] Updated weights for policy 0, policy_version 49688 (0.0032)
+[2024-06-06 17:00:57,406][27783] Signal inference workers to stop experience collection... (400 times)
+[2024-06-06 17:00:57,428][27803] InferenceWorker_p0-w0: stopping experience collection (400 times)
+[2024-06-06 17:00:57,462][27783] Signal inference workers to resume experience collection... (400 times)
+[2024-06-06 17:00:57,464][27803] InferenceWorker_p0-w0: resuming experience collection (400 times)
+[2024-06-06 17:00:57,987][27803] Updated weights for policy 0, policy_version 49698 (0.0033)
+[2024-06-06 17:00:58,656][27571] Fps is (10 sec: 49151.7, 60 sec: 44782.7, 300 sec: 44542.2). Total num frames: 814268416. Throughput: 0: 44337.1. Samples: 27460300. Policy #0 lag: (min: 0.0, avg: 12.1, max: 23.0)
+[2024-06-06 17:00:58,657][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 17:01:02,279][27803] Updated weights for policy 0, policy_version 49708 (0.0030)
+[2024-06-06 17:01:03,656][27571] Fps is (10 sec: 42598.7, 60 sec: 44236.8, 300 sec: 44375.7). Total num frames: 814432256. Throughput: 0: 44499.6. Samples: 27730440. Policy #0 lag: (min: 0.0, avg: 12.1, max: 23.0)
+[2024-06-06 17:01:03,656][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 17:01:05,707][27803] Updated weights for policy 0, policy_version 49718 (0.0023)
+[2024-06-06 17:01:08,656][27571] Fps is (10 sec: 40961.2, 60 sec: 44236.8, 300 sec: 44486.7). Total num frames: 814678016. Throughput: 0: 44390.3. Samples: 27857260. Policy #0 lag: (min: 0.0, avg: 12.1, max: 23.0)
+[2024-06-06 17:01:08,656][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 17:01:09,287][27803] Updated weights for policy 0, policy_version 49728 (0.0025)
+[2024-06-06 17:01:13,149][27803] Updated weights for policy 0, policy_version 49738 (0.0047)
+[2024-06-06 17:01:13,660][27571] Fps is (10 sec: 47494.1, 60 sec: 43960.7, 300 sec: 44430.6). Total num frames: 814907392. Throughput: 0: 44429.8. Samples: 28129740. Policy #0 lag: (min: 0.0, avg: 12.1, max: 23.0)
+[2024-06-06 17:01:13,661][27571] Avg episode reward: [(0, '0.318')]
+[2024-06-06 17:01:16,804][27803] Updated weights for policy 0, policy_version 49748 (0.0037)
+[2024-06-06 17:01:18,656][27571] Fps is (10 sec: 44236.4, 60 sec: 44509.8, 300 sec: 44431.2). Total num frames: 815120384. Throughput: 0: 44460.9. Samples: 28398880. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:18,657][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 17:01:20,221][27803] Updated weights for policy 0, policy_version 49758 (0.0032)
+[2024-06-06 17:01:23,656][27571] Fps is (10 sec: 45894.3, 60 sec: 44510.0, 300 sec: 44597.8). Total num frames: 815366144. Throughput: 0: 44501.9. Samples: 28528360. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:23,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:01:24,530][27803] Updated weights for policy 0, policy_version 49768 (0.0033)
+[2024-06-06 17:01:27,702][27803] Updated weights for policy 0, policy_version 49778 (0.0036)
+[2024-06-06 17:01:28,656][27571] Fps is (10 sec: 45874.9, 60 sec: 43963.7, 300 sec: 44486.7). Total num frames: 815579136. Throughput: 0: 44380.9. Samples: 28792420. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:28,657][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:01:31,722][27803] Updated weights for policy 0, policy_version 49788 (0.0033)
+[2024-06-06 17:01:33,656][27571] Fps is (10 sec: 44236.6, 60 sec: 45056.1, 300 sec: 44542.3). Total num frames: 815808512. Throughput: 0: 44566.9. Samples: 29064300. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:33,656][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 17:01:35,275][27803] Updated weights for policy 0, policy_version 49798 (0.0037)
+[2024-06-06 17:01:38,656][27571] Fps is (10 sec: 45874.8, 60 sec: 44509.8, 300 sec: 44597.8). Total num frames: 816037888. Throughput: 0: 44629.7. Samples: 29196120. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:38,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:01:38,769][27803] Updated weights for policy 0, policy_version 49808 (0.0027)
+[2024-06-06 17:01:42,692][27803] Updated weights for policy 0, policy_version 49818 (0.0044)
+[2024-06-06 17:01:43,656][27571] Fps is (10 sec: 42597.9, 60 sec: 43963.7, 300 sec: 44486.7). Total num frames: 816234496. Throughput: 0: 44622.8. Samples: 29468320. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:43,657][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 17:01:43,784][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000049820_816250880.pth...
+[2024-06-06 17:01:43,832][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000049168_805568512.pth
+[2024-06-06 17:01:46,463][27803] Updated weights for policy 0, policy_version 49828 (0.0027)
+[2024-06-06 17:01:48,656][27571] Fps is (10 sec: 42598.9, 60 sec: 44783.0, 300 sec: 44431.2). Total num frames: 816463872. Throughput: 0: 44613.7. Samples: 29738060. Policy #0 lag: (min: 0.0, avg: 8.5, max: 20.0)
+[2024-06-06 17:01:48,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:01:49,872][27803] Updated weights for policy 0, policy_version 49838 (0.0030)
+[2024-06-06 17:01:53,656][27571] Fps is (10 sec: 45875.1, 60 sec: 44782.9, 300 sec: 44597.8). Total num frames: 816693248. Throughput: 0: 44576.7. Samples: 29863220. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 17:01:53,657][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:01:54,156][27803] Updated weights for policy 0, policy_version 49848 (0.0043)
+[2024-06-06 17:01:57,391][27803] Updated weights for policy 0, policy_version 49858 (0.0026)
+[2024-06-06 17:01:58,656][27571] Fps is (10 sec: 45875.2, 60 sec: 44236.9, 300 sec: 44542.3). Total num frames: 816922624. Throughput: 0: 44514.6. Samples: 30132720. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 17:01:58,657][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:02:01,366][27803] Updated weights for policy 0, policy_version 49868 (0.0034)
+[2024-06-06 17:02:03,656][27571] Fps is (10 sec: 44236.9, 60 sec: 45055.9, 300 sec: 44486.7). Total num frames: 817135616. Throughput: 0: 44476.8. Samples: 30400340. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 17:02:03,657][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 17:02:04,944][27803] Updated weights for policy 0, policy_version 49878 (0.0033)
+[2024-06-06 17:02:08,656][27571] Fps is (10 sec: 42598.5, 60 sec: 44509.8, 300 sec: 44542.3). Total num frames: 817348608. Throughput: 0: 44490.5. Samples: 30530440. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 17:02:08,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 17:02:08,750][27803] Updated weights for policy 0, policy_version 49888 (0.0024)
+[2024-06-06 17:02:12,131][27803] Updated weights for policy 0, policy_version 49898 (0.0030)
+[2024-06-06 17:02:13,656][27571] Fps is (10 sec: 45874.9, 60 sec: 44785.9, 300 sec: 44597.8). Total num frames: 817594368. Throughput: 0: 44510.2. Samples: 30795380. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 17:02:13,656][27571] Avg episode reward: [(0, '0.301')]
+[2024-06-06 17:02:16,253][27803] Updated weights for policy 0, policy_version 49908 (0.0033)
+[2024-06-06 17:02:18,656][27571] Fps is (10 sec: 44236.9, 60 sec: 44509.9, 300 sec: 44431.2). Total num frames: 817790976. Throughput: 0: 44550.2. Samples: 31069060. Policy #0 lag: (min: 0.0, avg: 9.9, max: 22.0)
+[2024-06-06 17:02:18,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 17:02:19,394][27803] Updated weights for policy 0, policy_version 49918 (0.0033)
+[2024-06-06 17:02:21,446][27783] Signal inference workers to stop experience collection... (450 times)
+[2024-06-06 17:02:21,446][27783] Signal inference workers to resume experience collection... (450 times)
+[2024-06-06 17:02:21,476][27803] InferenceWorker_p0-w0: stopping experience collection (450 times)
+[2024-06-06 17:02:21,476][27803] InferenceWorker_p0-w0: resuming experience collection (450 times)
+[2024-06-06 17:02:23,656][27571] Fps is (10 sec: 40961.0, 60 sec: 43963.7, 300 sec: 44375.7). Total num frames: 818003968. Throughput: 0: 44488.3. Samples: 31198080. Policy #0 lag: (min: 0.0, avg: 11.6, max: 21.0)
+[2024-06-06 17:02:23,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:02:23,789][27803] Updated weights for policy 0, policy_version 49928 (0.0028)
+[2024-06-06 17:02:27,020][27803] Updated weights for policy 0, policy_version 49938 (0.0031)
+[2024-06-06 17:02:28,656][27571] Fps is (10 sec: 47513.9, 60 sec: 44783.0, 300 sec: 44597.8). Total num frames: 818266112. Throughput: 0: 44377.9. Samples: 31465320. Policy #0 lag: (min: 0.0, avg: 11.6, max: 21.0)
+[2024-06-06 17:02:28,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:02:30,953][27803] Updated weights for policy 0, policy_version 49948 (0.0036)
+[2024-06-06 17:02:33,656][27571] Fps is (10 sec: 44236.2, 60 sec: 43963.7, 300 sec: 44376.3). Total num frames: 818446336. Throughput: 0: 44340.9. Samples: 31733400. Policy #0 lag: (min: 0.0, avg: 11.6, max: 21.0)
+[2024-06-06 17:02:33,657][27571] Avg episode reward: [(0, '0.301')]
+[2024-06-06 17:02:34,453][27803] Updated weights for policy 0, policy_version 49958 (0.0030)
+[2024-06-06 17:02:38,011][27803] Updated weights for policy 0, policy_version 49968 (0.0033)
+[2024-06-06 17:02:38,656][27571] Fps is (10 sec: 42597.9, 60 sec: 44236.9, 300 sec: 44542.2). Total num frames: 818692096. Throughput: 0: 44522.2. Samples: 31866720. Policy #0 lag: (min: 0.0, avg: 11.6, max: 21.0)
+[2024-06-06 17:02:38,657][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:02:41,593][27803] Updated weights for policy 0, policy_version 49978 (0.0036)
+[2024-06-06 17:02:43,656][27571] Fps is (10 sec: 49151.7, 60 sec: 45056.0, 300 sec: 44597.8). Total num frames: 818937856. Throughput: 0: 44407.1. Samples: 32131040. Policy #0 lag: (min: 0.0, avg: 11.6, max: 21.0)
+[2024-06-06 17:02:43,657][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:02:45,563][27803] Updated weights for policy 0, policy_version 49988 (0.0045)
+[2024-06-06 17:02:48,656][27571] Fps is (10 sec: 44236.7, 60 sec: 44509.8, 300 sec: 44431.8). Total num frames: 819134464. Throughput: 0: 44431.1. Samples: 32399740. Policy #0 lag: (min: 0.0, avg: 11.6, max: 21.0)
+[2024-06-06 17:02:48,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 17:02:49,095][27803] Updated weights for policy 0, policy_version 49998 (0.0026)
+[2024-06-06 17:02:53,072][27803] Updated weights for policy 0, policy_version 50008 (0.0032)
+[2024-06-06 17:02:53,656][27571] Fps is (10 sec: 39321.6, 60 sec: 43963.7, 300 sec: 44375.8). Total num frames: 819331072. Throughput: 0: 44357.7. Samples: 32526540. Policy #0 lag: (min: 0.0, avg: 11.0, max: 22.0)
+[2024-06-06 17:02:53,656][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 17:02:56,506][27803] Updated weights for policy 0, policy_version 50018 (0.0033)
+[2024-06-06 17:02:58,656][27571] Fps is (10 sec: 45876.1, 60 sec: 44510.0, 300 sec: 44597.8). Total num frames: 819593216. Throughput: 0: 44411.8. Samples: 32793900. Policy #0 lag: (min: 0.0, avg: 11.0, max: 22.0)
+[2024-06-06 17:02:58,656][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 17:03:00,465][27803] Updated weights for policy 0, policy_version 50028 (0.0032)
+[2024-06-06 17:03:03,656][27571] Fps is (10 sec: 45875.9, 60 sec: 44236.9, 300 sec: 44486.7). Total num frames: 819789824. Throughput: 0: 44392.1. Samples: 33066700. Policy #0 lag: (min: 0.0, avg: 11.0, max: 22.0)
+[2024-06-06 17:03:03,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:03:04,047][27803] Updated weights for policy 0, policy_version 50038 (0.0034)
+[2024-06-06 17:03:07,703][27803] Updated weights for policy 0, policy_version 50048 (0.0022)
+[2024-06-06 17:03:08,656][27571] Fps is (10 sec: 40959.7, 60 sec: 44236.9, 300 sec: 44431.2). Total num frames: 820002816. Throughput: 0: 44394.6. Samples: 33195840. Policy #0 lag: (min: 0.0, avg: 11.0, max: 22.0)
+[2024-06-06 17:03:08,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:03:11,185][27803] Updated weights for policy 0, policy_version 50058 (0.0028)
+[2024-06-06 17:03:13,656][27571] Fps is (10 sec: 47513.4, 60 sec: 44510.0, 300 sec: 44653.4). Total num frames: 820264960. Throughput: 0: 44355.1. Samples: 33461300. Policy #0 lag: (min: 0.0, avg: 11.0, max: 22.0)
+[2024-06-06 17:03:13,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:03:14,847][27803] Updated weights for policy 0, policy_version 50068 (0.0029)
+[2024-06-06 17:03:18,605][27803] Updated weights for policy 0, policy_version 50078 (0.0020)
+[2024-06-06 17:03:18,656][27571] Fps is (10 sec: 47513.6, 60 sec: 44783.0, 300 sec: 44486.7). Total num frames: 820477952. Throughput: 0: 44431.2. Samples: 33732800. Policy #0 lag: (min: 0.0, avg: 11.0, max: 22.0)
+[2024-06-06 17:03:18,656][27571] Avg episode reward: [(0, '0.301')]
+[2024-06-06 17:03:22,103][27803] Updated weights for policy 0, policy_version 50088 (0.0030)
+[2024-06-06 17:03:23,656][27571] Fps is (10 sec: 40960.1, 60 sec: 44509.8, 300 sec: 44486.7). Total num frames: 820674560. Throughput: 0: 44482.3. Samples: 33868420. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:23,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:03:25,964][27803] Updated weights for policy 0, policy_version 50098 (0.0030)
+[2024-06-06 17:03:28,660][27571] Fps is (10 sec: 44218.7, 60 sec: 44233.8, 300 sec: 44597.2). Total num frames: 820920320. Throughput: 0: 44450.3. Samples: 34131480. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:28,661][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:03:29,830][27803] Updated weights for policy 0, policy_version 50108 (0.0029)
+[2024-06-06 17:03:31,565][27783] Signal inference workers to stop experience collection... (500 times)
+[2024-06-06 17:03:31,612][27783] Signal inference workers to resume experience collection... (500 times)
+[2024-06-06 17:03:31,613][27803] InferenceWorker_p0-w0: stopping experience collection (500 times)
+[2024-06-06 17:03:31,639][27803] InferenceWorker_p0-w0: resuming experience collection (500 times)
+[2024-06-06 17:03:33,573][27803] Updated weights for policy 0, policy_version 50118 (0.0034)
+[2024-06-06 17:03:33,656][27571] Fps is (10 sec: 45875.4, 60 sec: 44783.0, 300 sec: 44431.2). Total num frames: 821133312. Throughput: 0: 44595.3. Samples: 34406520. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:33,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:03:37,038][27803] Updated weights for policy 0, policy_version 50128 (0.0026)
+[2024-06-06 17:03:38,660][27571] Fps is (10 sec: 39321.2, 60 sec: 43687.7, 300 sec: 44375.0). Total num frames: 821313536. Throughput: 0: 44612.9. Samples: 34534300. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:38,661][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:03:40,601][27803] Updated weights for policy 0, policy_version 50138 (0.0027)
+[2024-06-06 17:03:43,656][27571] Fps is (10 sec: 45874.9, 60 sec: 44236.9, 300 sec: 44542.3). Total num frames: 821592064. Throughput: 0: 44463.5. Samples: 34794760. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:43,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 17:03:43,734][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000050147_821608448.pth...
+[2024-06-06 17:03:43,785][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000049495_810926080.pth
+[2024-06-06 17:03:44,666][27803] Updated weights for policy 0, policy_version 50148 (0.0027)
+[2024-06-06 17:03:48,182][27803] Updated weights for policy 0, policy_version 50158 (0.0031)
+[2024-06-06 17:03:48,656][27571] Fps is (10 sec: 49172.8, 60 sec: 44510.0, 300 sec: 44431.2). Total num frames: 821805056. Throughput: 0: 44334.2. Samples: 35061740. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:48,656][27571] Avg episode reward: [(0, '0.302')]
+[2024-06-06 17:03:51,744][27803] Updated weights for policy 0, policy_version 50168 (0.0031)
+[2024-06-06 17:03:53,656][27571] Fps is (10 sec: 40960.2, 60 sec: 44510.0, 300 sec: 44431.2). Total num frames: 822001664. Throughput: 0: 44408.0. Samples: 35194200. Policy #0 lag: (min: 0.0, avg: 8.7, max: 20.0)
+[2024-06-06 17:03:53,656][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 17:03:55,481][27803] Updated weights for policy 0, policy_version 50178 (0.0041)
+[2024-06-06 17:03:58,656][27571] Fps is (10 sec: 44236.5, 60 sec: 44236.7, 300 sec: 44542.3). Total num frames: 822247424. Throughput: 0: 44328.4. Samples: 35456080. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 17:03:58,658][27571] Avg episode reward: [(0, '0.302')]
+[2024-06-06 17:03:59,259][27803] Updated weights for policy 0, policy_version 50188 (0.0035)
+[2024-06-06 17:04:03,079][27803] Updated weights for policy 0, policy_version 50198 (0.0028)
+[2024-06-06 17:04:03,656][27571] Fps is (10 sec: 47513.4, 60 sec: 44782.9, 300 sec: 44486.8). Total num frames: 822476800. Throughput: 0: 44474.6. Samples: 35734160. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 17:04:03,656][27571] Avg episode reward: [(0, '0.298')]
+[2024-06-06 17:04:06,765][27803] Updated weights for policy 0, policy_version 50208 (0.0024)
+[2024-06-06 17:04:08,656][27571] Fps is (10 sec: 40960.2, 60 sec: 44236.8, 300 sec: 44375.6). Total num frames: 822657024. Throughput: 0: 44370.2. Samples: 35865080. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 17:04:08,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:04:10,371][27803] Updated weights for policy 0, policy_version 50218 (0.0043)
+[2024-06-06 17:04:13,656][27571] Fps is (10 sec: 44237.0, 60 sec: 44236.8, 300 sec: 44486.9). Total num frames: 822919168. Throughput: 0: 44311.2. Samples: 36125300. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 17:04:13,656][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 17:04:14,448][27803] Updated weights for policy 0, policy_version 50228 (0.0024)
+[2024-06-06 17:04:17,667][27803] Updated weights for policy 0, policy_version 50238 (0.0025)
+[2024-06-06 17:04:18,656][27571] Fps is (10 sec: 49152.4, 60 sec: 44509.9, 300 sec: 44542.3). Total num frames: 823148544. Throughput: 0: 44264.9. Samples: 36398440. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 17:04:18,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:04:21,464][27803] Updated weights for policy 0, policy_version 50248 (0.0033)
+[2024-06-06 17:04:23,656][27571] Fps is (10 sec: 40959.6, 60 sec: 44236.7, 300 sec: 44375.6). Total num frames: 823328768. Throughput: 0: 44355.2. Samples: 36530100. Policy #0 lag: (min: 0.0, avg: 9.1, max: 21.0)
+[2024-06-06 17:04:23,657][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 17:04:24,918][27803] Updated weights for policy 0, policy_version 50258 (0.0038)
+[2024-06-06 17:04:27,664][27783] Signal inference workers to stop experience collection... (550 times)
+[2024-06-06 17:04:27,665][27783] Signal inference workers to resume experience collection... (550 times)
+[2024-06-06 17:04:27,680][27803] InferenceWorker_p0-w0: stopping experience collection (550 times)
+[2024-06-06 17:04:27,680][27803] InferenceWorker_p0-w0: resuming experience collection (550 times)
+[2024-06-06 17:04:28,660][27571] Fps is (10 sec: 42580.5, 60 sec: 44236.8, 300 sec: 44486.1). Total num frames: 823574528. Throughput: 0: 44345.7. Samples: 36790500. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-06 17:04:28,661][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:04:29,042][27803] Updated weights for policy 0, policy_version 50268 (0.0028)
+[2024-06-06 17:04:32,703][27803] Updated weights for policy 0, policy_version 50278 (0.0035)
+[2024-06-06 17:04:33,656][27571] Fps is (10 sec: 47514.7, 60 sec: 44509.9, 300 sec: 44431.2). Total num frames: 823803904. Throughput: 0: 44379.2. Samples: 37058800. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-06 17:04:33,656][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 17:04:36,413][27803] Updated weights for policy 0, policy_version 50288 (0.0039)
+[2024-06-06 17:04:38,656][27571] Fps is (10 sec: 42615.8, 60 sec: 44786.0, 300 sec: 44320.1). Total num frames: 824000512. Throughput: 0: 44368.4. Samples: 37190780. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-06 17:04:38,657][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 17:04:40,052][27803] Updated weights for policy 0, policy_version 50298 (0.0047)
+[2024-06-06 17:04:43,656][27571] Fps is (10 sec: 42597.0, 60 sec: 43963.6, 300 sec: 44431.2). Total num frames: 824229888. Throughput: 0: 44438.1. Samples: 37455800. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-06 17:04:43,657][27571] Avg episode reward: [(0, '0.314')]
+[2024-06-06 17:04:43,890][27803] Updated weights for policy 0, policy_version 50308 (0.0033)
+[2024-06-06 17:04:47,380][27803] Updated weights for policy 0, policy_version 50318 (0.0022)
+[2024-06-06 17:04:48,656][27571] Fps is (10 sec: 49152.0, 60 sec: 44782.9, 300 sec: 44542.3). Total num frames: 824492032. Throughput: 0: 44124.0. Samples: 37719740. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-06 17:04:48,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:04:50,961][27803] Updated weights for policy 0, policy_version 50328 (0.0030)
+[2024-06-06 17:04:53,660][27571] Fps is (10 sec: 44219.6, 60 sec: 44506.8, 300 sec: 44375.0). Total num frames: 824672256. Throughput: 0: 44211.6. Samples: 37854780. Policy #0 lag: (min: 0.0, avg: 12.0, max: 24.0)
+[2024-06-06 17:04:53,660][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:04:54,716][27803] Updated weights for policy 0, policy_version 50338 (0.0026)
+[2024-06-06 17:04:58,451][27803] Updated weights for policy 0, policy_version 50348 (0.0025)
+[2024-06-06 17:04:58,656][27571] Fps is (10 sec: 40959.6, 60 sec: 44236.7, 300 sec: 44486.7). Total num frames: 824901632. Throughput: 0: 44382.5. Samples: 38122520. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:04:58,657][27571] Avg episode reward: [(0, '0.302')]
+[2024-06-06 17:05:01,955][27803] Updated weights for policy 0, policy_version 50358 (0.0035)
+[2024-06-06 17:05:03,656][27571] Fps is (10 sec: 49171.5, 60 sec: 44782.9, 300 sec: 44542.2). Total num frames: 825163776. Throughput: 0: 44352.7. Samples: 38394320. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:05:03,660][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:05:05,435][27803] Updated weights for policy 0, policy_version 50368 (0.0036)
+[2024-06-06 17:05:08,656][27571] Fps is (10 sec: 44237.4, 60 sec: 44782.9, 300 sec: 44320.1). Total num frames: 825344000. Throughput: 0: 44484.1. Samples: 38531880. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:05:08,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:05:09,480][27803] Updated weights for policy 0, policy_version 50378 (0.0043)
+[2024-06-06 17:05:12,947][27803] Updated weights for policy 0, policy_version 50388 (0.0044)
+[2024-06-06 17:05:13,656][27571] Fps is (10 sec: 40959.8, 60 sec: 44236.7, 300 sec: 44486.7). Total num frames: 825573376. Throughput: 0: 44601.3. Samples: 38797380. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:05:13,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 17:05:16,735][27803] Updated weights for policy 0, policy_version 50398 (0.0028)
+[2024-06-06 17:05:18,656][27571] Fps is (10 sec: 47513.6, 60 sec: 44509.8, 300 sec: 44486.7). Total num frames: 825819136. Throughput: 0: 44501.2. Samples: 39061360. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:05:18,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:05:20,619][27803] Updated weights for policy 0, policy_version 50408 (0.0039)
+[2024-06-06 17:05:23,656][27571] Fps is (10 sec: 44237.9, 60 sec: 44783.1, 300 sec: 44320.1). Total num frames: 826015744. Throughput: 0: 44583.2. Samples: 39197020. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:05:23,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:05:23,870][27803] Updated weights for policy 0, policy_version 50418 (0.0022)
+[2024-06-06 17:05:27,864][27803] Updated weights for policy 0, policy_version 50428 (0.0031)
+[2024-06-06 17:05:28,656][27571] Fps is (10 sec: 42598.0, 60 sec: 44512.8, 300 sec: 44542.3). Total num frames: 826245120. Throughput: 0: 44615.6. Samples: 39463500. Policy #0 lag: (min: 0.0, avg: 10.5, max: 22.0)
+[2024-06-06 17:05:28,656][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 17:05:31,207][27803] Updated weights for policy 0, policy_version 50438 (0.0031)
+[2024-06-06 17:05:33,656][27571] Fps is (10 sec: 45874.8, 60 sec: 44509.8, 300 sec: 44431.2). Total num frames: 826474496. Throughput: 0: 44614.7. Samples: 39727400. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 17:05:33,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:05:34,955][27803] Updated weights for policy 0, policy_version 50448 (0.0027)
+[2024-06-06 17:05:38,660][27571] Fps is (10 sec: 44219.2, 60 sec: 44779.9, 300 sec: 44375.0). Total num frames: 826687488. Throughput: 0: 44738.2. Samples: 39868000. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 17:05:38,661][27571] Avg episode reward: [(0, '0.298')]
+[2024-06-06 17:05:38,778][27803] Updated weights for policy 0, policy_version 50458 (0.0036)
+[2024-06-06 17:05:38,941][27783] Signal inference workers to stop experience collection... (600 times)
+[2024-06-06 17:05:38,941][27783] Signal inference workers to resume experience collection... (600 times)
+[2024-06-06 17:05:38,980][27803] InferenceWorker_p0-w0: stopping experience collection (600 times)
+[2024-06-06 17:05:38,980][27803] InferenceWorker_p0-w0: resuming experience collection (600 times)
+[2024-06-06 17:05:42,521][27803] Updated weights for policy 0, policy_version 50468 (0.0034)
+[2024-06-06 17:05:43,656][27571] Fps is (10 sec: 44237.0, 60 sec: 44783.1, 300 sec: 44542.3). Total num frames: 826916864. Throughput: 0: 44730.9. Samples: 40135400. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 17:05:43,656][27571] Avg episode reward: [(0, '0.304')]
+[2024-06-06 17:05:43,687][27783] Saving /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000050471_826916864.pth...
+[2024-06-06 17:05:43,747][27783] Removing /workspace/metta/train_dir/p2.metta.4/checkpoint_p0/checkpoint_000049820_816250880.pth
+[2024-06-06 17:05:46,102][27803] Updated weights for policy 0, policy_version 50478 (0.0036)
+[2024-06-06 17:05:48,656][27571] Fps is (10 sec: 44255.1, 60 sec: 43963.8, 300 sec: 44486.7). Total num frames: 827129856. Throughput: 0: 44591.7. Samples: 40400940. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 17:05:48,656][27571] Avg episode reward: [(0, '0.306')]
+[2024-06-06 17:05:50,047][27803] Updated weights for policy 0, policy_version 50488 (0.0032)
+[2024-06-06 17:05:53,472][27803] Updated weights for policy 0, policy_version 50498 (0.0032)
+[2024-06-06 17:05:53,656][27571] Fps is (10 sec: 44236.9, 60 sec: 44786.0, 300 sec: 44375.7). Total num frames: 827359232. Throughput: 0: 44501.4. Samples: 40534440. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 17:05:53,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:05:57,161][27803] Updated weights for policy 0, policy_version 50508 (0.0020)
+[2024-06-06 17:05:58,656][27571] Fps is (10 sec: 44236.5, 60 sec: 44510.0, 300 sec: 44542.3). Total num frames: 827572224. Throughput: 0: 44610.3. Samples: 40804840. Policy #0 lag: (min: 0.0, avg: 9.4, max: 22.0)
+[2024-06-06 17:05:58,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:06:00,643][27803] Updated weights for policy 0, policy_version 50518 (0.0029)
+[2024-06-06 17:06:03,656][27571] Fps is (10 sec: 45874.5, 60 sec: 44236.8, 300 sec: 44542.2). Total num frames: 827817984. Throughput: 0: 44669.7. Samples: 41071500. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-06 17:06:03,656][27571] Avg episode reward: [(0, '0.313')]
+[2024-06-06 17:06:04,253][27803] Updated weights for policy 0, policy_version 50528 (0.0029)
+[2024-06-06 17:06:08,018][27803] Updated weights for policy 0, policy_version 50538 (0.0048)
+[2024-06-06 17:06:08,656][27571] Fps is (10 sec: 47514.1, 60 sec: 45056.1, 300 sec: 44542.9). Total num frames: 828047360. Throughput: 0: 44726.2. Samples: 41209700. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-06 17:06:08,656][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 17:06:11,783][27803] Updated weights for policy 0, policy_version 50548 (0.0027)
+[2024-06-06 17:06:13,656][27571] Fps is (10 sec: 40960.6, 60 sec: 44236.9, 300 sec: 44431.2). Total num frames: 828227584. Throughput: 0: 44646.4. Samples: 41472580. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-06 17:06:13,656][27571] Avg episode reward: [(0, '0.309')]
+[2024-06-06 17:06:15,605][27803] Updated weights for policy 0, policy_version 50558 (0.0030)
+[2024-06-06 17:06:18,656][27571] Fps is (10 sec: 42597.4, 60 sec: 44236.7, 300 sec: 44431.2). Total num frames: 828473344. Throughput: 0: 44599.8. Samples: 41734400. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-06 17:06:18,656][27571] Avg episode reward: [(0, '0.308')]
+[2024-06-06 17:06:19,575][27803] Updated weights for policy 0, policy_version 50568 (0.0023)
+[2024-06-06 17:06:22,825][27803] Updated weights for policy 0, policy_version 50578 (0.0026)
+[2024-06-06 17:06:23,656][27571] Fps is (10 sec: 47513.2, 60 sec: 44782.8, 300 sec: 44486.7). Total num frames: 828702720. Throughput: 0: 44509.3. Samples: 41870740. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-06 17:06:23,656][27571] Avg episode reward: [(0, '0.315')]
+[2024-06-06 17:06:26,697][27803] Updated weights for policy 0, policy_version 50588 (0.0038)
+[2024-06-06 17:06:28,656][27571] Fps is (10 sec: 42599.7, 60 sec: 44237.0, 300 sec: 44375.7). Total num frames: 828899328. Throughput: 0: 44485.9. Samples: 42137260. Policy #0 lag: (min: 0.0, avg: 11.9, max: 22.0)
+[2024-06-06 17:06:28,656][27571] Avg episode reward: [(0, '0.316')]
+[2024-06-06 17:06:29,950][27803] Updated weights for policy 0, policy_version 50598 (0.0028)
+[2024-06-06 17:06:33,656][27571] Fps is (10 sec: 44237.4, 60 sec: 44509.9, 300 sec: 44431.2). Total num frames: 829145088. Throughput: 0: 44616.5. Samples: 42408680. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:06:33,656][27571] Avg episode reward: [(0, '0.310')]
+[2024-06-06 17:06:33,741][27803] Updated weights for policy 0, policy_version 50608 (0.0032)
+[2024-06-06 17:06:37,432][27803] Updated weights for policy 0, policy_version 50618 (0.0034)
+[2024-06-06 17:06:38,656][27571] Fps is (10 sec: 47512.8, 60 sec: 44786.0, 300 sec: 44542.3). Total num frames: 829374464. Throughput: 0: 44643.9. Samples: 42543420. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:06:38,656][27571] Avg episode reward: [(0, '0.321')]
+[2024-06-06 17:06:41,340][27803] Updated weights for policy 0, policy_version 50628 (0.0028)
+[2024-06-06 17:06:43,656][27571] Fps is (10 sec: 44235.9, 60 sec: 44509.8, 300 sec: 44486.7). Total num frames: 829587456. Throughput: 0: 44503.9. Samples: 42807520. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:06:43,656][27571] Avg episode reward: [(0, '0.320')]
+[2024-06-06 17:06:45,034][27803] Updated weights for policy 0, policy_version 50638 (0.0037)
+[2024-06-06 17:06:48,656][27571] Fps is (10 sec: 40960.1, 60 sec: 44236.8, 300 sec: 44375.7). Total num frames: 829784064. Throughput: 0: 44412.1. Samples: 43070040. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:06:48,660][27571] Avg episode reward: [(0, '0.325')]
+[2024-06-06 17:06:49,022][27803] Updated weights for policy 0, policy_version 50648 (0.0035)
+[2024-06-06 17:06:51,450][27783] Signal inference workers to stop experience collection... (650 times)
+[2024-06-06 17:06:51,451][27783] Signal inference workers to resume experience collection... (650 times)
+[2024-06-06 17:06:51,477][27803] InferenceWorker_p0-w0: stopping experience collection (650 times)
+[2024-06-06 17:06:51,477][27803] InferenceWorker_p0-w0: resuming experience collection (650 times)
+[2024-06-06 17:06:52,299][27803] Updated weights for policy 0, policy_version 50658 (0.0037)
+[2024-06-06 17:06:53,656][27571] Fps is (10 sec: 44236.9, 60 sec: 44509.8, 300 sec: 44431.2). Total num frames: 830029824. Throughput: 0: 44274.5. Samples: 43202060. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:06:53,659][27571] Avg episode reward: [(0, '0.316')]
+[2024-06-06 17:06:56,066][27803] Updated weights for policy 0, policy_version 50668 (0.0042)
+[2024-06-06 17:06:58,656][27571] Fps is (10 sec: 44237.0, 60 sec: 44236.9, 300 sec: 44375.7). Total num frames: 830226432. Throughput: 0: 44328.9. Samples: 43467380. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:06:58,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:06:59,432][27803] Updated weights for policy 0, policy_version 50678 (0.0041)
+[2024-06-06 17:07:03,098][27803] Updated weights for policy 0, policy_version 50688 (0.0038)
+[2024-06-06 17:07:03,656][27571] Fps is (10 sec: 44237.4, 60 sec: 44236.9, 300 sec: 44486.7). Total num frames: 830472192. Throughput: 0: 44279.8. Samples: 43726980. Policy #0 lag: (min: 0.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:07:03,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 17:07:06,851][27803] Updated weights for policy 0, policy_version 50698 (0.0042)
+[2024-06-06 17:07:08,656][27571] Fps is (10 sec: 47513.2, 60 sec: 44236.7, 300 sec: 44431.2). Total num frames: 830701568. Throughput: 0: 44417.3. Samples: 43869520. Policy #0 lag: (min: 0.0, avg: 8.6, max: 20.0)
+[2024-06-06 17:07:08,656][27571] Avg episode reward: [(0, '0.305')]
+[2024-06-06 17:07:11,179][27803] Updated weights for policy 0, policy_version 50708 (0.0025)
+[2024-06-06 17:07:13,656][27571] Fps is (10 sec: 44236.2, 60 sec: 44782.8, 300 sec: 44486.7). Total num frames: 830914560. Throughput: 0: 44346.0. Samples: 44132840. Policy #0 lag: (min: 0.0, avg: 8.6, max: 20.0)
+[2024-06-06 17:07:13,656][27571] Avg episode reward: [(0, '0.312')]
+[2024-06-06 17:07:14,381][27803] Updated weights for policy 0, policy_version 50718 (0.0041)
+[2024-06-06 17:07:18,656][27571] Fps is (10 sec: 40959.9, 60 sec: 43963.8, 300 sec: 44431.2). Total num frames: 831111168. Throughput: 0: 44279.9. Samples: 44401280. Policy #0 lag: (min: 0.0, avg: 8.6, max: 20.0)
+[2024-06-06 17:07:18,656][27571] Avg episode reward: [(0, '0.303')]
+[2024-06-06 17:07:18,757][27803] Updated weights for policy 0, policy_version 50728 (0.0031)
+[2024-06-06 17:07:21,771][27803] Updated weights for policy 0, policy_version 50738 (0.0034)
+[2024-06-06 17:07:23,656][27571] Fps is (10 sec: 45875.2, 60 sec: 44509.8, 300 sec: 44431.2). Total num frames: 831373312. Throughput: 0: 44169.3. Samples: 44531040. Policy #0 lag: (min: 0.0, avg: 8.6, max: 20.0)
+[2024-06-06 17:07:23,656][27571] Avg episode reward: [(0, '0.317')]
+[2024-06-06 17:07:25,956][27803] Updated weights for policy 0, policy_version 50748 (0.0031)
+[2024-06-06 17:07:28,656][27571] Fps is (10 sec: 47514.1, 60 sec: 44782.9, 300 sec: 44542.3). Total num frames: 831586304. Throughput: 0: 44343.3. Samples: 44802960. Policy #0 lag: (min: 0.0, avg: 8.6, max: 20.0)
+[2024-06-06 17:07:28,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:07:28,874][27803] Updated weights for policy 0, policy_version 50758 (0.0025)
+[2024-06-06 17:07:33,389][27803] Updated weights for policy 0, policy_version 50768 (0.0037)
+[2024-06-06 17:07:33,656][27571] Fps is (10 sec: 40960.2, 60 sec: 43963.6, 300 sec: 44375.7). Total num frames: 831782912. Throughput: 0: 44501.3. Samples: 45072600. Policy #0 lag: (min: 0.0, avg: 8.6, max: 20.0)
+[2024-06-06 17:07:33,657][27571] Avg episode reward: [(0, '0.311')]
+[2024-06-06 17:07:36,195][27803] Updated weights for policy 0, policy_version 50778 (0.0029)
+[2024-06-06 17:07:38,656][27571] Fps is (10 sec: 44236.7, 60 sec: 44236.9, 300 sec: 44375.7). Total num frames: 832028672. Throughput: 0: 44339.7. Samples: 45197340. Policy #0 lag: (min: 1.0, avg: 12.0, max: 23.0)
+[2024-06-06 17:07:38,656][27571] Avg episode reward: [(0, '0.307')]
+[2024-06-06 17:07:40,851][27803] Updated weights for policy 0, policy_version 50788 (0.0031)